Какие прокси выбрать для парсинга

Примечание: Данный материал несет в себе информацию только по выбору типов прокси для парсинга. Технические подробности работы разных типов прокси здесь освещаться не будут.


Что такое прокси сервера и для чего они нужны


Прокси сервер – устройство, подключенное к сети интернет предназначенное для посреднического обмена данными между клиентом и сайтом.

Когда вы загружаете WEB страницы без прокси, то обмен данными между вашим ПК и сайтом осуществляется напрямую.

В случае использования прокси сервера ваши запросы отправляются к серверу, а сервер их перенаправляет на нужный URL (сайт) уже от своего IP адреса. Полученные от сайта данные прокси возвращает вам.

Благодаря этому сайт не видит ваш реальный IP адрес.

При использовании списка прокси серверов при парсинге вы загружаете данные с WEB сайта с разных IP. Это позволяет увеличить количество собираемых данных с сайтов за единицу времени и избавить вас от бана или каптчи при парсинге.

Также прокси часто используются для подмены региона. Например, зарубежный сайт работает только с клиентами своей страны или региона. А при запросе из вашей страны сайт не отдает нужные данные. В таких случаях следует использовать прокси-сервера, расположенные в нужном регионе, например, в США.

Также бывает, что некоторые зарубежные сайты при запросе из стран СНГ сразу же выдают каптчу (при первом же запросе). Эта проблема также обходится использованием прокси серверов нужного региона.


Какие прокси бывают по типу предоставления


В сети можно найти множество бесплатных и платных прокси серверов.

Бесплатные паблик прокси для парсинга рассматривать не стоит, так как они уже давно забанены многими крупными сайтами и очень медленно работают (в связи с тем, что их одновременно используют множество людей).

Платные прокси делятся на приватные и shared. Приватные прокси стоят дороже предоставляются именно одному клиенту. Shared прокси являются общими и их используют сразу несколько клиентов поставщика прокси. Вероятность бана shared прокси велика (так как несколько человек могут через эти же самые прокси парсить один и тот же сайт).


Что такое мобильные прокси сервера


Не так давно в продаже появились мобильные прокси (4G, LTE прокси). В мобильных прокси в качестве посредника выступает не сервер (ПК), а мобильные устройства сотовых операторов.

Преимущества мобильных прокси:
1) Лояльность крупных сайтов (крупные сайты стараются не банить мобильные устройства за частые запросы или относиться более лояльно, так как при бане одного абонента сотовой связи под блокировку попадает сразу множество устройств, подключенных к этой мобильной вышке)
2) Автоматическая смена IP через заданный интервал времени (или через каждый запрос). Поставщики мобильных прокси предоставляют вам статичный IP (к которому вы делаете запросы) и перенаправляют трафик по своим собственным алгоритмам уже с подстановкой других IP. Тем самым, купив один мобильный прокси вы можете без остановки парсить даже самые крупные сайты с продвинутой системой защиты от парсинга.

Недостатки мобильных прокси:
1) Более медленные, чем серверные прокси, так как связь осуществляется по воздуху (от мобильного устройства до сотовой вышки). Также скорость мобильных прокси часто зависит от времени суток/загруженности сотовой сети.

2) Есть редкая проблема с бесконечным ожиданием ответа от прокси (внезависимости от выставленного connect/read timeout, появляется и в обычных браузерах). Предположительно появляется в момент смены IP на стороне поставщика прокси. Также пока не выявлено, есть ли такая проблема у всех поставщиков прокси. Проблема хорошо решается использованием WBAppCEF3 в Content Downloader (так как в нем есть множество алгоритмов ожидания готовности загрузки WEB страницы).

3) Высокая стоимость. Как правило, стоимость аренды одного мобильного прокси в сутки составляет 50 рублей (на момент написания статьи).

Несмотря на все недостатки мобильные прокси позволяют выкачивать огромное количество информации с крупных сайтов с серьезной защитой. Например: Озон, 2GIS и прочих.


IpV4 или IpV6 прокси


IpV6 стоят значительно дешевле, но не все сайты способны с ними работать. В сети есть множество сервисов для проверки работоспособности IpV6 на указанных сайтах.

В Content Downloader поддержка IpV6 прокси есть только у библиотеки запросов Clever Internet Suite (CIS).


HTTP/HTTPS/SOCKS4/SOCKS5 прокси


Не рекомендую вникать в технические подробности отличия этих типов прокси для парсинга. Для решения задач по парсингу подходят прокси с любым типом (HTTP/HTTPS/SOCKS4/SOCKS5), главное, чтобы они были приватные (использовались только вами).

HTTP/HTTPS прокси поддерживаются всеми библиотеками для отправки запросов. В WBAppCEF3 (на движке Chromium) подтверждается стабильная работа HTTP/HTTPS/SOCKS4 прокси (некоторые SOCKS5 не работают).


Сколько прокси купить для парсинга


Логично, что чем больше прокси – тем больше скорость парсинга.

Количество прокси подбирается на основании многих факторов. Главное знать, через сколько запросов в минуту сайт начинает банить. Это проверяется опытным путем. Проверки происходят на парсинге 200 WEB страниц без использования прокси.

Сначала ставите один поток и смотрите лог парсинга (Ctrl+l в Content Downloader). Если 200 ссылок спарсится без проблем, то пробуете повышать количество потоков (есть много сайтов, которые вообще не банят). Баном будет являться либо ошибка загрузки WEB страниц, либо редирект на страницу с каптчей (данные товаров перестанут парсится).

Если сайт забанил при использовании одного потока, то дождитесь разбана от сайта, как правило, минут 15 (либо переподключите интернет в случае динамического IP, чтобы сменился ваш IP) и пробуйте задействовать паузу между запросами (временная задержка между загрузками WEB страниц, указывается в МС, 1000МС = 1 секунда). Сначала пробуете с 1000МС. Если банит, повышаете до 2000 и так далее (пока сайт не перестал банить).

Если сайт не перестает банить при однопоточном парсинге с увеличением паузы между запросами, то для его парсинга однозначно потребуются мобильные прокси.

После нескольких тестов парсинга на 200 URL вы сможете определить: сколько сайт отдает WEB страниц для каждого IP без бана в единицу времени. На основании этих данным можно посчитать, сколько прокси потребуются для удовлетворения скорости сбора данных.


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 1, средний балл: 5.00)

Loading...
Автор: admin, 5 March 2022
Рубрики: Новости
Написать комментарий

Последние статьи

css.php