Использование списка прокси-серверов в программе

Читайте также: Как выбрать прокси для парсинга и сколько прокси нужно купить (клик)

ВАЖНО (ввиду особенностей библиотек):

Библиотека Clever Internet Suite (CIS) поддерживает все типы прокси с авторизацией и без (включая IpV6).
Библиотека WIN (Wininet) поддерживает HTTP/HTTPS, SOCKS4 прокси без авторизации по логин/паролю.
WBAppCEF (Chromium) поддерживает HTTP/HTTPS/SOCKS4 прокси ipv4 с авторизацией и без.



Где купить прокси для парсинга (клик)

Content Downloader

Content Downloader

Content Downloader

Content Downloader

Content Downloader


Примечание 1: При парсинге WEB-документов прокси из списка будут браться по очереди. Новый прокси будет браться при парсинге каждого последующего WEB-документа (когда будет взят последний прокси из списка, взятие следующих пойдет по новому кругу). Также новый прокси берется при повторных попытках загрузки документов. Прокси, используемые при загрузке документов отображаются в логе парсинга (ctrl+l из главного окна программы).


Примечание 2: Фильтровать забаненные при парсинге во вкладке “Контент” прокси сервера можно с помощью проверки нахождения в коде загруженного WEB документа определенного вхождения, например: captcha. То есть, при появлении каптчи, сайт отдает WEB страницу со статусом 200, но содержание страницы подменено на страницу с каптчей.

В таких случаях, для удаления прокси из списка в памяти можно использовать такую конструкцию макросов шаблона вывода:

1
[CHECKENTRY(ВХОЖДЕНИЕ)][DOCSOURCE][THENTEXT][PROXY_DELETE][RELOADDOCUMENT][/CHECKENTRY]

Вместо “ВХОЖДЕНИЕ” пропишите то вхождение из кода WEB-документа, которое есть на страницах с каптчей.


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 4, средний балл: 5.00)

Loading...
Автор: admin, 5 December 2017
Рубрики: Парсинг
Tags:

Последние статьи

css.php