Использование списка прокси-серверов в программе

ВАЖНО:
Библиотека Clever Internet Suite (CIS) поддерживает все типы прокси.
Библиотека WIN поддерживает HTTP/HTTPS, SOCKS4 прокси (не SOCKS5) без авторизации по логин/паролю.

Рекомендуемые прокси сервисы для парсинга (клик)

Content Downloader

Content Downloader

Content Downloader

Content Downloader

Content Downloader


Примечание 1: При парсинге WEB-документов прокси из списка будут браться по очереди. Новый прокси будет браться при парсинге каждого последующего WEB-документа (когда будет взят последний прокси из списка, взятие следующих пойдет по новому кругу). Также новый прокси берется при повторных попытках загрузки документов. Прокси, используемые при загрузке документов отображаются в логе парсинга (ctrl+l из главного окна программы).


Примечание 2: Фильтровать забаненные при парсинге во вкладке «Контент» прокси сервера можно с помощью проверки нахождения в коде загруженного WEB документа определенного вхождения, например: captcha. То есть, при появлении каптчи, сайт отдает WEB страницу со статусом 200, но содержание страницы подменено на страницу с каптчей.

В таких случаях, для удаления прокси из списка в памяти можно использовать такую конструкцию макросов шаблона вывода:

1
[CHECKENTRY(ВХОЖДЕНИЕ)][DOCSOURCE][THENTEXT][PROXY_DELETE][RELOADDOCUMENT][/CHECKENTRY]

Вместо «ВХОЖДЕНИЕ» пропишите то вхождение из кода WEB-документа, которое есть на страницах с каптчей.


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 4, средний балл: 5,00)

Загрузка...
Автор: admin, 5 декабря 2017
Рубрики: Парсинг
Метки:

Последние статьи

css.php