Читайте также: Как выбрать прокси для парсинга и сколько прокси нужно купить (клик)
ВАЖНО (ввиду особенностей библиотек):
Библиотека Clever Internet Suite (CIS) поддерживает все типы прокси с авторизацией и без (включая IpV6).
Библиотека WIN (Wininet) поддерживает HTTP/HTTPS, SOCKS4 прокси без авторизации по логин/паролю.
WBAppCEF (Chromium) поддерживает HTTP/HTTPS/SOCKS4 прокси ipv4 с авторизацией и без.
Где купить прокси для парсинга (клик)
Примечание 1: При парсинге WEB-документов прокси из списка будут браться по очереди. Новый прокси будет браться при парсинге каждого последующего WEB-документа (когда будет взят последний прокси из списка, взятие следующих пойдет по новому кругу). Также новый прокси берется при повторных попытках загрузки документов. Прокси, используемые при загрузке документов отображаются в логе парсинга (ctrl+l из главного окна программы).
Примечание 2: Фильтровать забаненные при парсинге во вкладке “Контент” прокси сервера можно с помощью проверки нахождения в коде загруженного WEB документа определенного вхождения, например: captcha. То есть, при появлении каптчи, сайт отдает WEB страницу со статусом 200, но содержание страницы подменено на страницу с каптчей.
В таких случаях, для удаления прокси из списка в памяти можно использовать такую конструкцию макросов шаблона вывода:
1 | [CHECKENTRY(ВХОЖДЕНИЕ)][DOCSOURCE][THENTEXT][PROXY_DELETE][RELOADDOCUMENT][/CHECKENTRY] |
Вместо “ВХОЖДЕНИЕ” пропишите то вхождение из кода WEB-документа, которое есть на страницах с каптчей.