Как избежать бана при парсинге некоторых сайтов (изменить количество потоков, выставить паузу между запросами, использовать прокси)

Некоторые популярные сайты могут банить при парсинге. Это почти всегда происходит из-за частых обращений к ним (большое количество запросов). Чаще всего сайты банят по IP, очень редко по HTTP-заголовкам (cookies и прочее). Поэтому, если вас забанил сайт и вы имеете динамический IP, просто переподключите ваше интернет-соединение. Ваш IP-адрес сменится и вы можете продолжить парсинг сайта. Если у вас статический IP (никогда не меняется), то подождите некоторое время (от 5 минут до суток) и сайт вас должен разбанить.

Чтобы избежать получения бана от сайтов, вы можете поставить меньшее количество потоков и подобрать паузу между запросами. Количество потоков и пауза между запросами выставляются во вкладках “контент” и в сканере сайтов (кнопка на панели инструментов). Во вкладке “ссылки” всегда используется только 1 поток, в этой вкладке вы можете выставить только паузу между запросами (время ожидания между обращениями к сайту).

Например, чтобы парсить Контакт, достаточно выставить 1 поток и паузу между запросами 1100 (указывается в МС, 1100 МС = 1,1 секунде). А вот, чтобы парсить Авито требуется выставить 1 поток и паузу между запросами 10000-12000 (если указать паузу в виде диапазона, то время паузы будет выбираться случайным образом из указанного диапазона при парсинге каждого документа).
Примечание: Вышеуказанные примеры могут быть неактуальны (так как сайты, случается, меняют свою методику защиты от парсинга).

Также вы можете использовать список прокси-серверов, чтобы скрыть ваш IP при обращении к сайту. При выполнении каждого запроса будет браться следующий прокси-сервер из списка (и так далее по кругу). Список прокси вы можете задать в “меню” – “сервис” – “список прокси (ctrl+r)”.

Примечание: Библиотека Indy поддерживает только HTTP-прокси, библиотека Clever Internet Suite поддерживает все виды прокси, а Internet Explorer (DOM) и вовсе не поддерживает прокси (сменить библиотеку запросов можно в ctrl+h).

При использовании прокси учтите, что:
– Они могут работать очень медленно
– Прокси уже могут быть в бане у большинства сайтов
– Для парсинга некоторых серьезных сайтов (например, Google) годятся только SOCKS-прокси (HTTP-прокси игнорируются)
– Прокси могут со временем выходить из строя (“умирать”)

PS: В программе есть функция приостановки процесса парсинга контента в случае бана. Эта опция включается и настраивается во вкладке “контент” – группа “парсинг и обработка” – кнопка “автоматизация выполнения некоторых функций и прочее”.

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 6, средний балл: 4.33)
Loading...
Автор: admin, 28 June 2014
Рубрики: Новости
Tags: , , , ,
Есть 1 комментарий. к сообщению: “Как избежать бана при парсинге некоторых сайтов (изменить количество потоков, выставить паузу между запросами, использовать прокси)”
  1. Александр says:

    Пользуюсь проксями от altvpn_com/55e1e49d649e8.html и очень остался довольный, рекомендую

Написать комментарий

Последние статьи

css.php