Как избежать бана при парсинге некоторых сайтов (изменить количество потоков, выставить паузу между запросами, использовать прокси)

Некоторые популярные сайты могут банить при парсинге. Это почти всегда происходит из-за частых обращений к ним (большое количество запросов). Чаще всего сайты банят по IP, очень редко по HTTP-заголовкам (cookies и прочее). Поэтому, если вас забанил сайт и вы имеете динамический IP, просто переподключите ваше интернет-соединение. Ваш IP-адрес сменится и вы можете продолжить парсинг сайта. Если у вас статический IP (никогда не меняется), то подождите некоторое время (от 5 минут до суток) и сайт вас должен разбанить.

Чтобы избежать получения бана от сайтов, вы можете поставить меньшее количество потоков и подобрать паузу между запросами. Количество потоков и пауза между запросами выставляются во вкладках «контент» и в сканере сайтов (кнопка на панели инструментов). Во вкладке «ссылки» всегда используется только 1 поток, в этой вкладке вы можете выставить только паузу между запросами (время ожидания между обращениями к сайту).

Например, чтобы парсить Контакт, достаточно выставить 1 поток и паузу между запросами 1100 (указывается в МС, 1100 МС = 1,1 секунде). А вот, чтобы парсить Авито требуется выставить 1 поток и паузу между запросами 10000-12000 (если указать паузу в виде диапазона, то время паузы будет выбираться случайным образом из указанного диапазона при парсинге каждого документа).
Примечание: Вышеуказанные примеры могут быть неактуальны (так как сайты, случается, меняют свою методику защиты от парсинга).

Также вы можете использовать список прокси-серверов, чтобы скрыть ваш IP при обращении к сайту. При выполнении каждого запроса будет браться следующий прокси-сервер из списка (и так далее по кругу). Список прокси вы можете задать в «меню» — «сервис» — «список прокси (ctrl+r)».

Примечание: Библиотека Indy поддерживает только HTTP-прокси, библиотека Clever Internet Suite поддерживает все виды прокси, а Internet Explorer (DOM) и вовсе не поддерживает прокси (сменить библиотеку запросов можно в ctrl+h).

При использовании прокси учтите, что:
— Они могут работать очень медленно
— Прокси уже могут быть в бане у большинства сайтов
— Для парсинга некоторых серьезных сайтов (например, Google) годятся только SOCKS-прокси (HTTP-прокси игнорируются)
— Прокси могут со временем выходить из строя («умирать»)

PS: В программе есть функция приостановки процесса парсинга контента в случае бана. Эта опция включается и настраивается во вкладке «контент» — группа «парсинг и обработка» — кнопка «автоматизация выполнения некоторых функций и прочее».

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 4, средний балл: 4,50)
Загрузка...
Автор: admin, 28 июня 2014
Рубрики: Новости
Метки: , , , ,
Есть 1 комментарий. к сообщению: “Как избежать бана при парсинге некоторых сайтов (изменить количество потоков, выставить паузу между запросами, использовать прокси)”
  1. Александр:

    Пользуюсь проксями от altvpn_com/55e1e49d649e8.html и очень остался довольный, рекомендую

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php