Как обойти бан некоторых сайтов (на примере drom_ru)


Некоторые сайты при частых get-запросах банят посетителей. Чтобы обойти это, можно выставить парсинг в 1 поток (10 по умолчанию) и подобрать нужное значение «паузы между запросами».

Есть еще один вариант (более простой и более эффективный, но срабатывает примерно в половине случаев) — использовать динамический user agent. Для этого нужно добавить список user agent (штук 10) в соответствующее текстовое поле программы (вкладка «контент» — кнопка «дополнительно»).




1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 2, средний балл: 5,00)

Загрузка...
Автор: admin, 24 июля 2011
Рубрики: Приемы парсинга
Метки: , ,
6 комментариев к сообщению: “Как обойти бан некоторых сайтов (на примере drom_ru)”
  1. Игорь:

    Яндекс Маркет постоянно выдаёт каптчу.
    http://prntscr.com/b6wg3
    Соответственно Content Downloader II не может спарсить контент.
    Прописал user agent, добавил список прокси — ничего из этого не помогает. Ждать пока перестанут банить бессмысленно, поскольку Яндекс Маркет блокирует всю подсеть (то есть бан не из-за меня).
    Можно ли обойти бан Яндекс Маркета?

    • admin:

      Самое главное – не словить капчу. Если до нее не доводить, то можно парсить вечно без остановки. Для Гугла это 1 поток и пауза 5000, для Яндекса должно быть что-то похожее, попробуйте.
      PS: Подождите сутки пока Яндекс не “уберет” капчу.

  2. Алексей:

    2Игорь, а случаем у Вас не стоит SeoQuake? у меня с добавленным плагином и включеным SeoQuake-ом Яндекс выдавал капчу даже на поиск, может у Вас схожая ситуация?

  3. Игорь:

    SeoQuake не установлен.

  4. Иван Федорович:

    Добрый день,
    Вопрос:
    где в актуальной версии найти поле для ввода user agent
    «вкладка «контент» — кнопка «дополнительно»»

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php