Как обойти бан некоторых сайтов (на примере drom_ru)


Некоторые сайты при частых get-запросах банят посетителей. Чтобы обойти это, можно выставить парсинг в 1 поток (10 по умолчанию) и подобрать нужное значение “паузы между запросами”.

Есть еще один вариант (более простой и более эффективный, но срабатывает примерно в половине случаев) – использовать динамический user agent. Для этого нужно добавить список user agent (штук 10) в соответствующее текстовое поле программы (вкладка “контент” – кнопка “дополнительно”).




1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 2, средний балл: 5.00)

Loading...
Автор: admin, 24 July 2011
Рубрики: Приемы парсинга
Tags: , ,
Есть 6 коммент. к сообщению: “Как обойти бан некоторых сайтов (на примере drom_ru)”
  1. Игорь says:

    Яндекс Маркет постоянно выдаёт каптчу.
    http://prntscr.com/b6wg3
    Соответственно Content Downloader II не может спарсить контент.
    Прописал user agent, добавил список прокси – ничего из этого не помогает. Ждать пока перестанут банить бессмысленно, поскольку Яндекс Маркет блокирует всю подсеть (то есть бан не из-за меня).
    Можно ли обойти бан Яндекс Маркета?

    • admin says:

      Самое главное – не словить капчу. Если до нее не доводить, то можно парсить вечно без остановки. Для Гугла это 1 поток и пауза 5000, для Яндекса должно быть что-то похожее, попробуйте.
      PS: Подождите сутки пока Яндекс не “уберет” капчу.

      • Игорь says:

        Так вот дело именно в том, что Яндекс Маркет каптчу не убирает напротяжении уже около месяца. Вероятно, блокирует диапазон IP.

  2. Алексей says:

    2Игорь, а случаем у Вас не стоит SeoQuake? у меня с добавленным плагином и включеным SeoQuake-ом Яндекс выдавал капчу даже на поиск, может у Вас схожая ситуация?

  3. Игорь says:

    SeoQuake не установлен.

  4. Иван Федорович says:

    Добрый день,
    Вопрос:
    где в актуальной версии найти поле для ввода user agent
    “вкладка «контент» — кнопка «дополнительно»”

Написать комментарий

Последние статьи

css.php