Некоторые сайты при частых get-запросах банят посетителей. Чтобы обойти это, можно выставить парсинг в 1 поток (10 по умолчанию) и подобрать нужное значение “паузы между запросами”.
Есть еще один вариант (более простой и более эффективный, но срабатывает примерно в половине случаев) – использовать динамический user agent. Для этого нужно добавить список user agent (штук 10) в соответствующее текстовое поле программы (вкладка “контент” – кнопка “дополнительно”).
Яндекс Маркет постоянно выдаёт каптчу.
http://prntscr.com/b6wg3
Соответственно Content Downloader II не может спарсить контент.
Прописал user agent, добавил список прокси – ничего из этого не помогает. Ждать пока перестанут банить бессмысленно, поскольку Яндекс Маркет блокирует всю подсеть (то есть бан не из-за меня).
Можно ли обойти бан Яндекс Маркета?
Самое главное – не словить капчу. Если до нее не доводить, то можно парсить вечно без остановки. Для Гугла это 1 поток и пауза 5000, для Яндекса должно быть что-то похожее, попробуйте.
PS: Подождите сутки пока Яндекс не “уберет” капчу.
Так вот дело именно в том, что Яндекс Маркет каптчу не убирает напротяжении уже около месяца. Вероятно, блокирует диапазон IP.
2Игорь, а случаем у Вас не стоит SeoQuake? у меня с добавленным плагином и включеным SeoQuake-ом Яндекс выдавал капчу даже на поиск, может у Вас схожая ситуация?
SeoQuake не установлен.
Добрый день,
Вопрос:
где в актуальной версии найти поле для ввода user agent
“вкладка «контент» — кнопка «дополнительно»”