Некоторые сайты при частых get-запросах банят посетителей. Чтобы обойти это, можно выставить парсинг в 1 поток (10 по умолчанию) и подобрать нужное значение “паузы между запросами”.
Есть еще один вариант (более простой и более эффективный, но срабатывает примерно в половине случаев) – использовать динамический user agent. Для этого нужно добавить список user agent (штук 10) в соответствующее текстовое поле программы (вкладка “контент” – кнопка “дополнительно”).
Я еще использую прокси. В программе прокси-чекер работает просто на ура.
А где там прокси-чекер?
“Управление proxy”
может поделитесь небольшим списком юзер-агентов? 🙂
как спарсить kinopoisk.ru?
не дает парсить страницу фильма, пишет
“Если вы видите эту страницу, значит с вашего IP-адреса поступило необычно много запросов. Система защиты от роботов (СЗоР) решила, что вместо вас действует программа, и ограничила доступ.”
пробовал менять user-agent, не помогает. Видимо, нужен прокси с поддержкой кук?