Если сканер сайтов находит не все ссылки (или вообще не находит ни одной ссылки)

Если сканер не нашел ожидаемое количество нужных ссылок может быть несколько причин:

1) На сайте есть одни и те же товары в разных категориях (дубли ссылок автоматически удаляются при сканировании);
2) Количество товаров на сайте указанно некорректно;
3) Сканер обошел не все нужные страницы сайта;
4) Сканер слишком быстро делает запросы к сайту и сайт часть таких частых запросов «отвергает»;
5) Сайт временно забанил частые запросы программы;
6) Ссылки в коде сайта представлены не в стандартных HTML-тегах <a>, а в каких-то других (или в скриптах);
7) Искомые ссылки подгружаются скриптами в процессе выполнения WEB-документов;
8) Сайт не отвечает на запросы программы (выдает ошибки запросов).


Методы решения:

1) Проблемы нет;
2) Проблемы нет;
3) Настроить фильтры очереди должным образом http://sbfactory.ru/cd/?p=3
4) Установить меньшее количество потоков в сканере и подобрать паузу меду запросами (зависит от сайта, попробуйте сначала установить 1 поток в окне сканера сайтов);
5) Установить меньшее количество потоков в сканере и подобрать паузу меду запросами, либо использовать качественные прокси-сервера (ctrl+r);
6) Настроить функцию поиска ссылок нужным для данного сайта образом (кнопка «FIND» в сканере сайтов);
7) Парсить с использованием библиотеки Internet Explorer (DOM) (активируется в окне ctrl+h);
8) Передать cookies или выбрать другую библиотеку запросов в окне ctrl+h.


Примечание: При возникновении проблем со сбором ссылок с сайта всегда пользуйтесь функцией предпросмотра результатов сканирования стартового URL-адреса (ctrl+f2) или выбранной ссылки списка очереди (ctrl+f3).

Content Downloader

Также изучите принцип работы сканера сайтов и проследите, как он работает на целевом сайте, сделайте вывод.

1 Star2 Stars3 Stars4 Stars5 Stars (Еще нет оценок)
Загрузка...
Автор: admin, 15 августа 2017
Рубрики: Парсинг
Метки: , ,

Последние статьи

css.php