Если сканер сайтов находит не все ссылки (или вообще не находит ни одной ссылки)




Если сканер сайтов не запускается, возможны две причины:

1) Не удалось загрузить стартовый URL (нажмите ctrl+h и выберите библиотеку Clever Internet Suite или WIN)
2) В загруженном коде не найдено ни одной ссылки (сделайте предпросмотр результатов сканирования для стартового URL (ctrl+f2) и проанализируйте полученный код WEB-документа)


Если сканер не нашел ожидаемое количество нужных ссылок может быть несколько причин:

1) На сайте есть одни и те же товары в разных категориях (дубли ссылок автоматически удаляются при сканировании);
2) Количество товаров на сайте указанно некорректно;
3) Сканер обошел не все нужные страницы сайта;
4) Сканер слишком быстро делает запросы к сайту и сайт часть таких частых запросов “отвергает”;
5) Сайт временно забанил частые запросы программы;
6) Ссылки в коде сайта представлены не в стандартных HTML-тегах <a>, а в каких-то других (или в скриптах);
7) Искомые ссылки подгружаются скриптами в процессе выполнения WEB-документов;
8) Сайт не отвечает на запросы программы (выдает ошибки запросов) ИЛИ ВОЗВРАЩАЕТ ПУСТОЙ WEB-документ.


Методы решения:

1) Проблемы нет;
2) Проблемы нет;
3) Настроить фильтры очереди должным образом http://sbfactory.ru/cd/?p=3
4) Установить меньшее количество потоков в сканере и подобрать паузу меду запросами (зависит от сайта, попробуйте сначала установить 1 поток в окне сканера сайтов);
5) Установить меньшее количество потоков в сканере и подобрать паузу меду запросами, либо использовать качественные прокси-сервера (ctrl+r);
6) Настроить функцию поиска ссылок нужным для данного сайта образом (кнопка “FIND” в сканере сайтов);
7) Парсить с использованием библиотеки Internet Explorer (DOM) (активируется в окне ctrl+h);
8) Передать cookies или выбрать библиотеку WIN в окне ctrl+h (данная библиотека прекрасно работает со всеми типами HTTPS-сайтов).


Примечание: При возникновении проблем со сбором ссылок с сайта всегда пользуйтесь функцией предпросмотра результатов сканирования стартового URL-адреса (ctrl+f2) или выбранной ссылки списка очереди (ctrl+f3).

Content Downloader

Также изучите принцип работы сканера сайтов и проследите, как он работает на целевом сайте, сделайте вывод.

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 1, средний балл: 5.00)
Loading...
Автор: admin, 15 August 2017
Рубрики: Парсинг
Tags: , ,

Последние статьи

css.php