Парсинг ссылок со страниц рубрики или выдачи (сбор ссылок во вкладке “ссылки”)

Порядок выполнения:

– перейдите во вкладку “Ссылки” (в главном окне программы)
– Так как в рубриках товаров на сайте может быть несколько страниц выдачи (1, 2, 3… и каждая страница рубрики имеет свой URL адрес), то сначала нужно сгенерировать список ссылок на эти самые страницы рубрики (ознакомьтесь с материалом по ссылке)
– кликните дважды по одной из ссылок для вызова окна предпросмотра
– в появившемся окне предпросмотра нажмите кнопку “открыть фильтры ссылок” и настройте фильтры ссылок так, чтобы выдача ссылок соответствовала нужному результату (после настройки фильтров выполните предпросмотр других ссылок из списка)
– закройте окно предпросмотра
– когда все настройки выполнены, нажмите кнопку запуска парсинга (отмечена зеленым маркером на скриншоте 1)
– готово

Скриншот 1:
LinksParsingInTab


Как производить поиск ссылок только в указанных частях кода WEB-документа (для отсеивания лишних ссылок)

Вы можете задать определенный участок кода загружаемого web-документа для поиска в нем ссылок (чтобы отсечь лишнее, например, ссылки случайных товаров в сайдбаре сайта):

Content Downloader

Либо можно вырезать лишние части исходного кода WEB-документа с помощью функций поиск-замены:

Content Downloader

Справка по функциям поиск-замены


Дополнительная информация:

– Парсинг во вкладке “ссылки” осуществляется в 1 поток. Если вам нужно парсить ссылки в многопоточном режиме, используйте сканер сайтов (кнопка на панели инструментов главного окна программы);
– При парсинге ссылок происходит удаление первого (верхнего) элемента из списка ссылок. После окончания парсинга, результаты будут добавлены в этот же список ссылок;
– При желании всегда можно приостановить процесс парсинга ссылок, нажав на панели инструментов кнопку “приостановить парсинг”. В этом случае появится окно, содержащее найденные ссылки (которые вы можете скопировать). При повторном запуске парсинга ссылок прогресс начнется “с нуля” (пусть это вас не смущает, так как “отработанных” ссылок (при прошлом парсинге) в списке уже нет);
– При парсинге ссылок программа ищет в коде все html-теги ссылок и берет из них href (адрес ссылки).




Видео материалы










Тут выдача ссылок страниц рубрик подгружается скриптами и приходит в формате JSON:

В этом видео показано следующее:
1) Поиск ссылок, откуда подгружаются данные выдачи с помощью монитора сети в Firefox
2) Использование динамического {num:a,b} при парсинге страниц рубрик
3) Парсинг ссылок из кода JSON (преобразование данных кода JSON для последующего извлечения из него ссылок)


Парсинг поисковой выдачи сайта с помощью POST-запросов:






Дополнительные материалы:
Использование в URL-адресах динамического оператора {num:a,b} при парсинге во вкладке “Ссылки”


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 10, средний балл: 5.00)

Loading...
Автор: admin, 27 July 2012
Рубрики: Парсинг
Tags: ,
Написать комментарий

Последние статьи

css.php