Парсинг ссылок со страниц рубрики или выдачи (сбор ссылок во вкладке «ссылки»)




Порядок выполнения:

— перейдите во вкладку «ссылки»
— если в списке ссылок нет ни одного элемента, то вставьте ссылки из буфера обмена системы (F8) или сгенерируйте список ссылок
— кликните дважды по одной из ссылок для вызова окна предпросмотра
— в появившемся окне предпросмотра нажмите кнопку «открыть фильтры ссылок» и настройте фильтры ссылок так, чтобы выдача ссылок соответствовала нужному результату (после настройки фильтров выполните предпросмотр других ссылок из списка)
— закройте окно предпросмотра
— когда все настройки выполнены, нажмите кнопку запуска парсинга (отмечена зеленым маркером на скриншоте 1)
— готово

Скриншот 1:
LinksParsingInTab


Как производить поиск ссылок только в указанных частях кода WEB-документа (для отсеивания лишних ссылок)

Вы можете задать определенный участок кода загружаемого web-документа для поиска в нем ссылок (чтобы отсечь лишнее, например, ссылки случайных товаров в сайдбаре сайта):

Content Downloader

Либо можно вырезать лишние части исходного кода WEB-документа с помощью функций поиск-замены:

Content Downloader

Справка по функциям поиск-замены


Дополнительная информация:

— Парсинг во вкладке «ссылки» осуществляется в 1 поток. Если вам нужно парсить ссылки в многопоточном режиме, используйте сканер сайтов (кнопка на панели инструментов главного окна программы);
— При парсинге ссылок происходит удаление первого (верхнего) элемента из списка ссылок. После окончания парсинга, результаты будут добавлены в этот же список ссылок;
— При желании всегда можно приостановить процесс парсинга ссылок, нажав на панели инструментов кнопку «приостановить парсинг». В этом случае появится окно, содержащее найденные ссылки (которые вы можете скопировать). При повторном запуске парсинга ссылок прогресс начнется «с нуля» (пусть это вас не смущает, так как «отработанных» ссылок (при прошлом парсинге) в списке уже нет);
— При парсинге ссылок программа ищет в коде все html-теги ссылок и берет из них href (адрес ссылки).


Дополнительные материалы:
Использование в URL-адресах динамического оператора {num:a,b} при парсинге во вкладке «Ссылки»


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 9, средний балл: 5,00)

Загрузка...
Автор: admin, 27 июля 2012
Рубрики: Парсинг
Метки: ,

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php