Генерация списков ссылок с использованием заданных числовых и/или строковых значений (ключевых слов)




Допустим, стоит задача собрать ссылки на товары со страниц рубрик(и) сайта, которые расположены на страницах выдачи рубрик(и) товаров.

Так как рубрика товаров на сайте может иметь несколько страниц, например:

1
2
3
4
http://.../?Cat=Cars&page=1
http://.../?Cat=Cars&page=2
http://.../?Cat=Cars&page=3
...

Где за номер страницы отвечает значение параметра URL page (1, 2, 3…). То нужно сгенерировать ссылки на эти страницы рубрики.

Для начала нужно определить, каким образом WEB-сайт создает эту нумерацию страниц. Откройте страницу рубрики отличную от первой, например: 2. Скопируйте из адресной строки браузера ссылку на вторую страницу рубрики в блокнот. Далее откройте третью страницу рубрики и скопируйте ее адрес в блокнот на строчку ниже.

На основе скопированных ссылок определите параметр, отвечающий за номер страницы рубрики (это число).

Затем в главном окне программы откройте вкладку “Ссылки” и вставьте в шаблон для генерации списка ссылок (ctrl+g) ссылку на вторую страницу выдачи сайта.

Далее выделите в ссылке число, отвечающее за номер страницы и нажмите F2 для вставки вместо него оператора {num} (этот оператор будет выводить номера страниц в генерируемых ссылках).

Затем укажите диапазон значений {num}, шаг и нажмите кнопку “сгенерировать ссылки” -> “используя диапазон {num} и значения {key}, {key2}”.

Примечание: Если количество страниц рубрики неизвестно (или со временем изменяется), можно вместо фиксированного диапазона изменения значений {num} использовать его динамическую версию (клик для справки).

После этого в главном списке ссылок появятся сгенерированные URL адреса разных страниц рубрики.

Когда вы сгенерировали список ссылок на страницы выдачи рубрики, нужно приступить к настройке фильтров ссылок (для отсеивания лишних, чтобы остались только ссылки на товары).

Кликните дважды по любой сгенерированной ссылке и дождитесь загрузки WEB-документа. После загрузки появится инструмент предпросмотра результатов парсинга ссылок из выбранного WEB документа. Для отсеивания лишних ссылок нажмите кнопку “открыть фильтры ссылок” (кнопка расположена в верхней части окна предпросмотра) и настройте фильтры ссылок по этой инструкции.

При изменении значений фильтров изменение результатов в окне предпросмотра будет происходить автоматически в режиме реального времени. В верхнем списке отображаются найденные ссылки (прошедшие фильтры), в нижнем – отфильтрованные.

Как правило, на многих сайтах достаточно указать фильтр шаблон для ссылок (часть URL, которая есть только в нужных ссылках, например /ProductPage) и настроить фильтр “глубина ссылок” (определяет количество сегментов искомых ссылок).

Для того, чтобы понять, какой шаблон ссылок указывать в фильтре, откройте в браузере страницу товара и исследуйте ее ссылку, чтобы понять, по какому принципу сайт формирует ссылки на страницы товаров. Если страницы товаров от других страниц сайта отличает какое-либо уникально вхождение, например, /ProductPage, то укажите это вхождение в фильтре “задать шаблон для ссылок”. Если такого уникального вхождения нет, то попробуйте подобрать фильтр по глубине ссылок. Если и это не поможет отфильтровать лишние URL, изучите более детально материал по фильтрам ссылок.

После настройки фильтров ссылок на одном из URL выполните предпросмотр результатов парсинга ссылок и на других URL из списка (с помощью двойного клика по URL из списка ссылок главного окна программы), чтобы убедиться, что фильтры корректно работают на других страницах выдачи рубрики сайта.

Когда вы настроили фильтры, закройте окно предпросмотра и нажмите запуск парсинга (f5).

Примечание: Для контроля результатов парсинга можно пользоваться логом (главное меню – сервис – лог парсинга).

После завершения процесса парсинга во вкладке “Ссылки” в список ссылок главного окна программы будут добавлены найденные URL адреса товаров. Тогда можно будет переходить во вкладку “Контент” и настраивать сбор данных (или выполнять сбор данных) с полученных страниц товаров.

Готово!


– Вместо макроса {num} в ссылку вставляется нарастающее числовое значение из заданного диапазона с указанным шагом (шаг – на сколько значение увеличится при генерации следующей ссылки)
– Вместо макросов {key} и {key2} в ссылку будут вставлены строковые значения, которые прописываются в столбик в следующих местах: кнопка “{key}” и “{key2}”
– Если вы хотите генерировать список ссылок без использования {num}, а только с {key}, то поставьте диапазон от 1 до 1 и шаг 1


Вывод и использование значений {key} при парсинге контента

Если вам, при парсинге контента, нужно вывести значение {key}, с которым была сгенерирована та или иная ссылка, то, перед генерацией списка ссылок, отметьте чекбокс “добавлять в ссылки [PARAM]…” (смотрите скриншот выше). Тогда, при генерации списка ссылок с использованием {key}, в конец каждой ссылки добавится соответствующее значение {key}.

Затем, чтобы, при парсинге во вкладке “контент”, вывести значение {key} (что будет стоять после “[PARAM]:” в каждой ссылке) в любое нужное место шаблона вывода, вставьте туда макрос [PARAM]. Также знайте, при парсинге во вкладке ссылки, “[PARAM]:” и его значение не теряются!


Генерация ссылок на основе нескольких подготовленных шаблонов с разными диапазонами

Content Downloader

Content Downloader


Генерация ссылок без перебора комбинаций операторов

Content Downloader


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 6, средний балл: 3.50)

Loading...
Автор: admin, 6 April 2013
Рубрики: Парсинг
Tags:
Есть 2 коммент. к сообщению: “Генерация списков ссылок с использованием заданных числовых и/или строковых значений (ключевых слов)”
  1. maxnemo says:

    А как сделать смещенные диапазоны?
    Типа разные {num1}, {num2} ?
    Параметры ведь разные бывают, не только от 1 до N =)

Написать комментарий к maxnemo

Последние статьи

css.php