Фильтры ссылок (отсеивание лишних ссылок при парсинге)




Предназначение:

Фильтры используются для отсеивания лишних или корректировки нужных ссылок. Например, при парсинге, вам нужно оставить ссылки на статьи и отсеять лишние (ссылки на рубрики, метки и так далее).

Применение фильтров ссылок:
– При парсинге ссылок в главном окне программы (во вкладке “Ссылки”);
– При сборе ссылок с сайта в окне “Сканер сайтов” (Сканер сайтов вызывается на панели инструментов из главного окна программы);
– К уже собранным ссылкам: правый клик по списку ссылок – применить фильтры к списку ссылок.

Как открыть окно настройки фильтров ссылок:
– Кнопка “фильтры ссылок” на панели инструментов главного окна программы.


Обычно для сбора ссылок требуется указать шаблон для ссылок. Например, ссылки на товары содержат в себе подстроку /Product/, укажите ее в шаблоне для ссылок и в выдачу попадут ссылки, содержащие в себе подстроку /Product/.

В некоторых случаях удобно фильтровать ссылки по их глубине. Например, ссылки на товары, в отличие от других ссылок сайта, имеют глубину 3 http://…/Computers/123.html (количество сегментов ссылок = 3). Вводите глубину ссылок от 3 до 3 и в выдачу попадут нужные ссылки.

Иногда требуется отфильтровать ссылки с помощью регулярных выражений (клик для чтения).

Также можно фильтровать лишние ссылки с помощью фильтра “не добавлять ссылки, содержащие”. Добавьте в этот фильтр построчно перечень подстрок нежелательных ссылок.

Если отфильтровать лишние ссылки на этапе их сбора в полной мере не удается, то можно фильтровать лишние WEB документы при их парсинге во вкладке “Контент”. Например, когда задаете границу парсинга с ценой товара (только страницы товаров содержат в себе стоимость) отметьте эту границу парсинга опцией “обязательна” (в дополнительных настройках границ парсинга, ctrl+4) и в результат парсинга попадут данные с только тех WEB документов, которые содержат в себе стоимость.

Для применения изменений фильтров к выдаче ссылок в реальном времени сделайте предпросмотр парсинга WEB документа во вкладке “Ссылки” (ctrl+f2), в появившемся окне с результатом парсинга ссылок нажмите кнопку “открыть фильтры ссылок” и далее изменяйте фильтры и наблюдайте изменения выдачи URL.


Скриншот окна “настройка фильтров”:

Content Downloader - фильтры ссылок



– Задать шаблон для ссылок
– Не добавлять ссылки, содержащие
– Не сохранять ссылки, оканчивающиеся на “/”
– Сохранять ссылки, оканчивающиеся на “/”
– Глубина ссылок
– Длина ссылок
– Только с данного сайта
– Переключатели “автоматически”/”добавлять следующее”

– Удалять “www” из каждой ссылки
– Удалять “/” на конце каждой ссылки
– Удалять следующие параметры из ссылок
– Поиск-замена
– Специальные операторы шаблонов фильтров ссылок




Задать шаблон для ссылок

– при включении этого фильтра отсеются те ссылки, которые не содержат в себе хоть одну строку из поля A (при выключенном чекбоксе “и/или”), которые не содержат в себе каждую строчку из поля A (при включенном чекбоксе “и/или”).

1
2
3
4
5
6
7
8
9
10
11
12
Например, включаем "Задать шаблон для ссылок" и в поле "А" прописываем "sample".
 
На входе имеем:
 
http://sbfactory.ru/sample.html
http://sbfactory.ru/moresample.html
http://sbfactory.ru/more.html
 
На выходе получим:
 
http://sbfactory.ru/sample.html
http://sbfactory.ru/moresample.html




Не добавлять ссылки, содержащие

– при включении этого фильтра отсеются те ссылки, которые содержат в себе хоть одну строку из поля B.

1
2
3
4
5
6
7
8
9
10
11
12
Например, включаем чекбокс "Не добавлять ссылки, содержащие" и в поле "B" прописываем "VAZ".
 
На входе имеем:
 
http://auto.ru/VAZ.html
http://auto.ru/TAZ.html
http://auto.ru/GAZ.html
 
На выходе получим:
 
http://auto.ru/TAZ.html
http://auto.ru/GAZ.html




Не сохранять ссылки, оканчивающиеся на “/”

– при включении этого фильтра отсеются все ссылки с символом “/” на конце.

1
2
3
4
5
6
7
8
9
10
11
Например, включаем "Не сохранять ссылки, оканчивающиеся на "/"".
 
На входе имеем:
 
http://sbfactory.ru/sample.html/
http://sbfactory.ru/moresample.html
http://sbfactory.ru/more/
 
На выходе получим:
 
http://sbfactory.ru/moresample.html




Сохранять ссылки, оканчивающиеся на “/”

– при включении этого фильтра отсеются все ссылки без символа “/” на конце.

1
2
3
4
5
6
7
8
9
10
11
12
Например, включаем "Сохранять ссылки, оканчивающиеся на "/"".
 
На входе имеем:
 
http://sbfactory.ru/sample.html/
http://sbfactory.ru/moresample.html
http://sbfactory.ru/more/
 
На выходе получим:
 
http://sbfactory.ru/sample.html/
http://sbfactory.ru/more/




Глубина ссылок

– при включении этого фильтра отсеются все ссылки, глубина которых не соответствует заданному диапазону.

Чтобы вам было проще понять, как вычисляется глубина ссылок, приведу следующие примеры:
http://sbfactory.ru – глубина 1
http://sbfactory.ru/sample – глубина 2
http://sbfactory.ru/sample/sample2 – глубина 3
http://sbfactory.ru/sample/sample2/sample.html – глубина4

1
2
3
4
5
6
7
8
9
10
11
12
Например, включаем "Глубина ссылок" и задаем значение диапазона глубины от 3 до 3.
 
На входе имеем:
 
http://sbfactory.ru/sample.html
http://sbfactory.ru/more/article1.html
http://sbfactory.ru/moresample.html
http://sbfactory.ru/more/
 
На выходе получим:
 
http://sbfactory.ru/more/article1.html




Длина ссылок

– при включении этого фильтра отсеются все ссылки, длина которых не соответствует заданному диапазону.

1
2
3
4
5
6
7
8
9
10
Например, включаем "Длина ссылок" и задаем значение диапазона длины от 15 до 17.
 
На входе имеем:
 
http://abcd.ru
http://abc.ru/index.html
 
На выходе получим:
 
http://abcd.ru




Только с данного сайта

– при включении этого фильтра отсеются все ссылки на другие домены.

1
2
3
4
5
6
7
8
9
10
11
12
Например, мы парсим ссылки с сайта http://autosite.ru при включенном флажке "только с данного сайта".
 
На входе имеем:
 
http://autosite.ru/rub1/page_x.html
http://forum.autosite.ru
http://mebelsite.ru/page7.htm
 
На выходе получим:
 
http://autosite.ru/rub1/page_x.html
http://forum.autosite.ru




Переключатели “автоматически”/”добавлять следующее”

– выбор метода преобразования относительных ссылок в абсолютные.

При парсинге большинства сайтов программа встречает относительные ссылки вида “/page_x.html” или “/auto/index.php”. Чтобы продолжать работать с такими ссылками, их нужно преобразовать в абсолютные вида “http://auto.ru/page_x.html”.

Если перевести переключатель в позицию “автоматически”, то программа подставит в начало каждой относительной ссылки тот адрес, с которого происходит парсинг ссылок.

Если же выбрать “добавлять следующее”, то программа добавит в начало каждой относительной ссылки текст из соответствующего поля.




Удалять “www” из каждой ссылки

1
2
3
4
5
6
7
8
9
На входе имеем:
 
http://www.autosite.ru/rub1/page_x.html
http://mebelsite.ru/page7.htm
 
На выходе получим:
 
http://autosite.ru/rub1/page_x.html
http://mebelsite.ru/page7.htm




Удалять “/” на конце каждой ссылки

1
2
3
4
5
6
7
На входе имеем:
 
http://www.autosite.ru/rub1/
 
На выходе получим:
 
http://autosite.ru/rub1




Удалять следующие параметры из ссылок

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Например, есть ссылка вида http://site.ru/page?id=757&city=5&param=333, где id, city, param - параметры.
Вы можете удалить часть параметров (или все параметры).
Например, пропишем в окно C следующий текст:
id
param
 
На входе будем иметь:
 
http://site.ru/page?id=757&city=5&param=333
 
На выходе получим:
 
http://site.ru/page?city=5
 
То есть из всех ссылок будут удаляться указанные параметры (id и param)




Поиск-замена

Эта функция позволяет заменить некоторые части ссылок (или ссылки целиком).
Подробнее о функции поиск-замены можно почитать тут.

1
2
3
4
5
6
7
8
9
10
11
12
Пропишем в окно D следующий текст:
model.xml|model-spec.xml
 
На входе будем иметь:
 
http://market.yandex.ru/model.xml?modelid=4925825&hid=90564
 
На выходе получим:
 
http://market.yandex.ru/model-spec.xml?modelid=4925825&hid=90564
 
То есть, model.xml заменится на model-spec.xml




Специальные операторы шаблонов фильтров ссылок

Оператор [TEXTEND] служит для обозначения конца ссылки. Например, есть несколько видов ссылок:

1
2
3
/catalog/build/shpaklevka/?Producer= 
/catalog/build/shpaklevka/?Producer=45
/catalog/build/shpaklevka/?Producer=47

И вам нужно оставить только те, что НЕ оканчиваются на Producer=:

1
2
/catalog/build/shpaklevka/?Producer=45
/catalog/build/shpaklevka/?Producer=47

Тогда в поле B (смотрите первый скриншот сверху) необходимо добавить /?Producer=[TEXTEND]. Тем самым, мы будем отсеивать ссылки, оканчивающиеся на /?Producer=).

Примечание: Оператор [TEXTEND] не работает совместно с режимом регулярного выражения (re:).

Смотрите также: Использование регулярных выражений в фильтрах ссылок и в фильтрах списка очереди сканера сайтов


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 9, средний балл: 5.00)

Loading...
Автор: admin, 10 October 2010
Рубрики: Парсинг
Tags: , ,
Есть 6 коммент. к сообщению: “Фильтры ссылок (отсеивание лишних ссылок при парсинге)”
  1. Andrey says:

    К уже собранным ссылкам: правый клик по списку ссылок — применить фильтры к списку ссылок.
    —работает только в очереди ссылок, в собранных ссылках нет такого пункта.
    Есть ли другме способы чтобы отсеить уже собранные?

  2. Андрей says:

    как быть в такой ситуации? Мне нужно выбрать из всего многообразия спарсенных со странице ссылок такого типа http://www.domen.ru/name-category-tra-ta а name-статичен всегда, category задается параметором key.

  3. Андрей says:

    Как сделать так чтобы ссылки собирались в том порядке как они идут в каталоге? или только ссылки с class=”products”?

    • admin says:

      Здравствуйте.

      Парсить во вкладке “ссылки”.

      Если у вас будут еще вопросы, пожалуйста, задавайте их на форуме.

      С уважением к вам, Сергей.

Написать комментарий

Последние статьи

css.php