Фильтры ссылок (отсеивание лишних ссылок при парсинге)




Предназначение:

Фильтры используются для отсеивания лишних или корректировки нужных ссылок. Например, при парсинге, вам нужно оставить ссылки на статьи и отсеять лишние (ссылки на рубрики, метки и так далее).

Применение фильтров ссылок:
— При парсинге ссылок в главном окне программы (во вкладке «Ссылки»);
— При сборе ссылок с сайта в окне «Сканер сайтов» (Сканер сайтов вызывается на панели инструментов из главного окна программы);
— К уже собранным ссылкам: правый клик по списку ссылок — применить фильтры к списку ссылок.

Как открыть окно настройки фильтров ссылок:
— Кнопка «фильтры ссылок» на панели инструментов главного окна программы.


Скриншот окна «настройка фильтров»:

Content Downloader - фильтры ссылок



— Задать шаблон для ссылок
— Не добавлять ссылки, содержащие
— Не сохранять ссылки, оканчивающиеся на “/”
— Сохранять ссылки, оканчивающиеся на “/”
— Глубина ссылок
— Длина ссылок
— Только с данного сайта
— Переключатели “автоматически”/”добавлять следующее”

— Удалять “www” из каждой ссылки
— Удалять “/” на конце каждой ссылки
— Удалять следующие параметры из ссылок
— Поиск-замена




Задать шаблон для ссылок

— при включении этого фильтра отсеются те ссылки, которые не содержат в себе хоть одну строку из поля A (при выключенном чекбоксе «и/или»), которые не содержат в себе каждую строчку из поля A (при включенном чекбоксе «и/или»).

1
2
3
4
5
6
7
8
9
10
11
12
Например, включаем "Задать шаблон для ссылок" и в поле "А" прописываем "sample".
 
На входе имеем:
 
http://sbfactory.ru/sample.html
http://sbfactory.ru/moresample.html
http://sbfactory.ru/more.html
 
На выходе получим:
 
http://sbfactory.ru/sample.html
http://sbfactory.ru/moresample.html




Не добавлять ссылки, содержащие

— при включении этого фильтра отсеются те ссылки, которые содержат в себе хоть одну строку из поля B.

1
2
3
4
5
6
7
8
9
10
11
12
Например, включаем чекбокс "Не добавлять ссылки, содержащие" и в поле "B" прописываем "VAZ".
 
На входе имеем:
 
http://auto.ru/VAZ.html
http://auto.ru/TAZ.html
http://auto.ru/GAZ.html
 
На выходе получим:
 
http://auto.ru/TAZ.html
http://auto.ru/GAZ.html




Не сохранять ссылки, оканчивающиеся на «/»

— при включении этого фильтра отсеются все ссылки с символом «/» на конце.

1
2
3
4
5
6
7
8
9
10
11
Например, включаем "Не сохранять ссылки, оканчивающиеся на "/"".
 
На входе имеем:
 
http://sbfactory.ru/sample.html/
http://sbfactory.ru/moresample.html
http://sbfactory.ru/more/
 
На выходе получим:
 
http://sbfactory.ru/moresample.html




Сохранять ссылки, оканчивающиеся на «/»

— при включении этого фильтра отсеются все ссылки без символа «/» на конце.

1
2
3
4
5
6
7
8
9
10
11
12
Например, включаем "Сохранять ссылки, оканчивающиеся на "/"".
 
На входе имеем:
 
http://sbfactory.ru/sample.html/
http://sbfactory.ru/moresample.html
http://sbfactory.ru/more/
 
На выходе получим:
 
http://sbfactory.ru/sample.html/
http://sbfactory.ru/more/




Глубина ссылок

— при включении этого фильтра отсеются все ссылки, глубина которых не соответствует заданному диапазону.

Чтобы вам было проще понять, как вычисляется глубина ссылок, приведу следующие примеры:
http://sbfactory.ru — глубина 1
http://sbfactory.ru/sample — глубина 2
http://sbfactory.ru/sample/sample2 — глубина 3
http://sbfactory.ru/sample/sample2/sample.html — глубина4

1
2
3
4
5
6
7
8
9
10
11
12
Например, включаем "Глубина ссылок" и задаем значение диапазона глубины от 3 до 3.
 
На входе имеем:
 
http://sbfactory.ru/sample.html
http://sbfactory.ru/more/article1.html
http://sbfactory.ru/moresample.html
http://sbfactory.ru/more/
 
На выходе получим:
 
http://sbfactory.ru/more/article1.html




Длина ссылок

— при включении этого фильтра отсеются все ссылки, длина которых не соответствует заданному диапазону.

1
2
3
4
5
6
7
8
9
10
Например, включаем "Длина ссылок" и задаем значение диапазона длины от 15 до 17.
 
На входе имеем:
 
http://abcd.ru
http://abc.ru/index.html
 
На выходе получим:
 
http://abcd.ru




Только с данного сайта

— при включении этого фильтра отсеются все ссылки на другие домены.

1
2
3
4
5
6
7
8
9
10
11
12
Например, мы парсим ссылки с сайта http://autosite.ru при включенном флажке "только с данного сайта".
 
На входе имеем:
 
http://autosite.ru/rub1/page_x.html
http://forum.autosite.ru
http://mebelsite.ru/page7.htm
 
На выходе получим:
 
http://autosite.ru/rub1/page_x.html
http://forum.autosite.ru




Переключатели «автоматически»/»добавлять следующее»

— выбор метода преобразования относительных ссылок в абсолютные.

При парсинге большинства сайтов программа встречает относительные ссылки вида «/page_x.html» или «/auto/index.php». Чтобы продолжать работать с такими ссылками, их нужно преобразовать в абсолютные вида «http://auto.ru/page_x.html».

Если перевести переключатель в позицию «автоматически», то программа подставит в начало каждой относительной ссылки тот адрес, с которого происходит парсинг ссылок.

Если же выбрать «добавлять следующее», то программа добавит в начало каждой относительной ссылки текст из соответствующего поля.




Удалять «www» из каждой ссылки

1
2
3
4
5
6
7
8
9
На входе имеем:
 
http://www.autosite.ru/rub1/page_x.html
http://mebelsite.ru/page7.htm
 
На выходе получим:
 
http://autosite.ru/rub1/page_x.html
http://mebelsite.ru/page7.htm




Удалять «/» на конце каждой ссылки

1
2
3
4
5
6
7
На входе имеем:
 
http://www.autosite.ru/rub1/
 
На выходе получим:
 
http://autosite.ru/rub1




Удалять следующие параметры из ссылок

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Например, есть ссылка вида http://site.ru/page?id=757&city=5&param=333, где id, city, param - параметры.
Вы можете удалить часть параметров (или все параметры).
Например, пропишем в окно C следующий текст:
id
param
 
На входе будем иметь:
 
http://site.ru/page?id=757&city=5&param=333
 
На выходе получим:
 
http://site.ru/page?city=5
 
То есть из всех ссылок будут удаляться указанные параметры (id и param)




Поиск-замена

Эта функция позволяет заменить некоторые части ссылок (или ссылки целиком).
Подробнее о функции поиск-замены можно почитать тут.

1
2
3
4
5
6
7
8
9
10
11
12
Пропишем в окно D следующий текст:
model.xml|model-spec.xml
 
На входе будем иметь:
 
http://market.yandex.ru/model.xml?modelid=4925825&hid=90564
 
На выходе получим:
 
http://market.yandex.ru/model-spec.xml?modelid=4925825&hid=90564
 
То есть, model.xml заменится на model-spec.xml




Специальные операторы шаблонов фильтров ссылок

Оператор [TEXTEND] служит для обозначения конца ссылки. Например, есть несколько видов ссылок:

1
2
3
/catalog/build/shpaklevka/?Producer= 
/catalog/build/shpaklevka/?Producer=45
/catalog/build/shpaklevka/?Producer=47

И вам нужно оставить только те, что НЕ оканчиваются на Producer=:

1
2
/catalog/build/shpaklevka/?Producer=45
/catalog/build/shpaklevka/?Producer=47

Тогда в поле B (смотрите первый скриншот сверху) необходимо добавить /?Producer=[TEXTEND]. Тем самым, мы будем отсеивать ссылки, оканчивающиеся на /?Producer=).

Примечание: Оператор [TEXTEND] не работает совместно с режимом регулярного выражения (re:).

Смотрите также: Использование регулярных выражений в фильтрах ссылок и в фильтрах списка очереди сканера сайтов


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 8, средний балл: 5,00)

Загрузка...
Автор: admin, 10 октября 2010
Рубрики: Парсинг
Метки: , ,
6 комментариев к сообщению: “Фильтры ссылок (отсеивание лишних ссылок при парсинге)”
  1. Andrey:

    К уже собранным ссылкам: правый клик по списку ссылок — применить фильтры к списку ссылок.
    —работает только в очереди ссылок, в собранных ссылках нет такого пункта.
    Есть ли другме способы чтобы отсеить уже собранные?

  2. Андрей:

    как быть в такой ситуации? Мне нужно выбрать из всего многообразия спарсенных со странице ссылок такого типа http://www.domen.ru/name-category-tra-ta а name-статичен всегда, category задается параметором key.

  3. Андрей:

    Как сделать так чтобы ссылки собирались в том порядке как они идут в каталоге? или только ссылки с class=»products»?

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php