Предназначение:
Фильтры используются для отсеивания лишних или корректировки нужных ссылок. Например, при парсинге, вам нужно оставить ссылки на статьи и отсеять лишние (ссылки на рубрики, метки и так далее).
Применение фильтров ссылок:
– При парсинге ссылок в главном окне программы (во вкладке “Ссылки”);
– При сборе ссылок с сайта в окне “Сканер сайтов” (Сканер сайтов вызывается на панели инструментов из главного окна программы);
– К уже собранным ссылкам: правый клик по списку ссылок – применить фильтры к списку ссылок.
Как открыть окно настройки фильтров ссылок:
– Кнопка “фильтры ссылок” на панели инструментов главного окна программы.
Обычно для сбора ссылок требуется указать шаблон для ссылок. Например, ссылки на товары содержат в себе подстроку /Product/, укажите ее в шаблоне для ссылок и в выдачу попадут ссылки, содержащие в себе подстроку /Product/.
В некоторых случаях удобно фильтровать ссылки по их глубине. Например, ссылки на товары, в отличие от других ссылок сайта, имеют глубину 3 http://…/Computers/123.html (количество сегментов ссылок = 3). Вводите глубину ссылок от 3 до 3 и в выдачу попадут нужные ссылки.
Иногда требуется отфильтровать ссылки с помощью регулярных выражений (клик для чтения).
Также можно фильтровать лишние ссылки с помощью фильтра “не добавлять ссылки, содержащие”. Добавьте в этот фильтр построчно перечень подстрок нежелательных ссылок.
Если отфильтровать лишние ссылки на этапе их сбора в полной мере не удается, то можно фильтровать лишние WEB документы при их парсинге во вкладке “Контент”. Например, когда задаете границу парсинга с ценой товара (только страницы товаров содержат в себе стоимость) отметьте эту границу парсинга опцией “обязательна” (в дополнительных настройках границ парсинга, ctrl+4) и в результат парсинга попадут данные с только тех WEB документов, которые содержат в себе стоимость.
Для применения изменений фильтров к выдаче ссылок в реальном времени сделайте предпросмотр парсинга WEB документа во вкладке “Ссылки” (ctrl+f2), в появившемся окне с результатом парсинга ссылок нажмите кнопку “открыть фильтры ссылок” и далее изменяйте фильтры и наблюдайте изменения выдачи URL.
Скриншот окна “настройка фильтров”:
– Задать шаблон для ссылок
– Не добавлять ссылки, содержащие
– Не сохранять ссылки, оканчивающиеся на “/”
– Сохранять ссылки, оканчивающиеся на “/”
– Глубина ссылок
– Длина ссылок
– Только с данного сайта
– Переключатели “автоматически”/”добавлять следующее”
– Удалять “www” из каждой ссылки
– Удалять “/” на конце каждой ссылки
– Удалять следующие параметры из ссылок
– Поиск-замена
– Специальные операторы шаблонов фильтров ссылок
Задать шаблон для ссылок
– при включении этого фильтра отсеются те ссылки, которые не содержат в себе хоть одну строку из поля A (при выключенном чекбоксе “и/или”), которые не содержат в себе каждую строчку из поля A (при включенном чекбоксе “и/или”).
1 2 3 4 5 6 7 8 9 10 11 12 | Например, включаем "Задать шаблон для ссылок" и в поле "А" прописываем "sample". На входе имеем: http://sbfactory.ru/sample.html http://sbfactory.ru/moresample.html http://sbfactory.ru/more.html На выходе получим: http://sbfactory.ru/sample.html http://sbfactory.ru/moresample.html |
Не добавлять ссылки, содержащие
– при включении этого фильтра отсеются те ссылки, которые содержат в себе хоть одну строку из поля B.
1 2 3 4 5 6 7 8 9 10 11 12 | Например, включаем чекбокс "Не добавлять ссылки, содержащие" и в поле "B" прописываем "VAZ". На входе имеем: http://auto.ru/VAZ.html http://auto.ru/TAZ.html http://auto.ru/GAZ.html На выходе получим: http://auto.ru/TAZ.html http://auto.ru/GAZ.html |
Не сохранять ссылки, оканчивающиеся на “/”
– при включении этого фильтра отсеются все ссылки с символом “/” на конце.
1 2 3 4 5 6 7 8 9 10 11 | Например, включаем "Не сохранять ссылки, оканчивающиеся на "/"". На входе имеем: http://sbfactory.ru/sample.html/ http://sbfactory.ru/moresample.html http://sbfactory.ru/more/ На выходе получим: http://sbfactory.ru/moresample.html |
Сохранять ссылки, оканчивающиеся на “/”
– при включении этого фильтра отсеются все ссылки без символа “/” на конце.
1 2 3 4 5 6 7 8 9 10 11 12 | Например, включаем "Сохранять ссылки, оканчивающиеся на "/"". На входе имеем: http://sbfactory.ru/sample.html/ http://sbfactory.ru/moresample.html http://sbfactory.ru/more/ На выходе получим: http://sbfactory.ru/sample.html/ http://sbfactory.ru/more/ |
Глубина ссылок
– при включении этого фильтра отсеются все ссылки, глубина которых не соответствует заданному диапазону.
Чтобы вам было проще понять, как вычисляется глубина ссылок, приведу следующие примеры:
http://sbfactory.ru – глубина 1
http://sbfactory.ru/sample – глубина 2
http://sbfactory.ru/sample/sample2 – глубина 3
http://sbfactory.ru/sample/sample2/sample.html – глубина4
1 2 3 4 5 6 7 8 9 10 11 12 | Например, включаем "Глубина ссылок" и задаем значение диапазона глубины от 3 до 3. На входе имеем: http://sbfactory.ru/sample.html http://sbfactory.ru/more/article1.html http://sbfactory.ru/moresample.html http://sbfactory.ru/more/ На выходе получим: http://sbfactory.ru/more/article1.html |
Длина ссылок
– при включении этого фильтра отсеются все ссылки, длина которых не соответствует заданному диапазону.
1 2 3 4 5 6 7 8 9 10 | Например, включаем "Длина ссылок" и задаем значение диапазона длины от 15 до 17. На входе имеем: http://abcd.ru http://abc.ru/index.html На выходе получим: http://abcd.ru |
Только с данного сайта
– при включении этого фильтра отсеются все ссылки на другие домены.
1 2 3 4 5 6 7 8 9 10 11 12 | Например, мы парсим ссылки с сайта http://autosite.ru при включенном флажке "только с данного сайта". На входе имеем: http://autosite.ru/rub1/page_x.html http://forum.autosite.ru http://mebelsite.ru/page7.htm На выходе получим: http://autosite.ru/rub1/page_x.html http://forum.autosite.ru |
Переключатели “автоматически”/”добавлять следующее”
– выбор метода преобразования относительных ссылок в абсолютные.
При парсинге большинства сайтов программа встречает относительные ссылки вида “/page_x.html” или “/auto/index.php”. Чтобы продолжать работать с такими ссылками, их нужно преобразовать в абсолютные вида “http://auto.ru/page_x.html”.
Если перевести переключатель в позицию “автоматически”, то программа подставит в начало каждой относительной ссылки тот адрес, с которого происходит парсинг ссылок.
Если же выбрать “добавлять следующее”, то программа добавит в начало каждой относительной ссылки текст из соответствующего поля.
Удалять “www” из каждой ссылки
1 2 3 4 5 6 7 8 9 | На входе имеем: http://www.autosite.ru/rub1/page_x.html http://mebelsite.ru/page7.htm На выходе получим: http://autosite.ru/rub1/page_x.html http://mebelsite.ru/page7.htm |
Удалять “/” на конце каждой ссылки
1 2 3 4 5 6 7 | На входе имеем: http://www.autosite.ru/rub1/ На выходе получим: http://autosite.ru/rub1 |
Удалять следующие параметры из ссылок
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | Например, есть ссылка вида http://site.ru/page?id=757&city=5¶m=333, где id, city, param - параметры. Вы можете удалить часть параметров (или все параметры). Например, пропишем в окно C следующий текст: id param На входе будем иметь: http://site.ru/page?id=757&city=5¶m=333 На выходе получим: http://site.ru/page?city=5 То есть из всех ссылок будут удаляться указанные параметры (id и param) |
Поиск-замена
Эта функция позволяет заменить некоторые части ссылок (или ссылки целиком).
Подробнее о функции поиск-замены можно почитать тут.
1 2 3 4 5 6 7 8 9 10 11 12 | Пропишем в окно D следующий текст: model.xml|model-spec.xml На входе будем иметь: http://market.yandex.ru/model.xml?modelid=4925825&hid=90564 На выходе получим: http://market.yandex.ru/model-spec.xml?modelid=4925825&hid=90564 То есть, model.xml заменится на model-spec.xml |
Специальные операторы шаблонов фильтров ссылок
Оператор [TEXTEND] служит для обозначения конца ссылки. Например, есть несколько видов ссылок:
1 2 3 | /catalog/build/shpaklevka/?Producer= /catalog/build/shpaklevka/?Producer=45 /catalog/build/shpaklevka/?Producer=47 |
И вам нужно оставить только те, что НЕ оканчиваются на Producer=:
1 2 | /catalog/build/shpaklevka/?Producer=45 /catalog/build/shpaklevka/?Producer=47 |
Тогда в поле B (смотрите первый скриншот сверху) необходимо добавить /?Producer=[TEXTEND]. Тем самым, мы будем отсеивать ссылки, оканчивающиеся на /?Producer=).
Примечание: Оператор [TEXTEND] не работает совместно с режимом регулярного выражения (re:).
Смотрите также: Использование регулярных выражений в фильтрах ссылок и в фильтрах списка очереди сканера сайтов
К уже собранным ссылкам: правый клик по списку ссылок — применить фильтры к списку ссылок.
—работает только в очереди ссылок, в собранных ссылках нет такого пункта.
Есть ли другме способы чтобы отсеить уже собранные?
Здравствуйте.
Смотрим решение тут http://forum.sbfactory.ru/showthread.php?t=2315
С уважением к вам, Сергей.
как быть в такой ситуации? Мне нужно выбрать из всего многообразия спарсенных со странице ссылок такого типа http://www.domen.ru/name-category-tra-ta а name-статичен всегда, category задается параметором key.
Здравствуйте.
Пожалуйста, создайте на форуме тему с подробным описанием задачи http://forum.sbfactory.ru
С уважением к вам, Сергей.
Как сделать так чтобы ссылки собирались в том порядке как они идут в каталоге? или только ссылки с class=”products”?
Здравствуйте.
Парсить во вкладке “ссылки”.
Если у вас будут еще вопросы, пожалуйста, задавайте их на форуме.
С уважением к вам, Сергей.