Как парсить только новые товары на сайте (уже спарсенные ранее фильтровать)

Ссылки собираются в полном объеме. Фильтрация ранее спарсенных URL осуществляется на уровне парсинга во вкладке «Контент».

Просто укажите путь к файлу на диске (он может не существовать, быть пустым или уже содержать URL-адреса), как показано на скриншоте.

Content Downloader

При запуске процедуры парсинга (при предпросмотре эта фильтрация не срабатывает по понятным причинам) из списка ссылок удаляются URL-адреса, которые содержатся в подключенном файле.

Content Downloader

При парсинге в подключенные файл будут дозаписываться URL-адреса документов, чтобы исключить их повторный парсинг в будущем, что обеспечит загрузку только новых WEB-документов, появляющихся на сайте.

1 Star2 Stars3 Stars4 Stars5 Stars (Еще нет оценок)
Загрузка...
Автор: admin, 8 июня 2019
Рубрики: Парсинг

Последние статьи

css.php