Как избежать повторной загрузки одних и тех же WEB-документов при следующем парсинге (во вкладке «контент»)

Вкладка «контент» — группа «парсинг и обработка» — кнопка «фильтрация документов при парсинге» -> «файл с загруженными ранее ссылками (для исключения повторного парсинга)». Укажите там путь к обычному (можно пустому) текстовому файлу. При парсинге каждой ссылки во вкладке «контент» программа будет построчно записывать ее адрес в подключенный файл. При следующем парсинге (например, вы запустите парсинг контента на следующий день) программа удалит из имеющегося в программе списка ссылок те, которые есть в подключенном файле, что исключит повторный парсинг WEB-документов.

Автор: admin, 28 июня 2014
Рубрики: Парсинг

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php