Как избежать повторной загрузки одних и тех же WEB-документов при следующем парсинге (во вкладке “контент”)

Вкладка “контент” – группа “парсинг и обработка” – кнопка “фильтрация документов при парсинге” -> “файл с загруженными ранее ссылками (для исключения повторного парсинга)”. Укажите там путь к обычному (можно пустому) текстовому файлу. При парсинге каждой ссылки во вкладке “контент” программа будет построчно записывать ее адрес в подключенный файл. При следующем парсинге (например, вы запустите парсинг контента на следующий день) программа удалит из имеющегося в программе списка ссылок те, которые есть в подключенном файле, что исключит повторный парсинг WEB-документов.

Автор: admin, 28 June 2014
Рубрики: Парсинг
Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php