Как парсить только свежие статьи или товары (фильтрация по дате публикации)

Прежде обратите внимание на материал по парсингу только новых товаров/статей (которые не парсились ранее) -> клик

Далее будет рассмотрен метод фильтрации по дате статьи или товара, опубликованной на WEB-странице.

Сначала парсится дата публикации материала.

Парсинг даты

Поиск-заменой (как показано на скриншоте выше) приводится у нужному формату.

Желательно, чтобы результат парсинга даты выглядел так:

1
2
3
День.Месяц.Год
Либо
День.Месяц.Год Час:Минута

Далее вставьте взятую дату в макрос шаблона вывода [CD_DATE].

Работа с датой при парсинге

Затем посмотрите, корректно ли макрос принимает взятую из кода WEB документа дату. Если нет, приведите ее к нужному формату с помощью поиск-замены.

Вывод спарсенной даты

Теперь посмотрите, как можно изменять выводимую макросом [CD_DATE] дату на определенное время в секундах.

Парсинг даты

Для сравнения этих дат, как чисел, укажите формат вывода {UNIX}.

Вывод дат в формате UNIX Time

Чтобы сравнить взятую из кода WEB документа дату со вчерашней (спарсить только сегодняшние статьи или товары), используйте следующую конструкцию макросов шаблона вывода.

1
2
3
4
5
[IF1]
 
[MATH] [CD_DATE(<CD_GRAN_3!>|0|{UNIX})] < [CD_DATE(now|-86400|{UNIX})] [/MATH]
 
[TEXTEQUAL]{TRUE}[THEN][SKIPFILESDOWNLOADING][CLEARDOC][/IF1]

Макрос [MATH] позволяет внутри себя делать множество сравнений и выводить результат работы в виде {TRUE} или {FALSE}.

Макрос [IF1] проверит, вернул ли [MATH] результат {TRUE}. Если да, то выполнится содержимое, стоящее после [THEN].

При выполнении конструкции [SKIPFILESDOWNLOADING][CLEARDOC] произойдет пропуск скачивания картинок и файлов с очисткой попадания данных в результат парсинга.

Таким образом, товары или статьи с неподходящей датой публикации не попадут в результат парсинга. Что и требуется.


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 1, средний балл: 5.00)

Loading...
Автор: admin, 30 November 2020
Рубрики: Новости
Написать комментарий

Последние статьи

css.php