Парсинг RSS лент


Для начала добавим адрес RSS ленты в список парсинга (клавиша F8):

Content Downloader - парсинг RSS лент

Все RSS ленты состоят из периодически повторяющихся тегов и контента между ними. Посмотрите на следующий скриншот:

Content Downloader - парсинг RSS лент

На рисунке показана часть кода RSS ленты. Ссылки на посты находятся в повторяющемся теге guid (выделено зеленым на первом скриншоте). Для получения этих ссылок необходимо использовать повторяющиеся границы парсинга (читать про повторяющиеся границы).

Задаем границы:

Content Downloader - парсинг RSS лент

В итоге получим результат в виде списка ссылок на последние посты сайта:

Content Downloader - парсинг RSS лент



Видео: пример парсинга ссылок с RSS лент



Прикрепленные файлы:

Файл проекта программы

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 2, средний балл: 3.00)
Loading...
Автор: admin, 23 October 2010
Рубрики: Приемы парсинга
Tags: , ,
Есть 3 коммент. к сообщению: “Парсинг RSS лент”
  1. John says:

    А как быть, если требуется запуск по расписанию? Ведь в данном случае материал будет дублироваться? Можно реализовать проверку url? Скажем если статья уже была сохранена, второй раз её брать не требуется?

Написать комментарий

Последние статьи

css.php