Парсинг RSS лент


Для начала добавим адрес RSS ленты в список парсинга (клавиша F8):

Content Downloader - парсинг RSS лент

Все RSS ленты состоят из периодически повторяющихся тегов и контента между ними. Посмотрите на следующий скриншот:

Content Downloader - парсинг RSS лент

На рисунке показана часть кода RSS ленты. Ссылки на посты находятся в повторяющемся теге guid (выделено зеленым на первом скриншоте). Для получения этих ссылок необходимо использовать повторяющиеся границы парсинга (читать про повторяющиеся границы).

Задаем границы:

Content Downloader - парсинг RSS лент

В итоге получим результат в виде списка ссылок на последние посты сайта:

Content Downloader - парсинг RSS лент



Видео: пример парсинга ссылок с RSS лент



Прикрепленные файлы:

Файл проекта программы

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 2, средний балл: 3,00)
Загрузка...
Автор: admin, 23 октября 2010
Рубрики: Приемы парсинга
Метки: , ,
3 комментария к сообщению: “Парсинг RSS лент”
  1. John:

    А как быть, если требуется запуск по расписанию? Ведь в данном случае материал будет дублироваться? Можно реализовать проверку url? Скажем если статья уже была сохранена, второй раз её брать не требуется?

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php