Многие сайты имеют rss ленты для рассылки новостей. Rss парсер – Content Downloader позволит вам загрузить нужную информацию прямо из рсс лент.
Почти все парсеры rss загружают только содержимое лент (часто это обрезанные анонсы новостей), чего не всегда достаточно. С помощью программы Content Downloader можно парсить полные новости, ссылки которых находятся в rss ленте.
Так как новостные ленты структурированы, и вся информация заключена между определенными повторяющимися тегами (например, loc), мы без труда сможем собрать ссылки на новости с помощью нашего парсера rss. После чего сразу же можно будет приступить к загрузке новостей по этим ссылкам.
Посмотрев следующее видео, вы более наглядно ознакомитесь с работой rss парсера:
На видео показан этап получения ссылок на посты. Далее мы можем приступить к загрузке самих постов, настроив вывод в удобный для нас формат.
Парсер rss имеет функцию автоматического определения текста статьи в загружаемом документе. Это очень удобно при загрузке новостей из нескольких источников одновременно, так как при автоматическом поиске текста статьи не нужно задавать диапазоны парсинга.
|
Если у вас есть какие-либо вопросы, касающиеся работы программы, вы можете обращаться к нам по ICQ 571-880-051.
В этом случае, я так понимаю, полностью все статьи с сайта вытянуть невозможно в силу ограничения количества вывода статей в РСС? Так ли?
В этом случае нет, но можно пойти другим способом http://sbfactory.ru/cd/?p=3 (отсканировать весь сайт).
Ребята, спасибо вам большое! Классные программы, подробное описание, короче, отличный сайт! Пользуюсь Contetn Dowladerom третий год очень доволен. Поддержка на высшем уровне
Спасибо вам на добром слове, очень приятно.
А как быть, если требуется запуск по расписанию? Ведь в данном случае материал будет дублироваться? Можно реализовать проверку url? Скажем если статья уже была сохранена, второй раз её брать не требуется?