Парсинг ссылок из XML-карты сайта

Примечание:
Большинство сайтов имеют XML-карту, содержащую ссылки на статьи/товары и прочее. Обычно карта располагается по адресу http://SBFactory.ru/sitemap.xml (в корне). Просто попробуйте открыть подобный адрес у себя в браузере. Если карты сайта по такому адресу не будет, проверьте файл robots.txt (http://SBFactory.ru/robots.txt), в котором может быть строка Sitemap: http://sbfactory.ru/sitemap.xml и ей подобные.


Загрузка только новых/измененных ссылок из карты сайта (определяется по XML-атрибуту lastmod)

Content Downloader

Content Downloader

Content Downloader


Загрузка вложенных XML-карт сайтов

Content Downloader

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
<sitemapindex xmlns="***">
<sitemap>
<loc>http://www *** ru/sitemap1.xml</loc>
<lastmod>2017-09-26</lastmod>
<changefreq>daily</changefreq>
</sitemap>
<sitemap>
<loc>http://www *** ru/sitemap2.xml</loc>
<lastmod>2017-09-26</lastmod>
<changefreq>daily</changefreq>
</sitemap>
<sitemap>
<loc>http://www *** ru/sitemap3.xml</loc>
<lastmod>2017-09-26</lastmod>
<changefreq>daily</changefreq>
</sitemap>
<sitemap>
<loc>http://www *** ru/sitemap4.xml</loc>
<lastmod>2017-09-26</lastmod>
<changefreq>daily</changefreq>
</sitemap>



Дополнительно:

Парсинг составных XML-карт сайтов (в карте сайта находятся ссылки на несколько XML-карт)


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 3, средний балл: 4,67)

Загрузка...
Автор: admin, 28 апреля 2014
Рубрики: Парсинг
Метки: , , , ,
5 комментариев к сообщению: “Парсинг ссылок из XML-карты сайта”
  1. tremmer:

    А html-карту сайта есть инструменты пропарсить?

  2. Кэн:

    как парсить XML-карту сайта, если она состоит из списка карт сайт ?

  3. user:

    а что делать если карта сайта содержит ссылки на другие запакованные (gz) карты сайта?

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php