Парсинг ссылок из XML-карты сайта

Примечание:
Большинство сайтов имеют XML-карту, содержащую ссылки на статьи/товары и прочее. Обычно карта располагается по адресу http://SBFactory.ru/sitemap.xml (в корне). Просто попробуйте открыть подобный адрес у себя в браузере. Если карты сайта по такому адресу не будет, проверьте файл robots.txt (http://SBFactory.ru/robots.txt), в котором может быть строка Sitemap: http://sbfactory.ru/sitemap.xml и ей подобные.


Загрузка только новых/измененных ссылок из карты сайта (определяется по XML-атрибуту lastmod)

Content Downloader

Content Downloader

Content Downloader


Загрузка вложенных XML-карт сайтов

Под составными картами сайтов понимаются XML документы, содержащие ссылки на вложенные XML карты.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
<sitemapindex xmlns="***">
<sitemap>
<loc>http://www *** ru/sitemap1.xml</loc>
<lastmod>2017-09-26</lastmod>
<changefreq>daily</changefreq>
</sitemap>
<sitemap>
<loc>http://www *** ru/sitemap2.xml</loc>
<lastmod>2017-09-26</lastmod>
<changefreq>daily</changefreq>
</sitemap>
<sitemap>
<loc>http://www *** ru/sitemap3.xml</loc>
<lastmod>2017-09-26</lastmod>
<changefreq>daily</changefreq>
</sitemap>
<sitemap>
<loc>http://www *** ru/sitemap4.xml</loc>
<lastmod>2017-09-26</lastmod>
<changefreq>daily</changefreq>
</sitemap>

Открываем инструмент для парсинга XML карт сайтов

Content Downloader (парсинг XML карт сайтов)


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 4, средний балл: 4.75)

Loading...
Автор: admin, 28 April 2014
Рубрики: Парсинг
Tags: , , , ,
Есть 7 коммент. к сообщению: “Парсинг ссылок из XML-карты сайта”
  1. tremmer says:

    А html-карту сайта есть инструменты пропарсить?

  2. Кэн says:

    как парсить XML-карту сайта, если она состоит из списка карт сайт ?

  3. user says:

    а что делать если карта сайта содержит ссылки на другие запакованные (gz) карты сайта?

  4. SV says:

    Во вложенной карте сайта есть большое количество каталогов, но мне необходимы выборочные, как спарсить только те каталоги и товары, которые нужны?

Написать комментарий

Последние статьи

css.php