Примечание:
Большинство сайтов имеют XML-карту, содержащую ссылки на статьи/товары и прочее. Обычно карта располагается по адресу http://SBFactory.ru/sitemap.xml (в корне). Просто попробуйте открыть подобный адрес у себя в браузере. Если карты сайта по такому адресу не будет, проверьте файл robots.txt (http://SBFactory.ru/robots.txt), в котором может быть строка Sitemap: http://sbfactory.ru/sitemap.xml и ей подобные.
Загрузка только новых/измененных ссылок из карты сайта (определяется по XML-атрибуту lastmod)
Загрузка вложенных XML-карт сайтов
Под составными картами сайтов понимаются XML документы, содержащие ссылки на вложенные XML карты.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 | <sitemapindex xmlns="***"> <sitemap> <loc>http://www *** ru/sitemap1.xml</loc> <lastmod>2017-09-26</lastmod> <changefreq>daily</changefreq> </sitemap> <sitemap> <loc>http://www *** ru/sitemap2.xml</loc> <lastmod>2017-09-26</lastmod> <changefreq>daily</changefreq> </sitemap> <sitemap> <loc>http://www *** ru/sitemap3.xml</loc> <lastmod>2017-09-26</lastmod> <changefreq>daily</changefreq> </sitemap> <sitemap> <loc>http://www *** ru/sitemap4.xml</loc> <lastmod>2017-09-26</lastmod> <changefreq>daily</changefreq> </sitemap> |
Открываем инструмент для парсинга XML карт сайтов
А html-карту сайта есть инструменты пропарсить?
http://sbfactory.ru/cd/?p=899
как парсить XML-карту сайта, если она состоит из списка карт сайт ?
Здравствуйте.
Для решения подобных задач можно применять сканер сайтов http://sbfactory.ru/cd/?p=3
С уважением к вам, Сергей.
а что делать если карта сайта содержит ссылки на другие запакованные (gz) карты сайта?
Такая же проблема, загружает либо дочерние, либо gz, а дочерние gz не загружает
Во вложенной карте сайта есть большое количество каталогов, но мне необходимы выборочные, как спарсить только те каталоги и товары, которые нужны?
Здравствуйте.
https://disk.yandex.ru/i/coVsoUT5KEGxkA