Парсер XML карт сайтов

Парсинг ссылок из XML карты сайта

Почти у всех сайтов есть XML карта, содержащая в себе все ссылки на статьи или на товары. Спарсив из нее ссылки можно очень быстро и просто собрать все нужные URL с сайта. Как правило, карта сайта располагается по адресу домен/sitemap.xml.

Чтобы найти адрес XML карты сайта нужно открыть файл robots.txt, который часто располагается в корне сайта, например


Парсинг XML карты сайта


В файле robots.txt обращаем внимание на строку с Sitemap: …

Далее открываем XML карту сайта в браузере, чтобы убедиться, что в ней содержатся нужные ссылки и проверить другую информацию


XML карта сайта


Обратите внимание на тег, в котором содержатся ссылки на товары, это <loc>.

Также обратите внимание на тег <lastmod>. В этом XML теге содержится информация о дате последнего изменения. Если дата слишком старая, то, скорее всего, сайт прекратил обновление карты и она теперь содержит не актуальный список URL. В таком случае нужно парсить ссылки с сайта, например, инструментом “Сканер сайтов”.


Для парсинга ссылок из XML карт сайтов достаточно перейти во вкладку “Ссылки”, открыть инструмент “Загрузка ссылок из XML-карты сайта (shift+ctrl+m)” и выполнить необходимые действия. В данном случае просто вводим URL карты и нажимаем кнопку “загрузить карту сайта”

Парсинг ссылок из XML карты сайта


Также обратите внимание на возможность применения фильтров ссылок при парсинге URL из XML карт сайтов. После настройки фильтров ссылок и включения опции “использовать фильтры ссылок” необходимо очистить список собранных URL (F7) и снова нажать на кнопку “загрузить карту сайта”

Фильтрация ссылок при парсинге XML карты


Парсинг ссылок из составной XML карты сайта

Составная XML карта

Если вы нашли URL XML карты сайта, открыли ее и увидели, что она является составной (то есть в ней ссылки не на товары или статьи, а на вложенные карты), то для ее парсинга включите опцию “HasChildrenMaps”. В этом случае будут спарсены ссылки из всех вложенных XML карт сайтов

Парсинг составных XML карт сайтов


1 Star2 Stars3 Stars4 Stars5 Stars (Еще нет оценок)

Loading...
Автор: admin, 31 January 2021
Рубрики: Парсинг
Tags: , ,

Последние статьи

css.php