Парсинг ссылок из XML карты сайта
Почти у всех сайтов есть XML карта, содержащая в себе все ссылки на статьи или на товары. Спарсив из нее ссылки можно очень быстро и просто собрать все нужные URL с сайта. Как правило, карта сайта располагается по адресу домен/sitemap.xml.
Чтобы найти адрес XML карты сайта нужно открыть файл robots.txt, который часто располагается в корне сайта, например
В файле robots.txt обращаем внимание на строку с Sitemap: …
Далее открываем XML карту сайта в браузере, чтобы убедиться, что в ней содержатся нужные ссылки и проверить другую информацию
Обратите внимание на тег, в котором содержатся ссылки на товары, это <loc>.
Также обратите внимание на тег <lastmod>. В этом XML теге содержится информация о дате последнего изменения. Если дата слишком старая, то, скорее всего, сайт прекратил обновление карты и она теперь содержит не актуальный список URL. В таком случае нужно парсить ссылки с сайта, например, инструментом “Сканер сайтов”.
Для парсинга ссылок из XML карт сайтов достаточно перейти во вкладку “Ссылки”, открыть инструмент “Загрузка ссылок из XML-карты сайта (shift+ctrl+m)” и выполнить необходимые действия. В данном случае просто вводим URL карты и нажимаем кнопку “загрузить карту сайта”
Также обратите внимание на возможность применения фильтров ссылок при парсинге URL из XML карт сайтов. После настройки фильтров ссылок и включения опции “использовать фильтры ссылок” необходимо очистить список собранных URL (F7) и снова нажать на кнопку “загрузить карту сайта”
Парсинг ссылок из составной XML карты сайта
Если вы нашли URL XML карты сайта, открыли ее и увидели, что она является составной (то есть в ней ссылки не на товары или статьи, а на вложенные карты), то для ее парсинга включите опцию “HasChildrenMaps”. В этом случае будут спарсены ссылки из всех вложенных XML карт сайтов