Как парсить ссылки с определенным proirity из XML карты сайта

Допустим, есть XML карта сайта, элементы которой имеют атрибут priority

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
<url>
  <loc>http://...</loc>
  <lastmod>2019-03-18</lastmod>
  <changefreq>weekly</changefreq>
  <priority>0.7</priority>
</url>
 
<url>
  <loc>http://...</loc>
  <lastmod>2019-03-18</lastmod>
  <changefreq>weekly</changefreq>
  <priority>0.8</priority>
</url>
 
<url>
  <loc>http://...</loc>
  <lastmod>2019-03-18</lastmod>
  <changefreq>weekly</changefreq>
  <priority>0.9</priority>
</url>
 
...

Например, у ссылок на товары атрибут priority может быть равен 0.8, а у остальных ссылок (не на товары) значение этого атрибута может быть другим. А нужно спарсить только ссылки на товары (с priority=0.8). Для этого в инструменте парсинга ссылок из XML карт сайта есть возможность фильтрации получаемых URL по указанным атрибутам XML элементов.


Content Downloader (парсинг XML карт сайтов)


1) Открываете инструмент парсинга XML карт сайтов (как показано на скриншоте выше)
2) Вставляете адрес XML карты сайтов в соответствующее поле (как показано на скриншоте выше)
3) Открываете настройку фильтров по атрибутам элементов, кликнув по attr filters
4) Выбираете нужный тип фильтрации («брать» или «фильтровать»)
5) В поле «название родительского элемента» указываете имя того тега, в котором содержатся атрибуты элементов, например url (для понимания проанализируйте пример кода карты сайта, приведенный выше)
6) В поле «название|значение» построчно указываете имена атрибутов и их значений, по которым нужно произвести отбор или фильтрацию
7) Жмете кнопку «загрузить карту сайта» и получаете результат.


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 1, средний балл: 5,00)

Загрузка...
Автор: admin, 10 июля 2020
Рубрики: Парсинг
Метки: , , , , ,

Последние статьи

css.php