Извлечение из HTML-кода URL-адресов с желаемыми анкорами ([GETURLSBYANCHORS])

Извлечение из HTML-кода URL-адресов с желаемыми анкорами ([GETURLSBYANCHORS])



Макрос извлекает из HTML-кода желаемые адреса ссылок и построчно выводит их в результат (с возможностью вывода анкоров). С помощью макроса [GETURLSBYANCHORS] можно с легкостью парсить, например, URL-адреса страниц форм обратной связи с большого списка сайтов.

1
[GETURLSBYANCHORS(параметры)]HTML-код, содержащий теги a[/GETURLSBYANCHORS]

Параметры указываются построчно (либо разделяются комбинацией символов ||).
Если в качестве параметров указать символ *, то макрос извлечет все адреса ссылок из HTML-кода:

1
[GETURLSBYANCHORS(*)]HTML-код, содержащий теги a[/GETURLSBYANCHORS]

Если добавить [ADDANCHOR] в любое место параметров (добавляется один раз в независимости от количества введенных параметров):

1
[GETURLSBYANCHORS(*[ADDANCHOR])]HTML-код, содержащий теги a[/GETURLSBYANCHORS]

То в результате работы макроса к каждому URL будут добавлены их анкоры ссылок (URL||анкор).

Для исключения попадания дублей ссылок в результат (в пределах каждого одного документа), добавьте [NODUP] в любое место параметров (добавляется один раз в независимости от количества введенных параметров):

1
[GETURLSBYANCHORS(*[ADDANCHOR][NODUP])]HTML-код, содержащий теги a[/GETURLSBYANCHORS]

То в результате работы макроса к каждому URL будут добавлены их анкоры ссылок (URL||анкор).

Если указать следующие параметры:

1
2
3
карта
адрес
[ADDANCHOR]

То в результате работы макроса вы можете получить:

1
2
http://...||карта сайта
http://...||адреса компании

Как видим, макрос будет искать вхождения параметров в анкорах ссылок. При наличии одного из вхождений, программа добавит ссылку в результат.

Также в параметрах можно использовать регулярные выражения (http://sbfactory.ru/cd/?p=2332). Для этого добавьте re: в начало соответствующих параметров:

1
2
3
карта
re:регулярное выражение
адрес

Примечание: Для изменения модификаторов регулярных выражений (возможность включения регистронезависимого режима и прочее), пользуйтесь строкой модификаторов (ctrl+8 -> вкладка “RegExpr”). Например, чтобы включить регистронезависимый режим, используйте такую строку модификаторов: gsrimx.

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 1, средний балл: 2.00)
Loading...
Вы можете пропустить до конца и оставить ответ. Pinging в настоящее время не доступны.
Написать комментарий

Пожалуйста, ознакомьтесь с правилами комментирования (причина УДАЛЕНИЯ некоторых комментариев)

Добавить изображение к комментарию (jpg)