Извлечение из HTML-кода URL-адресов с желаемыми анкорами ([GETURLSBYANCHORS])



Макрос извлекает из HTML-кода желаемые адреса ссылок и построчно выводит их в результат (с возможностью вывода анкоров). С помощью макроса [GETURLSBYANCHORS] можно с легкостью парсить, например, URL-адреса страниц форм обратной связи с большого списка сайтов.

1
[GETURLSBYANCHORS(параметры)]HTML-код, содержащий теги a[/GETURLSBYANCHORS]

Параметры указываются построчно (либо разделяются комбинацией символов ||).
Если в качестве параметров указать символ *, то макрос извлечет все адреса ссылок из HTML-кода:

1
[GETURLSBYANCHORS(*)]HTML-код, содержащий теги a[/GETURLSBYANCHORS]

Если добавить [ADDANCHOR] в любое место параметров (добавляется один раз в независимости от количества введенных параметров):

1
[GETURLSBYANCHORS(*[ADDANCHOR])]HTML-код, содержащий теги a[/GETURLSBYANCHORS]

То в результате работы макроса к каждому URL будут добавлены их анкоры ссылок (URL||анкор).

Для исключения попадания дублей ссылок в результат (в пределах каждого одного документа), добавьте [NODUP] в любое место параметров (добавляется один раз в независимости от количества введенных параметров):

1
[GETURLSBYANCHORS(*[ADDANCHOR][NODUP])]HTML-код, содержащий теги a[/GETURLSBYANCHORS]

То в результате работы макроса к каждому URL будут добавлены их анкоры ссылок (URL||анкор).

Если указать следующие параметры:

1
2
3
карта
адрес
[ADDANCHOR]

То в результате работы макроса вы можете получить:

1
2
http://...||карта сайта
http://...||адреса компании

Как видим, макрос будет искать вхождения параметров в анкорах ссылок. При наличии одного из вхождений, программа добавит ссылку в результат.

Также в параметрах можно использовать регулярные выражения (http://sbfactory.ru/cd/?p=2332). Для этого добавьте re: в начало соответствующих параметров:

1
2
3
карта
re:регулярное выражение
адрес

Примечание: Для изменения модификаторов регулярных выражений (возможность включения регистронезависимого режима и прочее), пользуйтесь строкой модификаторов (ctrl+8 -> вкладка “RegExpr”). Например, чтобы включить регистронезависимый режим, используйте такую строку модификаторов: gsrimx.

1 Star2 Stars3 Stars4 Stars5 Stars (Еще нет оценок)
Loading...
Вы можете пропустить до конца и оставить ответ. Pinging в настоящее время не доступны.

Есть 2 коммент. к теме: “Извлечение из HTML-кода URL-адресов с желаемыми анкорами ([GETURLSBYANCHORS])”

  1. Djah says:

    Отличная функция – спасибо.

    А не подскажете, форум на писанину заработает, а то есть вопросы, а поговорить не с кем 🙁

    • admin says:

      Здравствуйте.

      Пожалуйста. И вам спасибо на добром слове!

      Можете обратиться к специалистам по настройке http://sbfactory.ru/?p=3534, они всегда рады общаться.

      С уважением к вам, Сергей.

Написать комментарий

Пожалуйста, ознакомьтесь с правилами комментирования (причина УДАЛЕНИЯ некоторых комментариев)

Добавить изображение к комментарию (jpg)