Как обойтись без регулярных выражений при задании динамически изменяющихся границ парсинга в программе Content Downloader

Друзья, полагаю, вы не раз встречали что-то типа div id=”123abc” при задании границ парсинга. Этот id меняется на разных страницах сайта и прицепиться к нему на первый взгляд невозможно, но это не так.

Задаем границу следующим образом: заместо div id=”123abc” выделяем div id=”123 (если 123 не изменяется) и все дела.

Отсюда должен возникнуть вопрос: что делать с мусором, типа abc”, который будет оставаться в документах. Выход прост – ставим галочку на “парсить с границами”, и включаем функцию преобразования html кода в текст (htm to txt). В этом случае программа полностью спарсит тег div id=”123abc” и потом удалит его (при преобразовании html кода в текст).

Вот и все, спасибо за прочтение.

PS: Если что-то непонятно, задавайте вопросы.

Вы можете оставить комментарий, или поставить трэкбек со своего сайта.

Есть 1 комментарий. к теме: “Как обойтись без регулярных выражений при задании динамически изменяющихся границ парсинга в программе Content Downloader”

  1. WeXX says:

    хороший мануальчик) спасибо)

Написать комментарий

Пожалуйста, ознакомьтесь с правилами комментирования (причина УДАЛЕНИЯ некоторых комментариев)

Добавить изображение к комментарию (jpg)