Поиск конца обычных границ парсинга в обратном направлении (параметр инверсия)

Допустим, имеем следующий HTML-код:

1
2
3
...
<img src="URL" class="BIG">
...

И нам нужно спарсить URL только той картинки, которой присвоен class BIG (что стоит после нужного нам URL), зацепившись за " class="BIG". То есть, пойти от начала WEB-документа до " class="BIG" и потом обратно (к началу документа) до src=" и взять код между этими границами — URL.

Для решения подобных задач нужно использовать инверсию. Эта опция есть у каждой обычной границы парсинга.

Включить эту опцию для нужной или нужных границ парсинга вы можете в инструменте задания границ парсинга (ctrl+f1). Кнопка включения/выключения инверсии располагается на верхней панели инструментов и имеет иконку в виде английской буквы i (хоткей ctrl+i).

Итак, чтобы решить нашу задачу, в инструменте задания границ парсинга (ctrl+f1) включаем инверсию (ctrl+i), выделяем в коде " class="BIG" и жмем «задать начало парсинга» (f1). Затем выделяем src=" и жмем «задать конец парсинга» (ctrl+f2). ГОТОВО! В итоге у нас спарсится желанный URL!

Поясняю алгоритм: Content Downloader (при включенном параметре «инверсия» у определенной границы парсинга) ищет начало парсинга «как обычно». Как только программа нашла в коде WEB-документа начало парсинга, поиск конца парсинга начинается не к концу документа, а к началу документа (в обратном направлении).

Желаем вам успехов и приятной работы!

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 4, средний балл: 4,75)
Загрузка...
Автор: admin, 10 июля 2014
Рубрики: Парсинг
Метки: , ,
5 комментариев к сообщению: “Поиск конца обычных границ парсинга в обратном направлении (параметр инверсия)”
  1. гость:

    Спасибо, давно и часто не хватало этой функции!!

  2. MAX3000:

    Отличная доработка! Давно ждал! Спасибо!

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php