Поиск конца обычных границ парсинга в обратном направлении (параметр инверсия)

Допустим, имеем следующий HTML-код:

1
2
3
...
<img src="URL" class="BIG">
...

И нам нужно спарсить URL только той картинки, которой присвоен class BIG (что стоит после нужного нам URL), зацепившись за " class="BIG". То есть, пойти от начала WEB-документа до " class="BIG" и потом обратно (к началу документа) до src=" и взять код между этими границами – URL.

Для решения подобных задач нужно использовать инверсию. Эта опция есть у каждой обычной границы парсинга.

Включить эту опцию для нужной или нужных границ парсинга вы можете в инструменте задания границ парсинга (ctrl+f1). Кнопка включения/выключения инверсии располагается на верхней панели инструментов и имеет иконку в виде английской буквы i (хоткей ctrl+i).

Итак, чтобы решить нашу задачу, в инструменте задания границ парсинга (ctrl+f1) включаем инверсию (ctrl+i), выделяем в коде " class="BIG" и жмем “задать начало парсинга” (f1). Затем выделяем src=" и жмем “задать конец парсинга” (ctrl+f2). ГОТОВО! В итоге у нас спарсится желанный URL!

Поясняю алгоритм: Content Downloader (при включенном параметре “инверсия” у определенной границы парсинга) ищет начало парсинга “как обычно”. Как только программа нашла в коде WEB-документа начало парсинга, поиск конца парсинга начинается не к концу документа, а к началу документа (в обратном направлении).

Желаем вам успехов и приятной работы!

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 4, средний балл: 4.75)
Loading...
Автор: admin, 10 July 2014
Рубрики: Парсинг
Tags: , ,
Есть 5 коммент. к сообщению: “Поиск конца обычных границ парсинга в обратном направлении (параметр инверсия)”
  1. гость says:

    Спасибо, давно и часто не хватало этой функции!!

  2. MAX3000 says:

    Отличная доработка! Давно ждал! Спасибо!

Написать комментарий

Последние статьи

css.php