Как сделать поиск элементов нужной повторяющейся границы в тексте обычной границы парсинга, а не в целом коде WEB-документа

Content Downloader

Content Downloader

Например, вам нужно спарсить повторяющимися границами определенный блок картинок, ссылки которых находятся между src=" и ". Если вы зададите начало повторяющейся границы, как src=" и конец, как ", то, следует ожидать, что в результат работы повторяющихся границ попадут ссылки на все картинки с веб-страницы (так как все они содержатся между src=" и ").

Чтобы ограничить поиск указанных повторяющихся границ только в определенной части кода веб-документа, например, в <div class="ProductImages">…</div>, то задайте, к примеру, начало обычной границы парсинга 20, как – <div class="ProductImages">, а ее конец, как – </div>. В настройке повторяющихся границ ctrl+5 правее шаблона каждой повторяющейся границы есть выпадающий список, пропишите там число 20 (чтобы повторяющиеся границы парсинга искались в тексте заданной ранее границы парсинга 20).

Также вы можете применять этот метод для того, чтобы парсить только со второй или третьей ссылки на картинку (пропустить первую и вторую). Для этого задайте нашу обычную границу парсинга 20 так, чтобы она брала код документа только от второй или третьей картинки. Если таким образом не получается задать границу парсинга 20, то вернитесь в главное окно программы, нажмите ctrl+4 (дополнительные настройки границ парсинга), откройте вкладку с границей парсинга 20 и примените к ней поиск-замену (чтобы отрезать первую или первую и вторую картинку от ее начала):

{skip}src="|
{skip}src="|

Вышепредставленный пример поиск-замены два раза отрежет текст от начала кода границы парсинга 20 до первого src=". Таким образом мы отрежем две первые ссылки на картинку для нашей повторяющейся границы парсинга.

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 4, средний балл: 5.00)
Loading...
Автор: admin, 28 June 2014
Рубрики: Парсинг
Есть 4 коммент. к сообщению: “Как сделать поиск элементов нужной повторяющейся границы в тексте обычной границы парсинга, а не в целом коде WEB-документа”
  1. Евгений says:

    Здравствуйте!

    А подскажите пожалуйста, почему

    {skip}src=”|
    {skip}src=”|

    вырежет только для двух первых вхождений. Почему это работает например без макроса [ONCE]
    Вот здесь читал: http://sbfactory.ru/cd/?p=644 что поиск-замена будет работать для всех вхождений.

    Видимо это как то связано с тем, что границы вложены в другие.
    Если не сложно, объясните пошагово (как в логах парсера), какой шаг за каким выполняется в этом случае. Буду премного благодарен.
    Спасибо

    • admin says:

      Здравствуйте.

      Потому, что конструкция поиск-замены со {skip} в начале разово заменит текст от начала до первого попавшегося вхождения.

      http://sbfactory.ru/cd/?p=644

      С уважением к вам, Сергей.

  2. Timur says:

    Огромнейшее спасибо Сергей! Программа мега крутая! Успехов Вам, и будьте здоровы!!!

Написать комментарий к admin

Последние статьи

css.php