Задание обычных границ парсинга

Важно усвоить в первую очередь:

Дополнительные видео-материалы

Примечание: Если код WEB-документа (получаемый программой) отличается от содержимого WEB-страницы в браузере
Content Downloader

При использовании библиотек запросов INDY, Clever Internet Suite или WIN (выбор осуществляется в окне настроек HTTP-запросов, ctrl+h) программа отсылает простой GET (или POST) запрос к сайту с HTTP-заголовками (User Agent, Cookie, Custom Headers) прописанными в окне ctrl+h. В ответ на этот запрос может приходить код, отличный от кода, который получает WEB-браузер.

Когда вы в окне ctrl+h включаете библиотеку Internet Explorer (DOM), то для получения кода WEB-документа используется браузер Internet Explorer (установленный в системе). В этом случае HTTP-заголовки из окна ctrl+h в браузер не передаются (а берутся из браузера Internet Explorer системы), и выполняются все скрипты на WEB-странице (которые могут подгружать нужные данные).

Браузер, который расположен в нижней части окна задания границ парсинга и служит для осуществления удобной навигации по коду, посылает свои отдельные запросы к сайту и работает аналогично Internet Explorer (DOM). По умолчанию в нем выполнение скриптов отключено!

Content Downloader


При использовании библиотек запросов INDY, Clever Internet Suite или WIN (выбор осуществляется в окне настроек HTTP-запросов, ctrl+h) код, получаемый от сайта может отличаться от кода, который получает WEB-браузер по двум причинам:
1) Разные HTTP-заголовки (у GET или POST запроса, посылаемого программой и браузером);
2) Дополнительные данные подгружаются скриптами в браузере в момент выполнения WEB-страницы.

Чтобы программа получала такой же код WEB-документа, как и браузер, в первом случае достаточно передать HTTP-заголовки, например, Cookie, в окно ctrl+h. Во втором случае можно воспользоваться этим способом или включить Internet Explorer (DOM) в окне ctrl+h (чтобы запросы выполнял Internet Explorer с Cookie, взятыми из Internet Explorer системы).

Порядок задания обычных границ парсинга:

ВАЖНОЕ ПРИМЕЧАНИЕ: Для инструмента задания границ парсинга (Ctrl+F1 из вкладки “Контент”) есть возможность выбрать движок браузера навигации (что находится в нижней части инструмента). Для этого откройте окно с опциями программы (главное меню – настройка – опции программы (F8)) и во вкладке “Разное” выберите желаемый движок браузера навигации
1) Chromium – современный быстрый браузер (рекомендуется использовать этот движок)
При задании границ парсинга для навигации по коду с использованием Chromium наведите курсор на желаемый элемент WEB страницы (например, картинку) и нажмите кнопку F4
2) Internet Explorer
При задании границ парсинга для навигации по коду с использованием Internet Explorer просто кликните по желаемому элементу WEB страницы (например, по картинке)
PS: Chromium лучше всего работает на Windows 10

– если в списке ссылок главного окна программы нет ни одного элемента, то добавьте хотя бы один (F8)
– откройте редактор шаблона вывода (соответствующая кнопка на панели инструментов главного окна программы или ctrl+2) Примечание: Упрощенный дублер шаблона вывода находится в центральной части вкладки “Контент” (в главном окне программы). Часто удобнее использовать его вместо полного редактора (ctrl+2).
– выделите в дереве слева нужную границу парсинга, кликните по ней правой кнопкой мыши и в контекстном меню выберите соответствующий пункт

скриншот 1:
Content Downloader


В открывшемся окне задания границ парсинга (скриншот 2):

Content Downloader

1 – форма поиска по коду WEB документа
2 – название задаваемой границы парсинга (задаете любое удобное)
3 – список выбора границ парсинга для задания
4 – Количество пропущенных вхождений начала парсинга от начала WEB документа до места, где вы выделили начало парсинга при его задании (смотрите видео для более детального понимания)
5 – начало парсинга
6 – Количество пропущенных вхождений конца парсинга от заданного ранее начала парсинга (смотрите видео для более детального понимания)
7 – конец парсинга
8 – применение заданных настроек и закрытие инструмента задания границ парсинга

Границы парсинга имеют начало и конец (все, что в коде WEB документа между началом и концом будет взятой границей парсинга). Выделяете в коде начало и жмете F1, затем выделяете в коде конец и жмете F2. После этого граница парсинга задана. Для подробного усвоения алгоритма задания границ парсинга ознакомьтесь с видео в начале страницы.

Если вы хотите задать несколько границ парсинга, выбирайте их в списке с меткой 3 (смотрите скриншот 2).

После задания границ парсинга нажимайте кнопку с меткой 8 (смотрите скриншот 2) для сохранения настроек и выхода из инструмента задания границ парсинга.

Для закрытия инструмента задания границ парсинга без сохранения настроек нажимайте escape.

Примечание: Если в коде WEB документа нет каких-либо данных, например, цены или картинок, или описания, то, скорее всего они подгружаются скриптами в браузере. Для парсинга подгружаемых данных вы можете включить использование движка браузера для загрузки кода WEB документа (отметьте галочку “контент” в окне настроек HTTP запросов программы, ctrl+h).

ОДНОЗНАЧНО ВАЖНО УСВОИТЬ:

– Поиск начала границы парсинга выполняется от начала кода WEB документа
– Поиск конца границы парсинга выполняется от найденной позиции начала границы парсинга
– Номера вхождений для начала и конца границы парсинга (отмечены зелеными маркерами на скриншоте 2 (ниже)) устанавливают: какое найденное по счету вхождение определять, как начало или конец границы парсинга
– В начале или конце границ парсинга можно использовать оператор {skip}. Например:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Начало или конец границы парсинга, заданные, как:
<div id="product{skip}">
 
Будет находить:
<div id="product_337">
 
Или:
<div id="product_338">
 
 
 
Начало или конец границы парсинга, заданные, как:
<div id="product">{skip}<div id="descripton">
 
Будет находить:
<div id="product">
<a href="...">...
<div id="descripton">
 
Или:
<div id="product">
<ul><li>...</li></ul>
<div id="descripton">

После задания границ парсинга возвращаемся в главное окно программы или к редактору шаблона вывода (ctrl+2) и выполняем следующие действия:

– вставляем макросы заданных границ парсинга в редактор шаблона вывода (двойной клик по границе парсинга в дереве слева или перетаскивание, смотрите скриншот 1)
– выполняем предпросмотр результата парсинга контента (ctrl+f2)
– готово, границы парсинга заданы


Дополнительно:

– Для обработки текста заданных границ парсинга можете пользоваться “дополнительными настройками границ парсинга” (данная кнопка выделена красным маркером на скриншоте 1);
– Номер тега начала и конца парсинга (метки 4 и 6 на скриншоте 2) указывают на то, сколько раз встретилось начало парсинга от начала кода документа, до фактического места задания начала парсинга, и сколько раз встретился конец парсинга от начала парсинга, до фактического места задания конца парсинга;
– Если в тексте начала или конца парсинга есть динамическая часть, которая изменяется от одного документа к другому, то закомментируйте ее макросом {skip} (например: div id={skip});
– Обратите внимание на кнопку [+] на панели инструментов окна задания границ парсинга (смотрите скриншот 2). Если ее нажать, то границы парсинга будут парситься в месте с текстом начала и конца парсинга.

Content Downloader


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 9, средний балл: 5.00)

Loading...
Автор: admin, 7 December 2013
Рубрики: Парсинг
Есть 10 коммент. к сообщению: “Задание обычных границ парсинга”
  1. Макс says:

    Обратите внимание на кнопку [+] на панели инструментов окна задания границ парсинга (скриншот 1)

    Тут видимо опечатка, должно быть скриншот 2

  2. Игорь says:

    Как сделать выборку content-ов из тегов meta name=”keywords”, со всех файлов на локальном диске. С выборкой в 1 файл. Два часа мучился ничего не получилось.

  3. Игорь says:

    в выбранной папке разумеется

    • admin says:

      Здравствуйте.

      1) Добавить список файлов с локального диска в программу http://sbfactory.ru/cd/?p=1321

      2) Задать границу парсинга для keywords и поместить ее макрос в шаблон вывода

      3) В той же самой вкладке “Контент” нажать на кнопку “парсить в 1 файл” (чтобы она стала активной) и запустить парсинг (F5)

      Если у вас будут еще вопросы, пожалуйста, задавайте их на форуме. Спасибо!

      С уважением к вам, Сергей.

  4. гузель says:

    задаю границы цен на товар а цена сохраняется только на один товар,подскажите пож?

    • admin says:

      Здравствуйте.

      Полагаю, что некорректно их задаете. Нужно задать универсальный вариант границ, чтобы на разных страницах товаров он “работал”.

      Пожалуйста, создайте тему на форуме с вашим вопросом – поможем решить задачу.

      Спасибо!

  5. виталий says:

    здравствуйте!

    если я не разу не сталкивался с парсингом, собираюсь купить программу, смогу ли я разобраться и что для этого нужно?

    • admin says:

      Здравствуйте.

      Думаю, сможете! Для этого нужно ознакомиться с материалами системы помощи (где вы и находитесь).

      С уважением к вам, Сергей.

  6. Камиль says:

    Здравствуйте, как добавить ячейки для границ парсинга?

Написать комментарий к admin

Последние статьи

css.php