Как парсить контент (основы)

Content Downloader

Перед нами главное окно программы с открытой вкладкой “контент”. Тут будет происходить самая основная и самая важная часть работы по настройке проектов.

Перед тем, как браться за настройку, сбросьте все опции, выбрав: меню – “файл” – “создать новый проект”, либо: меню – “файл” – “создать новый проект с базовыми настройками для CSV” (если вы планируете парсить в CSV файл(ы)).

Прежде всего необходимо добавить хотя бы один адрес WEB-страницы в список ссылок (F8), или спарсить ссылки наиболее подходящим для парсинга выбранного сайта способом. Инструкции по парсингу ссылок вы можете найти в разделе “парсинг и добавление ссылок” на главной странице системы помощи.

После добавления ссылок, необходимо указать программе, что именно вам нужно парсить: определенные данные со страниц или WEB-страницы целиком. Для парсинга WEB-документов целиком, в шаблон вывода (ctrl+2) достаточно добавить макрос [DOCSOURCE].

Если вы хотите парсить определенные части страниц, например, характеристики товара с интернет-магазина, то сначала задайте границы парсинга для нужных вам данных (укажите программе, что именно нужно парсить), а затем, в нужном порядке, вставьте макросы заданных границ парсинга в редактор шаблона вывода (макросы границ парсинга расположены в дереве макросов редактора шаблона вывода).

Структура сохраняемых документов задается в редакторе шаблона вывода (ctrl+2). В шаблон вывода вы можете вставить любой текст или код, который будет сохраняться вместе с результатами парсинга страниц на диск. Также в шаблоне вывода имеется множество макросов для обработки данных. Выделите в дереве макросов нужный элемент и внизу появится его краткое описание с примером использования.

Опции сохранения результатов парсинга контента (парсить в один файл или в разные, путь сохранения файлов, расширение сохраняемых файлов…) настраиваются во вкладке “контент”, в группе “сохранение результата”.

В ходе выполнения настройки вы всегда сможете выполнить предпросмотр результата парсинга для нужной ссылки. Для этого дважды кликните по любой ссылке из списка. В нижней части окна предпросмотра результатов парсинга контента есть лог выполнения функций и макросов. Кликая по элементам этого лога, вы можете видеть все изменения контента и анализировать работу макросов.

После того, как вы выполните все настройки, вам нужно будет запустить парсинг (F5) и дождаться его завершения. В ходе парсинга, ссылки из списка будут постепенно удаляться, пока их и вовсе не останется. Процесс парсинга будет завершен, когда в списке не останется ни одной ссылки.

Вы сможете вернуть удаленные при парсинге ссылки, кликнув по списку ссылок правой клавишей мыши и выбрав пункт контекстного меню “отменить последнее действие”.

Для контроля процесса парсинга вы можете открыть лог (ctrl+l).

Теперь вы знаете основы парсинга контента! Искренне желаем вам успехов в работе и надеемся, что у вас останутся только положительные впечатления от работы с программой!

Если вы затрудняетесь в настройке программы, то будем рады приветствовать вас на форуме, где вы можете задать вопросы по работе с программой.

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 15, средний балл: 4.73)
Loading...
Автор: admin, 8 December 2013
Рубрики: Парсинг
Есть 2 коммент. к сообщению: “Как парсить контент (основы)”
  1. гость says:

    >>вы можете открыть лог (ctrl+l).
    Копирую отчет в буфер, получается каша какая-то. Научите, как пользоваться этой функцией.

Написать комментарий к гость

Последние статьи

css.php