Как парсить контент (основы)

Content Downloader

Перед нами главное окно программы с открытой вкладкой «контент». Тут будет происходить самая основная и самая важная часть работы по настройке проектов.

Перед тем, как браться за настройку, сбросьте все опции, выбрав: меню — «файл» — «создать новый проект», либо: меню — «файл» — «создать новый проект с базовыми настройками для CSV» (если вы планируете парсить в CSV файл(ы)).

Прежде всего необходимо добавить хотя бы один адрес WEB-страницы в список ссылок (F8), или спарсить ссылки наиболее подходящим для парсинга выбранного сайта способом. Инструкции по парсингу ссылок вы можете найти в разделе «парсинг и добавление ссылок» на главной странице системы помощи.

После добавления ссылок, необходимо указать программе, что именно вам нужно парсить: определенные данные со страниц или WEB-страницы целиком. Для парсинга WEB-документов целиком, в шаблон вывода (ctrl+2) достаточно добавить макрос [DOCSOURCE].

Если вы хотите парсить определенные части страниц, например, характеристики товара с интернет-магазина, то сначала задайте границы парсинга для нужных вам данных (укажите программе, что именно нужно парсить), а затем, в нужном порядке, вставьте макросы заданных границ парсинга в редактор шаблона вывода (макросы границ парсинга расположены в дереве макросов редактора шаблона вывода).

Структура сохраняемых документов задается в редакторе шаблона вывода (ctrl+2). В шаблон вывода вы можете вставить любой текст или код, который будет сохраняться вместе с результатами парсинга страниц на диск. Также в шаблоне вывода имеется множество макросов для обработки данных. Выделите в дереве макросов нужный элемент и внизу появится его краткое описание с примером использования.

Опции сохранения результатов парсинга контента (парсить в один файл или в разные, путь сохранения файлов, расширение сохраняемых файлов…) настраиваются во вкладке «контент», в группе «сохранение результата».

В ходе выполнения настройки вы всегда сможете выполнить предпросмотр результата парсинга для нужной ссылки. Для этого дважды кликните по любой ссылке из списка. В нижней части окна предпросмотра результатов парсинга контента есть лог выполнения функций и макросов. Кликая по элементам этого лога, вы можете видеть все изменения контента и анализировать работу макросов.

После того, как вы выполните все настройки, вам нужно будет запустить парсинг (F5) и дождаться его завершения. В ходе парсинга, ссылки из списка будут постепенно удаляться, пока их и вовсе не останется. Процесс парсинга будет завершен, когда в списке не останется ни одной ссылки.

Вы сможете вернуть удаленные при парсинге ссылки, кликнув по списку ссылок правой клавишей мыши и выбрав пункт контекстного меню «отменить последнее действие».

Для контроля процесса парсинга вы можете открыть лог (ctrl+l).

Теперь вы знаете основы парсинга контента! Искренне желаем вам успехов в работе и надеемся, что у вас останутся только положительные впечатления от работы с программой!

Если вы затрудняетесь в настройке программы, то будем рады приветствовать вас на форуме, где вы можете задать вопросы по работе с программой.

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 15, средний балл: 4,73)
Загрузка...
Автор: admin, 8 декабря 2013
Рубрики: Парсинг
2 комментария к сообщению: “Как парсить контент (основы)”
  1. гость:

    >>вы можете открыть лог (ctrl+l).
    Копирую отчет в буфер, получается каша какая-то. Научите, как пользоваться этой функцией.

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php