Как парсить контент (основы)

Content Downloader

Перед нами главное окно программы с открытой вкладкой «контент». Тут будет происходить самая основная и самая важная часть работы по настройке проектов.

Перед тем, как браться за настройку, сбросьте все опции, выбрав: меню — «файл» — «создать новый проект», либо: меню — «файл» — «создать новый проект с базовыми настройками для CSV» (если вы планируете парсить в CSV файл(ы)).

Прежде всего необходимо добавить хотя бы один адрес WEB-страницы в список ссылок (F8), или спарсить ссылки наиболее подходящим для парсинга выбранного сайта способом. Инструкции по парсингу ссылок вы можете найти в разделе «парсинг и добавление ссылок» на главной странице системы помощи.

После добавления ссылок, необходимо указать программе, что именно вам нужно парсить: определенные данные со страниц или WEB-страницы целиком. Для парсинга WEB-документов целиком, в шаблон вывода (ctrl+2) достаточно добавить макрос [DOCSOURCE].

Если вы хотите парсить определенные части страниц, например, характеристики товара с интернет-магазина, то сначала задайте границы парсинга для нужных вам данных (укажите программе, что именно нужно парсить), а затем, в нужном порядке, вставьте макросы заданных границ парсинга в редактор шаблона вывода (макросы границ парсинга расположены в дереве макросов редактора шаблона вывода).

Структура сохраняемых документов задается в редакторе шаблона вывода (ctrl+2). В шаблон вывода вы можете вставить любой текст или код, который будет сохраняться вместе с результатами парсинга страниц на диск. Также в шаблоне вывода имеется множество макросов для обработки данных. Выделите в дереве макросов нужный элемент и внизу появится его краткое описание с примером использования.

Опции сохранения результатов парсинга контента (парсить в один файл или в разные, путь сохранения файлов, расширение сохраняемых файлов…) настраиваются во вкладке «контент», в группе «сохранение результата».

В ходе выполнения настройки вы всегда сможете выполнить предпросмотр результата парсинга для нужной ссылки. Для этого дважды кликните по любой ссылке из списка.

После того, как вы выполните все настройки, вам нужно будет запустить парсинг (F5) и дождаться его завершения. В ходе парсинга, ссылки из списка будут постепенно удаляться, пока их и вовсе не останется. Процесс парсинга будет завершен, когда в списке не останется ни одной ссылки.

Вы сможете вернуть удаленные при парсинге ссылки, кликнув по списку ссылок правой клавишей мыши и выбрав пункт контекстного меню «отменить последнее действие».

Для контроля процесса парсинга вы можете открыть лог (ctrl+l).

Теперь вы знаете основы парсинга контента! Искренне желаем вам успехов в работе и надеемся, что у вас останутся только положительные впечатления от работы с программой!

Если вы затрудняетесь в настройке программы, то будем рады приветствовать вас на форуме, где вы можете задать вопросы по работе с программой.

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 13, средний балл: 4,69)
Загрузка...
Автор: admin, 8 декабря 2013
Рубрики: Парсинг
2 комментария к сообщению: “Как парсить контент (основы)”
  1. гость:

    >>вы можете открыть лог (ctrl+l).
    Копирую отчет в буфер, получается каша какая-то. Научите, как пользоваться этой функцией.

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php