Демо версия парсера Content Downloader

Демо версия

Скачать демо версию (120 MB)

Практически все задачи по парсингу решаются с помощью Content Downloader, но могут быть сложности с изначальным освоением функционала (так как программа универсальная и имеет огромное количество функций). Поэтому, если у вас возникнут проблемы с освоением демо или с парсингом сайта, вы без стеснения можете задавать вопросы на форуме или по Whatsap +79833813211 (Сергей) для получения бесплатной консультации и мы с радостью вам поможем разобраться в продукте =)


1) Создание нового проекта

2) Парсинг ссылок на товары

3) Задание границ парсинга

4) Размещение заданных границ парсинга в шаблоне вывода (для создания столбцов таблицы CSV)

5) Обработка данных при парсинге

6) Предпросмотр результатов парсинга и запуск парсинга


Дополнительно

7) Парсинг названий рубрик товара

8) Парсинг картинок товаров

9) Парсинг характеристик товаров


Для возврата к содержанию вы можете использовать клавишу home


Для ознакомления с основными возможностями программы рекомендуется изучить эти видео материалы и пошаговую инструкцию, расположенную ниже на этой странице.

Также обратите внимание на:
страницу описания основных возможностей Content Downloader
На систему помощи (где описаны практически все возможности)
экспресс-курс (для более простого и быстрого изучения основ работы с программой)


Пошаговая инструкция по парсингу товаров интернет магазинов


Так как одна из основных задач программы — парсить товары интернет магазинов в таблицу CSV, то далее давайте рассмотрим пошаговую инструкцию по парсингу одного из интернет магазинов (на примере Эльдорадо).


1) Создание нового проекта для парсинга


Перед настройкой Content Downloader необходимо создать новый проект (чтобы сбросить все настройки на заводские). Если парсите товары интернет магазина, то выберите главное меню -> файл -> создать новый проект для парсинга в CSV (shift+ctrl+n). Если парсите статьи или другие данные (не в CSV), то выберите главное меню -> файл -> создать новый проект (ctrl+n).

В любой момент вы можете сохранять или загружать проекты парсинга с помощью главное меню -> файл.


К содержанию


2) Парсинг ссылок на товары


Примечание: Чтобы сразу перейти к главному — парсингу контента, очень рекомендуем вам пропустить сбор ссылок с сайта и приступить сразу к парсингу товаров в CSV. Для этого достаточно в главном окне программы перейти во вкладку «Контент» (открыта по умолчанию) и добавить одну или несколько ссылок на товар(ы) вручную, скопировав их из браузера. Для добавления URL в список ссылок из буфера нажмите F8 (находясь в программе).

Для парсинга ссылок в Content Downloader есть множество инструментов. Вы можете детально ознакомиться с методами сбора ссылок в этом разделе системы помощи.

Если у вас есть трудности со сбором ссылок, можете задавать вопросы на форуме и мы вам постараемся помочь.


К содержанию


3) Задание границ парсинга





Для того, чтобы указать программе, какие части WEB страниц нужно спарсить (наименование, описание, цену, рубрики, картинки, характеристики и прочее) необходимо задать границы парсинга.

В программе существуют 20 обычных границ парсинга (для взятия одиночных блоков из HTML) и 5 повторяющихся (для взятия повторяющихся блоков, например, нескольких картинок товара).

Для задания одной или нескольких границ выделите нужную (как показано на скриншоте) и нажмите соответствующую кнопку или ctrl+f1.


Задание границ парсинга в Content Downloader X1


Перед вами появится инструмент для задания границ парсинга.


Задание границ парсинга в Content Downloader


A — форма поиска по коду WEB документа
B — поле для задания имени выбранной границы парсинга
C — выпадающий список для выбора других границ парсинга для задания (что позволяет без закрытия инструмента задавать несколько разных границ парсинга и перемещаться между ними)
D, E, F, G — значения границ парсинга (об этом немного ниже)
H — нажмите эту кнопку для закрытия инструмента и применения настроек (когда все границы парсинга заданы)

I (поле с кодом WEB документа) — это тот код, который программа получила при запросе к WEB документу
K (браузер для навигации по коду) — встроенный браузер Chromium, который отдельным запросом загружает WEB страницу и служит для навигации по коду (для поиска в коде нужных данных)

Следует отметить, что по умолчанию программа отправляет обычный GET запрос к URL для загрузки данных. Нужно знать, что при отправке такого запроса программа получит ответ сервера в виде HTML кода страницы. При этом никакие скрипты на WEB странице не будут выполняться. Если на странице есть подгружаемые скриптами данные (например, дополнительные изображения или характеристики товаров), то их можно подгрузить дополнительными GET/POST запросами или парсить страницы с использованием движка Chromium в оболочке WBAppCEF. Хоть и отсутствие всех нужных данных в HTML коде — явление не такое уж и частое, но если у вас возникла подобная проблема, создайте тему на форуме с указанием URL страницы и мы поможем подобрать решение для подгрузки нужных данных.

Чтобы задать границы парсинга нужно найти нужные данные в HTML коде документа (определить, где они расположены).

a) Определяем расположение данных в коде с помощью браузера навигации, который расположен в нижней части.

Например, нужно задать границу парсинга для взятия заголовка товара. Помещаем курсор над заголовком в браузере и нажимаем F4. После нажатия F4 в форму поиска по коду (A на скриншоте выше) должно вставиться нужное вхождение. При этом, в нижней правой части появится окно с атрибутами элемента и окно со списком всех найденных вхождений найденной поисковой фразы.


Задание границ парсинга в Content Downloader X1


Если после нажатия F4 ничего не происходит, поместите фокус в браузер (кликнув по пустому месту WEB страницы левой кнопкой мыши) и снова нажмите F4.

Таким образом, перемещаясь по списку найденных вхождений или по списку атрибутов без труда удается найти нужные данные в HTML коде.

Также будет полезно посмотреть это видео.





b) После того, как в коде найдены нужные данные задаем для них начало и конец парсинга.

Выделяем уникальное начало парсинга и нажимаем F1 (таким образом задается начало парсинга).
Выделяем конец парсинга и нажимаем F2 (таким образом задается конец парсинга).

Все, что между началом и концом парсинга будет извлекаться этой границей.

Поиск начала парсинга производится от начала HTML кода документа.

Поиск конца парсинга производится от места найденного начала парсинга.

Обратите внимание на поля D и F (на первом большом скриншоте выше). При задании начала и конца парсинга они высчитываются автоматически. Они обозначают, сколько таких вхождений было пропущено до места в коде, где вы выделили начало и конец парсинга и нажали F1 или F2 (соответственно).

Ниже несколько примеров задания границ парсинга.


Задание границ парсинга


Задание границ парсинга


Задание границ парсинга


Задание границ парсинга


Задание границ парсинга


После задания всех границ парсинга не забываем нажать кнопку ГОТОВО


Задание границ парсинга


К содержанию





4) Размещение макросов заданных границ парсинга в шаблоне вывода (для создания столбцов результирующей таблицы CSV)





После того, как вы задали границы парсинга добавьте их в шаблон вывода.


Создание CSV с товарами


Также в шаблон вывода можно перетаскивать границы парсинга мышкой (из списка слева) или вставлять их двойным кликом.

В шаблоне вывода, в строке заголовка и в настройке повторяющихся границ парсинга для обозначения разделителей ячеек CSV используются специальные операторы:
[CSVCS] — оператор разделителя ячеек CSV (хоткей F3)
[CSVLB] — оператор разделителя строк CSV (хоткей F4)

Обратите внимание и на расширенный редактор шаблона вывода.


Редактирование шаблона вывода при парсинге


К содержанию





5) Обработка данных при парсинге





В парсере Content Downloader X1 реализовано множество функций и макросов для обработки данных при парсинге, например:
— Удаление лишних HTML тегов
— Гибкие функции поиск замены с возможностью использовать регулярные выражения
— Множество макросов шаблона вывода для обработки и подгрузки данных
И так далее…


Обработка данных при парсинге


Макросы для обработки и подгрузки данных при парсинге


К содержанию





6) Предпросмотр результатов парсинга и запуск парсинга





На всех стадиях настройки вы можете выполнять предпросмотр результатов парсинга.


Предпросмотр результатов парсинга


После выполнения всех настроек вы можете запустить парсинг для сбора данных со всех URL.


Запуск парсинга


Также обратите внимание на лог парсинга.


Лог парсинга


В логе парсинга есть возможность открывать CSV с результатами во встроенном редакторе.


К содержанию





7) Парсинг названий рубрик товара





Задаем, например, границу парсинга 7 для извлечения из HTML кода, который выводит на WEB странице рубрики товара.


Парсинг названий рубрик товаров


Названия рубрик товаров можно парсить как и границами парсинга, так и макросом шаблона вывода [BREADCRUMBS]. Данный макрос извлечет из HTML кода названия рубрик и выведет их в нужном формате. Также в макросе есть параметры для обрезки определенного количества рубрик от начала и от конца (например, можно отсечь лишние: главная -> каталог).


Парсинг названий рубрик товаров


В результате получим.


Парсинг названий рубрик товаров


К содержанию





8) Парсинг картинок товаров





URL адреса картинок парсятся обычными или повторяющимися границами. Если нужно скачать картинку на диск и на месте ее URL адреса оставить путь к ее файлу на локальном диске, возьмите URL картинки в макрос шаблона вывода DOWNLOADFILE.


Парсинг картинок товаров


Если нужно парсить несколько картинок товаров, используйте повторяющиеся границы для извлечения URL адресов всех картинок. Вставьте в ячейку с картинками макрос повторяющейся границы (как показано на скриншоте), а DOWNLOADFILE вставьте уже не в шаблон вывода, а в шаблон повторяющейся границы с URL адресами картинок.


Парсинг картинок товаров


Если нужно переименовать файлы при их сохранении на диск, используйте макрос DFN с параметром ALL и разместите его перед повторяющейся границей в шаблоне вывода (как показано на скриншоте).


Задание имен файлов при парсинге


В результате мы получим все картинки товара с желаемыми именами файлов.


Парсинг картинок товаров


К содержанию





9) Парсинг характеристик товаров





Смотрите подробную информацию по парсингу характеристик товаров в этом разделе системы помощи.

Там обратите внимание на:
[DYNAMICVALUES] — парсинг характеристик из любого HTML
[HORIZTABLE] и [VERTTABLE] — парсинг характеристик из HTML таблиц

Нужно правильно настроить эти макросы и они будут брать характеристики из HTML кода, автоматически создавать для них столбцы CSV и распределять по этим столбцам значения характеристик.


К содержанию


Если у вас будут вопросы, можете задавать их на форуме. Спасибо за внимание!


1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)

Загрузка...

Comments

So empty here ... leave a comment!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *