Парсинг товаров интернет-магазинов в CSV

Сначала создайте новый файл проекта для парсинга в CSV (shift+ctrl+n). Это сбросит все настройки программы и установит нужные именно для парсинга в CSV.

Парсинг товаров интернет-магазинов состоит из двух этапов: сбор ссылок и парсинг контента по этим ссылкам. При создании нового проекта можно пропускать сбор ссылок и переходить сразу во вкладку “Контент” для выполнения настроек по парсингу товаров. Просто добавьте один или несколько URL-адресов товаров в список ссылок программы (f8) и выполните нужные настройки по сбору контента товаров. После завершения настроек во вкладке “Контент” вы можете приступить к сбору ссылок и последующему парсингу.

Парсинг информации со страниц товаров производится во вкладке “Контент”

Content Downloader

Выделяете границу парсинга 1 (смотрите скриншот выше) и жмене ctrl+f1 для вызова инструмента задания границ парсинга.

Примечание: Если код WEB-документа не загружается, нажмите ctrl+h и смените библиотеку запросов на WIN. Если это не помогает, возможно, нужно установить cookie или другие HTTP-заголовки (в окне настроек HTTP-запросов программы, ctrl+h).

Content Downloader

Например, нужно спарсить наименование товара. В открывшемся инструменте в браузере кликаем по наименованию товара и оно вставляется в поле поиска. Если в коде WEB-документа найдено много вхождений, они все будут отображены в специальном списке (смотрите скриншот выше). Когда вы найдете нужное вхождение в коде WEB-документа, приступайте к заданию границы парсинга.

Выделите начало парсинга и нажмите кнопку “задать начало парсинга” (F1), затем выделите конец парсинга и нажмите кнопку “задать конец парсинга” (F2). Весь код WEB-документа, что находится между началом и концом будет взят этой границей при парсинге.

Границы парсинга следует задавать таким образом, чтобы на всех страницах товаров они были одинаковыми. Если какая-то часть в них от товара к товару различается, например, меняется ID, то закомментируйте изменяющуюся часть с помощью оператора {skip} (смотрите, как задано начало парсинга на скриншоте выше).

При поиске кода границы парсинга программа от начала WEB-документа ищет заданное начало парсинга. Далее от позиции найденного начала парсинга будет производиться поиск конца парсинга. Поля a и b содержат количество пропускаемых вхождений для начала и конца парсинга соответственно (например, когда нужно брать содержимое третьего тега H1, а не первого: a=2 (пропустить два вхождения для начала парсинга), b=0 (пропустить 0 вхождений для конца парсинга)). При задании границ парсинга значения полей a и b высчитываются автоматически.

Content Downloader

Подробно изучить функции парсинга картинок вы можете в разделе системы помощи “Парсинг контента”.

После задания границ парсинга разместите их макросы в шаблоне вывода и введите названия столбцов в строку заголовка через разделитель [CSVCS].

Content Downloader

Для контроля над результатом пользуйтесь функцией предпросмотра.

Content Downloader

Также для обработки контента при парсинге могут потребоваться макросы шаблона вывода. С подробным описанием работы некоторых макросов можно ознакомиться тут

Content Downloader

Принцип и методы сбора ссылок в достаточной мере описаны в разделе системы помощи “Парсинг и добавление ссылок”.

Изучить многие другие функции парсинга контента вы можете в основных разделах системы помощи.

Спасибо за внимание!

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 4, средний балл: 5.00)
Loading...
Автор: admin, 26 February 2014
Рубрики: Парсинг
Tags: ,
Написать комментарий

Последние статьи

css.php