Экспресс-курс по изучению основ работы с Content Downloader

Дорогие друзья, схема работы с программой проста

1) Создаем новый проект с помощью главного меню программы (находится в верхней части окна): файл – создать новый проект для парсинга в CSV (shift+ctrl+n) (если парсите интернет-магазин) или файл – создать новый проект (ctrl+n) (если парсите в какой-либо другой формат).

2) Парсим нужные URL во вкладке “ссылки” или собираем их сканером сайтов (кнопка на панели инструментов), или с помощью инструмента загрузки XML-карт сайтов, или добавляем их вручную (из буфера обмена или файла – F8).
Примечание:
Парсинг ссылок лучше пропустить и сразу приступить к заданию границ парсинга. Откройте нужный сайт в браузере, скопируйте оттуда пару ссылок на товары или на статьи (смотря что парсите) и добавьте их в список ссылок программы (F8). Потом, когда закончите настройку парсинга контента, соберете ссылки и приступите к парсингу.

3) Переходим во вкладку “контент” (в главном окне программы) и парсим по этим ссылкам нужные данные (задав границы парсинга и вставив их в нужные места шаблона вывода (ctrl+2))


Примечание: Для выполнения предпросмотра результатов парсинга одной из ссылок (во вкладке “контент” или во вкладке “ссылки”), кликните по ней дважды, а для запуска парсинга всех ссылок – нажмите соответствующую кнопку на панели инструментов в программе или клавишу F5.

Примечание: В нижней части окна предпросмотра результатов парсинга контента есть лог выполнения функций и макросов. Кликая по элементам этого лога, вы можете видеть все изменения контента и анализировать работу макросов.


Общее видео по парсингу товаров в таблицу CSV




Перед тем, как работать с программой необходимо понимать, как происходит загрузка данных при открытии или парсинге WEB Страниц. Постарайтесь изучить это видео и понять принцип




Также необходимо научиться задавать границы парсинга




Порядок настройки парсинга данных во вкладке “Контент”

Для начала ознакомьтесь с основными элементами интерфейса главного окна программы.

Content Downloader

Вставьте вручную несколько URL товаров в список ссылок из буфера нажав F8.

Теперь нужно задать границы парсинга (выбрав любую в дереве слева и нажав ctrl+f1). Изучите материал по заданию обычных границ парсинга.

После задания границ парсинга вернитесь в главное окно программы во вкладку “Контент” или в расширенный редактор шаблона вывода ctrl+2) и вставьте их макросы (расположенные в дереве макросов слева) в шаблон вывода в том порядке, в котором нужно их сохранять в файл с результатами парсинга (методом перетаскивания или двойным кликом по элементу дерева). Или воспользуйтесь функциями автоматического построения шаблона вывода на основе заданных границ парсинга, вызываемыми через контекстное меню (правый клик по шаблону вывода).

Создание столбцов

Если вы парсите в CSV, используйте программные операторы разделителей ячеек CSV – [CSVCS] (хоткей F3) и операторы разделителей строк CSV – [CSVLB] (хоткей F4).

Также изучите материал по парсингу файлов или изображений.

Также изучите материалы по автоматическому парсингу характеристик товаров в CSV

Для контроля результатов парсинга в процессе настройки используйте функцию предпросмотра (ctrl+f2 или соответствующая кнопка на главной панели инструментов главного окна программы).

После завершения настроек запустите парсинг контента кнопка “Начать парсинг (F5)” (кнопка расположена на главной панели инструментов главного окна программы).

Для контроля процесса парсинга пользуйтесь логом (ctrl+l). В этом логе будет указан и путь сохранения данных.

Для открытия полученных CSV файлов рекомендуется использовать встроенный редактор CSV (shift+ctrl+e или соответствующая кнопка на главной панели инструментов главного окна программы).




Дополнительные видео материалы






Парсинг ссылок


Парсинг во вкладке 'Ссылки' (парсинг отдельной рубрики сайта, парсинг по ключевым запросам, генерация списков ссылок с использованием нарастающих числовых значений и/или ключевых слов)
Новое видео:




Старое видео:

Сбор ссылок сканером сайтов (если вы парсите все рубрики сайта или весь сайт целиком)

Парсинг ссылок из XML-карты сайта (сбор ссылок со всего сайта, быстрый и простой метод)

Большинство сайтов имеют XML-карту, содержащую ссылки на статьи/товары и прочее. Обычно карта располагается по адресу http://SBFactory.ru/sitemap.xml (в корне). Просто попробуйте открыть подобный адрес у себя в браузере. Если карты сайта по такому адресу не будет, проверьте файл robots.txt (http://SBFactory.ru/robots.txt), в котором может быть строка Sitemap: http://sbfactory.ru/sitemap.xml и ей подобные.


Парсинг контента

Парсинг в CSV-файлы (пример парсинга товаров)

Парсинг текста/статей с картинками и без
Парсинг информации, доступной после клика по кнопке типа 'показать еще', парсинг информации, подгружаемой при прокрутке WEB-страницы вниз


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 21, средний балл: 5.00)
Loading...
Автор: admin, 22 January 2016
Рубрики: Парсинг
Tags: , , , ,
Есть 1 комментарий. к сообщению: “Экспресс-курс по изучению основ работы с Content Downloader”
  1. Вадим says:

    Добрый день! Подскажите пожалуйста, подойдёт ли парсер для пирсинга резюме на работных сайтах? Далее мне надо будет их импортировать в программу для рекрутинга. Так что бы резюме полностью импортировались с фото кандидата и всем описанием.
    Сайты разные и должности меняются. Сегодня одно, а завтра второе. Ещё лучше если один раз настроить на разные сайты и если нужно найти грузчика к примеру, то ткнул и парсер сразу на всех сайтах начал поиск. Возможно такое?
    Написал в ватсап, но ответа не дождался.

Написать комментарий

Последние статьи

css.php