Спарсить статьи

Дополнительное видео

Сначала создайте новый файл проекта (ctrl+n). Это сбросит все настройки программы.

Парсинг статей и текстов с сайтов состоит из двух этапов: сбор ссылок и парсинг контента по этим ссылкам. При создании нового проекта можно пропускать сбор ссылок и переходить сразу во вкладку «Контент» для выполнения настроек по парсингу статей. Просто добавьте один или несколько URL-адресов товаров в список ссылок программы (f8) и выполните нужные настройки по сбору контента. После завершения настроек во вкладке «Контент» вы можете приступить к сбору ссылок и последующему парсингу.

Парсинг информации со страниц сайта производится во вкладке «Контент»

Content Downloader

Выделяете границу парсинга 1 (смотрите скриншот выше) и жмене ctrl+f1 для вызова инструмента задания границ парсинга.

Примечание: Если код WEB-документа не загружается, нажмите ctrl+h и смените библиотеку запросов на WIN. Если это не помогает, возможно, нужно установить cookie или другие HTTP-заголовки (в окне настроек HTTP-запросов программы, ctrl+h).

Content Downloader

Например, нужно спарсить название статьи. В открывшемся инструменте в браузере кликаем по названию статьи и оно вставляется в поле поиска. Если в коде WEB-документа найдено много вхождений, они все будут отображены в специальном списке (справа от текстового поля с кодом WEB-документа). Когда вы найдете нужное вхождение в коде WEB-документа, приступайте к заданию границы парсинга.

Если вы хотите найти в коде текст статьи, пропишите в форме поиска какую-либо часть текста статьи и по мере прописывания вы увидите найденное вхождение.

Для задания границы выделите в коде начало парсинга и нажмите кнопку «задать начало парсинга» (F1), затем выделите конец парсинга и нажмите кнопку «задать конец парсинга» (F2). Весь код WEB-документа, что находится между началом и концом будет взят этой границей при парсинге.

Границы парсинга следует задавать таким образом, чтобы на всех страницах статей они были одинаковыми. Если какая-то часть в них от страницы к странице различается, например, меняется ID DIV с текстом статьи, то закомментируйте изменяющуюся часть с помощью оператора {skip}.

При поиске кода границы парсинга программа от начала WEB-документа ищет заданное начало парсинга. Далее от позиции найденного начала парсинга будет производиться поиск конца парсинга. Поля a и b содержат количество пропускаемых вхождений для начала и конца парсинга соответственно (например, когда нужно брать содержимое третьего тега H1, а не первого: a=2 (пропустить два вхождения для начала парсинга), b=0 (пропустить 0 вхождений для конца парсинга)). При задании границ парсинга значения полей a и b высчитываются автоматически.

Content Downloader

После задания границ парсинга разместите их макросы в шаблоне вывода.

Content Downloader

Подробно изучить функции парсинга картинок вы можете в разделе системы помощи «Парсинг контента».

Content Downloader

Для контроля результата парсинга статей вы можете делать предпросмотр парсинга выбранных ссылок (просто кликайте дважды по нужным элементам списка ссылок).

Content Downloader