Как парсить статьи с сайтов (с картинками и без)


Дополнительное видео

Сначала создайте новый файл проекта (ctrl+n). Это сбросит все настройки программы.

Парсинг статей и текстов с сайтов состоит из двух этапов: сбор ссылок и парсинг контента по этим ссылкам. При создании нового проекта можно пропускать сбор ссылок и переходить сразу во вкладку «Контент» для выполнения настроек по парсингу статей. Просто добавьте один или несколько URL-адресов товаров в список ссылок программы (f8) и выполните нужные настройки по сбору контента. После завершения настроек во вкладке «Контент» вы можете приступить к сбору ссылок и последующему парсингу.

Парсинг информации со страниц сайта производится во вкладке «Контент»

Content Downloader

Выделяете границу парсинга 1 (смотрите скриншот выше) и жмене ctrl+f1 для вызова инструмента задания границ парсинга.

Примечание: Если код WEB-документа не загружается, нажмите ctrl+h и смените библиотеку запросов на WIN. Если это не помогает, возможно, нужно установить cookie или другие HTTP-заголовки (в окне настроек HTTP-запросов программы, ctrl+h).

Content Downloader

Например, нужно спарсить название статьи. В открывшемся инструменте в браузере кликаем по названию статьи и оно вставляется в поле поиска. Если в коде WEB-документа найдено много вхождений, они все будут отображены в специальном списке (справа от текстового поля с кодом WEB-документа). Когда вы найдете нужное вхождение в коде WEB-документа, приступайте к заданию границы парсинга.

Если вы хотите найти в коде текст статьи, пропишите в форме поиска какую-либо часть текста статьи и по мере прописывания вы увидите найденное вхождение.

Для задания границы выделите в коде начало парсинга и нажмите кнопку «задать начало парсинга» (F1), затем выделите конец парсинга и нажмите кнопку «задать конец парсинга» (F2). Весь код WEB-документа, что находится между началом и концом будет взят этой границей при парсинге.

Границы парсинга следует задавать таким образом, чтобы на всех страницах статей они были одинаковыми. Если какая-то часть в них от страницы к странице различается, например, меняется ID DIV с текстом статьи, то закомментируйте изменяющуюся часть с помощью оператора {skip}.

При поиске кода границы парсинга программа от начала WEB-документа ищет заданное начало парсинга. Далее от позиции найденного начала парсинга будет производиться поиск конца парсинга. Поля a и b содержат количество пропускаемых вхождений для начала и конца парсинга соответственно (например, когда нужно брать содержимое третьего тега H1, а не первого: a=2 (пропустить два вхождения для начала парсинга), b=0 (пропустить 0 вхождений для конца парсинга)). При задании границ парсинга значения полей a и b высчитываются автоматически.

Content Downloader

После задания границ парсинга разместите их макросы в шаблоне вывода.

Content Downloader

Подробно изучить функции парсинга картинок вы можете в разделе системы помощи «Парсинг контента».

Content Downloader

Content Downloader

Для контроля результата парсинга статей вы можете делать предпросмотр парсинга выбранных ссылок (просто кликайте дважды по нужным элементам списка ссылок).

Content Downloader

Принцип и методы сбора ссылок в достаточной мере описаны в разделе системы помощи «Парсинг и добавление ссылок».

После выполнения всех настроек запустите парсинг статей (F5).

Изучить многие другие функции парсинга контента вы можете в основных разделах системы помощи.

Спасибо за внимание!

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 5, средний балл: 5.00)
Loading...
Автор: admin, 24 June 2014
Рубрики: Парсинг
Tags: ,
Написать комментарий

Последние статьи

css.php