Дорогие друзья, схема работы с программой проста

1) Создаем новый проект: меню — файл — создать новый проект или меню — файл — создать новый проект для парсинга в CSV (если парсите интернет-магазин)
2) Парсим нужные URL во вкладке «ссылки» или собираем их сканером сайтов (кнопка на панели инструментов)
3) Переходим во вкладку «контент» (в главном окне программы) и парсим по этим ссылкам нужные данные (задав границы парсинга и вставив их в нужные места шаблона вывода (ctrl+2))

Примечание 1: Парсинг ссылок лучше пропустить и сразу приступить к заданию границ парсинга. Откройте нужный сайт в браузере, скопируйте оттуда пару ссылок на товары или на статьи (смотря что парсите) и добавьте их в список ссылок программы (F8). Потом, когда закончите настройку парсинга контента, соберете ссылки и приступите к парсингу.

Примечание 2: Для выполнения предпросмотра результатов парсинга одной из ссылок (во вкладке «контент» или во вкладке «ссылки»), кликните по ней дважды, а для запуска парсинга всех ссылок — нажмите соответствующую кнопку на панели инструментов в программе или клавишу F5.

Примечание 3: В нижней части окна предпросмотра результатов парсинга контента есть лог выполнения функций и макросов. Кликая по элементам этого лога, вы можете видеть все изменения контента и анализировать работу макросов.

Создать запрос на пополнение/редактирование материалов системы помощи!

>>> Экспресс-курс по изучению основ работы с Content Downloader <<<


Разделы


Основное
Парсинг контента (текст, картинки)
Парсинг и добавление ссылок
Создание дополнительных HTTP-запросов при парсинге во вкладке «Контент»
Типичные задачи и примеры парсинга
При парсинге товаров интернет магазина
Парсинг в различные форматы и CMS
Подключение файлов к шаблону вывода
Автоматизация
Редактор CSV файлов
Решение различных проблем
Рекомендации по настройке системы
Дополнительно
Полезное с форума

Для возврата к меню навигации пользуйтесь клавишей home


Основное


Знакомство с элементами интерфейса
Шаблон вывода (в нем вы создаете структуру результирующего файла (результат парсинга контента) и работаете с данными, используя различные макросы шаблона вывода)
Дополнительные макросы шаблона вывода
Работа с вложенными блоками кода шаблона вывода (для удобной работы с громоздкими конструкциями макросов в шаблоне вывода или в шаблонах повторяющихся границ парсинга)
Добавление текстовых комментариев к коду шаблона вывода, комментирование частей кода шаблона вывода и лишних переносов строк
Менеджер шаблонов вывода, макросов и правил поиск-замены
Основы парсинга контента
Программные операторы разделителей ячеек CSV: [CSVCS], [CSVLB], {CSVCS}, {CSVLB}, [CSVCS]→
Авторизация на сайтах
Функции поиск-замены и регулярные выражения
Использование списка прокси-серверов в программе
Если последовательность макросов или вложенные в друг-друга макросы шаблона вывода «работают некорректно» (или: как пользоваться логом выполнения функций и макросов)
Настройка сохранения результатов парсинга контента в указанные файл(ы) на диск с помощью макроса [DOCNAME] (задание имен сохраняемых документов, кодировки сохраняемых документов, парсинг в один файл/в отдельные файлы и другое)
Как производить разбивку CSV файлов (по точному количеству строк) в случае парсинга нескольких товаров с каждой WEB-страницы
Как парсить «вхолостую» (без отправки запросов, только лишь выполняя макросы шаблона вывода) во вкладке «Контент» (оператор [BLANK])
Как производить поиск-замену в только что загруженном коде WEB-документа при парсинге (выполняется перед вычислением границ парсинга)
Как парсить контент, которого нет в коде страницы (контент подгружается скриптами в браузере)
Как создавать заявки для получения услуг специалистов по настройке

Автоматический парсинг сразу всех характеристик товаров с автоматическим созданием соответствующих колонок CSV (макрос [DYNAMICVALUES])
Парсинг HTML-таблиц в CSV (макросы: [HORIZTABLE] и [VERTTABLE])
   — Как преобразовать HTML-таблицу с атрибутами rowspan и colspan в обычный вид (метод размножения ячеек)

WBApp (имитация кликов по элементам веб-страниц, прокрутка веб-страниц, заполнение форм и многое другое)(только для ULTIMATE версий)
   — Значительное ускорение процесса парсинга и исключение пропусков WEB-страниц при парсинге с использованием библиотеки Internet Explorer (WBApp)
   — Как в WBApp прокликивать страницы выдачи сайта по кнопке типа «перейти на следующую страницу»
   — Передача текстовых данных из Content Downloader в WBApp
   — Создание скриншотов WEB-страниц с помощью приложения WBApp
   — Парсинг HTML-кода фрейма WEB-документа с помощью WBApp
   — Запись текущего кода WEB-страницы в файл на диске
   — Вызов WBApp для смены пользователя (на сайте) через каждые n документов при парсинге во вкладке «Контент»
   — Имитация нажатий кнопок мыши и клавиатуры в WBApp
   — Рендеринг (создание изображений) элементов WEB-страниц с помощью WBApp

Как парсить парсинг сразу в MYSQL-базу (обновление цен товаров, добавление записей и многое другое)
Удаление дублей информации при парсинге контента


Парсинг контента (текст, картинки)


Задание обычных границ парсинга (когда нужно спарсить до 20 различных частей WEB-документа)
Поиск конца обычных границ парсинга в обратном направлении (параметр инверсия)
Автоматический поиск закрывающего HTML-тега (параметр [AUTO] для конца границы парсинга)

Задание обычных границ парсинга внутри повторяющейся (для парсинга каждого цикла повторяющейся границы обычными границами, например, когда нужно спарсить несколько товаров с одной WEB-страницы)

Задание динамических границ парсинга (КОГДА НУЖНО ЗАДАТЬ БОЛЕЕ 20 ГРАНИЦ ПАРСИНГА, работают аналогично обычным границам парсинга, но поддерживают регулярные выражения и не ограничены по количеству)

Задание повторяющихся границ парсинга (когда нужно спарсить множество частей WEB-документа, заключенных в одинаковые участки кода, например, спарсить комментарии)
Задание повторяющихся границ парсинга внутри повторяющейся
Как производить поиск элементов нужной повторяющейся границы в тексте обычной границы парсинга (в определенной части кода WEB-документа), а не в целом коде WEB-документа
Как выводить каждый цикл повторяющихся границ парсинга с новой строки CSV в том же столбце
Как сделать, чтобы количество столбцов CSV, создаваемых повторяющимися границами парсинга было всегда одинаковым, вне зависимости от количества найденных циклов (чтобы столбцы справа не плавали)
Создание комбинаций из значений циклов выбранных повторяющихся границ парсинга
Вставка в шаблон одной повторяющейся границы парсинга смежных (параллельных) значений циклов из любых других повторяющихся границ

Загрузка файлов на диск и их переименование при парсинге контента (загрузка картинок, pdf-файлов, архивов, mp3, flv и так далее (с возможностью присвоения уникального имени каждому файлу))
   — Скачивание нескольких картинок с использованием повторяющихся границ парсинга
   — Вывод одних и тех же картинок в каждом цикле повторяющихся границ парсинга (с помощью макроса [VAR])
   — Изменение размеров изображений, скачиваемых макросом DOWNLOADFILE
   — Вывод в результат парсинга контента имен файлов, скачанных макросом DOWNLOADFILE
   — Вывод в результат парсинга контента размеров файлов/изображений, скачанных макросом DOWNLOADFILE
   — Вывод в результат парсинга контента размерностей изображений (ширина и высота), скачанных макросом DOWNLOADFILE
   — Как с помощью макроса DOWNLOADFILE скачивать картинки из HTML-тегов IMG
   — Как парсить определенное количество WEB-документов в каждый файл и создавать отдельную папку с картинками для каждого такого файла
   — Если не скачиваются файлы по HTTPS-протоколу

Парсинг BASE64-картинок



Если вам нужно быстро и легко собрать, скажем, ссылки на все товары или статьи, первым делом рекомендуется проверить наличие карты сайта. Обычно карта имеет актуальный набор ссылок и располагается по адресу типа http://***.ru/sitemap.xml (в корне сайта). Просто попробуйте открыть подобный адрес у себя в браузере. Если карты сайта по такому адресу нет, проанализируйте файл robots.txt (http://***.ru/robots.txt), в котором может быть строка с ее другим адресом типа Sitemap: http://***.ru/map/sitemap.xml (как парсить XML-карту сайта описано в этом разделе ниже).

Фильтры ссылок (отсеивание лишних ссылок при парсинге)
   — Использование регулярных выражений в фильтрах ссылок и в фильтрах списка очереди сканера сайтов

Парсинг ссылок со страниц рубрики сайта (сбор ссылок во вкладке «ссылки»)
   — Генерация списков ссылок с использованием заданных числовых и/или строковых значений (ключевых слов)
   — Использование в URL-адресах динамического оператора {num:a,b} при парсинге во вкладке «Ссылки» (автоматическая генерация ссылок, когда конечное число диапазона неизвестно или может изменяться)
   — Парсинг поисковых форм сайта с использованием списка запросов

Сканер сайтов (робот обойдет страницы сайта и спарсит с них ссылки)
   — Если сканер сайтов находит не все ссылки (или вообще не находит ни одной ссылки)
   — Парсинг товаров из указанных рубрик с помощью сканера сайтов (когда количество страниц со списком товаров в каждой рубрике разное)
   — Как сканером сайтов выполнять поиск ссылок только в определенных частях WEB-страниц сайта
   — Как сканером парсить сразу несколько XML карт сайтов

Парсинг ссылок из XML-карты сайта
   — Парсинг составных XML-карт сайтов (в карте сайта находятся ссылки на несколько XML-карт)

Парсинг ссылок, подгружаемых при клике по кнопке типа «показать еще» (с помощью WBApp)
Автоматическое добавление файлов из указанной папки локального диска в список ссылок при парсинге (SCANDIR)
Другие методы парсинга ссылок, методы добавления ссылок в программу, парсинг файлов с локального диска


Создание дополнительных HTTP-запросов при парсинге во вкладке «Контент»

Как подгружать данные с указанных URL-адресов при парсинге контента (макрос шаблона вывода GETMORECONTENT, GET и POST запросы с возможностью передачи HTTP-заголовков)
   — Парсинг статей разбитых на несколько WEB-страниц (GETMORECONTENT (LOOP Mode))
   — Как парсить данные, которые динамически подгружаются WEB-страницей запросами POST с помощью макроса GETMORECONTENT

Как подгружать цикличные данные с указанных URL-адресов при парсинге контента (макрос шаблона вывода GETMORECYCLECONTENT, GET запросы)

Подключение php скриптов к шаблону вывода (макрос PHP_SCRIPT, POST запросы)
   — Использование PHP-скриптов с локального сервера (localhost) для обработки контента при парсинге


Типичные задачи и примеры парсинга


Парсинг товаров интернет-магазинов в CSV
   — Парсинг товаров по списку артикулов/наименований
   — Парсинг товаров с несколькими размерами или цветами (от выбранного размера или цвета меняются картинки товара, цены и описание)
   — Пример парсинга товаров с несколькими ценами и вариантами характеристик (цены и варианты характеристик выведены рядом в обычном виде)
   — Парсинг товаров с изменяющимися атрибутами (например, размеры меняются в зависимости от выбранного цвета, размеры и цвета в разных местах кода WEB-документа)
   — Парсинг в CSV всех характеристик товара РАЗОМ в одну или в отдельные ячейки CSV

Парсинг статей с сайтов (с картинками и без)

Парсинг XML файла в CSV (преобразование XML в CSV)
Автоматический парсинг e-mail адресов и номеров телефонов из кода WEB-документов
Как парсить адреса e-mail из кода WEB-документа


При парсинге товаров интернет магазина


Генерация уникальных ID товаров или статей при парсинге контента с помощью макроса [SKU_UNIQUE]
Создание с помощью повторяющихся границ в CSV нескольких строк одного товара, где на каждой строке будет изменяться какой-либо атрибут товара (например, цвет)
Если столбцы CSV плавают на разных товарах при парсинге контента


Парсинг в различные форматы и CMS


Парсинг WEB-документов в XML файлы

Создание XML-файла импорта в WordPress

Переименование изображений для CMS OpenCart (задание имен файлов дополнительных изображений с нарастающим индексом)


Подключение файлов к шаблону вывода


Работа с подключаемыми таблицами CSV (чтение и запись данных из/в CSV-файлы на диске и многое другое, макросы: [LOADCSV], [GETCSVDATA], [PUTCSVDATA], [GETCSVCOORD], [COPYCSVDATA], [CSVREPLACE])
   — Как допарсить данные в CSV-файл на диске (например, загрузить картинки)

Подключение XML-файлов к шаблону вывода (для дозаписи, макросы: [LOADXML], [XMLADD])
Макрос шаблона вывода [FILE] (вставка данных из файла на диске)
Парсинг одного WEB-документа в несколько разных файлов на диск (сохранение произвольных частей шаблона вывода в указанные файлы макросом [SAVETOFILE])


Автоматизация


Автоматизация выполнения различных действий (автозагрузка списка ссылок перед парсингом, постобработка CSV, зарузка картинок на FTP и прочее)
Запуск программы с передачей параметров (например, из командной строки или планировщика Windows с возможностью запуска по расписанию)
Загрузка (UPLOAD) документов (в которые парсим контент), файлов и картинок на FTP-сервер при парсинге контента
Распознавание каптчи с помощью сервиса Antigate
Распознавание каптчи, отправка текста каптчи и получение ответных cookies (с использованием WBApp) при парсинге контента
Автоматическое пересохранение полученных CSV файлов в формат XLS при завершении парсинга контента
Выключение компьютера при завершении парсинга контента
Как разбить CSV-файлы на части при завершении процедуры парсинга контента
Как автоматически загрузить в список ссылок файлы из папки на локальном диске с помощью SCANDIR (просканировать папку на наличие файлов и приступить к парсингу контента)
Использование встроенного планировщика программы (запуск цепочек проектов по расписанию)
Автоматическая приостановка парсинга во вкладке «Контент» при появлении капчи для ее ручного разгадывания (макрос шаблона вывода [WAITFORME])


Редактор CSV файлов


Редактор CSV файлов (общее)
Слияние (объединение) двух CSV файлов (двух таблиц товаров) по ключевым столбцам
Изменение структуры CSV таблицы (перенос имен характеристик из строки заголовка в соответствующие столбцы)
Загрузка (скачивание) картинок из интернет по ссылкам в таблице CSV
Как наполнить таблицу CSV картинками из Google (выбирая их вручную)
Просмотр и удаление картинок в таблицах CSV


Решение различных проблем


Решение проблем с возможными ошибками загрузки WEB-страниц (в том числе парсинг «проблематичных» HTTPS-сайтов)
Если при предпросмотре все WEB-страницы загружаются, а при парсинге происходят пропуски некоторых WEB-страниц
Отключение появления в Internet Explorer предупреждения системы безопасности «вы хотите отображать только безопасное содержимое веб-страниц?»
Отключение появления в Internet Explorer предупреждения системы безопасности «не удается подтвердить подлинность этого веб-сайта или целостность этого соединения» (или «возникла проблема с сертификатом безопасности этого веб-сайта»)
Решение проблем с возможными «зависаниями» программы или с ошибками «out of memory», «thread creation error…» при парсинге во вкладке «контент» или в сканере сайтов
Решение проблем с кодировкой при парсинге


Рекомендации по настройке системы


Отключите сглаживание неровностей экранных шрифтов Windows


Дополнительно


Генерация уникальных ЧПУ из любой текстовой строки (макрос [SURLUNIQUE])
Работа с нарастающими целочисленными переменными ([INT_ID], [COUNT])
Мониторинг данных на WEB-странице и отправка оповещений на почту (например, отправить сообщение, когда цена станет больше указанной)
Преобразование HTML-таблиц с объединенными ячейками (атрибуты rowspan и colspan) в обычный вид (макрос [APPLYTABLESPANS])
Удаление лишних атрибутов HTML-тегов (макрос шаблона вывода [CLEARTAGSATTRS])
Парсинг сайтов с экзотическими языками (китайский и прочие)
Парсинг контента и ссылок с использованием POST-запросов
Как парсить несколько картинок с одной страницы с присвоением каждой уникального имени файла
Парсинг сайтов, где названия рубрик на страницах товаров не указаны (названия рубрик товаров указаны только на страницах категорий сайта)
Парсинг определенных (перечисленных) слов из текста или очистка текста от определенных (перечисленных) слов (макрос [EXTRACTWORD])
Парсинг определенных характеристик товаров из неформатированного текста (макрос [EXTRACTATTR])
Получение редиректов ссылок (макрос [GETREDIRECT])
Как удалять HTML-теги при парсинге контента: все, кроме указанных, только указанные
Передача произвольных HTTP-заголовков (custom headers) при парсинге контента и ссылок
Как избежать бана при парсинге некоторых сайтов (изменить количество потоков, выставить паузу между запросами, использовать прокси)
Как избежать повторной загрузки одних и тех же WEB-документов при следующем парсинге (во вкладке «контент»)
Инструмент расширенного удаления дублей ссылок
Использование встроенного синонимайзера (макрос шаблона вывода [SYN]…[/SYN])
Загрузка HTML-таблиц в память и вывод данных в нужном формате (макросы шаблона вывода: [LOADHTMLTABLE], [GETTDATA], [REBUILD])
Преобразование многострочных HTML-таблиц в двухстрочные (методом объединения данных первых нескольких рядов ячеек, кроме последнего, макрос [MERGETABLEROWS])
Вычисление математических и логических конструкций с помощью макроса шаблона вывода [MATH]
Выполнение операций с файлами на диске (копирование, перемещение, удаление) с помощью макроса шаблона вывода [FILEACTIONS]
Удаление файлов на FTP-сервере с помощью макроса шаблона вывода [FILEACTIONS]
Удаление определенных строк из текстового файла на диске с использованием макроса [DELFILESTRING]
Генерация в цикле текста/кода с использованием нарастающей числовой переменной (макрос [GENERATE])
Как объединять массивы данных из разных частей WEB-документа по ключевым значениям
Полезная информация


Полезное с форума


Подстановка Cookie в WBApp с использованием Fiddler
Пример парсинга характеристик по заданным вхождениям из списка строк (с помощью функций поиск-замены)
Как добавлять незагруженные ссылки в список ссылок при парсинге во вкладке «Контент»
Запись ссылок WEB-документов вместе со значениями [PARAM] в файл на диск при парсинге контента


css.php