Дорогие друзья, схема работы с программой проста

1) Создаем новый проект: меню — файл — создать новый проект или меню — файл — создать новый проект для парсинга в CSV (если парсите интернет-магазин)
2) Парсим нужные URL во вкладке «ссылки» или собираем их сканером сайтов (кнопка на панели инструментов)
3) Переходим во вкладку «контент» (в главном окне программы) и парсим по этим ссылкам нужные данные (задав границы парсинга и вставив их в нужные места шаблона вывода (ctrl+2))

Примечание 1: Парсинг ссылок лучше пропустить и сразу приступить к заданию границ парсинга. Откройте нужный сайт в браузере, скопируйте оттуда пару ссылок на товары или на статьи (смотря что парсите) и добавьте их в список ссылок программы (F8). Потом, когда закончите настройку парсинга контента, соберете ссылки и приступите к парсингу.

Примечание 2: Для выполнения предпросмотра результатов парсинга одной из ссылок (во вкладке «контент» или во вкладке «ссылки»), кликните по ней дважды, а для запуска парсинга всех ссылок — нажмите соответствующую кнопку на панели инструментов в программе или клавишу F5.

Примечание 3: В нижней части окна предпросмотра результатов парсинга контента есть лог выполнения функций и макросов. Кликая по элементам этого лога, вы можете видеть все изменения контента и анализировать работу макросов.

Создать запрос на пополнение/редактирование материалов системы помощи!

>>> Экспресс-курс по изучению основ работы с Content Downloader <<<


Разделы


Основное
Парсинг контента (текст, картинки)
Парсинг и добавление ссылок
Создание дополнительных HTTP-запросов при парсинге во вкладке «Контент»
Типичные задачи и примеры парсинга
При парсинге товаров интернет магазина
Парсинг в различные форматы и CMS
Подключение файлов к шаблону вывода
Автоматизация
Редактор CSV файлов
Решение различных проблем
Рекомендации по настройке системы
Дополнительно
Полезное с форума

Для возврата к меню навигации пользуйтесь клавишей home


Основное


Знакомство с элементами интерфейса
Шаблон вывода (в нем вы создаете структуру результирующего файла (результат парсинга контента) и работаете с данными, используя различные макросы шаблона вывода)
Дополнительные макросы шаблона вывода
Работа с вложенными блоками кода шаблона вывода (для удобной работы с громоздкими конструкциями макросов в шаблоне вывода или в шаблонах повторяющихся границ парсинга)
Добавление текстовых комментариев к коду шаблона вывода, комментирование частей кода шаблона вывода и лишних переносов строк
Менеджер макросов шаблонов вывода
Менеджер шаблонов вывода, макросов и правил поиск-замены
Основы парсинга контента
Программные операторы разделителей ячеек CSV: [CSVCS], [CSVLB], {CSVCS}, {CSVLB}, [CSVCS]→
Авторизация на сайтах
Как начать парсить в 1 поток и затем увеличить количество потоков при парсинге во вкладке «Контент» (макрос шаблона вывода [MORE_THREADS])
Передача cookie из браузера в программу
Фильтрация товаров при парсинге по нескольким условиям

Функции поиск-замены и регулярные выражения
    — Режим поиска-замены слов ([WORDMODE])
    — Как обходить замену уже замененных частей текста при использовании нескольких правил поиск-замены ([AVOID_RE])/Как быстро обработать текст большим количеством правил поиск-замены (1000+)
    — Выполнение правил поиск-замены в указанных сегментах текста (между заданным start и end)

Использование списка прокси-серверов в программе
Лог парсинга WEB документов (для вкладок «Контент» и «Ссылки»)
Если последовательность макросов или вложенные в друг-друга макросы шаблона вывода «работают некорректно» (или: как пользоваться логом выполнения функций и макросов)
Настройка сохранения результатов парсинга контента в указанные файл(ы) на диск с помощью макроса [DOCNAME] (задание имен сохраняемых документов, кодировки сохраняемых документов, парсинг в один файл/в отдельные файлы и другое)
Как производить разбивку CSV файлов (по точному количеству строк) в случае парсинга нескольких товаров с каждой WEB-страницы
Как парсить «вхолостую» (без отправки запросов, только лишь выполняя макросы шаблона вывода) во вкладке «Контент» (оператор [BLANK])
Как производить поиск-замену в только что загруженном коде WEB-документа при парсинге (выполняется перед вычислением границ парсинга)
Как парсить контент, которого нет в коде страницы (часть данных отсутствует в коде, контент подгружается скриптами в браузере)
Запуск PHP-скриптов перед парсингом контента
Как создавать заявки для получения услуг специалистов по настройке
Перед созданием темы на форуме смотрите это видео
Антивирусы могут вмешиваться в работу программы и воздействовать на результат

Автоматический парсинг сразу всех характеристик товаров с автоматическим созданием соответствующих колонок CSV (макрос [DYNAMICVALUES])
   — Парсинг характеристик товаров из JSON в CSV с помощью макроса [DYNAMICVALUES]

Парсинг HTML-таблиц в CSV (макросы: [HORIZTABLE] и [VERTTABLE])
   — Как преобразовать HTML-таблицу с атрибутами rowspan и colspan в обычный вид (метод размножения ячеек)

WBAppCEF (с использованием движка Chrome) (запуск пользовательских Javascript) (только для ULTIMATE версий)

WBAppIE (с использованием движка Internet Explorer) (имитация кликов по элементам веб-страниц, прокрутка веб-страниц, заполнение форм и многое другое) (только для ULTIMATE версий)
   — Значительное ускорение процесса парсинга и исключение пропусков WEB-страниц при парсинге с использованием библиотеки Internet Explorer (WBApp)
   — Как в WBApp прокликивать страницы выдачи сайта по кнопке типа «перейти на следующую страницу»
   — Передача текстовых данных из Content Downloader в WBApp
   — Создание скриншотов WEB-страниц с помощью приложения WBApp
   — Парсинг HTML-кода фрейма WEB-документа с помощью WBApp
   — Запись текущего кода WEB-страницы в файл на диске
   — Вызов WBApp для смены пользователя (на сайте) через каждые n документов при парсинге во вкладке «Контент»
   — Имитация нажатий кнопок мыши и клавиатуры в WBApp
   — Если событие вставки текста в поля WEB-страницы не срабатывает или срабатывает некорректно
   — Рендеринг (создание изображений) элементов WEB-страниц с помощью WBApp
   — Автоматическая авторизация через WBApp при парсинге

Как парсить парсинг сразу в MYSQL-базу (обновление цен товаров, добавление записей и многое другое)
Удаление дублей информации при парсинге контента
Функция создания шаблона вывода на основе заданных границ парсинга
Как парсить только новые товары на сайте (уже спарсенные ранее фильтровать)
Как генерировать в строке заголовка текст по шаблону с нарастающими переменными
Парсинг JSON-элементов с помощью функций поиск-замены
Как добавить к основному документу (который парсите) дополнительные подгружаемые данные (чтобы задать границы парсинга и с подгруженными данными, макрос [APPENDDOCSOURCE])
Как быстро просматривать контент границ парсинга в главном окне программы
Как парсить большие XML YML файлы в CSV


Парсинг контента (текст, картинки)


Задание обычных границ парсинга (когда нужно спарсить до 20 различных частей WEB-документа)
Поиск конца обычных границ парсинга в обратном направлении (параметр инверсия)
Автоматический поиск закрывающего HTML-тега (параметр [AUTO] для конца границы парсинга)

Задание обычных границ парсинга внутри повторяющейся (для парсинга каждого цикла повторяющейся границы обычными границами, например, когда нужно спарсить несколько товаров с одной WEB-страницы)

Задание динамических границ парсинга (КОГДА НУЖНО ЗАДАТЬ БОЛЕЕ 20 ГРАНИЦ ПАРСИНГА, работают аналогично обычным границам парсинга, но поддерживают регулярные выражения и не ограничены по количеству)

Задание повторяющихся границ парсинга (когда нужно спарсить множество частей WEB-документа, заключенных в одинаковые участки кода, например, спарсить комментарии)
Задание повторяющихся границ парсинга внутри повторяющейся
Как производить поиск элементов нужной повторяющейся границы в тексте обычной границы парсинга (в определенной части кода WEB-документа), а не в целом коде WEB-документа
Как выводить каждый цикл повторяющихся границ парсинга с новой строки CSV в том же столбце
Как сделать, чтобы количество столбцов CSV, создаваемых повторяющимися границами парсинга было всегда одинаковым, вне зависимости от количества найденных циклов (чтобы столбцы справа не плавали)
Создание комбинаций из значений циклов выбранных повторяющихся границ парсинга
Вставка в шаблон одной повторяющейся границы парсинга смежных (параллельных) значений циклов из любых других повторяющихся границ
Как быстро добавить макросы в шаблон нужной повторяющейся границы парсинга

Загрузка файлов на диск и их переименование при парсинге контента (загрузка картинок, pdf-файлов, архивов, mp3, flv и так далее (с возможностью присвоения уникального имени каждому файлу))
   — Скачивание нескольких картинок с использованием повторяющихся границ парсинга
   — Вывод одних и тех же картинок в каждом цикле повторяющихся границ парсинга (с помощью макроса [VAR])
   — Изменение размеров изображений, скачиваемых макросом DOWNLOADFILE
   — Как автоматически удалять из результата парсинга IMG теги нескачанных картинок (с нерабочими ссылками)
   — Вывод в результат парсинга контента имен файлов, скачанных макросом DOWNLOADFILE
   — Вывод в результат парсинга контента размеров файлов/изображений, скачанных макросом DOWNLOADFILE
   — Вывод в результат парсинга контента размерностей изображений (ширина и высота), скачанных макросом DOWNLOADFILE
   — Использование [DFSTATUS] для вывод статуса работы макросов DOWNLOADFILE
   — Как с помощью макроса DOWNLOADFILE скачивать картинки из HTML-тегов IMG
   — Как парсить определенное количество WEB-документов в каждый файл и создавать отдельную папку с картинками для каждого такого файла
   — Если не скачиваются файлы по HTTPS-протоколу
   — Если в коде WEB-документа нет URL-адресов картинок
   — Как отключить автоматическое переименование файлов (и другие опции DOWNLOADFILE)
   — Как пропускать скачивание файлов по одинаковым ссылкам и вставлять нужные данные в результат

Парсинг BASE64-картинок



Если вам нужно быстро и легко собрать, скажем, ссылки на все товары или статьи, первым делом рекомендуется проверить наличие карты сайта. Обычно карта имеет актуальный набор ссылок и располагается по адресу типа http://***.ru/sitemap.xml (в корне сайта). Просто попробуйте открыть подобный адрес у себя в браузере. Если карты сайта по такому адресу нет, проанализируйте файл robots.txt (http://***.ru/robots.txt), в котором может быть строка с ее другим адресом типа Sitemap: http://***.ru/map/sitemap.xml (как парсить XML-карту сайта описано в этом разделе ниже).

Фильтры ссылок (отсеивание лишних ссылок при парсинге)
   — Использование регулярных выражений в фильтрах ссылок и в фильтрах списка очереди сканера сайтов

Парсинг ссылок со страниц рубрики сайта (сбор ссылок во вкладке «ссылки»)
   — Генерация списков ссылок с использованием заданных числовых и/или строковых значений (ключевых слов)
   — Использование в URL-адресах динамического оператора {num:a,b} при парсинге во вкладке «Ссылки» (автоматическая генерация ссылок, когда конечное число диапазона неизвестно или может изменяться)
   — Парсинг поисковых форм сайта с использованием списка запросов

Сканер сайтов (робот обойдет страницы сайта и спарсит с них ссылки)
   — Если сканер сайтов находит не все ссылки (или вообще не находит ни одной ссылки)
   — Парсинг товаров из указанных рубрик с помощью сканера сайтов (когда количество страниц со списком товаров в каждой рубрике разное)
   — Как сканером сайтов выполнять поиск ссылок только в определенных частях WEB-страниц сайта
   — Как сканером парсить сразу несколько XML карт сайтов

Парсинг ссылок из XML-карты сайта
   — Парсинг составных XML-карт сайтов (в карте сайта находятся ссылки на несколько XML-карт)

Парсинг ссылок, подгружаемых при клике по кнопке типа «показать еще» (с помощью WBApp)
Парсинг ссылок или товаров с автоматическим прокликиванием всех страниц рубрики сайта (с помощью WBApp)

Автоматическое добавление файлов из указанной папки локального диска в список ссылок при парсинге (SCANDIR)
Другие методы парсинга ссылок, методы добавления ссылок в программу, парсинг файлов с локального диска


Создание дополнительных HTTP-запросов при парсинге во вкладке «Контент»

Как подгружать данные с указанных URL-адресов при парсинге контента (макрос шаблона вывода GETMORECONTENT, GET и POST запросы с возможностью передачи HTTP-заголовков)
   — Парсинг статей, разбитых на несколько WEB-страниц (GETMORECONTENT (LOOP Mode))
   — Как парсить данные, которые динамически подгружаются WEB-страницей запросами POST с помощью макроса GETMORECONTENT

Как подгружать цикличные данные с указанных URL-адресов при парсинге контента (макрос шаблона вывода GETMORECYCLECONTENT, GET запросы)

Подключение php скриптов к шаблону вывода (макрос PHP_SCRIPT, отправка POST и GET запросов)
   — Использование PHP-скриптов с локального сервера (localhost) для обработки контента при парсинге

Парсинг телефонов с сайтов, где для отображения телефона нужно кликнуть по кнопке (парсим с помощью макросов PHP_SCRIPT и GETMORECONTENT)


Типичные задачи и примеры парсинга


Парсинг товаров интернет-магазинов в CSV
   — Парсинг товаров по списку артикулов/наименований
   — Парсинг товаров с несколькими размерами или цветами (от выбранного размера или цвета меняются картинки товара, цены и описание)
   — Пример парсинга товаров с несколькими ценами и вариантами характеристик (цены и варианты характеристик выведены рядом в обычном виде)
   — Парсинг товаров с изменяющимися атрибутами (например, размеры меняются в зависимости от выбранного цвета, размеры и цвета в разных местах кода WEB-документа)
   — Парсинг характеристик товаров в случаях, когда имена и значения характеристик идут не поочередно, а отдельно (сначала перечислены имена, потом значения)
   — Парсинг в CSV всех характеристик товара РАЗОМ в одну или в отдельные ячейки CSV

Парсинг статей с сайтов (с картинками и без)

Парсинг поисковых форм сайтов с передачей в результат ключевых слов (по которым производился поиск) с помощью [PARAM]

Парсинг XML файла в CSV (преобразование XML в CSV)
Автоматический парсинг e-mail адресов и номеров телефонов из кода WEB-документов
Как парсить адреса e-mail из кода WEB-документа


При парсинге товаров интернет магазина


Генерация уникальных ID товаров или статей при парсинге контента с помощью макроса [SKU_UNIQUE]
Создание с помощью повторяющихся границ в CSV нескольких строк одного товара, где на каждой строке будет изменяться какой-либо атрибут товара (например, цвет)
Если столбцы CSV плавают на разных товарах при парсинге контента
Парсинг товаров с опциями, представленными в коде WEB-страницы в виде массива JSON


Парсинг в различные форматы и CMS


Парсинг WEB-документов в XML файлы

Создание XML-файла импорта в WordPress

Переименование изображений для CMS OpenCart (задание имен файлов дополнительных изображений с нарастающим индексом)


Подключение файлов к шаблону вывода


Работа с подключаемыми таблицами CSV (чтение и запись данных из/в CSV-файлы на диске и многое другое, макросы: [LOADCSV], [GETCSVDATA], [PUTCSVDATA], [GETCSVCOORD], [COPYCSVDATA], [CSVREPLACE])
   — Как допарсить данные в CSV-файл на диске (например, загрузить картинки)

Подключение XML-файлов к шаблону вывода (для дозаписи, макросы: [LOADXML], [XMLADD])
Макрос шаблона вывода [FILE] (вставка данных из файла на диске)
Парсинг одного WEB-документа в несколько разных файлов на диск (сохранение произвольных частей шаблона вывода в указанные файлы макросом [SAVETOFILE])


Автоматизация


Загрузка любых файлов с локального диска на FTP сервер
Автоматизация выполнения различных действий (автозагрузка списка ссылок перед парсингом, постобработка CSV, зарузка картинок на FTP и прочее)
Запуск программы с передачей параметров (например, из командной строки или планировщика Windows с возможностью запуска по расписанию)
Загрузка (UPLOAD) документов (в которые парсим контент), файлов и картинок на FTP-сервер при парсинге контента
Распознавание каптчи с помощью сервиса Antigate
Распознавание каптчи, отправка текста каптчи и получение ответных cookies (с использованием WBApp) при парсинге контента
Автоматическое пересохранение полученных CSV файлов в формат XLS при завершении парсинга контента
Выключение компьютера при завершении парсинга контента
Как разбить CSV-файлы на части при завершении процедуры парсинга контента
Как автоматически загрузить в список ссылок файлы из папки на локальном диске с помощью SCANDIR (просканировать папку на наличие файлов и приступить к парсингу контента)
Использование встроенного планировщика программы (запуск цепочек проектов по расписанию)
Автоматическая приостановка парсинга во вкладке «Контент» при появлении капчи для ее ручного разгадывания (макрос шаблона вывода [WAITFORME])


Редактор CSV файлов


Редактор CSV файлов (общее)
Как объединить (склеить) несколько CSV файлов (простым методом)
Объединение нескольких CSV файлов с автоматическим распределением данных по столбцам
Слияние (объединение) двух CSV файлов (двух таблиц товаров) по ключевым столбцам
Разбивка CSV файла по количеству строк или по названиям рубрик (именам в ячейках)
Изменение структуры CSV таблицы (перенос имен характеристик из строки заголовка в соответствующие столбцы)
Загрузка (скачивание) картинок из интернет по ссылкам в таблице CSV
Как наполнить таблицу CSV картинками из Google (выбирая их вручную)
Просмотр и удаление картинок в таблицах CSV
Объединение в CSV строк одинаковых товаров, которые имеют разные рубрики (или какие-то другие данные)
Размножение строк (товаров) с несколькими атрибутами в ячейке


Решение различных проблем


Решение проблем с возможными ошибками загрузки WEB-страниц (в том числе парсинг «проблематичных» HTTPS-сайтов)
Если при предпросмотре все WEB-страницы загружаются, а при парсинге происходят пропуски некоторых WEB-страниц
Отключение появления в Internet Explorer предупреждения системы безопасности «вы хотите отображать только безопасное содержимое веб-страниц?»
Отключение появления в Internet Explorer предупреждения системы безопасности «не удается подтвердить подлинность этого веб-сайта или целостность этого соединения» (или «возникла проблема с сертификатом безопасности этого веб-сайта»)
Решение проблем с возможными «зависаниями» программы или с ошибками «out of memory», «thread creation error…» при парсинге во вкладке «контент» или в сканере сайтов
Решение проблем с кодировкой при парсинге


Рекомендации по настройке системы


Отключите сглаживание неровностей экранных шрифтов Windows


Дополнительно


Добавление последнего WEB-документа в список ссылок с указанным шаблоном вывода при парсинге во вкладке «Контент» с помощью макроса [ADDFINALDOCUMENT]
Автоматический перевод текста при парсинге
Как получать MD5 файлов с помощью макроса [GETMD5]
Генерация уникальных ЧПУ из любой текстовой строки (макрос [SURLUNIQUE])
Работа с нарастающими целочисленными переменными ([INT_ID], [COUNT])
Мониторинг данных на WEB-странице и отправка оповещений на почту (например, отправить сообщение, когда цена станет больше указанной)
Преобразование HTML-таблиц с объединенными ячейками (атрибуты rowspan и colspan) в обычный вид (макрос [APPLYTABLESPANS])
Удаление лишних атрибутов HTML-тегов (макрос шаблона вывода [CLEARTAGSATTRS])
Парсинг сайтов с экзотическими языками (китайский и прочие)
Парсинг контента и ссылок с использованием POST-запросов
Как парсить несколько картинок с одной страницы с присвоением каждой уникального имени файла
Парсинг сайтов, где названия рубрик на страницах товаров не указаны (названия рубрик товаров указаны только на страницах категорий сайта)
Парсинг определенных (перечисленных) слов из текста или очистка текста от определенных (перечисленных) слов (макрос [EXTRACTWORD])
Парсинг определенных характеристик товаров из неформатированного текста (макрос [EXTRACTATTR])
Получение редиректов ссылок (макрос [GETREDIRECT])
Как удалять HTML-теги при парсинге контента: все, кроме указанных, только указанные
Передача произвольных HTTP-заголовков (custom headers) при парсинге контента и ссылок
Как избежать бана при парсинге некоторых сайтов (изменить количество потоков, выставить паузу между запросами, использовать прокси)
Как избежать повторной загрузки одних и тех же WEB-документов при следующем парсинге (во вкладке «контент»)
Инструмент расширенного удаления дублей ссылок
Использование встроенного синонимайзера (макрос шаблона вывода [SYN]…[/SYN])
Загрузка HTML-таблиц в память и вывод данных в нужном формате (макросы шаблона вывода: [LOADHTMLTABLE], [GETTDATA], [REBUILD])
Преобразование многострочных HTML-таблиц в двухстрочные (методом объединения данных первых нескольких рядов ячеек, кроме последнего, макрос [MERGETABLEROWS])
Вычисление математических и логических конструкций с помощью макроса шаблона вывода [MATH]
Выполнение операций с файлами на диске (копирование, перемещение, удаление) с помощью макроса шаблона вывода [FILEACTIONS]
Удаление файлов на FTP-сервере с помощью макроса шаблона вывода [FILEACTIONS]
Удаление определенных строк из текстового файла на диске с использованием макроса [DELFILESTRING]
Генерация в цикле текста/кода с использованием нарастающей числовой переменной (макрос [GENERATE])
Как объединять массивы данных из разных частей WEB-документа по ключевым значениям
Преобразование относительных ссылок HTML-тегов текста в абсолютные
Как выполнить определенные макросы только при парсинге первого WEB-документа
Нюансы парсинга ссылок с символом решетки в них
Задание значения переменной, используемой в ссылках WEB-документов (макрос шаблона вывода [DATAFORURL])
Полезная информация


Полезное с форума


Подстановка Cookie в WBApp с использованием Fiddler
Пример парсинга характеристик по заданным вхождениям из списка строк (с помощью функций поиск-замены)
Как добавлять незагруженные ссылки в список ссылок при парсинге во вкладке «Контент»
Запись ссылок WEB-документов вместе со значениями [PARAM] в файл на диск при парсинге контента
Как загрузить WEB-страницы сайта в Chrome и затем спарсить их в Content Downloader
Автоматический перевод текста при парсинге через Яндекс Переводчик с использованием WBApp
Как подгрузить список прокси запросом к HTTP-Api и переформатировать ответ из формата JSON в нужный (login:pass@ip:port)
Proxy сервисы которые пригодятся для Content Downloader
Как в каждом цикле повторяющейся границы выводить значения предыдущих циклов повторяющейся границы
Как во вкладке «Контент» повторно спарсить элемент, если результирующий документ оказался пустым (без ошибки загрузки WEB-страницы)
Если на Windows 10 с помощью макроса DOWNLOADFILE не скачиваются картинки (по рабочим ссылкам) даже с помощью библиотеки WIN2 (выбранной в окне shift+ctrl+l)
Заготовки для популярных CMS в виде готовых .cdp


css.php