>>> Экспресс-курс по изучению основ работы с Content Downloader <<<


Парсинг товаров

Парсинг XML

Парсинг JSON

Парсинг статей

Парсинг картинок и файлов

Обработка контента при парсинге

Границы парсинга

Парсинг ссылок

Обработка CSV

Парсинг через браузер
Автоматизация действий

Подключение CSV, XML, TXT
файлов при парсинге

Создание дополнительных GET
или POST запросов

Автоматическая загрузка
контента на FTP

Парсинг
заскриптованных сайтов

Мониторинг
цен товаров

Парсинг комментариев
или отзывов

Парсинг контактов

Автоматизация


Готовые файлы проектов


Данные файлы проектов (в основном) доступны только для Content Downloader с типом лицензии ULTIMATE (UNLIMITED)

Апгрейд типа лицензии и покупка UNLIMITED подписки осуществляется на этой странице (клик)

Проект парсинга товаров с Озон (на WBAppCEF3)

Проект парсинга выдачи Google

Проект парсинга телефонов с Auto.ru (на WBAppCEF3)

Проект парсинга телефонов с kolesa.kz (на WBAppCEF3)

Проект парсинга Wildberries

Автоматический перевод текста при парсинге с использованием сервиса Google переводчик


Файлы проектов для демо версии (подойдут для обучения и парсинга)


Файлы проектов от энтузиастов



Разделы


Основное
Парсинг контента (текст, картинки)
Парсинг и добавление ссылок
Создание дополнительных HTTP-запросов при парсинге во вкладке “Контент”
Обработка контента при парсинге во вкладке “Контент”
Парсинг товаров из интернет магазинов или XML файлов
Парсинг с использованием движков браузера (с выполнением Javascript на WEB страницах и автоматизацией/имитацией действий пользователя в браузере)
Типичные задачи и примеры парсинга
Парсинг в различные форматы и CMS
Подключение файлов к шаблону вывода
Автоматизация
Редактор CSV файлов
Решение различных проблем
Рекомендации по настройке системы
Дополнительно
Полезное с форума

Для возврата к меню навигации пользуйтесь клавишей home

Создать запрос на пополнение/редактирование материалов системы помощи!


Основное


Экспресс курс по изучению основ работы с программой (необходимо его освоить в первую очередь)
Как загружаются WEB страницы в браузере (ТАКЖЕ НЕОБХОДИМО ИЗУЧИТЬ)!

Знакомство с элементами интерфейса
Шаблон вывода (в нем вы создаете структуру результирующего файла (результат парсинга контента) и работаете с данными, используя различные макросы шаблона вывода)
   – Редактирование шаблона вывода в виде таблицы
   – Работа со строкой заголовка и шаблоном вывода при настройке парсинга в CSV
   – Как выборочно отключить контейнер ячеек для определенных ячеек CSV (оператор {NOCONTAINER})
Дополнительные макросы шаблона вывода
Работа с вложенными блоками кода шаблона вывода (для удобной работы с громоздкими конструкциями макросов в шаблоне вывода или в шаблонах повторяющихся границ парсинга)
Добавление текстовых комментариев к коду шаблона вывода, комментирование частей кода шаблона вывода и лишних переносов строк
Менеджер макросов шаблонов вывода
Менеджер шаблонов вывода, макросов и правил поиск-замены
Программные операторы разделителей ячеек CSV: [CSVCS], [CSVLB], {CSVCS}, {CSVLB}, [CSVCS]→
Лог парсинга WEB документов (для вкладок “Контент” и “Ссылки”)
Если последовательность макросов или вложенные в друг-друга макросы шаблона вывода «работают некорректно» (или: как пользоваться логом выполнения функций и макросов)
Как парсить «вхолостую» (без отправки запросов, только лишь выполняя макросы шаблона вывода) во вкладке «Контент» (оператор [BLANK])
Функция создания шаблона вывода на основе заданных границ парсинга
Как генерировать в строке заголовка текст по шаблону с нарастающими переменными
Как быстро просматривать контент границ парсинга в главном окне программы

Основы парсинга контента

Нюансы парсинга и настройки программы (важно усвоить)

Авторизация на сайтах
Как передать Cookie и другие HTTP заголовки в программу
Передача cookie из браузера в программу

Использование списка прокси-серверов в программе

Функции поиск-замены и регулярные выражения
    – Как производить поиск-замену в только что загруженном коде WEB-документа при парсинге (выполняется перед вычислением границ парсинга)
    – Режим поиска-замены слов ([WORDMODE])
    – Как обходить замену уже замененных частей текста при использовании нескольких правил поиск-замены ([AVOID_RE])/Как быстро обработать текст большим количеством правил поиск-замены (1000+)
    – Выполнение правил поиск-замены в указанных сегментах текста (между заданным start и end)
    – Парсинг JSON-элементов с помощью функций поиск-замены
    – Извлечение данных в функциях поиск замены с помощью задания границ парсинга

Как парсить контент, которого нет в коде страницы (часть данных отсутствует в коде, контент подгружается скриптами в браузере)

Как добавить к основному документу (который парсите) дополнительные подгружаемые данные (чтобы задать границы парсинга и с подгруженными данными, макрос [APPENDDOCSOURCE])

Использование оператора [PARAM] в элементах списка ссылок

Как парсить большие XML YML файлы в CSV

Как сделать, чтобы сайт при парсинге отправлял сжатые данные GZip (для экономии WEB трафика)

Как ускорить парсинг (путем снижения нагрузки на процессор)

Как создавать заявки для получения услуг специалистов по настройке


Парсинг контента (текст, картинки)


Задание обычных границ парсинга (когда нужно спарсить до 20 различных частей WEB-документа)
   – Поиск конца обычных границ парсинга в обратном направлении (параметр инверсия)
   – Автоматический поиск закрывающего HTML-тега (параметр [AUTO] для конца границы парсинга)
   – Автоматический поиск закрывающей фигурной или квадратной скобки (параметр [JSONAUTO] для конца границы парсинга)

Задание обычных границ парсинга внутри повторяющейся (для парсинга каждого цикла повторяющейся границы обычными границами, например, когда нужно спарсить несколько товаров с одной WEB-страницы)

Задание динамических границ парсинга (КОГДА НУЖНО ЗАДАТЬ БОЛЕЕ 20 ГРАНИЦ ПАРСИНГА, работают аналогично обычным границам парсинга, но поддерживают регулярные выражения и не ограничены по количеству)

Как использовать контент одной границы парсинга в качестве начала или конца другой

Задание повторяющихся границ парсинга (когда нужно спарсить множество частей WEB-документа, заключенных в одинаковые участки кода, например, спарсить комментарии)
   – Автоматический поиск закрывающего HTML-тега (параметр [AUTO] для конца границы парсинга)
   – Автоматический поиск закрывающей фигурной или квадратной скобки (параметр [JSONAUTO] для конца границы парсинга)
   – Фильтрация циклов повторяющихся границ
   – Задание повторяющихся границ парсинга внутри повторяющейся
   – Как производить поиск элементов нужной повторяющейся границы в тексте обычной границы парсинга (в определенной части кода WEB-документа), а не в целом коде WEB-документа
   – Как выводить каждый цикл повторяющихся границ парсинга с новой строки CSV в том же столбце
   – Как сделать, чтобы количество столбцов CSV, создаваемых повторяющимися границами парсинга было всегда одинаковым, вне зависимости от количества найденных циклов (чтобы столбцы справа не плавали)
   – Создание комбинаций из значений циклов выбранных повторяющихся границ парсинга
   – Вставка в шаблон одной повторяющейся границы парсинга смежных (параллельных) значений циклов из любых других повторяющихся границ
   – Вставка в каждый цикл повторяющихся границ парсинга нужных значений переменных, заданных (в другом месте) с помощью макроса [VAR]
   – Как быстро добавить макросы в шаблон нужной повторяющейся границы парсинга
   – Удаление дублей циклов повторяющихся границ парсинга
   – Как выводить определенные данные только в первом цикле повторяющихся границ прсинга
   – Как выводить повторяющуюся границу на нескольких строках столбца CSV (парсинг в HostCMS) или как вытягивать определенные данные вниз в определенном столбце CSV (макросы [EXPANDV] и [EXPANDV_FILL])


Настройка сохранения результатов парсинга контента в указанные файл(ы) на диск с помощью макроса [DOCNAME] (задание имен сохраняемых документов, кодировки сохраняемых документов, парсинг в один файл/в отдельные файлы и другое)

Парсинг одного WEB-документа в несколько разных файлов на диск (сохранение произвольных частей шаблона вывода в указанные файлы макросом [SAVETOFILE])


Загрузка файлов на диск, их переименование и указание папки (пути) для сохранения (загрузка картинок, pdf-файлов, архивов, mp3, flv и так далее)
   – Скачивание нескольких картинок с использованием повторяющихся границ парсинга
   – Парсинг картинок из JSON блоков кода
   – Вывод одних и тех же картинок в каждом цикле повторяющихся границ парсинга (с помощью макроса [VAR])
   – Изменение размеров изображений, скачиваемых макросом DOWNLOADFILE
   – Наложение watermark (водяных знаков) при парсинге картинок
   – Как автоматически удалять из результата парсинга IMG теги нескачанных картинок (с нерабочими ссылками)
   – Вывод в результат парсинга контента имен файлов, скачанных макросом DOWNLOADFILE
   – Вывод в результат парсинга контента размеров файлов/изображений, скачанных макросом DOWNLOADFILE
   – Вывод в результат парсинга контента размерностей изображений (ширина и высота), скачанных макросом DOWNLOADFILE
   – Использование [DFSTATUS] для вывод статуса работы макросов DOWNLOADFILE
   – Как с помощью макроса DOWNLOADFILE скачивать картинки из HTML-тегов IMG
   – Как парсить определенное количество WEB-документов в каждый файл и создавать отдельную папку с картинками для каждого такого файла
   – Если не скачиваются файлы по HTTPS-протоколу
   – Если в коде WEB-документа нет URL-адресов картинок
   – Как отключить автоматическое переименование файлов (и другие опции DOWNLOADFILE)
   – Как пропускать скачивание файлов по одинаковым ссылкам и вставлять нужные данные в результат
   – Как удалять из картинок все мета данные (meta data) при их скачивании

Парсинг BASE64-картинок



Если вам нужно быстро и легко собрать, скажем, ссылки на все товары или статьи, первым делом рекомендуется проверить наличие карты сайта. Обычно карта имеет актуальный набор ссылок и располагается по адресу типа https://***.ru/sitemap.xml (в корне сайта). Просто попробуйте открыть подобный адрес у себя в браузере. Если карты сайта по такому адресу нет, проанализируйте файл robots.txt (https://***.ru/robots.txt), в котором может быть строка с ее другим адресом типа Sitemap: https://***.ru/map/sitemap.xml (как парсить XML-карту сайта описано в этом разделе ниже).


Если ссылки на некоторых сайтах не парсятся


Фильтры ссылок (отсеивание лишних ссылок при парсинге)
   – Использование регулярных выражений в фильтрах ссылок и в фильтрах списка очереди сканера сайтов

Парсинг ссылок со страниц рубрики сайта (сбор ссылок во вкладке «ссылки»)
   – Генерация списков ссылок с использованием заданных числовых и/или строковых значений (ключевых слов)
   – Использование в URL-адресах динамического оператора {num:a,b} при парсинге во вкладке «Ссылки» (автоматическая генерация ссылок, когда конечное число диапазона неизвестно или может изменяться)
   – Парсинг поисковых форм сайта с использованием списка запросов

Сканер сайтов (робот обойдет страницы сайта и спарсит с них ссылки)
   – Если сканер сайтов находит не все ссылки (или вообще не находит ни одной ссылки)
   – Запись выдачи ссылок в файл при работе сканера сайтов (для оптимизации потребления памяти)
   – Парсинг товаров из указанных рубрик с помощью сканера сайтов (когда количество страниц со списком товаров в каждой рубрике разное)
   – Как сканером сайтов выполнять поиск ссылок только в определенных частях WEB-страниц сайта
   – Как сканером парсить сразу несколько XML карт сайтов

Парсинг ссылок из XML-карты сайта
   – Парсинг составных XML-карт сайтов (в карте сайта находятся ссылки на несколько XML-карт)
   – Как парсить ссылки с определенным proirity из XML карты сайта

Парсинг ссылок, подгружаемых при клике по кнопке типа «показать еще» (с помощью WBApp)
Парсинг ссылок или товаров с автоматическим прокликиванием всех страниц рубрики сайта (с помощью WBApp)

Автоматическое добавление файлов из указанной папки локального диска в список ссылок при парсинге (SCANDIR)
Другие методы парсинга ссылок, методы добавления ссылок в программу, парсинг файлов с локального диска


Создание дополнительных HTTP-запросов при парсинге во вкладке “Контент”

>>> Базовая информация по созданию GET или POST запросов в Content Downloader

Как подгружать данные с указанных URL-адресов при парсинге контента (макрос шаблона вывода GETMORECONTENT, отправка дополнительных GET и POST запросов)
   – Парсинг статей, разбитых на несколько WEB-страниц/Подгрузка многостраничных комментариев при парсинге (GETMORECONTENT (LOOP Mode))
   – Как парсить данные, которые динамически подгружаются WEB-страницей запросами POST с помощью макроса GETMORECONTENT
Подключение php скриптов к шаблону вывода (макрос шаблона вывода PHP_SCRIPT, отправка дополнительных GET и POST запросов)
   – Использование PHP-скриптов с локального сервера (localhost) для обработки контента при парсинге
   – Обработка данных с помощью отправки запросов к сторонним API при парсинге контента (например, для перевода или синонимизации контента)

Парсинг телефонов с сайтов, где для отображения телефона нужно кликнуть по кнопке (парсим с помощью макросов PHP_SCRIPT и GETMORECONTENT)


Смотрите также: Как парсить во вкладке “Контент” или “Ссылки” с использованием POST-запросов


Обработка контента при парсинге во вкладке “Контент”


Дополнительные макросы шаблона вывода
    – Как разбить текст на части по количеству символов (макрос шаблона вывода [SLICE_STRING])

Функции поиск-замены и регулярные выражения
    – Как производить поиск-замену в только что загруженном коде WEB-документа при парсинге (выполняется перед вычислением границ парсинга)
    – Режим поиска-замены слов ([WORDMODE])
    – Как обходить замену уже замененных частей текста при использовании нескольких правил поиск-замены ([AVOID_RE])/Как быстро обработать текст большим количеством правил поиск-замены (1000+)
    – Выполнение правил поиск-замены в указанных сегментах текста (между заданным start и end)
    – Парсинг JSON-элементов с помощью функций поиск-замены

Удаление дублей информации при парсинге контента

Настройка правил транслитизации (транслитерации)

Обработка данных с помощью отправки запросов к сторонним API при парсинге контента (например, для перевода или синонимизации контента)

Автоматический перевод текста при парсинге

Макросы шаблона вывода для задания и вывода переменных ([VARF], [VAR])

Преобразование HTML-таблиц с объединенными ячейками (атрибуты rowspan и colspan) в обычный вид (макрос [APPLYTABLESPANS])
Загрузка HTML-таблиц в память и вывод данных в нужном формате (макросы шаблона вывода: [LOADHTMLTABLE], [GETTDATA], [REBUILD])
Преобразование многострочных HTML-таблиц в двухстрочные (методом объединения данных первых нескольких рядов ячеек, кроме последнего, макрос [MERGETABLEROWS])

Удаление лишних атрибутов HTML-тегов (макрос шаблона вывода [CLEARTAGSATTRS])
Как удалять HTML-теги при парсинге контента: все, кроме указанных, только указанные
Преобразование относительных ссылок HTML-тегов текста в абсолютные

Парсинг определенных (перечисленных) слов из текста или очистка текста от определенных (перечисленных) слов (макрос [EXTRACTWORD])
Парсинг определенных характеристик товаров из неформатированного текста (макрос [EXTRACTATTR])

Использование встроенного синонимайзера (макрос шаблона вывода [SYN]…[/SYN])

Вычисление математических и логических конструкций с помощью макроса шаблона вывода [MATH]

Генерация в цикле текста/кода с использованием нарастающей числовой переменной (макрос [GENERATE])
Как объединять массивы данных из разных частей WEB-документа по ключевым значениям
Сортировка строковых или числовых элементов текста (макрос шаблона вывода [SORT])


Парсинг товаров из интернет магазинов или XML файлов


Сопоставление товаров из разных интернет магазинов

Парсинг товаров интернет-магазинов в CSV
   – Общая и базовая информация по поводу парсинга характеристик товаров
   – Парсинг товаров по списку артикулов/наименований
   – Парсинг товаров с несколькими размерами или цветами (от выбранного размера или цвета меняются картинки товара, цены и описание)
   – Пример парсинга товаров с несколькими ценами и вариантами характеристик (цены и варианты характеристик выведены рядом в обычном виде)
   – Парсинг товаров с изменяющимися атрибутами (например, размеры меняются в зависимости от выбранного цвета, размеры и цвета в разных местах кода WEB-документа)
   – Парсинг характеристик товаров в случаях, когда имена и значения характеристик идут не поочередно, а отдельно (сначала перечислены имена, потом значения)
   – Парсинг в CSV всех характеристик товара РАЗОМ в одну или в отдельные ячейки CSV

Автоматический парсинг сразу всех характеристик товаров с автоматическим созданием соответствующих колонок CSV (макрос [DYNAMICVALUES])
   – Задание порядка столбцов (по введенным наименованиям) для макроса [DYNAMICVALUES] (также для: [HORIZTABLE], [VERTTABLE], [XMLELEMENTSTOCSV]) + ввод только определенных наименований характеристик для парсинга (параметр {LISTEDONLY})
   – Парсинг характеристик товаров из JSON в CSV с помощью макроса [DYNAMICVALUES]

Автоматический парсинг характеристик товаров HTML-таблиц в CSV (макросы: [HORIZTABLE] и [VERTTABLE])
   – Задание порядка столбцов (по введенным наименованиям) для макроса [DYNAMICVALUES] (также для: [HORIZTABLE], [VERTTABLE], [XMLELEMENTSTOCSV]) + ввод только определенных наименований характеристик для парсинга (параметр {LISTEDONLY})
   – Как преобразовать HTML-таблицу с атрибутами rowspan и colspan в обычный вид (метод размножения ячеек)

Автоматический парсинг XML элементов (характеристик товаров) в CSV с помощью макроса шаблона вывода [XMLELEMENTSTOCSV]
   – Задание порядка столбцов (по введенным наименованиям) для макроса [DYNAMICVALUES] (также для: [HORIZTABLE], [VERTTABLE], [XMLELEMENTSTOCSV]) + ввод только определенных наименований характеристик для парсинга (параметр {LISTEDONLY})

Получение атрибутов, внутреннего текста тегов/Получение вложенной структуры рубрик товаров из XML (макрос [GETTAGDATA])

Прокликивание опций товаров в браузере WBAppCEF для парсинга их на разные строки CSV (универсальный метод)
Создание с помощью повторяющихся границ в CSV нескольких строк одного товара, где на каждой строке будет изменяться какой-либо атрибут товара (например, цвет)
Парсинг товаров с опциями, представленными в коде WEB-страницы в виде массива JSON
Парсинг товаров с опциями (при выборе которых меняется, например, стоимость) в разные строки CSV (все данные есть в коде WEB-документа)
Парсинг товаров с выбором опций (напрмер, цвет, размер) в случае, когда при смене опций меняется URL товара в адресной строке браузера
Парсинг товаров с выбором опций (напрмер, цвет, размер) в случае, когда при смене опций происходит подгрузка данных с помощью POST или GET запроса
Парсинг картинок товаров в случаях, когда картинки подгружаются при выборе/смене цвета товара (или другой опции) (всех нужных данных нет в коде WEB-документа и они подгружаются дополнительными запросами)

Парсинг названий рубрик товаров с помощью макроса [BREADCRUMBS]
Извлечение ID или артикула товара из строки заголовка с помощью макроса [EXTRACTID]
Генерация уникальных ID товаров или статей при парсинге контента с помощью макроса [SKU_UNIQUE]
Если столбцы CSV плавают на разных товарах при парсинге контента
Методы фильтрации товаров при парсинге (отсеивание лишних товаров по заданным условиям)
Фильтрация товаров при парсинге по нескольким условиям
Как парсить только новые товары на сайте (спарсенные ранее фильтровать)

Как производить мониторинг, анализ и сравнение цен товаров от разных магазинов

Как парсить только новые и обновленные товары


Парсинг с использованием движков браузера (с выполнением Javascript на WEB страницах и автоматизацией/имитацией действий пользователя в браузере)


WBAppCEF (с использованием движка Chrome) (запуск пользовательских Javascript) (только для ULTIMATE версий)
   – Загрузка списка прокси из файла на диске и автоматическая смена прокси при каждом вызове события [PROXYFILE]
   – Скачивание изображений в WBAppCEF (функциями браузера) и их передача в Content Downloader (с возможностью преобразования webp в JPG)
   – Автоматизация действий клика по страницам выдачи сайта в браузере
   – Автоматизация действий пользователя в браузере при парсинге (на примере использования Api конвертации XLSX в CSV)

WBApp2 – программа/Api для быстрого парсинга сайтов с помощью движка браузера Chromium

WBAppIE (с использованием движка Internet Explorer) (имитация кликов по элементам веб-страниц, прокрутка веб-страниц, заполнение форм и многое другое) (только для ULTIMATE версий)
   – Значительное ускорение процесса парсинга и исключение пропусков WEB-страниц при парсинге с использованием библиотеки Internet Explorer (WBApp)
   – Как в WBApp прокликивать страницы выдачи сайта по кнопке типа «перейти на следующую страницу»
   – Передача текстовых данных из Content Downloader в WBApp
   – Создание скриншотов WEB-страниц с помощью приложения WBApp
   – Парсинг HTML-кода фрейма WEB-документа с помощью WBApp
   – Запись текущего кода WEB-страницы в файл на диске
   – Вызов WBApp для смены пользователя (на сайте) через каждые n документов при парсинге во вкладке «Контент»
   – Имитация нажатий кнопок мыши и клавиатуры в WBApp
   – Если событие вставки текста в поля WEB-страницы не срабатывает или срабатывает некорректно
   – Рендеринг (создание изображений) элементов WEB-страниц с помощью WBApp
   – Автоматическая авторизация через WBApp при парсинге


Типичные задачи и примеры парсинга


Как допарсить данные в прайс поставщика
Парсинг статей с сайтов (с картинками и без)
Как парсить заскриптованные сайты (информация на WEB страницах подгружается скриптами в браузере)
Парсинг поисковых форм сайтов с передачей в результат ключевых слов (по которым производился поиск) с помощью [PARAM]
Парсинг XML файла в CSV (преобразование XML в CSV)
Как парсить контактные данные (e-mail, номера телефонов, адреса)
Автоматический парсинг e-mail адресов и номеров телефонов из кода WEB-документов
Как парсить адреса e-mail из кода WEB-документа
Как парсить многостраничные комментарии или отзывы
Обработка файлов на локальном диске (как обработать содержимое файлов и затем сохранить изменения)
Парсинг фильтров товаров (характеристик) со страниц рубрик сайта


Парсинг в различные форматы и CMS


Парсинг WEB-документов в XML файлы
   – Создание структуры рубрик XML (с Id и parentId)

Как парсить сразу в MYSQL-базу (обновление цен товаров, добавление записей и многое другое)
Создание XML-файла импорта в WordPress
Переименование изображений для CMS OpenCart (задание имен файлов дополнительных изображений с нарастающим индексом)


Подключение файлов к шаблону вывода


Работа с подключаемыми таблицами CSV (чтение и запись данных из/в CSV-файлы на диске и многое другое, макросы: [LOADCSV], [GETCSVDATA], [PUTCSVDATA], [GETCSVCOORD], [COPYCSVDATA], [CSVREPLACE])
   – Подключение CSV файлов с их предварительным скачиванием по URL
   – Закачка подключенных CSV на FTP при завершении парсинга контента
   – Как допарсить данные в CSV-файл на диске (например, загрузить картинки)
   – Как производить мониторинг, анализ и сравнение цен товаров от разных магазинов

Подключение XML-файлов к шаблону вывода (для дозаписи, макросы: [LOADXML], [XMLADD])

Макрос шаблона вывода [FILE] (вставка данных из файла на диске)


Автоматизация

   Размещение программы на хостинге с Windows Server для автоматического наполнения/изменения баз данных сайта

Загрузка любых файлов с локального диска на FTP сервер
Запуск PHP-скриптов перед парсингом контента
Автоматизация выполнения различных действий (автозагрузка списка ссылок перед парсингом, постобработка CSV, зарузка картинок на FTP и прочее)
Запуск программы с передачей параметров (например, из командной строки или планировщика Windows с возможностью запуска по расписанию)
Загрузка (UPLOAD) документов (в которые парсим контент), файлов и картинок на FTP-сервер при парсинге контента
Распознавание каптчи с помощью сервиса Antigate
Распознавание каптчи, отправка текста каптчи и получение ответных cookies (с использованием WBApp) при парсинге контента
Автоматическое пересохранение полученных CSV файлов в формат XLS при завершении парсинга контента
Выключение компьютера при завершении парсинга контента
Как разбить CSV-файлы на части при завершении процедуры парсинга контента
Как автоматически загрузить в список ссылок файлы из папки на локальном диске с помощью SCANDIR (просканировать папку на наличие файлов и приступить к парсингу контента)
Использование встроенного планировщика программы (запуск цепочек проектов по расписанию)
Автоматическая приостановка парсинга во вкладке “Контент” при появлении капчи для ее ручного разгадывания (макрос шаблона вывода [WAITFORME])


Редактор CSV файлов


Редактор CSV файлов (общее)
Как объединить (склеить) несколько CSV файлов (простым методом)
Объединение нескольких CSV файлов с автоматическим распределением данных по столбцам
Слияние (объединение) двух CSV файлов (двух таблиц товаров) по ключевым столбцам
Разбивка CSV файла по количеству строк или по названиям рубрик (именам в ячейках)
Изменение структуры CSV таблицы (перенос имен характеристик из строки заголовка в соответствующие столбцы)
Загрузка (скачивание) картинок из интернет по ссылкам в таблице CSV
Как наполнить таблицу CSV картинками из Google (выбирая их вручную)
Просмотр и удаление картинок в таблицах CSV
Объединение в CSV строк одинаковых товаров, которые имеют разные рубрики (или какие-то другие данные)
Размножение строк (товаров) с несколькими атрибутами в ячейке
Заполнение пустых ячеек в указанных столбцах CSV

Как переделать CSV прайс поставщика для импорта в интернет магазин (пример для Simpla CMS)


Решение различных проблем


Устранение проблемы западания модальных окон программы друг за друга (при кликах по окну программы слышен звук и программа не реагирует на нажатия кнопок клавиатуры и мыши)
Устранение ошибки «Error reading ImageList.Bitmap: Failed to read ImageList data from stream»
Решение проблем с возможными ошибками загрузки WEB-страниц (в том числе парсинг “проблематичных” HTTPS-сайтов)
Если при предпросмотре все WEB-страницы загружаются, а при парсинге происходят пропуски некоторых WEB-страниц
Отключение появления в Internet Explorer предупреждения системы безопасности “вы хотите отображать только безопасное содержимое веб-страниц?”
Отключение появления в Internet Explorer предупреждения системы безопасности “не удается подтвердить подлинность этого веб-сайта или целостность этого соединения” (или “возникла проблема с сертификатом безопасности этого веб-сайта”)
Решение проблем с возможными “зависаниями” программы или с ошибками “out of memory”, “thread creation error…” при парсинге во вкладке “контент” или в сканере сайтов
Решение проблем с кодировкой при парсинге
Антивирусы могут вмешиваться в работу программы и воздействовать на результат


Win 16 Рекомендации по настройке системы


Отключите сглаживание неровностей экранных шрифтов Windows


Дополнительно


Как быстро парсить (получить) выделенные мышкой ссылки из браузера
Как производить разбивку CSV файлов (по точному количеству строк) в случае парсинга нескольких товаров с каждой WEB-страницы
Как начать парсить в 1 поток и затем увеличить количество потоков при парсинге во вкладке “Контент” (макрос шаблона вывода [MORE_THREADS])
Добавление последнего WEB-документа в список ссылок с указанным шаблоном вывода при парсинге во вкладке “Контент” с помощью макроса [ADDFINALDOCUMENT]
Как получать MD5 файлов с помощью макроса [GETMD5]
Генерация уникальных ЧПУ из любой текстовой строки (макрос [SURLUNIQUE])
Работа с нарастающими целочисленными переменными ([INT_ID], [COUNT])
Мониторинг данных на WEB-странице и отправка оповещений на почту (например, отправить сообщение, когда цена станет больше указанной)
Парсинг сайтов с экзотическими языками (китайский и прочие)
Парсинг контента и ссылок с использованием POST-запросов
Как парсить несколько картинок с одной страницы с присвоением каждой уникального имени файла
Парсинг сайтов, где названия рубрик на страницах товаров не указаны (названия рубрик товаров указаны только на страницах категорий сайта)
Получение редиректов ссылок (макрос [GETREDIRECT])
Передача произвольных HTTP-заголовков (custom headers) при парсинге контента и ссылок
Как избежать бана при парсинге некоторых сайтов (изменить количество потоков, выставить паузу между запросами, использовать прокси)
Как избежать повторной загрузки одних и тех же WEB-документов при следующем парсинге (во вкладке «контент»)
Инструмент расширенного удаления дублей ссылок
Выполнение операций с файлами на диске (копирование, перемещение, удаление) с помощью макроса шаблона вывода [FILEACTIONS] / Удаление указанных файлов с FTP сервера
Удаление файлов на FTP-сервере с помощью макроса шаблона вывода [FILEACTIONS]
Удаление определенных строк из текстового файла на диске с использованием макроса [DELFILESTRING]
Как выполнить определенные макросы только при парсинге первого WEB-документа
Нюансы парсинга ссылок с символом решетки в них
Задание значения переменной, используемой в ссылках WEB-документов (макрос шаблона вывода [DATAFORURL])
Проверка изменений контента на WEB страницах с последующим выполнением нужных действий (макрос шаблона вывода [CHECKCHANGES])
Поисковый бот для парсинга данных с разных сайтов, URL которых взяты, например, из выдачи Google (макрос шаблона вывода [CRAWLER])
Парсинг контактных данных (e-mail, телефоны) со списка разных сайтов, URL которых взяты, например, из выдачи Google (макрос шаблона вывода [CRAWLER])
Как парсить только свежие статьи или товары (фильтрация по дате публикации)
Генерация комбинаций из нескольких массивов значений (макрос шаблона вывода [COMBINE])
Макрос шаблона вывода [EXTRACTTABLE] – извлечение HTML таблиц из кода WEB страницы
Как парсить сайты с каптчей Recaptca без сервиса разгадывания каптчи и прокси
Полезная информация


Полезное с форума


Использование регулярных выражений в функциях поиск замены
Подстановка Cookie в WBApp с использованием Fiddler
Пример парсинга характеристик по заданным вхождениям из списка строк (с помощью функций поиск-замены)
Как добавлять незагруженные ссылки в список ссылок при парсинге во вкладке “Контент”
Как при парсинге отфильтровать товары по количеству характеристик или по количеству других даннных в них
Запись ссылок WEB-документов вместе со значениями [PARAM] в файл на диск при парсинге контента
Как загрузить WEB-страницы сайта в Chrome и затем спарсить их в Content Downloader
Автоматический перевод текста при парсинге через Яндекс Переводчик с использованием WBApp
Как подгрузить список прокси запросом к HTTP-Api и переформатировать ответ из формата JSON в нужный (login:pass@ip:port)
Proxy сервисы которые пригодятся для Content Downloader
Как в каждом цикле повторяющейся границы выводить значения предыдущих циклов повторяющейся границы
Как во вкладке “Контент” повторно спарсить элемент, если результирующий документ оказался пустым (без ошибки загрузки WEB-страницы)
Если на Windows 10 с помощью макроса DOWNLOADFILE не скачиваются картинки (по рабочим ссылкам) даже с помощью библиотеки WIN2 (выбранной в окне shift+ctrl+l)
Пояснения по поводу максимальной длины пути для сохраняемых файлов при парсинге во вкладке “Контент”
Заготовки для популярных CMS в виде готовых .cdp
Рекомендуемые прокси сервисы для парсинга (клик)


css.php