Парсинг

Редактирование шаблона вывода в виде таблицы

Макрос шаблона вывода [EXTRACTTABLE] – извлечение HTML таблиц из кода WEB страницы

Парсер картинок

Парсер товаров

Основные возможности Content Downloader

Парсер XML карт сайтов

Как спарсить артикул товара из заголовка

Удаление дублей циклов повторяющихся границ парсинга

Как парсить сайты с каптчей Recaptca без сервиса разгадывания каптчи и прокси

Парсинг товаров с выбором опций (напрмер, цвет, размер) в случае, когда при смене опций происходит подгрузка данных с помощью POST или GET запроса

Как быстро парсить (получить) выделенные мышкой ссылки из браузера

Парсинг товаров с выбором опций (например, цвет, размер) в случае, когда при смене опций меняется URL товара в адресной строке браузера

Как выводить повторяющуюся границу на нескольких строках столбца CSV (парсинг в HostCMS)

Поисковый бот для парсинга данных с различных сайтов

Парсинг контактов из сайтов, собранных из выдачи Google (макрос [CRAWLER])

Методы фильтрации товаров при парсинге (отсеивание лишних товаров по заданным условиям)

Как парсить ссылки с определенным proirity из XML карты сайта

Как выводить определенные данные только в первом цикле повторяющихся границ прсинга

Как сделать, чтобы сайт при парсинге отправлял сжатые данные GZip (для экономии WEB трафика)

Фильтрация циклов повторяющихся границ

Как использовать контент одной границы парсинга в качестве начала или конца другой

Как парсить контактные данные (e-mail, номера телефонов, адреса)

Если ссылки на некоторых сайтах не парсятся

Как парсить многостраничные комментарии или отзывы

Как парсить заскриптованные сайты (информация на WEB страницах подгружается скриптами в браузере)

Как делать HTTP/HTTPS POST или GET запросы в программе (базовая информация)

Парсинг картинок из JSON блоков кода

Общая и базовая информация по поводу парсинга характеристик товаров

Парсинг товаров с опциями (при выборе которых меняется, например, стоимость) в разные строки CSV

Задание порядка столбцов (по введенным наименованиям) для макроса [DYNAMICVALUES] (также для: [HORIZTABLE], [VERTTABLE]) + ввод только определенных наименований характеристик для парсинга (параметр {LISTEDONLY})

Парсинг товаров с опциями, представленными в коде WEB-страницы в виде массива JSON

Парсинг характеристик товаров из JSON в CSV

Как начать парсить в 1 поток и затем увеличить количество потоков при парсинге во вкладке “Контент” (макрос шаблона вывода [MORE_THREADS])

Нюансы парсинга ссылок с символом решетки в них

Как автоматически удалять из результата парсинга IMG теги нескачанных картинок (с нерабочими ссылками)

Как парсить только новые товары на сайте (уже спарсенные ранее фильтровать)

Как добавить к основному документу (который парсите) дополнительные подгружаемые данные (чтобы задать границы парсинга и с подгруженными данными, макрос [APPENDDOCSOURCE])

Парсинг товаров с несколькими размерами или цветами

Решение проблем с кодировкой при парсинге

Как сканером парсить сразу несколько XML карт сайтов

Парсинг поисковых форм сайта с использованием списка запросов

Генерация уникальных ЧПУ из любой текстовой строки

Решение проблем с возможными ошибками загрузки WEB-страниц

Как производить разбивку CSV файлов (по точному количеству строк) в случае парсинга нескольких товаров с каждой WEB-страницы

Как наполнить таблицу CSV картинками из Google (выбирая их вручную)

Использование встроенного планировщика программы (запуск цепочек проектов по расписанию)

Использование списка прокси-серверов в программе

Если столбцы CSV плавают на разных товарах при парсинге контента

Как парсить определенное количество WEB-документов в каждый файл и создавать отдельную папку с картинками для каждого такого файла

Если последовательность макросов или вложенные в друг-друга макросы шаблона вывода “работают некорректно” (или: как пользоваться логом выполнения функций и макросов)

Использование регулярных выражений в фильтрах ссылок и в фильтрах списка очереди сканера сайтов

Создание примечаний или вставка “невыполняемых” переносов строк (в шаблоне вывода)

Подключение XML-файлов к шаблону вывода (для дозаписи, макросы: [LOADXML], [XMLADD])

Создание с помощью повторяющихся границ в CSV нескольких строк одного товара, где на каждой строке будет изменяться какой-либо атрибут товара (например, цвет)

Если сканер сайтов находит не все ссылки (или вообще не находит ни одной ссылки)

Передача текстовых данных из Content Downloader в WBApp

Парсинг ссылок, подгружаемых при клике по кнопке типа “показать еще” (с помощью WBApp)

Пример парсинга товаров с несколькими ценами и вариантами характеристик

Парсинг XML/YML файла в CSV (преобразование XML в CSV)

Вызов WBApp для смены пользователя (на сайте) через каждые n документов при парсинге во вкладке “Контент”

Скачивание нескольких картинок с использованием повторяющихся границ парсинга

Вставка в различные места результирующего документа имен файлов, скачанных макросом DOWNLOADFILE

Парсинг HTML-кода фрейма WEB-документа с помощью WBApp

Преобразование HTML-таблиц с объединенными ячейками (атрибуты rowspan и colspan) в обычный вид (макрос [APPLYTABLESPANS])

Получение адресов редиректов ссылок (событие WBApp – [MODE_GETREDIRECT])

Парсинг товаров по списку артикулов/наименований

Парсинг WEB-документов в XML файлы

Парсинг статей разбитых на несколько WEB-страниц (GETMORECONTENT (LOOP Mode))

Парсинг определенных характеристик товаров из неформатированного текста (макрос [EXTRACTATTR])

Парсинг определенных (перечисленных) слов из текста или очистка текста от определенных (перечисленных) слов (макрос [EXTRACTWORD])

Работа с подключаемыми таблицами CSV (чтение и запись данных из/в CSV-файлы на диске и многое другое, макросы: [LOADCSV], [GETCSVDATA], [PUTCSVDATA], [GETCSVCOORD], [COPYCSVDATA], [CSVREPLACE])

Вставка в шаблон одной повторяющейся границы парсинга смежных значений из любых других повторяющихся границ

Создание комбинаций из значений циклов выбранных повторяющихся границ парсинга

Анализатор контента границ парсинга

Создание скриншотов WEB-страниц с помощью приложения WBApp

Значительное ускорение процесса парсинга и исключение пропусков WEB-страниц при парсинге с использованием библиотеки Internet Explorer (WBApp)

Описание работы макросов [COUNTUP1] и [COUNTUP2]

Генерация уникальных ID товаров или статей при парсинге контента с помощью макроса [SKU_UNIQUE]

Получение редиректов ссылок (макрос [GETREDIRECT])

Передача адресов WEB-страниц из WBApp в Content Downloader (событие WBApp [GETCURRENTURL])

Экспресс-курс по изучению основ работы с Content Downloader

Парсинг товаров с изменяющимися атрибутами (размеры меняются в зависимости от выбранного цвета)

Автоматический парсинг e-mail адресов и номеров телефонов из кода WEB-документов

Парсинг контента и ссылок с использованием POST-запросов

Рендеринг (создание изображений) элементов WEB-страниц с помощью WBApp

ID кодировок (Code Page Identifiers)

Парсинг BASE64-картинок

Модификаторы регулярных выражений

Синтаксис регулярных выражений

Парсинг HTML-таблиц в CSV

Как автоматически загрузить в список ссылок файлы из папки на локальном диске (просканировать папку на наличие файлов и приступить к парсингу контента)

Поиск конца обычных границ парсинга в обратном направлении (параметр инверсия)

Распознавание капчи, отправка текста капчи и получение ответных cookies (с использованием WBApp) при парсинге контента

Использование PHP-скриптов с локального сервера (localhost) для обработки контента при парсинге

Как избежать повторной загрузки одних и тех же WEB-документов при следующем парсинге (во вкладке “контент”)

Как сделать поиск элементов нужной повторяющейся границы в тексте обычной границы парсинга, а не в целом коде WEB-документа

Как парсить статьи с сайтов (с картинками и без)

Передача произвольных HTTP-заголовков (custom headers) при парсинге контента и ссылок

Задание повторяющихся границ парсинга внутри повторяющихся (с возможностью задания обычных границ парсинга внутри повторяющихся)

Парсинг одного WEB-документа в несколько разных файлов на диск (сохранение произвольных частей шаблона вывода в указанные файлы макросом [SAVETOFILE])


css.php