Новости | SBFactory – парсер контента, программа для наполнения интернет магазинов

Архивы рубрики: ‘Новости’

Слияние (объединение) двух CSV файлов (двух таблиц товаров) по ключевым столбцам


(more…)

Парсинг HTML-таблиц в CSV

Макросы [HORIZTABLE] и [VERTTABLE] преобразуют код HTML-таблиц сайта в формат данных для макроса [DYNAMICVALUES] (и сами запускают макрос [DYNAMICVALUES]). Поэтому, для вывода названий столбцов в результирующий CSV (при использовании [HORIZTABLE] и [VERTTABLE]) в строку заголовка (верхняя строка в редакторе шаблона вывода) нужно прописать [DYNAMICVALUES]. (more…)

Автоматический парсинг сразу всех характеристик товаров с автоматическим созданием соответствующих колонок CSV (макрос [DYNAMICVALUES])


(more…)

Поиск конца обычных границ парсинга в обратном направлении (параметр инверсия)

Допустим, имеем следующий HTML-код:


<img src=”URL” class=”BIG”>

И нам нужно спарсить URL только той картинки, которой присвоен class BIG (что стоит после нужного нам URL), зацепившись за " class="BIG". То есть, пойти от начала WEB-документа до " class="BIG" и потом обратно (к началу документа) до src=" и взять код между этими границами – URL. (more…)

Распознавание капчи, отправка текста капчи и получение ответных cookies (с использованием WBApp) при парсинге контента

Если парсить контент через библиотеку Internet Explorer (DOM) (ctrl+h), то для автоввода капч достаточно лишь прописать в проект WBApp группу макросов [CAPCHA] (смотрите видео распознавание текста капчи с помощью сервиса Antigate на этой странице http://sbfactory.ru/cd/?p=1515). В этом случае, группа макросов [CAPCHA] сама проверяет наличие капчи на странице и устанавливает в Internet Explorer нужные cookies. (more…)

Использование PHP-скриптов с локального сервера (localhost) для обработки контента при парсинге

Техника обработки данных при парсинге контента (во вкладке “контент”) функциями языка PHP:

1) Качаем, устанавливаем и запускаем локальный сервер Denwer
2) Копируем ваши PHP-скрипты для обработки контента при парсинге в папку Z:\denwer\www\denwer (где Z – имя виртуального диска с Denwer)
3) Отправляем POST-данные PHP-скриптам на Денвере из шаблона вывода программы Content Downloader макросом PHP_SCRIPT и получаем от них обработанные данные (more…)

Новый макрос шаблона вывода [CHECKENTRY]

Проверка на наличие слов (вхождений) в тексте и совершение определенных действий ([CHECKENTRY(вхождение 1||вхождение 2)]текст[/CHECKENTRY]). (more…)