Дорогие друзья, схема работы с программой проста

— Создаем новый проект: меню — файл — создать новый проект или меню — файл — создать новый проект для парсинга в CSV (если парсите интернет-магазин)
— Парсим ссылки во вкладке «ссылки» или собираем их сканером сайтов (кнопка на панели инструментов)
— Переходим во вкладку «контент» (в главном окне программы) и парсим по этим ссылкам нужные данные (задав границы парсинга и вставив их в нужные места шаблона вывода (ctrl+2))

Примечание 1: Парсинг ссылок лучше пропустить и сразу приступить к заданию границ парсинга. Откройте нужный сайт в браузере, скопируйте оттуда пару ссылок на товары или на статьи (смотря что парсите) и добавьте их в список ссылок программы (F8). Потом, когда закончите настройку парсинга контента, соберете ссылки и приступите к парсингу.

Примечание 2: Для предпросмотра результатов парсинга одной ссылки (во вкладке «контент» или во вкладке «ссылки») кликните по ней дважды, а для запуска парсинга всех ссылок — нажмите соответствующую кнопку на панели инструментов в программе или F5.

>>> Экспресс-курс по изучению основ работы с Content Downloader <<<



Основное


Знакомство с элементами интерфейса
Основы парсинга контента
Парсинг интернет-магазинов в CSV
Авторизация на сайтах
Функции поиск-замены и регулярные выражения
Дополнительные макросы шаблона вывода
Настройка сохранения результатов парсинга контента в файл(ы) на диск (задание имен сохраняемых документов, кодировки сохраняемых документов, парсинг в один файл/в отдельные файлы и другое)

$UPER: Автоматический парсинг сразу всех характеристик товаров с автоматическим созданием соответствующих колонок CSV (макрос [DYNAMICVALUES])
$UPER: Парсинг HTML-таблиц в CSV (макросы: [HORIZTABLE] и [VERTTABLE])
   — Как преобразовать HTML-таблицу с атрибутами rowspan и colspan в обычный вид (метод размножения ячеек)

WBApp (имитация кликов по элементам веб-страниц, прокрутка веб-страниц, заполнение форм и многое другое)(только для ULTIMATE версий)
   — Значительное ускорение парсинга с использованием библиотеки Internet Explorer (WBApp)
   — Создание скриншотов WEB-страниц с помощью приложения WBApp

Шаблон вывода (в нем вы создаете структуру результирующего файла (результат парсинга контента) и работаете с данными, используя различные макросы шаблона вывода)


Парсинг контента (текст, картинки)


Задание обычных границ парсинга (когда нужно спарсить до 20 различных частей WEB-документа)
Поиск конца обычных границ парсинга в обратном направлении (параметр инверсия)
Автоматический поиск закрывающего HTML-тега (параметр [AUTO] для конца границы парсинга)
Задание обычных границ парсинга внутри повторяющейся (когда нужно спарсить несколько товаров с одной WEB-страницы)

Задание повторяющихся границ парсинга (когда нужно спарсить множество частей WEB-документа, заключенных в одинаковые участки кода, например, спарсить комментарии)
Задание повторяющихся границ парсинга внутри повторяющейся
Как производить поиск элементов нужной повторяющейся границы в тексте обычной границы парсинга (в определенной части кода WEB-документа), а не в целом коде WEB-документа

Задание динамических границ парсинга (КОГДА НУЖНО ЗАДАТЬ БОЛЕЕ 20 ГРАНИЦ ПАРСИНГА, работают аналогично обычным границам парсинга, но поддерживают регулярные выражения и не ограничены по количеству)

Загрузка файлов на диск и их переименование при парсинге контента (загрузка картинок, pdf-файлов, архивов, mp3, flv и так далее (с возможностью присвоения уникального имени каждому файлу))
   — Изменение размеров изображений, скачиваемых макросом DOWNLOADFILE


Парсинг и добавление ссылок


Генерация списков ссылок с использованием заданных числовых и/или строковых значений (ключевых слов)
Парсинг ссылок со страниц рубрики сайта (сбор ссылок во вкладке «ссылки»)
Парсинг ссылок из XML-карты сайта
Сканер сайтов (робот обойдет страницы сайта и спарсит с них сылки)
Добавление файлов из указанной папки в список ссылок (SCANDIR)
Другие методы парсинга ссылок, методы добавления ссылок в программу, парсинг файлов с локального диска

Фильтры ссылок (отсеивание лишних ссылок при парсинге)


Дополнительно


Подключение php скриптов к шаблону вывода (макрос PHP_SCRIPT)
Использование PHP-скриптов с локального сервера (localhost) для обработки контента при парсинге

Загрузка (UPLOAD) документов (в которые парсим контент), файлов и картинок на FTP-сервер при парсинге контента
Распознавание капчи с помощью сервиса Antigate
Распознавание капчи, отправка текста капчи и получение ответных cookies (с использованием WBApp) при парсинге контента
Создание комбинаций из значений циклов выбранных повторяющихся границ парсинга
Вставка в шаблон одной повторяющейся границы парсинга смежных значений из любых других повторяющихся границ
Автоматическая приостановка парсинга во вкладке «Контент» при появлении капчи для ее ручного разгадывания (макрос шаблона вывода [WAITFORME])
Автоматический парсинг e-mail адресов и номеров телефонов из кода WEB-документов
Запуск программы с передачей параметров (например, из планировщика Windows)
Парсинг составных XML-карт сайтов (в карте сайта находятся ссылки на несколько XML-карт)
Решение проблем с возможными «зависаниями» программы или с ошибками «out of memory», «thread creation error…» при парсинге во вкладке «контент» или в сканере сайтов
Редактирование CSV файлов
Парсинг сайтов с экзотическими языками (китайский и прочие)
Парсинг BASE64-картинок
Порядок выполнения функций при парсинге контента
Парсинг контента и ссылок с использованием POST-запросов
Парсинг в CSV всех характеристик товара РАЗОМ в одну или в отдельные ячейки CSV
Как парсить несколько картинок с одной страницы с присвоением каждой уникального имени файла
Автоматический парсинг в MYSQL-базу (обновление цен товаров, добавление записей и многое другое)
Как подгружать данные с указанных URL-адресов при парсинге контента (макрос шаблона вывода GETMORECONTENT)
Как подгружать цикличные данные с указанных URL-адресов при парсинге контента (макрос шаблона вывода GETMORECYCLECONTENT)
Парсинг сайтов, где названия рубрик на страницах товаров не указаны (названия рубрик товаров указаны только на страницах категорий сайта)
Как парсить контент, которого нет в коде страницы (контент подгружается скриптами)
Как парсить адреса e-mail
Получение редиректов ссылок (макрос [GETREDIRECT])
Создание XML-файла импорта в WordPress
Как удалять HTML-теги при парсинге контента: все, кроме указанных, только указанные
Парсинг одного WEB-документа в несколько разных файлов на диск (сохранение произвольных частей шаблона вывода в указанные файлы макросом [SAVETOFILE])
Передача произвольных HTTP-заголовков (custom headers) при парсинге контента и ссылок
Имитация нажатий кнопок мыши и клавиатуры в WBApp
Рендеринг (создание изображений) элементов WEB-страниц с помощью WBApp
Генерация уникальных ID товаров или статей при парсинге контента с помощью макроса [SKU_UNIQUE]
Как избежать бана при парсинге некоторых сайтов (изменить количество потоков, выставить паузу между запросами, использовать прокси)
Как избежать повторной загрузки одних и тех же WEB-документов при следующем парсинге (во вкладке «контент»)
Инструмент расширенного удаления дублей ссылок
Как автоматически загрузить в список ссылок файлы из папки на локальном диске с помощью SCANDIR (просканировать папку на наличие файлов и приступить к парсингу контента)
Слияние (объединение) двух CSV файлов (двух таблиц товаров) по ключевым столбцам
Просмотр и удаление картинок в таблицах CSV
Использование встроенного синонимайзера (макрос шаблона вывода [SYN]…[/SYN])
Загрузка и переименование картинок при парсинге контента с помощью макроса шаблона вывода <NIMG>
Загрузка HTML-таблиц в память и вывод данных в нужном формате (макросы шаблона вывода: [LOADHTMLTABLE], [GETTDATA], [REBUILD])
полезная информация


Примеры парсинга


Парсинг товаров с изменяющимися атрибутами (размеры меняются в зависимости от выбранного цвета)
Автоматический перевод текста при парсинге с использованием Яндекс api
Парсинг групп и людей Вконтакте
Парсинг телефонных номеров с Авито в виде текста (парсинг информации, которая подгружается при клике на кнопку)
Парсинг картинок по ключевым словам (Bing)
Пример парсинга статей с сайта (с картинками и без)
Определение позиции сайта в выдаче Google по ключевым запросам

css.php