Дорогие друзья, схема работы с программой проста

— Создаем новый проект: меню — файл — создать новый проект или меню — файл — создать новый проект для парсинга в CSV (если парсите интернет-магазин)
— Парсим ссылки во вкладке «ссылки» или собираем их сканером сайтов (кнопка на панели инструментов)
— Переходим во вкладку «контент» (в главном окне программы) и парсим по этим ссылкам нужные данные (задав границы парсинга и вставив их в нужные места шаблона вывода (ctrl+2))

Примечание 1: Парсинг ссылок лучше пропустить и сразу приступить к заданию границ парсинга. Откройте нужный сайт в браузере, скопируйте оттуда пару ссылок на товары или на статьи (смотря что парсите) и добавьте их в список ссылок программы (F8). Потом, когда закончите настройку парсинга контента, соберете ссылки и приступите к парсингу.

Примечание 2: Для предпросмотра результатов парсинга одной ссылки (во вкладке «контент» или во вкладке «ссылки») кликните по ней дважды, а для запуска парсинга всех ссылок — нажмите соответствующую кнопку на панели инструментов в программе или F5.

>>> Экспресс-курс по изучению основ работы с Content Downloader <<<



Основное


Знакомство с элементами интерфейса
Основы парсинга контента
Парсинг интернет-магазинов в CSV
$UPER: Автоматический парсинг сразу всех характеристик товаров с автоматическим созданием соответствующих колонок CSV (макрос [DYNAMICVALUES])
$UPER: Парсинг HTML-таблиц в CSV (макросы: [HORIZTABLE] и [VERTTABLE])
Авторизация на сайтах
Функции поиск-замены и регулярные выражения
Дополнительные макросы шаблона вывода
Настройка сохранения результатов парсинга контента в файл(ы) на диск (задание имен сохраняемых документов, кодировки сохраняемых документов, парсинг в один файл/в отдельные файлы и другое)
WBApp (имитация кликов по элементам веб-страниц, прокрутка веб-страниц, заполнение форм и многое другое)(только для ULTIMATE версий)

Шаблон вывода (в нем вы создаете структуру результирующего файла (результат парсинга контента) и работаете с данными, используя различные макросы шаблона вывода)


Парсинг контента (текст, картинки)


Задание обычных границ парсинга (когда нужно спарсить до 20 различных частей WEB-документа)
Поиск конца обычных границ парсинга в обратном направлении (параметр инверсия)
Задание обычных границ парсинга внутри повторяющейся (когда нужно спарсить несколько товаров с одной WEB-страницы)

Задание повторяющихся границ парсинга (когда нужно спарсить множество частей WEB-документа, заключенных в одинаковые участки кода, например, спарсить комментарии)
Задание повторяющихся границ парсинга внутри повторяющейся
Как производить поиск элементов нужной повторяющейся границы в тексте обычной границы парсинга (в определенной части кода WEB-документа), а не в целом коде WEB-документа

Задание динамических границ парсинга (КОГДА НУЖНО ЗАДАТЬ БОЛЕЕ 20 ГРАНИЦ ПАРСИНГА, работают аналогично обычным границам парсинга, но поддерживают регулярные выражения и не ограничены по количеству)

Загрузка и переименование картинок на диск при парсинге контента
Загрузка и переименование файлов на диск при парсинге контента (загрузка картинок, pdf-файлов, архивов, mp3, flv и так далее (с возможностью присвоения уникального имени каждому файлу))


Парсинг и добавление ссылок


Генерация списков ссылок с использованием заданных числовых и/или строковых значений (ключевых слов)
Парсинг ссылок со страниц рубрики сайта (сбор ссылок во вкладке «ссылки»)
Парсинг ссылок из XML-карты сайта
Сканер сайтов (робот обойдет страницы сайта и спарсит с них сылки)
Добавление файлов из указанной папки в список ссылок (SCANDIR)
Другие методы парсинга ссылок, методы добавления ссылок в программу, парсинг файлов с локального диска

Фильтры ссылок (отсеивание лишних ссылок при парсинге)


Дополнительно


Подключение php скриптов к шаблону вывода (макрос PHP_SCRIPT)
Использование PHP-скриптов с локального сервера (localhost) для обработки контента при парсинге

Загрузка (UPLOAD) документов (в которые парсим контент), файлов и картинок на FTP-сервер при парсинге контента
Распознавание капчи с помощью сервиса Antigate
Распознавание капчи, отправка текста капчи и получение ответных cookies (с использованием WBApp) при парсинге контента
Автоматическая приостановка парсинга во вкладке «Контент» при появлении капчи для ее ручного разгадывания (макрос шаблона вывода [WAITFORME])
Автоматический парсинг e-mail адресов и номеров телефонов из кода WEB-документов
Запуск программы с передачей параметров (например, из планировщика Windows)
Парсинг составных XML-карт сайтов (в карте сайта находятся ссылки на несколько XML-карт)
Решение проблем с возможными «зависаниями» программы или с ошибками «out of memory», «thread creation error…» при парсинге во вкладке «контент» или в сканере сайтов
Редактирование CSV файлов
Парсинг сайтов с экзотическими языками (китайский и прочие)
Парсинг BASE64-картинок
Порядок выполнения функций при парсинге контента
Парсинг контента и ссылок с использованием POST-запросов
Парсинг в CSV всех характеристик товара РАЗОМ в одну или в отдельные ячейки CSV
Как парсить несколько картинок с одной страницы с присвоением каждой уникального имени файла
Автоматический парсинг в MYSQL-базу (обновление цен товаров, добавление записей и многое другое)
Как подгружать данные с указанных URL-адресов при парсинге контента (макрос шаблона вывода GETMORECONTENT)
Как подгружать цикличные данные с указанных URL-адресов при парсинге контента (макрос шаблона вывода GETMORECYCLECONTENT)
Как парсить контент, которого нет в коде страницы (контент подгружается скриптами)
Как парсить адреса e-mail
Получение редиректов ссылок (макрос [GETREDIRECT])
Создание XML-файла импорта в WordPress
Как удалять HTML-теги при парсинге контента: все, кроме указанных, только указанные
Парсинг одного WEB-документа в несколько разных файлов на диск (сохранение произвольных частей шаблона вывода в указанные файлы макросом [SAVETOFILE])
Передача произвольных HTTP-заголовков (custom headers) при парсинге контента и ссылок
Имитация нажатий кнопок мыши и клавиатуры в WBApp
Рендеринг (создание изображений) элементов WEB-страниц с помощью WBApp
Генерация уникальных ID товаров или статей при парсинге контента с помощью макроса [SKU_UNIQUE]
Как избежать бана при парсинге некоторых сайтов (изменить количество потоков, выставить паузу между запросами, использовать прокси)
Как избежать повторной загрузки одних и тех же WEB-документов при следующем парсинге (во вкладке «контент»)
Как автоматически загрузить в список ссылок файлы из папки на локальном диске с помощью SCANDIR (просканировать папку на наличие файлов и приступить к парсингу контента)
Слияние (объединение) двух CSV файлов (двух таблиц товаров) по ключевым столбцам
Просмотр и удаление картинок в таблицах CSV
Использование встроенного синонимайзера (макрос шаблона вывода [SYN]…[/SYN])
полезная информация


Примеры парсинга


Парсинг товаров с изменяющимися атрибутами (размеры меняются в зависимости от выбранного цвета)
Автоматический перевод текста при парсинге с использованием Яндекс api
Парсинг групп и людей Вконтакте
Парсинг телефонных номеров с Авито в виде текста (парсинг информации, которая подгружается при клике на кнопку)
Парсинг картинок по ключевым словам (Bing)
Пример парсинга статей с сайта (с картинками и без)
Определение позиции сайта в выдаче Google по ключевым запросам

css.php