Описание программы Content Downloader
Content Downloader — универсальный многопоточный парсер сайтов для Windows с большим количеством функций и возможностью полного контроля и настройки всех этапов работы с WEB контентом.
Content Downloader разрабатывается с 2009 года и является полноценным развитым продуктом. За это время было выпущено более 250 обновлений (просмотреть весь лог изменений)
Для пользователя предоставлена полная свобода в настройке алгоритмов парсинга, обработки, и сохранения данных.
Освоить программу может практически каждый. Изучение базового функционала программы (что позволяет парсить большинство сайтов) у людей обычно занимает от 10 до 20 часов (в зависимости от индивидуальных особенностей и сложности решаемой задачи). Будем рады помочь пользователям в решении вопросов по парсингу на нашем форуме поддержки.
Назначение: Парсинг любых сайтов
Класс: Профессиональное программное обеспечение
Платформа: Windows/Windows server (на системах macOS для работы с программой используйте виртуальные машины, например — VMWare fusion)
Стоимость: 3000 рублей
Многопоточность: Да
Поддержка прокси: Да
Возможность запуска из планировщика Windows: Да
Библиотеки отправки HTTP(S) запросов:
— Clever Internet Suite (GET/POST, работает со всеми HTTPS, поддерживает все виды прокси, включая IPV6)
— WININET (GET/POST, работает со всеми HTTPS)
— WBAppCEF на движке CHROMIUM (парсинг с использованием браузера и выполнением Javascript)
Для получения консультаций, заказа готовых проектов настроек Content Downloader обращайтесь по Whatsap/Telegram +79833813211 (Сергей)
Приятные особенности
Гибкость
Есть все инструменты для полноценного сбора любых данных с WEB сайтов, обработки и приведения собранной информации в требуемый вид.
Всеядность
Также имеется возможность использовать для парсинга браузер на основе Chromium, обернутый в нашу оболочку WBAppCEF (клик для справки). При парсинге браузер выполняет все скрипты на WEB страницах + можно автоматизировать имитацию действий пользователя (клики, прокрутка, вставка текста и прочее).
Стабильность
Поддержка
Программа является многофункциональной, универсальной и настраивается отдельно для парсинга каждого WEB-ресурса. Все настройки можно сохранять в файлы проектов и затем загружать их в любое время для последующего редактирования или парсинга.
Основные сферы применения парсера Content Downloader
Парсинг товаров с интернет-магазинов в CSV/XML/YML любого требуемого формата (со всеми характеристиками и картинками)
Парсинг любой текстовой информации с сайтов в форматы: HTML, CSV, TXT (с возможностью парсинга картинок и файлов)
Парсинг файлов любых форматов
Парсинг любых нужных ссылок с сайтов
Парсинг контактов (e-mail, телефоны) с сайтов объявлений или списка URL адресов разных компаний
Автоматизация действий на сайтах (клики, прокрутки, ввод текста, скачивание/отправка файлов, выполнение собственных Javascript и многое другое)
Отправка файлов на ваш FTP
Создание дополнительных GET/POST запросов с нужными заголовками и данными
Обработка и редактирование CSV файлов
Автоматический запуск парсинга по расписанию (на своем компьютере или Windows сервере)
Для более подробного ознакомления со всеми возможностями Content Downloader просмотрите материалы системы помощи!
Парсинг товаров интернет-магазинов в таблицы CSV
В парсере Content Downloader есть внушительный набор инструментов для сбора товаров с любых интернет-магазинов. Базовый набор данных со страниц товаров (например: наименование, рубрика, цена) парсится с помощью обычных или повторяющихся границ парсинга (извлечение контента из указанных частей WEB документов).
Перечень характеристик товаров в разные столбцы CSV парсится и распределяется в результат автоматизированно с помощью специальных макросов (клик).
Картинки товаров можно парсить и сохранять на диск или в виде URL адресов.
Обработка данных при парсинге производится с помощью широкого спектра специальных функций и макросов.
Точные инструменты извлечения данных из HTML кода
В программе используется отлаженный проверенный годами механизм для парсинга необходимых сегментов кода WEB страниц. При корректной настройке алгоритм парсит данные безошибочно на всех страницах сайта. Например, для извлечения заголовка, цены, описания используются обычные границы парсинга. Для извлечения массива схожих элементов, например, нескольких картинок товара, используются повторяющиеся границы парсинга.
В границах парсинга используются различные операторы. Например, [AUTO] — автоматический поиск закрывающего тега (вне зависимости от того, сколько в него вложено таких же тегов).
Полностью настраиваемый вывод данных
С помощью редактора шаблона вывода и опций сохранения можно парсить, как в один файл на диске, так и в несколько разных (с указанием нужной кодировки). Получить любую нужную структуру (CSV, HTML, TXT, XML/YML).
Настраивайте формат вывода данных в режиме редактирования кода
Или в режиме редактирования таблицы
Создание любых GET/POST запросов для подгрузки или отправки данных
Все запросы программы полностью настраиваются. Для прямых запросов можно выбрать тип (GET/POST), установить нужные Cookie для авторизации, User-agent или любые другие HTTP заголовки.
Помимо этого есть различные макросы для подгрузки или отправки данных.
Например, чтобы подгрузить при парсинге цену товара (в случаях, когда на сайте цена подгружается скриптом), достаточно создать GET запрос.
А чтобы отправить данные на ваш сервер (для последующей инъекции в базу данных MySQL) используйте POST Запрос.
Подробнее о создании GET или POST запросов в Content Downloader читайте здесь.
Автоматизация действий пользователя в браузере
Некоторые сайты подгружают данные только после определенных действий пользователя, например, при получении контактных данных на сайтах объявлений нужно кликать на кнопку типа «показать номер». Оболочка WBAppCEF (с движком браузера Chromium) позволяет создавать список сценариев и пользовательских Javascript для имитации желаемых действий.
Помимо базовых действий (клик, вставка текста, нажатие кнопок, прокрутка WEB-страниц) в WBAppCEF есть возможность загрузки файлов на сайты (через автоматические файловые диалоги), ожидания выполнения указанных запросов, создания условий и циклов в списке событий и многое другое.
Подробнее об этом можно узнать здесь (клик).
Автоматизация парсинга
Настройте планировщик Windows для запуска проектов парсинга по расписанию. Можно выполнять, как отдельные проекты, так и цепочки.
Чтобы разгрузить домашний компьютер от ежедневного автоматизированного парсинга установите программу на Windows Server.
Подробнее об автоматизации читайте в этом разделе.
Скриншоты и видео
Comments
So empty here ... leave a comment!