Архивы рубрики: ‘Новости’

Типы лицензии Content Downloader

Content Downloader имеет три типа лицензии (Start, Standard, ULTIMATE). Они различаются максимальным количеством потоков при парсинге контента и максимальным количеством потоков в сканере сайтов (5, 20, 50 соответственно).

Динамические границы парсинга (неограниченное количество + они поддерживают регулярные выражения) можно задавать во всех версиях, кроме Start.

Рекомендации для выбора типа лицензии:
Парсинг в 10-20 потоков является наиболее оптимальным для большинства сайтов в сети. В некоторых случаях для повышения скорости парсинга требуется большее количество потоков.

Случаи, когда использование большего количества потоков бесполезно:
– Бан на сайтах из-за частых GET-запросов;
– Загрузка сети или ядра процессора на 100%;
– Сайт блокирует долю частых запросов.
Примечание: при использовании 10 и более потоков желательно использовать Windows 64-bit.

Результаты тестов Content Downloader с различным количеством потоков:

Тесты производились на различных сайтах с реальными рабочими проектами.
Тактовая частота ядра процессора: 2100 МГц
Скорость интернет-соединения: 8 мегабит/секунда

1) my_mail_ru (парсинг анкет)
Загрузка картинок – нет.

Количество потоков Количество загруженных страниц за 60 секунд Загрузка ядра процессора (%)
5 73 5-30
10 126 10-35
50 177 30-55

2) sportsdirect_com (парсинг товаров в CSV)
В каждом документе 1-3 картинки по 10-20 kb.

Количество потоков Количество загруженных страниц за 60 секунд Загрузка ядра процессора (%)
5 77 4-12
10 133 5-20
50 179 8-50

3) rutaobao_com (парсинг товаров в CSV) – очень медленный сайт
В каждом документе по 1 картинке (около 70 kb).

Количество потоков Количество загруженных страниц за 60 секунд Загрузка ядра процессора (%)
5 25 1-5
10 50 5-30
50 вылетела капча 15-30

(more…)

HttpFox (плагин Firefox для анализа HTTP-запросов)

HttpFox Здравствуйте, дорогие друзья. Сегодня совершенно случайно наткнулся на плагин для анализа HTTP-Запросов HttpFox. Он оказался максимально практичным и удобным, что очень обрадовало (так как при работе с парсером Content Downloader такие плагины часто нужны). Рекомендую! (more…)

Обновление программы Content Downloader до версии 28.07

content downloader Скачать/обновить программу
Просмотреть весь лог изменений
Обсудить на форуме

Content Downloader версии 28.07 (26.01.2012):

– ОЧЕНЬ ВАЖНАЯ ДОРАБОТКА!!!: Устранены проблемы с кодировкой при парсинге контента в 1 UTF8 файл!!!

Content Downloader версии 27.91 (22.01.2012):

– Поправлена функция “сохранять загружаемые документы и картинки по разным папкам” (ранее, при включении этой функции, программа могла зависать);
– В шаблон вывода добавлен макрос [GETMORECYCLECONTENT] (получение повторяющихся границ с любого указанного url-адреса);
– Теперь в макросах шаблона вывода GETMORECONTENT и PHP_SCRIPT поддерживается функция поиск-замены;
– Несколько доработок.
(more…)

Парсер CSV

(more…)

Обновление программы Content Downloader до версии 27.87

content downloader Скачать/обновить программу
Просмотреть весь лог изменений
Обсудить на форуме

Content Downloader версии 27.87 (19.01.2012):

– Исправлен прокси-чекер;
– Доработана функция сохранения проекта;
– Несколько доработок.

Content Downloader версии 27.77 MK VII (18.01.2012):

– Макрос шаблона вывода DOWNLOADFILE теперь поддерживает REPLACE внутри себя;
– Доработан инструмент задания границ парсинга;
– Несколько доработок программного кода.

Content Downloader версии 27.77 MK II (17.01.2012):

– Несколько доработок интерфейса программы;
– Важная доработка кода.

Content Downloader версии 27.77 (17.01.2012):

– Устранены проблемы с интерфейсом программы;
– Во все формы (там где нужно) добавлен хоткей закрытия окна – Esc;
– Несколько доработок.

Content Downloader версии 27.54 (16.01.2012):

– Множество доработок.

Content Downloader версии 27.47 (14.01.2012):

– В “меню” – “файл” добавлены пункты изменения высоты панелей программы для 100%, 125%, 150%, 165% увеличения шрифта и объектов системы;
– Доработан макрос (шаблона вывода) для случайного вывода текста, теперь он обрабатывает сложные конструкции типа {..|{..|..}..|..}.

Content Downloader версии 27.37 MK II (12.01.2012):

– Подправлены макросы шаблона вывода REPLACE;
– Макрос шаблона вывода GETMORECONTENT теперь имеет обработчики макросов REPLACE;
– Несколько доработок.
(more…)

Парсер магазинов

Для того, чтобы скачать товары из интернета в CSV-файл, нужно использовать парсер магазинов Content Downloader. С помощью данной программы вы можете спарсить любые интернет-магазины (за исключением случаев, где это вообще невозможно). (more…)

Парсер товаров

content downloader1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 7, средний балл: 3.71) Loading... скачать/обновить программу ver 27.77 (от 17.01.2012)
Просмотреть весь лог изменений
обсудить парсер на форуме
видео мануалы
перед использованием программы обязательно прочтите это (more…)