Архивы рубрики: ‘Новости’

Правила обращения к разработчику

Здравствуйте, дорогие клиенты!

Для экономии вашего и моего времени прошу придерживаться следующих правил обращения:
Не отсылать сообщения типа: “Здравствуйте, вы тут?”, “Привет!” или “Можно спросить?” (такие сообщения будут игнорироваться), а сразу задавать конкретный вопрос;
– На момент обращения за помощью желательно иметь установленный TeamViewer (программа удаленной поддержки);
– Если вы столкнулись с какой-нибудь проблемой, прошу сначала попробовать решить ее самостоятельно.

Надеюсь на ваше понимание! Спасибо!
(more…)

Типы лицензии Content Downloader

Content Downloader имеет три типа лицензии (Start, Standard, ULTIMATE). Они различаются максимальным количеством потоков при парсинге контента и максимальным количеством потоков в сканере сайтов (5, 20, 50 соответственно).

Динамические границы парсинга (неограниченное количество + они поддерживают регулярные выражения) можно задавать во всех версиях, кроме Start.

Рекомендации для выбора типа лицензии:
Парсинг в 10-20 потоков является наиболее оптимальным для большинства сайтов в сети. В некоторых случаях для повышения скорости парсинга требуется большее количество потоков.

Случаи, когда использование большего количества потоков бесполезно:
– Бан на сайтах из-за частых GET-запросов;
– Загрузка сети или ядра процессора на 100%;
– Сайт блокирует долю частых запросов.
Примечание: при использовании 10 и более потоков желательно использовать Windows 64-bit.

Результаты тестов Content Downloader с различным количеством потоков:

Тесты производились на различных сайтах с реальными рабочими проектами.
Тактовая частота ядра процессора: 2100 МГц
Скорость интернет-соединения: 8 мегабит/секунда

1) my_mail_ru (парсинг анкет)
Загрузка картинок – нет.

Количество потоков Количество загруженных страниц за 60 секунд Загрузка ядра процессора (%)
5 73 5-30
10 126 10-35
50 177 30-55

2) sportsdirect_com (парсинг товаров в CSV)
В каждом документе 1-3 картинки по 10-20 kb.

Количество потоков Количество загруженных страниц за 60 секунд Загрузка ядра процессора (%)
5 77 4-12
10 133 5-20
50 179 8-50

3) rutaobao_com (парсинг товаров в CSV) – очень медленный сайт
В каждом документе по 1 картинке (около 70 kb).

Количество потоков Количество загруженных страниц за 60 секунд Загрузка ядра процессора (%)
5 25 1-5
10 50 5-30
50 вылетела капча 15-30

(more…)

HttpFox (плагин Firefox для анализа HTTP-запросов)

HttpFox Здравствуйте, дорогие друзья. Сегодня совершенно случайно наткнулся на плагин для анализа HTTP-Запросов HttpFox. Он оказался максимально практичным и удобным, что очень обрадовало (так как при работе с парсером Content Downloader такие плагины часто нужны). Рекомендую! (more…)

Обновление программы Content Downloader до версии 28.07

content downloader Скачать/обновить программу
Просмотреть весь лог изменений
Обсудить на форуме

Content Downloader версии 28.07 (26.01.2012):

– ОЧЕНЬ ВАЖНАЯ ДОРАБОТКА!!!: Устранены проблемы с кодировкой при парсинге контента в 1 UTF8 файл!!!

Content Downloader версии 27.91 (22.01.2012):

– Поправлена функция “сохранять загружаемые документы и картинки по разным папкам” (ранее, при включении этой функции, программа могла зависать);
– В шаблон вывода добавлен макрос [GETMORECYCLECONTENT] (получение повторяющихся границ с любого указанного url-адреса);
– Теперь в макросах шаблона вывода GETMORECONTENT и PHP_SCRIPT поддерживается функция поиск-замены;
– Несколько доработок.
(more…)

Парсер CSV

(more…)

Обновление программы Content Downloader до версии 27.87

content downloader Скачать/обновить программу
Просмотреть весь лог изменений
Обсудить на форуме

Content Downloader версии 27.87 (19.01.2012):

– Исправлен прокси-чекер;
– Доработана функция сохранения проекта;
– Несколько доработок.

Content Downloader версии 27.77 MK VII (18.01.2012):

– Макрос шаблона вывода DOWNLOADFILE теперь поддерживает REPLACE внутри себя;
– Доработан инструмент задания границ парсинга;
– Несколько доработок программного кода.

Content Downloader версии 27.77 MK II (17.01.2012):

– Несколько доработок интерфейса программы;
– Важная доработка кода.

Content Downloader версии 27.77 (17.01.2012):

– Устранены проблемы с интерфейсом программы;
– Во все формы (там где нужно) добавлен хоткей закрытия окна – Esc;
– Несколько доработок.

Content Downloader версии 27.54 (16.01.2012):

– Множество доработок.

Content Downloader версии 27.47 (14.01.2012):

– В “меню” – “файл” добавлены пункты изменения высоты панелей программы для 100%, 125%, 150%, 165% увеличения шрифта и объектов системы;
– Доработан макрос (шаблона вывода) для случайного вывода текста, теперь он обрабатывает сложные конструкции типа {..|{..|..}..|..}.

Content Downloader версии 27.37 MK II (12.01.2012):

– Подправлены макросы шаблона вывода REPLACE;
– Макрос шаблона вывода GETMORECONTENT теперь имеет обработчики макросов REPLACE;
– Несколько доработок.
(more…)

Парсер магазинов

Для того, чтобы скачать товары из интернета в CSV-файл, нужно использовать парсер магазинов Content Downloader. С помощью данной программы вы можете спарсить любые интернет-магазины (за исключением случаев, где это вообще невозможно). (more…)