Архивы рубрики: ‘Новости’

Как парсить видео с YouTube (по ключевым словам)

Создал новый проект и инструкцию, прошу смотреть тут.
(more…)

Обновление программы Content Downloader до версии 30.84

content downloader Скачать/обновить программу
Просмотреть весь лог изменений
Обсудить на форуме

Content Downloader версии 30.84 (12.02.2012):

– Теперь контент можно сохранять в utf-8 без BOM;
– Теперь можно применять фильтры для обработки существующего списка ссылок очереди сканера сайтов (правый клик по списку);
– Несколько доработок.

Content Downloader версии 30.77 (11.02.2012) (Обновление по просьбе человека):

– Теперь есть поддержка редиректов при загрузке картинок, геренируемых PHP-скриптом (при парсинге контента).

Content Downloader версии 30.70 (10.02.2012) (Обновление по просьбе человека):

– Доработан макрос шаблона вывода WEBASYSTIMG (http://sbfactory.ru/cd/?p=261).

Content Downloader версии 30.63 (09.02.2012):

– Добавлен макрос шаблона вывода WEBASYSTIMG (http://sbfactory.ru/cd/?p=261).

Content Downloader версии 30.56 (08.02.2012):

– Исправлена ошибка, связанная с зависанием программы при использовании функции поиска при задании границ парсинга;
– Несколько доработок и исправлений.

Content Downloader версии 30.49 (08.02.2012):

– Исправлена ошибка, связанная со съеданием символов типа є и ї, которые находились в начале или в конце границы парсинга;
– Исправлена ошибка, связанная с отображением символов І, Ї, Є при задании имен папок для сохраняемых (при парсинге контента) документов;
– Несколько доработок и исправлений.

Content Downloader версии 30.42 (07.02.2012):

– В сканер сайтов добавлена функция поиск-замены для списка очереди и списка найденных ссылок;
– Несколько доработок.

Content Downloader версии 30.35 (06.02.2012):

– Устранена ошибка, связанная с предпросмотром элемента парсинга (также с удалением первой строки из файла и с сохранением документов при парсинге контента)!!!

Content Downloader версии 30.28 MK II (06.02.2012):

– Теперь функция “сохранять загружаемые документы и картинки по разным папкам” корректно работает с символами i, є, ї.

Content Downloader версии 30.28 (06.02.2012):

– Устранены ошибки, связанные с вызовом лога парсинга;
– Значительно доработан сканер сайтов (теперь он ждет завершения потоков, появился счетчик активных потоков и многое другое);
– Множество исправлений и изменений.

Content Downloader версии 30.21 (05.02.2012):

– Устранены ошибки типа “invalid floating point operation” в инструменте задания границ парсинга;
– После выполнения предпросмотра результата парсинга контента или после задания границ парсинга теперь выделяется “правильный” элемент из списка ссылок;
– Несколько доработок и изменений.
(more…)

Обновление программы Content Downloader до версии 30.14

content downloader Скачать/обновить программу
Просмотреть весь лог изменений
Обсудить на форуме

Content Downloader версии 30.14 (05.02.2012):

– Теперь сканер сайтов в Content Downloader EXTENDED поддерживает до 50 потоков;
– Несколько доработок и изменений.

Content Downloader версии 30.07 (04.02.2012):

– В планировщик добавлена опция “запускать сканер сайтов”;
– Теперь оповещения об обновлениях отображаются не как модальное окно, а как маленькая панель справа вверху;
– Несколько доработок.

Content Downloader версии 30.03 MK II (04.02.2012):

– В макрос шаблона вывода [GETMORECYCLECONTENT] добавлен параметр SOURCE (http://sbfactory.ru/cd/?p=622).

Content Downloader версии 30.03 (03.02.2012):

– Устранена проблема с символом & при задании границ парсинга;
– Исправлена ошибка с некорректными hint окон в инструменте задания границ парсинга;
– Несколько доработок.

Content Downloader версии 30.00 (31.01.2012):

– Теперь программа имеет три типа лицензии
START: максимум 5 потоков при парсинге контента
STANDARD: максимум 10 потоков при парсинге контента
EXTENDED: максимум 50 потоков при парсинге контента
Все люди, кто покупал программу до 31.01.2012 имеют тип лицензии STANDARD (для них переход на улучшенную версию будет стоить 387 рублей).
Если вы хотите перейти на версию EXTENDED с 50 потоками, то обратитесь в ICQ 571-880-051/Skype smartbyte_support (переход платный, подробности на сайте).
Спасибо!

Content Downloader версии 28.14 (30.01.2012):

– Добавлены опции: “не сохранять документы с битыми картинками”, “не сохранять документы без картинок” (Вкладка “контент” – кнопка “дополнительно”);
– В редакторе CSV файлов теперь можно загружать по нескольку картинок к каждому товару.
(more…)

Правила обращения к разработчику

Здравствуйте, дорогие клиенты!

Для экономии вашего и моего времени прошу придерживаться следующих правил обращения:
Не отсылать сообщения типа: “Здравствуйте, вы тут?”, “Привет!” или “Можно спросить?” (такие сообщения будут игнорироваться), а сразу задавать конкретный вопрос;
– На момент обращения за помощью желательно иметь установленный TeamViewer (программа удаленной поддержки);
– Если вы столкнулись с какой-нибудь проблемой, прошу сначала попробовать решить ее самостоятельно.

Надеюсь на ваше понимание! Спасибо!
(more…)

Типы лицензии Content Downloader

Content Downloader имеет три типа лицензии (Start, Standard, ULTIMATE). Они различаются максимальным количеством потоков при парсинге контента и максимальным количеством потоков в сканере сайтов (5, 20, 50 соответственно).

Динамические границы парсинга (неограниченное количество + они поддерживают регулярные выражения) можно задавать во всех версиях, кроме Start.

Рекомендации для выбора типа лицензии:
Парсинг в 10-20 потоков является наиболее оптимальным для большинства сайтов в сети. В некоторых случаях для повышения скорости парсинга требуется большее количество потоков.

Случаи, когда использование большего количества потоков бесполезно:
– Бан на сайтах из-за частых GET-запросов;
– Загрузка сети или ядра процессора на 100%;
– Сайт блокирует долю частых запросов.
Примечание: при использовании 10 и более потоков желательно использовать Windows 64-bit.

Результаты тестов Content Downloader с различным количеством потоков:

Тесты производились на различных сайтах с реальными рабочими проектами.
Тактовая частота ядра процессора: 2100 МГц
Скорость интернет-соединения: 8 мегабит/секунда

1) my_mail_ru (парсинг анкет)
Загрузка картинок – нет.

Количество потоков Количество загруженных страниц за 60 секунд Загрузка ядра процессора (%)
5 73 5-30
10 126 10-35
50 177 30-55

2) sportsdirect_com (парсинг товаров в CSV)
В каждом документе 1-3 картинки по 10-20 kb.

Количество потоков Количество загруженных страниц за 60 секунд Загрузка ядра процессора (%)
5 77 4-12
10 133 5-20
50 179 8-50

3) rutaobao_com (парсинг товаров в CSV) – очень медленный сайт
В каждом документе по 1 картинке (около 70 kb).

Количество потоков Количество загруженных страниц за 60 секунд Загрузка ядра процессора (%)
5 25 1-5
10 50 5-30
50 вылетела капча 15-30

(more…)

HttpFox (плагин Firefox для анализа HTTP-запросов)

HttpFox Здравствуйте, дорогие друзья. Сегодня совершенно случайно наткнулся на плагин для анализа HTTP-Запросов HttpFox. Он оказался максимально практичным и удобным, что очень обрадовало (так как при работе с парсером Content Downloader такие плагины часто нужны). Рекомендую! (more…)

Обновление программы Content Downloader до версии 28.07

content downloader Скачать/обновить программу
Просмотреть весь лог изменений
Обсудить на форуме

Content Downloader версии 28.07 (26.01.2012):

– ОЧЕНЬ ВАЖНАЯ ДОРАБОТКА!!!: Устранены проблемы с кодировкой при парсинге контента в 1 UTF8 файл!!!

Content Downloader версии 27.91 (22.01.2012):

– Поправлена функция “сохранять загружаемые документы и картинки по разным папкам” (ранее, при включении этой функции, программа могла зависать);
– В шаблон вывода добавлен макрос [GETMORECYCLECONTENT] (получение повторяющихся границ с любого указанного url-адреса);
– Теперь в макросах шаблона вывода GETMORECONTENT и PHP_SCRIPT поддерживается функция поиск-замены;
– Несколько доработок.
(more…)