Новости | SBFactory - универсальный парсер контента, программа для наполнения интернет магазинов - Part 40

Архивы рубрики: ‘Новости’

Добавлен макрос шаблона вывода [DIGIFILTER]…[/DIGIFILTER]

Иногда требуется отсеять часть статей или товаров, числовой параметр которых не соответствует желаемому. Например, нужно отфильтровать товары, цена которых меньше, чем 800 рублей. Для таких целей можно использовать макрос шаблона вывода [DIGIFILTER].

Возможны три условия: число больше, меньше либо равно (>, <, =) [DIGIFILTER]x<100[/DIGIFILTER] [DIGIFILTER]x>5.7[/DIGIFILTER] [DIGIFILTER]x=777[/DIGIFILTER]

Где x-любая граница парсинга (любое число). В функции используются числа типа real (5, 5.5, 7.777). Если, допустим, x будет “цена 777 руб.”, то функция преобразует этот текст в число 777.0. Если x будет равно “.text5”, то функция преобразует текст в 0.5

При парсинге макрос [DIGIFILTER] будет удаляться!

При парсинге 1 документа макрос можно вызывать много раз. Например:

[DIGIFILTER]<CD_GRAN_1!><100[/DIGIFILTER][DIGIFILTER]<CD_GRAN_1!>>5.7[/DIGIFILTER][DIGIFILTER]<CD_GRAN_1!>=777[/DIGIFILTER][DIGIFILTER]<CD_GRAN_1!>=555[/DIGIFILTER][DIGIFILTER]<CD_GRAN_1!>=888[/DIGIFILTER]

В этом случае будут сохраняться все документы, <CD_GRAN_1!> которых будет меньше 100, больше 5.7, равен 777, 555 или 888.
(more…)

Обновление программы Content Downloader до версии 31.77

content downloader Скачать/обновить программу
Просмотреть весь лог изменений
Обсудить на форуме

Content Downloader версии 31.77 (20.03.2012):

– Функция загрузки картинок теперь передает referer;
– Добавлена функция удаления выделенного элемента при предпросмотре результатов парсинга контента;
– Переработана функция загрузки карты сайта;
– Доработана функция удаления дублей ссылок с использованием [PARAM];
– Множество доработок и исправлений.

Content Downloader версии 31.14 (19.02.2012):

– Теперь при задании границ парсинга и при предпросмотре результата парсинга контента можно загружать ссылки из списка не только двойным кликом, но и стрелками: влево, вправо, а также клавишей ENTER;
– Несколько доработок.

Content Downloader версии 31.07 (16.02.2012):

– Исправлена функция переименования изображений при парсинге контента.

Content Downloader версии 31.00 (16.02.2012):

– В фильтры ссылок добавлена функция поиск-замены.

Content Downloader версии 30.93 (15.02.2012):

– Доработана функция переименования изображений при парсинге контента;
– Увеличено окно настройки повторяющихся границ парсинга;
– Несколько доработок.

Content Downloader версии 30.84 MK II (12.02.2012):

– Оптимизирована работа программы при парсинге контента в 1 файл.
(more…)

Как парсить видео с YouTube (по ключевым словам)

Создал новый проект и инструкцию, прошу смотреть тут.
(more…)

Обновление программы Content Downloader до версии 30.84

content downloader Скачать/обновить программу
Просмотреть весь лог изменений
Обсудить на форуме

Content Downloader версии 30.84 (12.02.2012):

– Теперь контент можно сохранять в utf-8 без BOM;
– Теперь можно применять фильтры для обработки существующего списка ссылок очереди сканера сайтов (правый клик по списку);
– Несколько доработок.

Content Downloader версии 30.77 (11.02.2012) (Обновление по просьбе человека):

– Теперь есть поддержка редиректов при загрузке картинок, геренируемых PHP-скриптом (при парсинге контента).

Content Downloader версии 30.70 (10.02.2012) (Обновление по просьбе человека):

– Доработан макрос шаблона вывода WEBASYSTIMG (http://sbfactory.ru/cd/?p=261).

Content Downloader версии 30.63 (09.02.2012):

– Добавлен макрос шаблона вывода WEBASYSTIMG (http://sbfactory.ru/cd/?p=261).

Content Downloader версии 30.56 (08.02.2012):

– Исправлена ошибка, связанная с зависанием программы при использовании функции поиска при задании границ парсинга;
– Несколько доработок и исправлений.

Content Downloader версии 30.49 (08.02.2012):

– Исправлена ошибка, связанная со съеданием символов типа є и ї, которые находились в начале или в конце границы парсинга;
– Исправлена ошибка, связанная с отображением символов І, Ї, Є при задании имен папок для сохраняемых (при парсинге контента) документов;
– Несколько доработок и исправлений.

Content Downloader версии 30.42 (07.02.2012):

– В сканер сайтов добавлена функция поиск-замены для списка очереди и списка найденных ссылок;
– Несколько доработок.

Content Downloader версии 30.35 (06.02.2012):

– Устранена ошибка, связанная с предпросмотром элемента парсинга (также с удалением первой строки из файла и с сохранением документов при парсинге контента)!!!

Content Downloader версии 30.28 MK II (06.02.2012):

– Теперь функция “сохранять загружаемые документы и картинки по разным папкам” корректно работает с символами i, є, ї.

Content Downloader версии 30.28 (06.02.2012):

– Устранены ошибки, связанные с вызовом лога парсинга;
– Значительно доработан сканер сайтов (теперь он ждет завершения потоков, появился счетчик активных потоков и многое другое);
– Множество исправлений и изменений.

Content Downloader версии 30.21 (05.02.2012):

– Устранены ошибки типа “invalid floating point operation” в инструменте задания границ парсинга;
– После выполнения предпросмотра результата парсинга контента или после задания границ парсинга теперь выделяется “правильный” элемент из списка ссылок;
– Несколько доработок и изменений.
(more…)

Обновление программы Content Downloader до версии 30.14

content downloader Скачать/обновить программу
Просмотреть весь лог изменений
Обсудить на форуме

Content Downloader версии 30.14 (05.02.2012):

– Теперь сканер сайтов в Content Downloader EXTENDED поддерживает до 50 потоков;
– Несколько доработок и изменений.

Content Downloader версии 30.07 (04.02.2012):

– В планировщик добавлена опция “запускать сканер сайтов”;
– Теперь оповещения об обновлениях отображаются не как модальное окно, а как маленькая панель справа вверху;
– Несколько доработок.

Content Downloader версии 30.03 MK II (04.02.2012):

– В макрос шаблона вывода [GETMORECYCLECONTENT] добавлен параметр SOURCE (http://sbfactory.ru/cd/?p=622).

Content Downloader версии 30.03 (03.02.2012):

– Устранена проблема с символом & при задании границ парсинга;
– Исправлена ошибка с некорректными hint окон в инструменте задания границ парсинга;
– Несколько доработок.

Content Downloader версии 30.00 (31.01.2012):

– Теперь программа имеет три типа лицензии
START: максимум 5 потоков при парсинге контента
STANDARD: максимум 10 потоков при парсинге контента
EXTENDED: максимум 50 потоков при парсинге контента
Все люди, кто покупал программу до 31.01.2012 имеют тип лицензии STANDARD (для них переход на улучшенную версию будет стоить 387 рублей).
Если вы хотите перейти на версию EXTENDED с 50 потоками, то обратитесь в ICQ 571-880-051/Skype smartbyte_support (переход платный, подробности на сайте).
Спасибо!

Content Downloader версии 28.14 (30.01.2012):

– Добавлены опции: “не сохранять документы с битыми картинками”, “не сохранять документы без картинок” (Вкладка “контент” – кнопка “дополнительно”);
– В редакторе CSV файлов теперь можно загружать по нескольку картинок к каждому товару.
(more…)

Правила обращения к разработчику

Здравствуйте, дорогие клиенты!

Для экономии вашего и моего времени прошу придерживаться следующих правил обращения:
Не отсылать сообщения типа: “Здравствуйте, вы тут?”, “Привет!” или “Можно спросить?” (такие сообщения будут игнорироваться), а сразу задавать конкретный вопрос;
– На момент обращения за помощью желательно иметь установленный TeamViewer (программа удаленной поддержки);
– Если вы столкнулись с какой-нибудь проблемой, прошу сначала попробовать решить ее самостоятельно.

Надеюсь на ваше понимание! Спасибо!
(more…)

Типы лицензии Content Downloader

Content Downloader имеет три типа лицензии (Start, Standard, ULTIMATE). Они различаются максимальным количеством потоков при парсинге контента и максимальным количеством потоков в сканере сайтов (5, 20, 50 соответственно).

Динамические границы парсинга (неограниченное количество + они поддерживают регулярные выражения) можно задавать во всех версиях, кроме Start.

Рекомендации для выбора типа лицензии:
Парсинг в 10-20 потоков является наиболее оптимальным для большинства сайтов в сети. В некоторых случаях для повышения скорости парсинга требуется большее количество потоков.

Случаи, когда использование большего количества потоков бесполезно:
– Бан на сайтах из-за частых GET-запросов;
– Загрузка сети или ядра процессора на 100%;
– Сайт блокирует долю частых запросов.
Примечание: при использовании 10 и более потоков желательно использовать Windows 64-bit.

Результаты тестов Content Downloader с различным количеством потоков:

Тесты производились на различных сайтах с реальными рабочими проектами.
Тактовая частота ядра процессора: 2100 МГц
Скорость интернет-соединения: 8 мегабит/секунда

1) my_mail_ru (парсинг анкет)
Загрузка картинок – нет.

Количество потоков Количество загруженных страниц за 60 секунд Загрузка ядра процессора (%)
5 73 5-30
10 126 10-35
50 177 30-55

2) sportsdirect_com (парсинг товаров в CSV)
В каждом документе 1-3 картинки по 10-20 kb.

Количество потоков Количество загруженных страниц за 60 секунд Загрузка ядра процессора (%)
5 77 4-12
10 133 5-20
50 179 8-50

3) rutaobao_com (парсинг товаров в CSV) – очень медленный сайт
В каждом документе по 1 картинке (около 70 kb).

Количество потоков Количество загруженных страниц за 60 секунд Загрузка ядра процессора (%)
5 25 1-5
10 50 5-30
50 вылетела капча 15-30

(more…)