Парсить с использованием браузера

Добавлен быстрый WBAppCEF3

+ Прирост скорости парсинга через браузер WBAppCEF от 2 до 25 раз

+ Усовершенствованное автоматическое определение готовности загрузки WEB Страниц

+ Нет проблем с потерей фокуса при работе в системе

И многое другое (хорошее)…

Content Downloader X1 версии 11.1.1711712 (23.12.2021)

HotFix!

– Устранены проблемы при многопоточном вызове WBAppCEF3.

Content Downloader X1 версии 11.1.1711711 (23.12.2021)

ВНИМАНИЕ: WBAppCEF значительно переработан! Подробнее читайте здесь https://sbfactory.ru/?p=7315
ВНИМАНИЕ: Отказались от поддержки WBAppIE и убрали его!

А так же:
– Доработаны алгоритмы очистки списков ссылок сканера сайтов при запуске сканирования;
– Ссылки с динамическим {num:n,n} теперь корректно открываются в инструменте задания границ парсинга и при настройке проекта WBApPCEF;
– Доработан лог в сканере сайтов;
– Несколько других доработок.

Ранее при парсинге каждой WEB страницы WBAppCEF запускался и завершал работу. Теперь WBAppCEF3 может парсить документы без перезапуска.

Это дает значительный прирост в скорости парсинга с использованием движка браузера.

В прошлом при многопоточном парсинге скорость не могла быть быстрее, чем 1 WEB документ в 1 секунду. Теперь скорость может достигать и до 20 документов в секунду.

Для парсинга через WBAppCEF3 в новом режиме выберите соответствующую опцию в WBApp Launcher (Ctrl+W).


Парсинг с использованием браузера


Также обратите внимание на опции отключения загрузки картинок и выполнения JavaScript в браузере WBAppCEF.

Тесты на скорость парсинга производились при использовании 10 потоков во вкладке “Контент”.

При отключенных картинках и скриптах на достаточно мощном компьютере и быстром интернете достигается максимальная скорость парсинга (до 20 WEB страниц в секунду)

При включении выполнения JavaScript скорость парсинга значительно снижается, как показали тесты, до 2-7 документов в секунду (в зависимости от сайтов).


ВАЖНО: В WBAppCEF3 были добавлены усовершенствованные алгоритмы определения готовности загрузки WEB страницы. По этому смело из списка событий WBAppCEF убирайте [INSTANTACTIONS] для активации новых алгоритмов. Также можно убрать события по определению готовности загрузки WEB страниц.


Тема на форуме с обсуждением WBAppCEF3 (клик)


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 6, средний балл: 5.00)

Loading...
Вы можете пропустить до конца и оставить ответ. Pinging в настоящее время не доступны.
Написать комментарий

Пожалуйста, ознакомьтесь с правилами комментирования (причина УДАЛЕНИЯ некоторых комментариев)

Добавить изображение к комментарию (jpg)