Как ускорить парсинг

Как ускорить парсинг контента


На сколько можно ускорить процесс парсинга


При использовании библиотек Clever Internet Suite (CIS) или WIN, как правило, парсинг идет быстро и обрабатывается большое количесвто данных. Процессор при этом должен отрисовывать изменения в списке ссылок и обрабатывать контент.

В некоторых случаях удается увеличить скорость парсинга на порядок, а в некоторых незначительно, примерно на 10 процентов (для понимания сути методов оптимизации читайте дальше).

При сборе больших объемов данных этот вопрос становится весьма актуальным.


Когда целесообразно производить оптимизацию нагрузки на процессор при парсинге


В случаях, когда процесс Content Downloader.exe (в диспетчере задач системы) полностью занимает хотя бы одно из ядер процессора.

Если у вас многоядерный процессор учтите, что отображаемая в диспетчере информация должна быть правильно воспринята.

Например, процессор имеет два ядра. Процесс Content Downloader.exe в диспетчере занимает 50% – значит, что одно из ядер он занял на 100%
Например, процессор имеет два ядра. Процесс Content Downloader.exe в диспетчере занимает 75% – значит, что одно из ядер он занял на 100%, а второе на 50%
Например, процессор четырехъядерный. Процесс Content Downloader.exe в диспетчере занимает 25% – значит, что одно из ядер он занял на 100%


Оптимизация отрисовки списка ссылок при парсинге во вкладке “Контент”


Чем больше ссылок в списке для парсинга, тем больше требуется вычислений для его отрисовки (ввиду особенностей работы компонента Virtual Tree View).

Например, при парсинге нескольких тысяч WEB документов, отрисовка списка ссылок при парсинге практически не дает никакой нагрузки.

Если производится парсинг более 10 000 WEB документов, то нагрузка на отрисовку списка ссылок уже является ощутимой.

Критическая нагрузка на процессор наблюдается при парсинге более миллиона WEB Документов.

Для отключения отрисовки списка (только на время парсинга) отключите опцию “постоянная отрисовка списка ссылок при парсинге” в окне оптимизации (смотрите скриншот выше).

Примечание: Данная опция действует на все проекты.

При парсинге более 2 миллионов ссылок отключение этой опции дало прирост скорости парсинга более, чем в 10 раз (с 2 документов в секунду до 36)!


Оптимизация обработки данных при парсинге во вкладке “Контент”


При парсинге во вкладке “Контент” используется более 200 различных функций и макросов для его обработки.

В случаях, когда объем обрабатываемых данных более 10 000 символов отключение лишних или неиспользуемых функций позволяет увеличить скорость парсинга (иногда в 2 и более раз).

Оптимизация производится после полной настройки проекта. Сначала выполните предпросмотр результатов парсинга во вкладке “Контент” (чтобы нужные данные записались в память) и затем откройте инструмент оптимизации и нажмите кнопку “включить только нужные элементы…” (смотрите скриншот выше).


Оптимизация нагрузки на локальный диск при парсинге во вкладке “Контент”


В планах к разработке.

Сейчас запись данных на диск производится при парсинге каждого WEB документа, что влечет за собой приличное множество обращений к локальному диску.

Планируется реализовать буферную запись данных на диск. Это позволит накапливать данные в памяти и записывать их на диск только в случае переполнения буфера. Что позволит на порядки уменьшить количество обращений к диску и значительно увеличить скорость парсинга.

Для HDD этот вид оптимизации будет иметь гораздо более выраженный эффект, чем для SSD.


Ускоряем работу сканера сайтов


Ускорение работы сканера сайтов

При отключении отрисовки списков ссылок скорость работы сканера при больших объемах URL, как правило, возрастает в несколько раз!


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 2, средний балл: 5.00)

Loading...
Автор: admin, 23 November 2021
Рубрики: Функции обработки
Написать комментарий

Последние статьи

css.php