Значительное ускорение процесса парсинга и исключение пропусков WEB-страниц при парсинге с использованием библиотеки Internet Explorer (WBApp)

Включение библиотеки «Internet Explorer (DOM)» (это то же, что и WBApp) в окне настройки HTTP-запросов программы (ctrl+h) влечет за собой значительное снижение скорости парсинга. Это связано с тем, что WBApp использует ядро браузера Internet Explorer. При этом при парсинге происходит выполнение всех WEB-скриптов и скачивание всех элементов каждой WEB-страницы с дополнительной нагрузкой на сеть и на процессор!

Еще одна проблема использования ядра Internet Explorer — неоднозначность статуса завершения загрузки WEB-страницы (программа должна четко и корректно «понимать», когда загрузка WEB-страницы в достаточной мере завершена, чтобы в этот момент получить ее код). Функции Internet Explorer, конечно же, позволяют определить, когда WEB-страница полностью загружена и обработана, но на некоторых WEB-сайтах на полную загрузку страницы (с прогрузкой всех «запаздывающих» WEB-модулей и скриптов) уходит очень большое количество времени! Для решения этой проблемы были созданы нижеизложенные способы.

Примечание: Для работоспособности этих способов требуется тип лицензии ULTIMATE!


1) Ожидание появления указанного элемента WEB-страницы

Для эффективного достижения результата, выполняйте действия в строгом порядке, согласно их нумерации на скриншотах (1, 2, 3,…)!

Content Downloader

Content Downloader

Content Downloader

Также обратите внимание на опцию МАКСИМАЛЬНОГО ВРЕМЕНИ ОЖИДАНИЯ для [ET_WAITFOR] (чтобы программа долго не ждала, в случаях, если ожидаемый элемент вообще не появляется)

WBApp


2) Ожидание готовности скриптов на WEB-странице (полезно при парсинге с выполнением имитации действий на WEB-страницах)




Желаем вам успехов!

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 2, средний балл: 5,00)
Загрузка...
Автор: admin, 19 июня 2016
Рубрики: Парсинг
Метки: , , , ,

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php