Значительное ускорение процесса парсинга и исключение пропусков WEB-страниц при парсинге с использованием библиотеки Internet Explorer (WBApp)

Включение библиотеки “Internet Explorer (DOM)” (это то же, что и WBApp) в окне настройки HTTP-запросов программы (ctrl+h) влечет за собой значительное снижение скорости парсинга. Это связано с тем, что WBApp использует ядро браузера Internet Explorer. При этом при парсинге происходит выполнение всех WEB-скриптов и скачивание всех элементов каждой WEB-страницы с дополнительной нагрузкой на сеть и на процессор!

Еще одна проблема использования ядра Internet Explorer – неоднозначность статуса завершения загрузки WEB-страницы (программа должна четко и корректно “понимать”, когда загрузка WEB-страницы в достаточной мере завершена, чтобы в этот момент получить ее код). Функции Internet Explorer, конечно же, позволяют определить, когда WEB-страница полностью загружена и обработана, но на некоторых WEB-сайтах на полную загрузку страницы (с прогрузкой всех “запаздывающих” WEB-модулей и скриптов) уходит очень большое количество времени! Для решения этой проблемы были созданы нижеизложенные способы.

Примечание: Для работоспособности этих способов требуется тип лицензии ULTIMATE!


1) Ожидание появления указанного элемента WEB-страницы

Для эффективного достижения результата, выполняйте действия в строгом порядке, согласно их нумерации на скриншотах (1, 2, 3,…)!

Content Downloader

Content Downloader

Content Downloader

Также обратите внимание на опцию МАКСИМАЛЬНОГО ВРЕМЕНИ ОЖИДАНИЯ для [ET_WAITFOR] (чтобы программа долго не ждала, в случаях, если ожидаемый элемент вообще не появляется)

WBApp


2) Ожидание готовности скриптов на WEB-странице с помощью события [WAITFORSCRIPTS] (полезно при парсинге с выполнением имитации действий на WEB-страницах)




2) Ожидание появления указанной подстроки в коде с помощью события [WAITFORHTML]




Желаем вам успехов!

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 8, средний балл: 5.00)
Loading...
Автор: admin, 19 June 2016
Рубрики: Парсинг
Tags: , , , ,
Написать комментарий

Последние статьи

css.php