Как загружаются WEB страницы в браузере

При открытии любого URL в браузере:

1) Происходит GET запрос к этому адресу и браузер получает ответ в виде HTML кода
2) Браузер анализирует HTML код и определяет, какие дополнительные данные нужно подгрузить (файлы CSS стилей, файлы Javascript, файлы шрифтов, картинок и прочее)
3) После подгрузки Javascript браузер начинает их выполнять (если они есть). В свою очередь, в скриптах могут быть команды подгрузки дополнительных данных (например, подгрузка описаний товаров, картинок, цен, телефонов и любой другой информации в зависимости от алгоритмов работы конкретного сайта)

Также необходимо понимать, что сайты условно можно разделить на два типа:

1) Все нужные для парсинга данные приходят в ответе на GET запрос сразу же
2) Нужные данные подгружаются дополнительными GET/POST запросами, инициированными Javascript

Отсюда видно, что для парсинга сайтов первого типа подойдет использование обычных GET или POST запросов без использования движка браузера WBAppCEF3.

Для парсинга данных с сайтов второго типа (где контент подгружается Javascript) необходимо использовать WBAppCEF3. Также в WBAppCEF3 можно использовать список событий для автоматизации действий пользователя на вебстраницах (клики, прокрутки, вставки текста, выполнение собственных Javascript и прочее).

В Content Downloader по умолчанию используются GET запросы для парсинга WEB страниц. Включить использование браузера WBAppCEF3 с целью парсинга сайтов второго типа можно в WBApp launcher (Ctrl+W) из главного окна Content Downloader.

Так как парсинг с помощью обычных GET запросов (без использования движка браузера) происходит значительно быстрее, то лучше, если возможно, парсить без использования движка браузера.

Проверить, подгружаются ли все нужные данные сразу при ответе на обычный GET запрос, например, на каком-либо URL товара, можно в инструменте задания границ парсинга путем поиска по подгруженному HTML коду (Ctrl+F1 во вкладке “Контент” с предварительным добавлением нужного URL в список ссылок (F8)).


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 1, средний балл: 5.00)

Loading...
Автор: admin, 16 March 2022
Рубрики: Новости
Написать комментарий

Последние статьи

css.php