Архивы рубрики: ‘Новости’

Параметр конца обычных границ парсинга [AUTO] (автоматический поиск закрывающего HTML-тега)

Если, допустим, парсим статью или какой-либо контент содержащийся, например, в HTML-теге div, а в этом теге div содержится еще неопределенное количество вложенных тегов div, то, соответственно, мы не можем корректно определить конец парсинга </div> для всех страниц сайта (так как его номер по счету на разных страницах сайта будет отличен).

Для решения таких задач существует параметр конца обычной границы парсинга [AUTO]. Он может быть вставлен в начало текста конца любой обычной границы парсинга через контекстное меню или сочетание клавиш ctrl+u (смотрите скриншот ниже). После параметра [AUTO] прописывается название нужного HTML-тега, например: div, p, table и так далее. При этом начало границы парсинга задается обычным образом!

Как работает эта функция: Программа в коде WEB-документа сперва находит начало границы парсинга, затем начинает дальше идти по коду считая открывающиеся и закрывающиеся теги div. Как только функция высчитает, что основной HTML-тег (с нужным контентом) закрылся (</div>), то определит его, как конец парсинга и возьмет из него нужный нам контент!

Content Downloader (more…)

Анализатор контента границ парсинга

Content Downloader

Content Downloader (more…)

Сегодня Особый День

Здравствуйте!

Content Downloader

Content Downloader X1 версии 11.9999973 (20.07.2016)

Небольшое обновление в честь Особого Дня!

– Несколько доработок.

(more…)

Полуавтоматический парсинг Яндекс Картинок (с ручным выделением нужных картинок в браузере)

Здравствуйте!

Публикуем соответствующий материал по просьбе человека.

Установите доработанную версию программы (сборка от 15.07.20016): главное меню – файл – центр обновлений -> кнопка “обновить через сайт”.

Скачайте файл проекта и откройте его в программе (главное меню – файл – загрузить проект), затем действуйте согласно указаниям на скриншотах. (more…)

Обзор обновления Content Downloader X1 до версии 11.9999971 (09.07.2016)

– Для функций поиск-замены добавлен реверсивный режим ([REV]).

(more…)

Значительное ускорение парсинга с использованием библиотеки Internet Explorer (WBApp)

Включение библиотеки “Internet Explorer (DOM)” (это то же, что и WBApp) в окне настройки HTTP-запросов программы (ctrl+h) влечет за собой значительное снижение скорости парсинга. Это связано с тем, что WBApp использует ядро браузера Internet Explorer. При этом происходит выполнение всех WEB-скриптов и скачивание всех элементов WEB-страницы с дополнительной нагрузкой на процессор!

Еще одна проблема использования ядра Internet Explorer – неопределенность в завершенности загрузки WEB-страницы (программа должна четко и корректно “понимать”, когда загрузка WEB-страницы в достаточной мере завершена, чтобы в этот момент получить ее код). Функции Internet Explorer позволяют определить, когда WEB-страница полностью загружена и обработана, но на некоторых WEB-сайтах на полную загрузку страницы (с прогрузкой всех “запаздывающих” WEB-модулей) уходит очень большое количество времени! Для обхода этой проблемы и был создан следующий способ. (more…)

Обзор обновления Content Downloader X1 до версии 11.9999970 (18.06.2016)

Content Downloader X1 версии 11.9999970 (18.06.2016)

– Несколько доработок.

WBApp v 2.17

– Теперь можно использовать оператор {skip} в функциях поиска элементов WEB-интерфейса;
– Добавлено событие [SNAPSHOT] (создание снимка WEB-страницы).

(more…)