Значительное ускорение парсинга с использованием библиотеки Internet Explorer (WBApp)

Включение библиотеки “Internet Explorer (DOM)” (это то же, что и WBApp) в окне настройки HTTP-запросов программы (ctrl+h) влечет за собой значительное снижение скорости парсинга. Это связано с тем, что WBApp использует ядро браузера Internet Explorer. При этом происходит выполнение всех WEB-скриптов и скачивание всех элементов WEB-страницы с дополнительной нагрузкой на процессор!

Еще одна проблема использования ядра Internet Explorer – неопределенность в завершенности загрузки WEB-страницы (программа должна четко и корректно “понимать”, когда загрузка WEB-страницы в достаточной мере завершена, чтобы в этот момент получить ее код). Функции Internet Explorer позволяют определить, когда WEB-страница полностью загружена и обработана, но на некоторых WEB-сайтах на полную загрузку страницы (с прогрузкой всех “запаздывающих” WEB-модулей) уходит очень большое количество времени! Для обхода этой проблемы и был создан следующий способ. Подробнее »

Обзор обновления Content Downloader X1 до версии 11.9999970 (18.06.2016)

Content Downloader X1 версии 11.9999970 (18.06.2016)

– Несколько доработок.

WBApp v 2.17

– Теперь можно использовать оператор {skip} в функциях поиска элементов WEB-интерфейса;
– Добавлено событие [SNAPSHOT] (создание снимка WEB-страницы).

Подробнее »

Обзор обновления Content Downloader X1 до версии 11.9999957 (06.06.2016)

– Исправлена ошибка, связанная с редкопоявляющимся некорректным выделением соответствующего файла проекта WBApp при открытии WBApp Launcher (ctrl+w);
– Устранена проблема, связанная с появлением служебного оператора [CURRENTURLSDATA] в инструменте задания границ парсинга;
– В фильтрах ссылок появилась возможность использовать оператор [PARAM];
– Видимость (открыт или закрыт) инструмента Start URL Changer в сканере сайтов теперь сохраняется в файле проекта;
– В инструмент предпросмотра результатов парсинга контента (ctrl+f2) добавлены хоткеи: f1, f2, f3 (для быстрой смены вкладок вида предпросмотра);
– Доработана система удаления закешированных при задании границ парсинга и предпросмотре результатов парсинга WEB-документов (ctrl+8);
– Оптимизированы функции вывода всплывающей информации границ парсинга при движении курсора мыши над элементами деревьев (ранее могли возникать проблемы на системах с низкой производительностью);
– Доработаны графические статусы в деревьях границ парсинга;
– В окне настроек HTTP-запросов (ctrl+h) опция “количество попыток загрузки документов при парсинге с использованием прокси” сменена на опцию “количество попыток загрузки документов”;
– Теперь окно настроек POST-запросов для библиотеки INDY можно вызывать с помощью сочетания клавиш shift+ctrl+p;
– Значительное количество других доработок.

Подробнее »

Обзор обновления Content Downloader X1 до версии 11.9999955 (21.05.2016)

– Теперь при запуске парсинга во вкладке “Контент” происходит проверка на наличие какого-либо текста в шаблонах повторяющихся границ парсинга (если текста нет, то туда автоматически вставляется оператор [VALUE]);
– Функция htm to txt получила индивидуальные настройки для ее применения к каждой обычной границе парсинга;
– Повторяющиеся границы парсинга теперь имеют свои собственные функции поиск-замены (ctrl+5);
– Теперь выводится полная информация о границах парсинга при наведении курсора на их элементы в дереве макросов и в дереве границ парсинга;
– Множество других доработок и исправлений.

Подробнее »

Как в Firefox 45+ запускать плагин LiveHTTPHeaders

Подробнее »

Обзор обновления Content Downloader X1 до версии 11.9999950 (12.05.2016)

– Во встроенном планировщике программы (ctrl+p) появилась возможность назначать для каждого проекта индивидуальный вариант запуска (“запускать парсинг во вкладке” или “запускать сканер сайтов”);
– В поле custom headers (в окне ctrl+h) добавлен макрос [ROTATION] (служит в качестве разделителя наборов HTTP-заголовков для их автоматической смены при парсинге);
– Макрос [WRITEITATFIRSTDOC] теперь работает корректно, если парсить с дозаписью в файлы с разными именами (также опция “парсить в 1 файл” для этого должна быть включена);
– Множество других доработок.

Подробнее »

Добавлена возможность задания имен для повторяющихся границ парсинга

Content Downloader X1 версии 11.9999949 (03.05.2016)

– Добавлена возможность задания имен для повторяющихся границ парсинга;
– Несколько других доработок.

Content Downloader Подробнее »