Скачать программу можно здесь (клик) ~ 140 мегабайт
Как использовать WBApp2 вместе с Content Downloader
Перейти на форум программы
UPDate от 20.06.2021
– Множество различных доработок.
UPDate от 19.06.2021
– Добавлена возможность использовать список прокси-серверов;
– Теперь статус работы браузеров отображается в заголовках вкладок;
– Несколько других доработок.
UPDate от 18.06.2021
– Добавлены опции для включения/отключения загрузки картинок и выполнения Java.
UPDate от 17.06.2021
– Теперь программа не пересоздает вкладку, а открывает новые ссылки в уже созданном браузере.
Всем привет. Просидел над разработкой этой программой более 15 часов безвылазно. Вроде, с неимоверными потугами, получилось сделать стабильную сборку для парсинга HTML с использованием движка браузера Chromium. Программа просто парсит HTML коды по списку URL. Никаких настроек особо пока нет.
Плюс в том, что программа 64 бит, а значит и не будет проблем с переполнением памяти.
Также она работает многопоточно (обрабатывается сразу несколько вкладок).
Парсит для браузера, как я понимаю, довольно шустро.
Парсер WEB страниц собран на самой свежей версии Chromium.
В Content Downloader WBApp2 сходу не смог добавить (пока есть ряд проблем), например, Content Downloader 32 bit, соответственно, придется добавить еще 140 мегабайт в установщик (WBApp2 требует 64-разрядных файлов Chromium). Пересобрать Content Downloader на 64 бит совсем трудно (нет множества компонентов для нового компилятора). Но, если будет интерес к WBApp2, то решить вопрос, быстрее всего, можно.
Следует еще раз подчеркнуть значительное преимущество в скорости парсинга по сравнению с WBAppCEF и простоту использования. Борщить с потоками не стоит, рекомендую 5-7.
Пока WBApp2 можно использовать, как утилиту для быстрого сбора HTML кодов WEB страниц в дополнение к парсеру Content Downloader.
С радостью выслушаю ваши пожелания по доработкам. Надеюсь на обратную связь.
Спасибо!
Пока только скажу “Вау, хочу в CD!!” Нужна ли в чем то помощь?
Здравствуйте.
Заходит помощь в комментировании, чтобы было осознание востребованности. Спасибо.
Пока с этим есть проблема в следующем: Chromium по какой-то причине не может быть создан и освобожден большое количество раз (начинаются ошибки). Видимо, на такое дело браузер не рассчитан.
Посмотрю, что можно с этим сделать.
Проблема в сборщике мусора Chrome. У него есть лимит на количество создаваемых экземпляров. Когда вы пытаетесь открыть более N копий Chrome, он начинает сначала старые экземпляры фризить, а затем и прибивать. Решение – открывать новые вкладки, а не экземпляры.
Ну что я могу сказать. Начало положено. И очень даже классно выглядит. Так же как и многие – хочу такую штуку в CD. По поводу 140мб дополнительно в установщик, уж очень сомневаюсь, что кто-то на это будет жаловаться 🙂
По пожеланиям.
1. Было бы неплохо в первых билдах добавить поддержку прокси. Это одна из основных штук, которая в наше время очень востребована:
http://prntscr.com/15qt9zh
2. Понимаю, что версия демонстративная, но как я понял, Links List не очищается.
3. Файлы возможно лучше создавать с разрешением .htm?
4. Ну и мелкий баг, кнопка Stop не активна: http://prntscr.com/15qtjfv
А так, в целом, выглядит многообещающе. Лично я буду ждать развития 🙂
Ах да, по поводу пункта с прокси, о котором я писал.
Пока проект в Alpha, можно прикрутить checkbox (вкл/выкл) на наличие текста в html коде. Если такой текст есть – сохраняем страницу, если нету, то кидаем ссылку в конец Links List. Тем самым это обезопасит от плохого прокси.
1) Услышал
2) Исправил
3) Сделал
4) Доработал
Здравствуйте, программа очень полезная спасибо!
У меня почему то не парсится первая ссылка и после парсинга программа крашится
Здравствуйте.
1) С какой ошибкой крашится?
2) Попробуйте запустить от имени администратора
3) Какой список ссылок загружаете? Можно его на почту?
Сейчас скачал. последнюю версию и все норм
То что нужно! С уважением
Спасибо за развитие программы.
Голосую за 64 бита – чтобы можно было открывать и работать с файлами более 2 ГБайт.
Парсит отлично но к примеру если нужно запустить программу повторно и папка с html не очищена то при повторном запуске все html файлы перезаписываются. Можно как то устранить данную проблему ? чтоб не было перезаписи ? Заранее благодарен.
Добрый день. Хотелось бы еще видеть функцию прокрутки страницы. Реализуйте если это возможно.