Программа для быстрого парсинга с помощью Chromium

WBApp2 программа/Api для быстрого парсинга с использованием движка браузера Chromium




Скачать программу можно здесь (клик) ~ 140 мегабайт

Как использовать WBApp2 вместе с Content Downloader

Перейти на форум программы


UPDate от 20.06.2021
– Множество различных доработок.

UPDate от 19.06.2021
– Добавлена возможность использовать список прокси-серверов;
– Теперь статус работы браузеров отображается в заголовках вкладок;
– Несколько других доработок.

UPDate от 18.06.2021
– Добавлены опции для включения/отключения загрузки картинок и выполнения Java.

UPDate от 17.06.2021
– Теперь программа не пересоздает вкладку, а открывает новые ссылки в уже созданном браузере.


Парсер HTML страниц



Всем привет. Просидел над разработкой этой программой более 15 часов безвылазно. Вроде, с неимоверными потугами, получилось сделать стабильную сборку для парсинга HTML с использованием движка браузера Chromium. Программа просто парсит HTML коды по списку URL. Никаких настроек особо пока нет.

Плюс в том, что программа 64 бит, а значит и не будет проблем с переполнением памяти.

Также она работает многопоточно (обрабатывается сразу несколько вкладок).

Парсит для браузера, как я понимаю, довольно шустро.

Парсер WEB страниц собран на самой свежей версии Chromium.

В Content Downloader WBApp2 сходу не смог добавить (пока есть ряд проблем), например, Content Downloader 32 bit, соответственно, придется добавить еще 140 мегабайт в установщик (WBApp2 требует 64-разрядных файлов Chromium). Пересобрать Content Downloader на 64 бит совсем трудно (нет множества компонентов для нового компилятора). Но, если будет интерес к WBApp2, то решить вопрос, быстрее всего, можно.

Следует еще раз подчеркнуть значительное преимущество в скорости парсинга по сравнению с WBAppCEF и простоту использования. Борщить с потоками не стоит, рекомендую 5-7.

Пока WBApp2 можно использовать, как утилиту для быстрого сбора HTML кодов WEB страниц в дополнение к парсеру Content Downloader.

С радостью выслушаю ваши пожелания по доработкам. Надеюсь на обратную связь.

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 5, средний балл: 5.00)
Loading...

Спасибо!

Вы можете пропустить до конца и оставить ответ. Pinging в настоящее время не доступны.
Есть 12 коммент. к теме: “WBApp2 программа/Api для быстрого парсинга с использованием движка браузера Chromium”
  1. Николай says:

    Пока только скажу “Вау, хочу в CD!!” Нужна ли в чем то помощь?

    • admin says:

      Здравствуйте.

      Заходит помощь в комментировании, чтобы было осознание востребованности. Спасибо.

      Пока с этим есть проблема в следующем: Chromium по какой-то причине не может быть создан и освобожден большое количество раз (начинаются ошибки). Видимо, на такое дело браузер не рассчитан.

      Посмотрю, что можно с этим сделать.

      • Bureau says:

        Проблема в сборщике мусора Chrome. У него есть лимит на количество создаваемых экземпляров. Когда вы пытаетесь открыть более N копий Chrome, он начинает сначала старые экземпляры фризить, а затем и прибивать. Решение – открывать новые вкладки, а не экземпляры.

  2. Дмитрий says:

    Ну что я могу сказать. Начало положено. И очень даже классно выглядит. Так же как и многие – хочу такую штуку в CD. По поводу 140мб дополнительно в установщик, уж очень сомневаюсь, что кто-то на это будет жаловаться 🙂

    По пожеланиям.
    1. Было бы неплохо в первых билдах добавить поддержку прокси. Это одна из основных штук, которая в наше время очень востребована:
    http://prntscr.com/15qt9zh
    2. Понимаю, что версия демонстративная, но как я понял, Links List не очищается.
    3. Файлы возможно лучше создавать с разрешением .htm?
    4. Ну и мелкий баг, кнопка Stop не активна: http://prntscr.com/15qtjfv

    А так, в целом, выглядит многообещающе. Лично я буду ждать развития 🙂

    • Дмитрий says:

      Ах да, по поводу пункта с прокси, о котором я писал.
      Пока проект в Alpha, можно прикрутить checkbox (вкл/выкл) на наличие текста в html коде. Если такой текст есть – сохраняем страницу, если нету, то кидаем ссылку в конец Links List. Тем самым это обезопасит от плохого прокси.

    • admin says:

      1) Услышал
      2) Исправил
      3) Сделал
      4) Доработал

  3. dava002 says:

    Здравствуйте, программа очень полезная спасибо!
    У меня почему то не парсится первая ссылка и после парсинга программа крашится

    • admin says:

      Здравствуйте.

      1) С какой ошибкой крашится?
      2) Попробуйте запустить от имени администратора
      3) Какой список ссылок загружаете? Можно его на почту?

  4. Богдан says:

    То что нужно! С уважением

  5. Nail says:

    Спасибо за развитие программы.
    Голосую за 64 бита – чтобы можно было открывать и работать с файлами более 2 ГБайт.

  6. Богдан says:

    Парсит отлично но к примеру если нужно запустить программу повторно и папка с html не очищена то при повторном запуске все html файлы перезаписываются. Можно как то устранить данную проблему ? чтоб не было перезаписи ? Заранее благодарен.

Написать комментарий

Пожалуйста, ознакомьтесь с правилами комментирования (причина УДАЛЕНИЯ некоторых комментариев)

Добавить изображение к комментарию (jpg)