Решение проблем с возможными «зависаниями» программы или с ошибками «out of memory», «thread creation error…» при парсинге во вкладке «контент» или в сканере сайтов

Эти ошибки могут возникать при парсинге контента или при работе сканера сайтов. Чем больше потоков используете — тем большая вероятность возникновения этих ошибок.

Ошибки о нехватке памяти или «зависания» программы при парсинге контента происходят из-за того, что Windows выделила программе недостаточно памяти.

Если у вас Windows 32 бита, то сразу увеличьте квоту памяти для приложений: http://ucoz24.com/forum/122-14679-1.

Для устранения этих ошибок в программу добавлены следующие функции:
1) Функция обрезки больших документов при парсинге контента (меню — настройка — опции программы — вкладка «общее» — максимальное количество символов в загружаемом документе). Она обрежет только те документы, длина которых выше указанной (и памяти будет «съедаться» меньше, так как бывают случаи, что некоторые web-документы в сотни или в тысячи раз больше обычных, на таких документах потоки и «рушатся»);
2) Теперь, если поток «умирает», процесс парсинга больше не останавливается (настроить функцию: меню — настройка — опции программы — вкладка «потоки» — через сколько секунд проверять «зависли» потоки или нет).

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 3, средний балл: 5,00)
Загрузка...
Автор: admin, 22 апреля 2013
Рубрики: Парсинг
11 комментариев к сообщению: “Решение проблем с возможными «зависаниями» программы или с ошибками «out of memory», «thread creation error…» при парсинге во вкладке «контент» или в сканере сайтов”
  1. nikolas1612:

    инициативно добавлю к написанному информацию, полученную из разговора с автором программы:

    Функция обрезки больших документов при парсинге контента (меню — настройка — опции программы — вкладка «общее» — максимальное количество символов в загружаемом документе) — работает уже в ходе фактического парсинга! иначе говоря, когда вы обозначаете границы в коде — эффекта обрезки еще не видно. таким образом, существует вероятность, что вы назначите границу, указав на пустоту. в результате при парсинге контент таких границ просто исчезнет, т.к. программа не найдет самих границ. вывод: выставляйте в опции не меньше 200-300 тыс. иначе начнет рубить документы в самых неожиданных местах. небольшая с виду веб-страничка может иметь в коде больше 100 тыс закорючек.. со слов автора, проблемы с вылетами начинаются примерно от 1 млн. символов и выше.
    второе —

  2. admin:

    ВАЖНО: ДЛЯ ПОВЫШЕНИЯ СТАБИЛЬНОСТИ РАБОТЫ ПРОЦЕДУР ПАРСИНГА ПОСТАВИТЬ ПРИОРИТЕТ ПОТОКОВ TIMECRITICAL (меню — настройка — опции программы — вкладка потоки).

  3. Может просто добавить функцию обработки ошибок в программу — если поток не отвечает, или недостаточно памяти — значит не выбрасывать сообщение о том, что памяти нехватает или ещё какую-то ерунду, а автоматически отметить ссылку в логе красным — и продолжить выполнение задачи?

  4. Дмитрий:

    Можно ли ULTIMATE поставить на 32 битную, при ограничении количества потоков до 10-20?

  5. lexa232:

    можно ли поставить на линух

  6. Николай:

    Как в лицензии старт изменить количество потоков до 1-3?

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php