Решение проблем с возможными “зависаниями” программы или с ошибками “out of memory”, “thread creation error…” при парсинге во вкладке “контент” или в сканере сайтов

Эти ошибки могут возникать при парсинге контента или при работе сканера сайтов. Чем больше потоков используете – тем большая вероятность возникновения этих ошибок.

Ошибки о нехватке памяти или “зависания” программы при парсинге контента происходят из-за того, что Windows выделила программе недостаточно памяти.

Если у вас Windows 32 бита, то сразу увеличьте квоту памяти для приложений: http://ucoz24.com/forum/122-14679-1.

Для устранения этих ошибок в программу добавлены следующие функции:
1) Функция обрезки больших документов при парсинге контента (меню – настройка – опции программы – вкладка “общее” – максимальное количество символов в загружаемом документе). Она обрежет только те документы, длина которых выше указанной (и памяти будет “съедаться” меньше, так как бывают случаи, что некоторые web-документы в сотни или в тысячи раз больше обычных, на таких документах потоки и “рушатся”);
2) Теперь, если поток “умирает”, процесс парсинга больше не останавливается (настроить функцию: меню – настройка – опции программы – вкладка “потоки” – через сколько секунд проверять “зависли” потоки или нет).

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 3, средний балл: 5.00)
Loading...
Автор: admin, 22 April 2013
Рубрики: Парсинг
Есть 11 коммент. к сообщению: “Решение проблем с возможными “зависаниями” программы или с ошибками “out of memory”, “thread creation error…” при парсинге во вкладке “контент” или в сканере сайтов”
  1. nikolas1612 says:

    инициативно добавлю к написанному информацию, полученную из разговора с автором программы:

    Функция обрезки больших документов при парсинге контента (меню — настройка — опции программы — вкладка «общее» — максимальное количество символов в загружаемом документе) – работает уже в ходе фактического парсинга! иначе говоря, когда вы обозначаете границы в коде – эффекта обрезки еще не видно. таким образом, существует вероятность, что вы назначите границу, указав на пустоту. в результате при парсинге контент таких границ просто исчезнет, т.к. программа не найдет самих границ. вывод: выставляйте в опции не меньше 200-300 тыс. иначе начнет рубить документы в самых неожиданных местах. небольшая с виду веб-страничка может иметь в коде больше 100 тыс закорючек.. со слов автора, проблемы с вылетами начинаются примерно от 1 млн. символов и выше.
    второе –

  2. admin says:

    ВАЖНО: ДЛЯ ПОВЫШЕНИЯ СТАБИЛЬНОСТИ РАБОТЫ ПРОЦЕДУР ПАРСИНГА ПОСТАВИТЬ ПРИОРИТЕТ ПОТОКОВ TIMECRITICAL (меню – настройка – опции программы – вкладка потоки).

  3. Может просто добавить функцию обработки ошибок в программу – если поток не отвечает, или недостаточно памяти – значит не выбрасывать сообщение о том, что памяти нехватает или ещё какую-то ерунду, а автоматически отметить ссылку в логе красным – и продолжить выполнение задачи?

  4. Дмитрий says:

    Можно ли ULTIMATE поставить на 32 битную, при ограничении количества потоков до 10-20?

    • admin says:

      Здравствуйте. Да, ограничить потоки можно вплоть до 1 =)

  5. lexa232 says:

    можно ли поставить на линух

  6. Николай says:

    Как в лицензии старт изменить количество потоков до 1-3?

    • Николай says:

      Проблему решил через “Пытаться повторно загружать файлы”, но тем не менее вопрос актуален.

    • admin says:

      Здравствуйте.
      Во вкладке “контент” есть группа “загрузка WEB-документа”, а в ней есть окно, где выставляется значение потоков.
      Также есть и окно с количеством потоков в сканере сайтов.

Написать комментарий

Последние статьи

css.php