Пожелания и предложения по развитию программы Content Downloader

Пожелания и предложения по развитию программы Content Downloader

content downloader icoПрошу излагать в комментариях свои пожелания по развитию программы Content Downloader. Все ваши предложения будут рассмотрены в кратчайший срок и, в случаях целесообразности их реализации, доработки будут осуществляться в ближайших обновлениях.

Для комментирования не требуется регистрация.

PS: Также вы можете оставлять предложения по развитию программы в этой теме на форуме.

Спасибо.

Вы можете оставить комментарий, или поставить трэкбек со своего сайта.
Есть 1,522 коммент. к теме: “Пожелания и предложения по развитию программы Content Downloader”
  1. Александр says:

    Добавьте в программу rucaptcha пожалуйста.

  2. Артем says:

    Добрый день. Хотелось бы добавить в макрос

    [FILE(c:\file.txt|{random}|1)] счетчик, чтобы файлы брались поочереди.

    [FILE(c:\file{count}.txt|{random}|1)] – Получается в повторяющихся границах, в первом совпадении будет браться текст из файла file1.txt далее file2.txt file3.txt и т.д…

  3. Djah says:

    Сергей, добрый день.

    Не нашел механизм как исключать забаненный PROXY из листа прокси, на ходу в проекте. Если нет, было бы хорошо иметь такую возможность.

    Описание:
    Проект стартует и CD загружает в себя список рабочих прокси, они все рабочие.
    В процессе парсинга некоторые прокси попадают в БАН – об этом свидетельствует либо код в тексте документа, либо сайт отдает response не равный 200, и ВЭБ документ просто не грузится.

    Если бы был макрос, который попадая в шаблон вывода, удалял бы из списка прокси текущий, только что забаненный или не рабочий PROXY, было бы круто.

    И раз уж дело о прокси пошло, хотел спросить, а IPv6 прокси планируется включить в программу, их просто пока не сильно “убили” можно с них было бы попарсить….

  4. Djah says:

    Добрый день. Не нашел решения.

    Проблема: сайты типа яндекс и гугл, авито, блокируют прокси, если к ним не привязаны куки, юзер агент, может и другие custom data.

    Возможное решение: Делать неизменные связки, PROXY+COOCKIES+User-Agent. И при получении кода страницы с конкретного proxy, отдавать странице конкретные куки и User-Agent, а если связка забанена, удалять ее из проекта.

    Нашел как делать связки по CUSTOM HEADERS, но не нашел как привязать к этой связке, proxy. Я приложил картинку, как это я вижу.

    Было бы круто научиться делать так, так как даже покупая дорогие прокси, они все уже запаленные в основном, а так это даст возможность не палить свои прокси.

    Если это реально, былобы круто.

    • Djah says:

      Сергей, добрый день.
      А это мое предложение, не признано вменяемым ? То есть есть шанс что оно когда – либо будет реализовано ?
      Прошу прощения за навязчивость.

      • admin says:

        Здравствуйте.

        Реализация не такая простая и целесообразности я в этом вижу не так много. В ближайшее время это делать не планируем.

        Во всяком случае пожелание учтено.

        Спасибо!

        • Djah says:

          Жаль, но не очень сильно надо, в плане ведения акков в Вконтакте хотел применять, чтобы от зенки полностью отказаться так как CD удобнее всетаки. Ну ладно, если когда-то руки дойдут, будет круто, все же CD это парсер, а не постер…..

  5. Андрей says:

    Добрый.
    Не нашел как в программе сохранять куки в csv или передавать в пост запрос в макрос GETMORECONTENT. Добавьте пожалуйста такую возможность. Спасибо.

    • Андрей says:

      Кука для каждой страницы разная, на каждой странице нужно снова устанавливать. Пробовал брать из WBApp не получается. Также в запросе через границы устанавливаются параметры. Не понятно работает или нет, так как не видно какой запрос уходит. Может лог какой сделать.

  6. Артем says:

    При локальном парсинге одно неудобство. Если включить Логи парсинга ( когда ссылки записываются в файл) – если путь к файлам на русском языке напр:

    e:\ЭЭЭ-Проекты\Большой проект\

    то получается в логе следующее:

    e:\ЁЁЁ-Проекты\Ѕольшой проект\

  7. Djah says:

    Добрый день, предлагаю чтобы диалоговые окна ошибок WBAPP закрывались автоматически через 5 секунд например.

    Так как бывают ошибки, невоспроизводимые после.
    “Ошибка доступа к памяти” или “неизвестная ошибка”.

    Поставишь на ночь парсить, а такие ошибки могут остановить парсинг, пока не нажмешь на всплывшем окне OK.

    Еслибы оно само закрылось, а ошибка залогировалась куданить, былобы лучше.

    Спасибо.

    • Djah says:

      наблюдение: неопознанная ошибка, возникает в некоторых случаях, когда WBAPP пытается кликнув на ссылку, перейти на другую страницу, которой не существует похоже, и которая белый экран показывает, вместо нормального response. Типа АВИТО – белый экран. Если парсинг в 3 потока – то как только такие три ошибки появятся, парсинг прекращается полностью, пока не нажмешь окей. включено или отключено отображение WBAPP при парсинге, не важно.

    • admin says:

      Здравствуйте.

      Пожалуйста, поясните, как нам такую ошибку воспроизвести у себя для ее изучения и устранения?

      Спасибо!

      • Djah says:

        Добрый день, спасибо за скорый ответ.
        Я Вам в почту сейчас скину этот проект, который иногда из-за плохих ссылок выдает ошибку.
        Но в целом, хотелось бы чтобы ошибки и всплывающие окна не останавливали парсинг, так как поставишь на ночь проект на 10 000 ссылок, а утром придешь за результатом, а оказывается он на 150й ссылке остановился и ждет, когда я нажму ОКЕЙ на всплывшем окне ошибки. Если бы любые ошибки не приостанавливали парсинг, было бы круто.

        • admin says:

          Странно, что эта ошибка генерируется браузером, когда он работает в silence mode. Я ее тоже получил!

          Попробуйте сделать то, что указано на скриншоте.

          • Djah says:

            Спасибо, за подсказку. ничего странного -этоже IE 🙂
            А ошибки программы другие всякие, как то можно сделать чтобы сами закрывались или не появлялись вовсе?, я все равно в этих кодах ошибок ничего не понимаю.

          • admin says:

            Эти ошибки генерирует Internet Explorer.
            О каких ошибках программы вы говорите?

          • Djah says:

            А , я думал это CD! извиняйте. Жаль в IE нет настройки запретить показывать эти всплывающие окна.

  8. Владислав says:

    Здравствуйте, прежде всего, хочу выразить благодарность разработчикам за отличный и регулярно обновляемый софт.
    А также, хочу попросить добавить в редактор таблицы CSV пункт “очищение ячейки”, если она содержит определенный текст. На данный момент есть удаление строки, но часто нужно именно очистить ячейки с мусором, не удаляя при этом строки.

    Заранее благодарен.

    • admin says:

      Здравствуйте.

      Спасибо на добром слове!

      Примените такое правило поиск-замены к ячейкам (смотрите скриншот):

      {skip}определенный текст|[DELETETHISCELL]
      [DELETETHISCELL]{skip}|

      С уважением к вам, Сергей.

  9. kreol says:

    Приветствую
    Заметил, что в дереве макросов не поддерживается вывод и выбор динамических границ, просьба доработать.
    Благодарю!

  10. Евгений says:

    При остановке парсинга и его последующем продолжении картинки начинают нумероваться сначала, что не очень удобно.

    Прошу для функции “добавить каждой картинке уникальное имя” добавить возможность задать число, с какого будут нумероваться картинки.

    Либо считывать номер последней спарсенной картинки и начинать счет с него.

  11. Николай says:

    При выходе из программы добавьте диалог “Завершить работу с программой?” (Да, Нет). Неоднократно при закрытии окна дополнительного окна (в полноэкранном режиме) совершенно случайно закрывал программу. Может мышка такая, может руки….

    • admin says:

      Данный диалог появляется только в случаях, когда идет парсинг.

      Пользуйтесь кнопкой esc для закрытия дочерних окон (главное окно программы это никогда не закроет).

  12. Андрей says:

    Здравствуйте.
    Купил сегодня Ultimate и обнаружил очень неприятную для себя “фичу”.
    Оказалось, что при установке 50 потоков парсинга и задержки 1000 мс обшая скорость работы программы – 1 страница в сек. Т.е. эта задержка общая на все потоки.
    Предложение – сделайте опцию для установки задержки на КАЖДЫЙ поток. Например, у меня есть 50 прокси + 50 потоков, каждый поток работает через свой прокси. Я хочу выставить для каждого потока задержку в 1 сек, чтобы не забанили, при этом я получаю общую (теоретическую) скорость 50 страниц в сек.

    • admin says:

      Здравствуйте! Спасибо!

      Доработано!

      Content Downloader X1 версии 11.1.0000037 (09.12.2016)

      – В окно настроек макроса [DYNAMICVALUES] (shift+ctrl+d) добавлена опция удаления пустых колонок из файлов CSV;
      – Пауза между запросами для вкладки “Контент” и для сканера сайтов теперь работает “индивидуально” для каждого потока;
      – Теперь к спискам ключевых выражений (shift+ctrl+l) в памяти при запуске парсинга контента автоматически применяется функция упорядочивания по убыванию;
      – Теперь программа корректно работает на экранах с шириной более 1900 пикселей;
      – Несколько других доработок и исправлений.

  13. Андрей says:

    Добрый.
    Добавьте в генератор ссылок, там где задается количество {num} возможность вставки макроса, например {PARAM}. Каждый раз забивать разный {num} на пару сотен разных ссылок бывает напряжно). Спасибо.

  14. Alexander says:

    1. Может быть всё таки сделаете “не переводить в спящий режим во время парсинга”?
    2. Парсинг pdf файлов по ссылкам (хотя бы нахождение emal адресов в pdf файлах, чтобы не приходилось конвертировать их в html каждый раз.

    А так – отличный продукт! Спасибо! В общем то и без этих двух пунктов отлично работаем 🙂

    • admin says:

      Здравствуйте.

      Спасибо на добром слове!

      Ваши пожелания учли.

  15. Артем says:

    Добрый день. У меня сейчас большая проблема рандомом. Не знаю, почему этот важный элемент еще не реализован в СD? При вставке строк из файла, РАНДОМ берет повторные значение, хотелось бы чтобы он брал разные строки. Например мне нужно вставить 3 тега из файла. Я 3 раза вставляю в шаблон макрос [FILE(E:\Эксп.txt|{random}|0)], или в повт.границу.

    Файл такого вида:
    1 тег
    2 тег
    3 тег
    4 тег
    5 тег

    На выходе получается так:
    3 тег
    5 тег
    3 тег

    Получаются дубли.

  16. Andy says:

    Доброго дня,
    Спасибо за программу! Возможности просто поражают!
    Если не трудно, хотелось бы увидеть пару маленьких доработок в программе,
    1 – горячую клавишу к кнопке “+ ссылки к списку парсинга” (возможна она есть, но я не нашел), чтобы из главного окна добавлять, минуя вход в URL.
    2 – в поиск-замене, рядом с кнопкой “edit..” сделать кнопку “skip”, которая сразу будет вставлять в окно {skip}|, минуя вход в редактор. В 90% случаев используется только удаление тегов

    • Антон says:

      1 – горячую клавишу к кнопке “+ ссылки к списку парсинга” (возможна она есть, но я не нашел), чтобы из главного окна добавлять, минуя вход в URL.

      “+ ссылки к списку парсинга” это вы имеете ввиду где? в сканере сайтов

      • Andy says:

        Да.Довольно таки часто попадаются сайты с говнокодом, на часть товаров одни границы, на часть другие, выловить эти косяки возможно только после парса, иногда приходится десятки раз парсить, чтобы выловить все косяки. И каждый раз заходит в сканер сайтов не очень удобно.

        • Антон says:

          Так после парсинга в сканере и добавки ссылок в главное окно просто сохраните проект)

          • Антон says:

            потом перезагружаете проект и он у вас с ссылками

          • Andy says:

            Я пытаюсь уйти от лишнего рутинного действия, а вы мне предлагаете делать другое рутинное действие.

    • Антон says:

      2 – в поиск-замене, рядом с кнопкой “edit..” сделать кнопку “skip”, которая сразу будет вставлять в окно {skip}|, минуя вход в редактор. В 90% случаев используется только удаление тегов

      Если вам не нужен вход в редактор, вы можете <{skip}>| вписать прямо в текстовое поле ниже.
      1) для этого существует специальная кнопка HTMTXT (при задании границ парсинга, слева вверху)
      2) галочка удаление тегов (ctrl+4 для каждой границы отдельно)
      3) вот так http://sbfactory.ru/cd/?p=1973

    • admin says:

      Здравствуйте.

      Спасибо на добром слове!

      2) Смотрите скриншот

  17. Andy says:

    Не совсем правильно написал – |, еще один повод, вручную можно и накосячить)

  18. Andy says:

    А вообще, в идеале можно было бы кнопку “skip” приделать рядом с кнопкой “задать выбранную границу парсинга” –> “дополнительные настройки границ парсинга”

    • Антон says:

      Приветствую!
      Если пишете подобное, будьте добры прикладывать картинку, чтобы понимать о чем вообще идет речь. Спасибо

      • Andy says:

        Ну я писал админу программы, думаю он понимает о чем речь. Но на всякий случай картинку прикреплю. Не знаю как кому, а мне очень часто после задания границ, приходится скипать теги, было бы гораздо удобнее делать это прямо в окне задания границ. Теги не скипаю только, если потом задается повторяющаяся граница по простой границе парсинга.

  19. Антон says:

    Приветствую!
    Просьба сделать дополнительный поиск в выделенной границе при самой настройке границ.
    т.я. мы задали начало и конец границы и теперь можем производить поиск имеено внутри нее, а не во всем коде страницы. Можно например добавить 2-е поле для этого, либо производить поиск с нажатой клавишей (например SHIFT).

  20. Дмитрий says:

    Здравствуйте!
    В данный момент после добавления списка прокси в программу они используются все сразу.
    Возможно ли как-то реализовать такой алгоритм?
    1. Берётся только один прокси (либо указывается сколько прокси брать).
    2. Парсится до тех пор, пока прокси не уйдёт в бан (для проверки наверное подойдёт тот же [CHECKENTRY]).
    3. Забаненный прокси заменяется следующим в списке.

    Данная функция думаю будет необходима для парсинга серьёзных сайтов серверными прокси, когда алгоритм бана работает несколько по особенному.

    • Дмитрий says:

      Да, и в этом случае прокси лучше добавлять без проверки, т.к. “паблик прокси” в таком алгоритме нет смысла использовать.

      • Дмитрий says:

        И ещё один момент который хотелось бы учесть, если допустим запущено 10 потоков на одном ip, тогда чтобы не происходило 10 замен ip подряд, а была чтоли какая-то пауза, чтобы все потоки загрузили страницу, а потом была замена ip и эти потоки опять стартовали.

Написать комментарий

Пожалуйста, ознакомьтесь с правилами комментирования (причина УДАЛЕНИЯ некоторых комментариев)

Добавить изображение к комментарию (jpg)