Пожелания и предложения по развитию программы Content Downloader

Пожелания и предложения по развитию программы Content Downloader

content downloader icoПрошу излагать в комментариях свои пожелания по развитию программы Content Downloader. Все ваши предложения будут рассмотрены в кратчайший срок и, в случаях целесообразности их реализации, доработки будут осуществляться в ближайших обновлениях.

Для комментирования не требуется регистрация.

PS: Также вы можете оставлять предложения по развитию программы в этой теме на форуме.

Спасибо.

Вы можете оставить комментарий, или поставить трэкбек со своего сайта.
Есть 1,522 коммент. к теме: “Пожелания и предложения по развитию программы Content Downloader”
  1. Алексей says:

    Добрый день!
    Подскажите как собрать действительно все ссылки. Часть ссылок незагружается и падает в “Незагруженные ссылки”. Приходиться повторно их копировать и по ним прогонять. Как можно запустить так чтобы загрузились все?
    Спасибо.

    • admin says:

      Здравствуйте.

      Установите количество потоков 1 (во вкладке ссылки оно всегда 1) и увеличьте количество попыток загрузки, скажем, до 10 (смотрите скриншот).

      С уважением к вам, Сергей.

  2. Александр says:

    Здравствуйте! Можете добавить две опции:
    Т.к. работаю с большим источником, хотелось бы из общего списка указывать кол-во ссылок для загрузки к парсингу
    1. Кол-во ссылок для загрузки, например 200.000
    2. Опция – случайные (RANDOM) ссылки из общего списка ссылок
    Спасибо!

    • admin says:

      Здравствуйте.

      Обратите внимание на инструмент ctrl+b

      С уважением к вам, Сергей.

      • Александр says:

        Спасибо, хорошая опция! А как на счет RANDOM ссылок?

        • admin says:

          Пожалуйста.

          Эту опцию делать не планируем.

          С уважением к вам, Сергей.

  3. Михаил says:

    Здравствуйте. Возможно ли встроить в программу деобфускатор кода? При задании границ парсинга контента или ссылок зачастую приходится сталкиваться с ужасной мешаниной из-за криворукости разработчиков.

    • admin says:

      Здравствуйте.

      Было бы хорошо это сделать и уже были готовы взяться за реализацию. Но так и не выделить на это достаточное количество времени (не успеваем работать с клиентами).

      Ваше пожелание учтено. Спасибо!

      С уважением к вам, Сергей.

      • Михаил says:

        Благодарю за ответ. Надеюсь и жду в следующих обновлениях. Огромное спасибо за прекрасный продукт.

  4. Andrey says:

    Добрый день!
    Хочется увидеть подобную функцию:
    В окне как обычно сканируем список прокси на доступность, указав таймаут, и далее следующие действия
    1) если во время парсинга или сканирования ссылок один из прокси серверов недоступен, то убирать его в игнорируемые, чтобы он больше не занимал потоки и не тормозил процесс парсинга.
    2) Действия времени таймаута при проверке списка прокси переносить (например установкой галочки) и на процесс парсинга. Т.е. если страница не отвечает в течение установленного времени тайминга, например, 1000 мс, то значит прокси игнорируем в дальнейшем, чтобы такой прокси не использовать некоторое время.
    3) т.к. после таких доработок список прокси будет (как правило) постоянно уменьшаться, и некоторые прокси будут становиться недоступными, неминуемо в какойто момент произойдет слишком частый парсинг с одних и тех же адресов, за это большинство продвинутых сайтов включит блокировку ип адресов. Так вот, когда CD настроен в окне Автоматизации “приостановить парсинг при бане на… сек”, в этот момент можно делать полный перескан всех ип прокси (непроверенный список прокси), с автоматическим добавлением в список доступных (проверенных). Т.к. заметил, многие прокси становятся доступными через некоторое время.

    Всё это очень сильно улучшит скорость при работе программы через прокси, при этом автоматизация будет на максимуме. На данный момент очень не хватает этой функциональности.

  5. Андрей says:

    Добрый день.
    Добавьте в сканере сайтов ограничение области поиска ссылок, как во вкладке ссылки. Очень нужно. Спасибо.

  6. Владимир says:

    Добрый день! При импорте файлов в WordPress столкнулся с проблемой невозможности импортировать миниатюры (Features image). В интернете много про это написано, но решения, подходящего для нашего инструмента так и не нашел. В итоге на основах разных решений слепил свое (может не самое профессиональное, но работающее), и хотел бы им поделиться дабы люди не тратили пару дней, как я :-). Если посчитаете это полезным, можно было бы вынести его в общее пользование:
    1) Для начала при парсинге задаем метаполе с путем к фото на сервере назначения: [POSTMETA]attached_f////wp-content/uploads/2016/09/[/POSTMETA] ,где получается вида “featuresimage.jpg”.
    2) Скачанное фото и заливаем по ftp на сервер назначения именно по этому пути: www site ru/wp-content/uploads/2016/09/featuresimage.jpg
    3) В файл function.php вашей темы в самый низ добавляем код:

    function auto_featured_s_image($post) {
    global $post;
    if( has_post_thumbnail($post->ID) )
    return;
    $filename = get_post_meta( $post->ID, 'attached_f', true );
    if (empty($filename) ){
    return;
    }
    $filetype = wp_check_filetype( basename( $filename ), null );
    $wp_upload_dir = wp_upload_dir();
    $attachment = array(
    'guid' => $wp_upload_dir['url'] . '/' . basename( $filename ),
    'post_mime_type' => $filetype['type'],
    'post_title' => preg_replace( '/\.[^.]+$/', '', basename( $filename ) ),
    'post_content' => '',
    'post_status' => 'inherit'
    );

    $attach_id = wp_insert_attachment( $attachment, $filename, $post->ID );
    set_post_thumbnail($post->ID, $attach_id);
    require ABSPATH . 'wp-admin/includes/image.php';
    // Создадим метаданные для вложения и обновим запись в базе данных.
    $filen = $wp_upload_dir['path'] . '/' . basename( $filename );
    $attach_data = wp_generate_attachment_metadata( $attach_id, $filen );
    wp_update_attachment_metadata( $attach_id, $attach_data );
    update_post_meta($post->ID, 'svtle-main-content', $filen);
    }
    // Use it temporary to generate all featured images
    add_action('the_post', 'auto_featured_image');
    // Used for new posts
    add_action('save_post', 'auto_featured_s_image');
    add_action('draft_to_publish', 'auto_featured_s_image');
    add_action('new_to_publish', 'auto_featured_s_image');
    add_action('pending_to_publish', 'auto_featured_s_image');
    add_action('future_to_publish', 'auto_featured_s_image');

    4) Создаем файл импорта при помощи “Обработка и импорт в КМС”, и импортируем стандартным плагином WordPress.
    5) После обновления всех миниатюр удаляем код из functions.php, чтобы не грузился хостинг.
    Все, картинки для миниатюры добавляются из метаполя, далее прикрепляются к посту, и им присваивается id, по которому они назначаются миниатюрой, и обновляются их метаданные.

    Если постов большое количество (у меня было около миллиона), то сразу все миниатюры не установятся. В таком случае можно было придумать много способов для обновления всех постов, но я запустил webapp на админку сайта, чтобы он перебирал страницы с постами (вывод по 10 штук). За ночь все посты обновились.

    • Владимир says:

      Пропали теги, пункт первый следует читать как: [POSTMETA]attached_f////wp-content/uploads/2016/09/(граница парсинга1)[/POSTMETA],где (граница парсинга1) получается вида “featuresimage.jpg”.

    • admin says:

      Здравствуйте.

      Спасибо!

      Добавлю ваш комментарий в FAQ и он будет доступен для поиска.

      С уважением к вам, Сергей.

  7. 111 says:

    В окне прокси, если нажать “добавить без проверки”, счетчик не обновляется. Предлагаю доработать 🙂

  8. 111 says:

    В логе выполнения функций первая строка с адресом, куками и заголовками обрезается. Предлагаю переносить эту длинную строку на следующие строки, или пусть растет вправо (тогда добавить прокрутку вправо).

  9. 111 says:

    Предлагаю пронумеровать границы в окне Ctrl+1, потому что если задать свои названия границ, то при необходимости сослаться на обычную границу в переключателе источника повторяющейся границы, приходится постоянно высчитывать её номер по порядку.
    Так же, было бы неплохо упорядочить окошечки границ (tab order), чтобы можно было перемещаться между ними клавишей табуляции.

  10. 111 says:

    Предлагаю при копировании границы в новую копировать и название, и дополнительные настройки скопированной границы.

  11. 111 says:

    Окно добавления файлов с диска очень медленно работает. При разворачивании папки такое ощущение, что оно читает все файлы из всех папок – очень долго!
    Периодически файлы в списке задваиваются. Например, в папке 30000 файлов, а он показывает 60000 элементов списка. Считает он файлы очень долго, и нельзя переключиться на другое приложение – при возврате он начинает всё сначала! Уберите пожалуйста эту фичу.

  12. Станислав says:

    Столкнулся с такой проблемкой даже можно сказать с неудобством. При парсинге через WBApp в много потоков периодически подвисает то ли комп то ли сайт с которого парсю приходится презапускаться (всегда помогает почему то). Так вот в чем проблема WBApp проэкты остаются в процессах даже когда закрываю парсер. И это очень сильно жрет оперативу а в ручную закрывать эти процессы геморно особенно если парсинг в 50 потоков. Можно ли сделать так чтобы при выходе из программы он закрывал эти WBApp проекты сам.

    • admin says:

      Здравствуйте.

      Это подвисает Internet Explorer (видимо, система не рассчитана на долговременное и одновременное использование 50 Internet Explorer). Не спроста мы рекомендуем парсить в 1-2 потока при его использовании!!!

      С уважением к вам, Сергей.

      • Станислав says:

        Спасибо что разобрались с причинами. В данном моем случае нужно спарсить 157 страниц на каждую по 2-3 минуты уходит чтобы полностью прогрузилась. Вобщем слишком долго при рестартах я за час справляюсь. С учетом того что я 20 минут удаляю эти проекты. Да и не только в моем случае эта функция нужна. Зачем комуто в оперативе держать 300-400 мб ненужной информации

  13. Роман says:

    Добавьте в редактор csv загрузку и сохранение настроек слияния двух файлов
    например надо одни и те же настройки постоянно указывать (соответствия ячеек). В идеале что бы с проектом эти настройки сохранялись.

    • Антон Смирнов says:

      Плюсую.
      Дополнительно нужно объединение по нескольким столбцам. Объединения по одной колонке бывает недостаточно.

  14. Алексей says:

    Не могу сохранить 8млн ссылок, пишет out of memory (16gb оперативной памяти)
    для сохранения пользуюсь вот этой функцией
    подскажите как побороть?

    • Алексей says:

      есть какое то решение ?

    • admin says:

      Здравствуйте.

      Еще не дошел до решения данного вопроса. Ориентировочно 2-3 дня.

      С уважением к вам, Сергей.

  15. Антон Смирнов says:

    Сделайте возможность переноса PARAM в сканере сайтов, так же как в сканере ссылок. Очень нужно. Спасибо за программу и регулярные обновления.

    На ваше усмотрение. Задание повторяющихся границ для сканера сайтов. Бывает нужно и с фильтрами меньше возни.

    • admin says:

      Здравствуйте.

      1) Хорошо, учли!

      2) Смотрите прикрепленный скриншот!

      С уважением к вам, Сергей.

      • Антон Смирнов says:

        Спасибо. Не подозревал, что этим способом, можно проделать такое. Но инструмент не юзабелен и замедляет работу. Было бы неплохо видеть, что происходит. К сожалению всё больше сайтов на которых, даже используя просмотр кода не всегда просто понять где косяк. Хотя для крайних вариантов это вариант.

  16. Александр says:

    Доброго дня!
    Сергей добавьте пожалуйста подсветку по ярче в окне поиска макросов!
    А то в поиск вводишь, а потом еще ищешь в списке )

  17. Евгений says:

    Здравствуйте!
    Пользуюсь этой замечательной программой уже более года, не переставая восхищаться ей и автором!
    Собственно, предложение-просьба по автоматизации программы. Очень часто возникает потребность закрыть программу по завершении парсинга.
    Я когда-то ещё на форуме интересовался вопросом … но тогда сказали, такой возможности нет. Сейчас пользуюсь сторонними планировщиками, но это ОЧЕНЬ не удобно.
    Не могли бы Вы добавить “галочку” “Закрыть CD при окончании парсинга” в окно “автоматизация”?
    Спасибо!

    • admin says:

      Здравствуйте.

      Content Downloader X1 версии 11.1.0000014 (19.10.2016)

      – Теперь есть возможность сохранять и загружать проекты планировщика Content Downloader (ctrl+p);
      – В планировщике (ctrl+p) теперь имеются функции для закрытия программы и/или выключения ПК при завершении выполнения списка проектов;
      – Программа теперь корректно работает с прокси-серверами в пароле которых присутствует символ @;
      – Добавлена функция удаления дублей прокси серверов при их добавлении в список;
      – Несколько других доработок.

  18. Алексей says:

    Во время парсинга, если работать в CSV редакторе, и менять разделитель ячеек
    ;/,
    то разделитель ячеек в результирующем файле csv тоже меняется(на ходу), и получается половина строк с разделителем ; и половина с ,
    так быть не должно, как по мне, редактор CSV это одно, файл результата парсинга это другое.

  19. Александр says:

    Предлагаю сделать дополнительный тег или опцию очистки HTML тэгов от мусора, например , сокращать до , до тоже самое с div и т.д.

  20. ilant says:

    Хорошо бы добавить функционал получения md5 хэша. Картинки например.

Написать комментарий

Пожалуйста, ознакомьтесь с правилами комментирования (причина УДАЛЕНИЯ некоторых комментариев)

Добавить изображение к комментарию (jpg)