Прошу излагать в комментариях свои пожелания по развитию программы Content Downloader. Все ваши предложения будут рассмотрены в кратчайший срок и, в случаях целесообразности их реализации, доработки будут осуществляться в ближайших обновлениях.
Для комментирования не требуется регистрация.
PS: Также вы можете оставлять предложения по развитию программы в этой теме на форуме.
Спасибо.
Добавьте в программу rucaptcha пожалуйста.
Добрый день. Хотелось бы добавить в макрос
[FILE(c:\file.txt|{random}|1)] счетчик, чтобы файлы брались поочереди.
[FILE(c:\file{count}.txt|{random}|1)] – Получается в повторяющихся границах, в первом совпадении будет браться текст из файла file1.txt далее file2.txt file3.txt и т.д…
Сергей, добрый день.
Не нашел механизм как исключать забаненный PROXY из листа прокси, на ходу в проекте. Если нет, было бы хорошо иметь такую возможность.
Описание:
Проект стартует и CD загружает в себя список рабочих прокси, они все рабочие.
В процессе парсинга некоторые прокси попадают в БАН – об этом свидетельствует либо код в тексте документа, либо сайт отдает response не равный 200, и ВЭБ документ просто не грузится.
Если бы был макрос, который попадая в шаблон вывода, удалял бы из списка прокси текущий, только что забаненный или не рабочий PROXY, было бы круто.
И раз уж дело о прокси пошло, хотел спросить, а IPv6 прокси планируется включить в программу, их просто пока не сильно “убили” можно с них было бы попарсить….
Добрый день. Не нашел решения.
Проблема: сайты типа яндекс и гугл, авито, блокируют прокси, если к ним не привязаны куки, юзер агент, может и другие custom data.
Возможное решение: Делать неизменные связки, PROXY+COOCKIES+User-Agent. И при получении кода страницы с конкретного proxy, отдавать странице конкретные куки и User-Agent, а если связка забанена, удалять ее из проекта.
Нашел как делать связки по CUSTOM HEADERS, но не нашел как привязать к этой связке, proxy. Я приложил картинку, как это я вижу.
Было бы круто научиться делать так, так как даже покупая дорогие прокси, они все уже запаленные в основном, а так это даст возможность не палить свои прокси.
Если это реально, былобы круто.
Сергей, добрый день.
А это мое предложение, не признано вменяемым ? То есть есть шанс что оно когда – либо будет реализовано ?
Прошу прощения за навязчивость.
Здравствуйте.
Реализация не такая простая и целесообразности я в этом вижу не так много. В ближайшее время это делать не планируем.
Во всяком случае пожелание учтено.
Спасибо!
Жаль, но не очень сильно надо, в плане ведения акков в Вконтакте хотел применять, чтобы от зенки полностью отказаться так как CD удобнее всетаки. Ну ладно, если когда-то руки дойдут, будет круто, все же CD это парсер, а не постер…..
Добрый.
Не нашел как в программе сохранять куки в csv или передавать в пост запрос в макрос GETMORECONTENT. Добавьте пожалуйста такую возможность. Спасибо.
Кука для каждой страницы разная, на каждой странице нужно снова устанавливать. Пробовал брать из WBApp не получается. Также в запросе через границы устанавливаются параметры. Не понятно работает или нет, так как не видно какой запрос уходит. Может лог какой сделать.
Здравствуйте.
http://sbfactory.ru/cd/?p=348
При локальном парсинге одно неудобство. Если включить Логи парсинга ( когда ссылки записываются в файл) – если путь к файлам на русском языке напр:
e:\ЭЭЭ-Проекты\Большой проект\
то получается в логе следующее:
e:\ЁЁЁ-Проекты\Ѕольшой проект\
Добрый день, предлагаю чтобы диалоговые окна ошибок WBAPP закрывались автоматически через 5 секунд например.
Так как бывают ошибки, невоспроизводимые после.
“Ошибка доступа к памяти” или “неизвестная ошибка”.
Поставишь на ночь парсить, а такие ошибки могут остановить парсинг, пока не нажмешь на всплывшем окне OK.
Еслибы оно само закрылось, а ошибка залогировалась куданить, былобы лучше.
Спасибо.
наблюдение: неопознанная ошибка, возникает в некоторых случаях, когда WBAPP пытается кликнув на ссылку, перейти на другую страницу, которой не существует похоже, и которая белый экран показывает, вместо нормального response. Типа АВИТО – белый экран. Если парсинг в 3 потока – то как только такие три ошибки появятся, парсинг прекращается полностью, пока не нажмешь окей. включено или отключено отображение WBAPP при парсинге, не важно.
Здравствуйте.
Пожалуйста, поясните, как нам такую ошибку воспроизвести у себя для ее изучения и устранения?
Спасибо!
Добрый день, спасибо за скорый ответ.
Я Вам в почту сейчас скину этот проект, который иногда из-за плохих ссылок выдает ошибку.
Но в целом, хотелось бы чтобы ошибки и всплывающие окна не останавливали парсинг, так как поставишь на ночь проект на 10 000 ссылок, а утром придешь за результатом, а оказывается он на 150й ссылке остановился и ждет, когда я нажму ОКЕЙ на всплывшем окне ошибки. Если бы любые ошибки не приостанавливали парсинг, было бы круто.
Странно, что эта ошибка генерируется браузером, когда он работает в silence mode. Я ее тоже получил!
Попробуйте сделать то, что указано на скриншоте.
Спасибо, за подсказку. ничего странного -этоже IE 🙂
А ошибки программы другие всякие, как то можно сделать чтобы сами закрывались или не появлялись вовсе?, я все равно в этих кодах ошибок ничего не понимаю.
Эти ошибки генерирует Internet Explorer.
О каких ошибках программы вы говорите?
А , я думал это CD! извиняйте. Жаль в IE нет настройки запретить показывать эти всплывающие окна.
Здравствуйте, прежде всего, хочу выразить благодарность разработчикам за отличный и регулярно обновляемый софт.
А также, хочу попросить добавить в редактор таблицы CSV пункт “очищение ячейки”, если она содержит определенный текст. На данный момент есть удаление строки, но часто нужно именно очистить ячейки с мусором, не удаляя при этом строки.
Заранее благодарен.
Здравствуйте.
Спасибо на добром слове!
Примените такое правило поиск-замены к ячейкам (смотрите скриншот):
С уважением к вам, Сергей.
Приветствую
Заметил, что в дереве макросов не поддерживается вывод и выбор динамических границ, просьба доработать.
Благодарю!
Здравствуйте.
Смотрите скриншот.
При остановке парсинга и его последующем продолжении картинки начинают нумероваться сначала, что не очень удобно.
Прошу для функции “добавить каждой картинке уникальное имя” добавить возможность задать число, с какого будут нумероваться картинки.
Либо считывать номер последней спарсенной картинки и начинать счет с него.
Смотрите скриншот.
При выходе из программы добавьте диалог “Завершить работу с программой?” (Да, Нет). Неоднократно при закрытии окна дополнительного окна (в полноэкранном режиме) совершенно случайно закрывал программу. Может мышка такая, может руки….
Данный диалог появляется только в случаях, когда идет парсинг.
Пользуйтесь кнопкой esc для закрытия дочерних окон (главное окно программы это никогда не закроет).
Здравствуйте.
Купил сегодня Ultimate и обнаружил очень неприятную для себя “фичу”.
Оказалось, что при установке 50 потоков парсинга и задержки 1000 мс обшая скорость работы программы – 1 страница в сек. Т.е. эта задержка общая на все потоки.
Предложение – сделайте опцию для установки задержки на КАЖДЫЙ поток. Например, у меня есть 50 прокси + 50 потоков, каждый поток работает через свой прокси. Я хочу выставить для каждого потока задержку в 1 сек, чтобы не забанили, при этом я получаю общую (теоретическую) скорость 50 страниц в сек.
Здравствуйте! Спасибо!
Доработано!
УРА! Спасибо большое за оперативность, порадовали очень!
Пожалуйста…
Добрый.
Добавьте в генератор ссылок, там где задается количество {num} возможность вставки макроса, например {PARAM}. Каждый раз забивать разный {num} на пару сотен разных ссылок бывает напряжно). Спасибо.
1. Может быть всё таки сделаете “не переводить в спящий режим во время парсинга”?
2. Парсинг pdf файлов по ссылкам (хотя бы нахождение emal адресов в pdf файлах, чтобы не приходилось конвертировать их в html каждый раз.
А так – отличный продукт! Спасибо! В общем то и без этих двух пунктов отлично работаем 🙂
Здравствуйте.
Спасибо на добром слове!
Ваши пожелания учли.
Добрый день. У меня сейчас большая проблема рандомом. Не знаю, почему этот важный элемент еще не реализован в СD? При вставке строк из файла, РАНДОМ берет повторные значение, хотелось бы чтобы он брал разные строки. Например мне нужно вставить 3 тега из файла. Я 3 раза вставляю в шаблон макрос [FILE(E:\Эксп.txt|{random}|0)], или в повт.границу.
Файл такого вида:
1 тег
2 тег
3 тег
4 тег
5 тег
На выходе получается так:
3 тег
5 тег
3 тег
Получаются дубли.
Content Downloader X1 версии 11.1.0000042 (12.12.2016)
– В значительной мере расширены возможности макроса [FILE] (http://sbfactory.ru/cd/?p=2951).
Доброго дня,
Спасибо за программу! Возможности просто поражают!
Если не трудно, хотелось бы увидеть пару маленьких доработок в программе,
1 – горячую клавишу к кнопке “+ ссылки к списку парсинга” (возможна она есть, но я не нашел), чтобы из главного окна добавлять, минуя вход в URL.
2 – в поиск-замене, рядом с кнопкой “edit..” сделать кнопку “skip”, которая сразу будет вставлять в окно {skip}|, минуя вход в редактор. В 90% случаев используется только удаление тегов
“+ ссылки к списку парсинга” это вы имеете ввиду где? в сканере сайтов
Да.Довольно таки часто попадаются сайты с говнокодом, на часть товаров одни границы, на часть другие, выловить эти косяки возможно только после парса, иногда приходится десятки раз парсить, чтобы выловить все косяки. И каждый раз заходит в сканер сайтов не очень удобно.
Так после парсинга в сканере и добавки ссылок в главное окно просто сохраните проект)
потом перезагружаете проект и он у вас с ссылками
Я пытаюсь уйти от лишнего рутинного действия, а вы мне предлагаете делать другое рутинное действие.
Если вам не нужен вход в редактор, вы можете
<{skip}>|
вписать прямо в текстовое поле ниже.1) для этого существует специальная кнопка HTMTXT (при задании границ парсинга, слева вверху)
2) галочка удаление тегов (ctrl+4 для каждой границы отдельно)
3) вот так http://sbfactory.ru/cd/?p=1973
Спасибо, буду пользоваться 2 вариантом.
Здравствуйте.
Спасибо на добром слове!
2) Смотрите скриншот
Огромное спасибо!
Пожалуйста…
Не совсем правильно написал – |, еще один повод, вручную можно и накосячить)
А вообще, в идеале можно было бы кнопку “skip” приделать рядом с кнопкой “задать выбранную границу парсинга” –> “дополнительные настройки границ парсинга”
Приветствую!
Если пишете подобное, будьте добры прикладывать картинку, чтобы понимать о чем вообще идет речь. Спасибо
Ну я писал админу программы, думаю он понимает о чем речь. Но на всякий случай картинку прикреплю. Не знаю как кому, а мне очень часто после задания границ, приходится скипать теги, было бы гораздо удобнее делать это прямо в окне задания границ. Теги не скипаю только, если потом задается повторяющаяся граница по простой границе парсинга.
Нажмите кнопочку HTMTXT на вашей картинке) И будут скипатся теги
СПАСИБО!
Приветствую!
Просьба сделать дополнительный поиск в выделенной границе при самой настройке границ.
т.я. мы задали начало и конец границы и теперь можем производить поиск имеено внутри нее, а не во всем коде страницы. Можно например добавить 2-е поле для этого, либо производить поиск с нажатой клавишей (например SHIFT).
Здравствуйте!
В данный момент после добавления списка прокси в программу они используются все сразу.
Возможно ли как-то реализовать такой алгоритм?
1. Берётся только один прокси (либо указывается сколько прокси брать).
2. Парсится до тех пор, пока прокси не уйдёт в бан (для проверки наверное подойдёт тот же [CHECKENTRY]).
3. Забаненный прокси заменяется следующим в списке.
Данная функция думаю будет необходима для парсинга серьёзных сайтов серверными прокси, когда алгоритм бана работает несколько по особенному.
Да, и в этом случае прокси лучше добавлять без проверки, т.к. “паблик прокси” в таком алгоритме нет смысла использовать.
И ещё один момент который хотелось бы учесть, если допустим запущено 10 потоков на одном ip, тогда чтобы не происходило 10 замен ip подряд, а была чтоли какая-то пауза, чтобы все потоки загрузили страницу, а потом была замена ip и эти потоки опять стартовали.