Прошу излагать в комментариях свои пожелания по развитию программы Content Downloader. Все ваши предложения будут рассмотрены в кратчайший срок и, в случаях целесообразности их реализации, доработки будут осуществляться в ближайших обновлениях.
Для комментирования не требуется регистрация.
PS: Также вы можете оставлять предложения по развитию программы в этой теме на форуме.
Спасибо.
Добрый день!
Подскажите как собрать действительно все ссылки. Часть ссылок незагружается и падает в “Незагруженные ссылки”. Приходиться повторно их копировать и по ним прогонять. Как можно запустить так чтобы загрузились все?
Спасибо.
Здравствуйте.
Установите количество потоков 1 (во вкладке ссылки оно всегда 1) и увеличьте количество попыток загрузки, скажем, до 10 (смотрите скриншот).
С уважением к вам, Сергей.
Здравствуйте! Можете добавить две опции:
Т.к. работаю с большим источником, хотелось бы из общего списка указывать кол-во ссылок для загрузки к парсингу
1. Кол-во ссылок для загрузки, например 200.000
2. Опция – случайные (RANDOM) ссылки из общего списка ссылок
Спасибо!
Здравствуйте.
Обратите внимание на инструмент ctrl+b
С уважением к вам, Сергей.
Спасибо, хорошая опция! А как на счет RANDOM ссылок?
Пожалуйста.
Эту опцию делать не планируем.
С уважением к вам, Сергей.
Здравствуйте. Возможно ли встроить в программу деобфускатор кода? При задании границ парсинга контента или ссылок зачастую приходится сталкиваться с ужасной мешаниной из-за криворукости разработчиков.
Здравствуйте.
Было бы хорошо это сделать и уже были готовы взяться за реализацию. Но так и не выделить на это достаточное количество времени (не успеваем работать с клиентами).
Ваше пожелание учтено. Спасибо!
С уважением к вам, Сергей.
Благодарю за ответ. Надеюсь и жду в следующих обновлениях. Огромное спасибо за прекрасный продукт.
И вам спасибо за все!
Добрый день!
Хочется увидеть подобную функцию:
В окне как обычно сканируем список прокси на доступность, указав таймаут, и далее следующие действия
1) если во время парсинга или сканирования ссылок один из прокси серверов недоступен, то убирать его в игнорируемые, чтобы он больше не занимал потоки и не тормозил процесс парсинга.
2) Действия времени таймаута при проверке списка прокси переносить (например установкой галочки) и на процесс парсинга. Т.е. если страница не отвечает в течение установленного времени тайминга, например, 1000 мс, то значит прокси игнорируем в дальнейшем, чтобы такой прокси не использовать некоторое время.
3) т.к. после таких доработок список прокси будет (как правило) постоянно уменьшаться, и некоторые прокси будут становиться недоступными, неминуемо в какойто момент произойдет слишком частый парсинг с одних и тех же адресов, за это большинство продвинутых сайтов включит блокировку ип адресов. Так вот, когда CD настроен в окне Автоматизации “приостановить парсинг при бане на… сек”, в этот момент можно делать полный перескан всех ип прокси (непроверенный список прокси), с автоматическим добавлением в список доступных (проверенных). Т.к. заметил, многие прокси становятся доступными через некоторое время.
Всё это очень сильно улучшит скорость при работе программы через прокси, при этом автоматизация будет на максимуме. На данный момент очень не хватает этой функциональности.
Здравствуйте.
Большое спасибо! Учли!
Добрый день.
Добавьте в сканере сайтов ограничение области поиска ссылок, как во вкладке ссылки. Очень нужно. Спасибо.
Поиск-заменой вырезайте
Спасибо!
Здравствуйте.
Смотрите скриншот!
С уважением к вам, Сергей.
Добрый день! При импорте файлов в WordPress столкнулся с проблемой невозможности импортировать миниатюры (Features image). В интернете много про это написано, но решения, подходящего для нашего инструмента так и не нашел. В итоге на основах разных решений слепил свое (может не самое профессиональное, но работающее), и хотел бы им поделиться дабы люди не тратили пару дней, как я :-). Если посчитаете это полезным, можно было бы вынести его в общее пользование:
1) Для начала при парсинге задаем метаполе с путем к фото на сервере назначения: [POSTMETA]attached_f////wp-content/uploads/2016/09/[/POSTMETA] ,где получается вида “featuresimage.jpg”.
2) Скачанное фото и заливаем по ftp на сервер назначения именно по этому пути: www site ru/wp-content/uploads/2016/09/featuresimage.jpg
3) В файл function.php вашей темы в самый низ добавляем код:
function auto_featured_s_image($post) {
global $post;
if( has_post_thumbnail($post->ID) )
return;
$filename = get_post_meta( $post->ID, 'attached_f', true );
if (empty($filename) ){
return;
}
$filetype = wp_check_filetype( basename( $filename ), null );
$wp_upload_dir = wp_upload_dir();
$attachment = array(
'guid' => $wp_upload_dir['url'] . '/' . basename( $filename ),
'post_mime_type' => $filetype['type'],
'post_title' => preg_replace( '/\.[^.]+$/', '', basename( $filename ) ),
'post_content' => '',
'post_status' => 'inherit'
);
$attach_id = wp_insert_attachment( $attachment, $filename, $post->ID );
set_post_thumbnail($post->ID, $attach_id);
require ABSPATH . 'wp-admin/includes/image.php';
// Создадим метаданные для вложения и обновим запись в базе данных.
$filen = $wp_upload_dir['path'] . '/' . basename( $filename );
$attach_data = wp_generate_attachment_metadata( $attach_id, $filen );
wp_update_attachment_metadata( $attach_id, $attach_data );
update_post_meta($post->ID, 'svtle-main-content', $filen);
}
// Use it temporary to generate all featured images
add_action('the_post', 'auto_featured_image');
// Used for new posts
add_action('save_post', 'auto_featured_s_image');
add_action('draft_to_publish', 'auto_featured_s_image');
add_action('new_to_publish', 'auto_featured_s_image');
add_action('pending_to_publish', 'auto_featured_s_image');
add_action('future_to_publish', 'auto_featured_s_image');
4) Создаем файл импорта при помощи “Обработка и импорт в КМС”, и импортируем стандартным плагином WordPress.
5) После обновления всех миниатюр удаляем код из functions.php, чтобы не грузился хостинг.
Все, картинки для миниатюры добавляются из метаполя, далее прикрепляются к посту, и им присваивается id, по которому они назначаются миниатюрой, и обновляются их метаданные.
Если постов большое количество (у меня было около миллиона), то сразу все миниатюры не установятся. В таком случае можно было придумать много способов для обновления всех постов, но я запустил webapp на админку сайта, чтобы он перебирал страницы с постами (вывод по 10 штук). За ночь все посты обновились.
Пропали теги, пункт первый следует читать как: [POSTMETA]attached_f////wp-content/uploads/2016/09/(граница парсинга1)[/POSTMETA],где (граница парсинга1) получается вида “featuresimage.jpg”.
Здравствуйте.
Спасибо!
Добавлю ваш комментарий в FAQ и он будет доступен для поиска.
С уважением к вам, Сергей.
В окне прокси, если нажать “добавить без проверки”, счетчик не обновляется. Предлагаю доработать 🙂
В логе выполнения функций первая строка с адресом, куками и заголовками обрезается. Предлагаю переносить эту длинную строку на следующие строки, или пусть растет вправо (тогда добавить прокрутку вправо).
Предлагаю пронумеровать границы в окне Ctrl+1, потому что если задать свои названия границ, то при необходимости сослаться на обычную границу в переключателе источника повторяющейся границы, приходится постоянно высчитывать её номер по порядку.
Так же, было бы неплохо упорядочить окошечки границ (tab order), чтобы можно было перемещаться между ними клавишей табуляции.
Предлагаю при копировании границы в новую копировать и название, и дополнительные настройки скопированной границы.
Окно добавления файлов с диска очень медленно работает. При разворачивании папки такое ощущение, что оно читает все файлы из всех папок – очень долго!
Периодически файлы в списке задваиваются. Например, в папке 30000 файлов, а он показывает 60000 элементов списка. Считает он файлы очень долго, и нельзя переключиться на другое приложение – при возврате он начинает всё сначала! Уберите пожалуйста эту фичу.
Столкнулся с такой проблемкой даже можно сказать с неудобством. При парсинге через WBApp в много потоков периодически подвисает то ли комп то ли сайт с которого парсю приходится презапускаться (всегда помогает почему то). Так вот в чем проблема WBApp проэкты остаются в процессах даже когда закрываю парсер. И это очень сильно жрет оперативу а в ручную закрывать эти процессы геморно особенно если парсинг в 50 потоков. Можно ли сделать так чтобы при выходе из программы он закрывал эти WBApp проекты сам.
Здравствуйте.
Это подвисает Internet Explorer (видимо, система не рассчитана на долговременное и одновременное использование 50 Internet Explorer). Не спроста мы рекомендуем парсить в 1-2 потока при его использовании!!!
С уважением к вам, Сергей.
Спасибо что разобрались с причинами. В данном моем случае нужно спарсить 157 страниц на каждую по 2-3 минуты уходит чтобы полностью прогрузилась. Вобщем слишком долго при рестартах я за час справляюсь. С учетом того что я 20 минут удаляю эти проекты. Да и не только в моем случае эта функция нужна. Зачем комуто в оперативе держать 300-400 мб ненужной информации
Добавьте в редактор csv загрузку и сохранение настроек слияния двух файлов
например надо одни и те же настройки постоянно указывать (соответствия ячеек). В идеале что бы с проектом эти настройки сохранялись.
Плюсую.
Дополнительно нужно объединение по нескольким столбцам. Объединения по одной колонке бывает недостаточно.
Не могу сохранить 8млн ссылок, пишет out of memory (16gb оперативной памяти)
для сохранения пользуюсь вот этой функцией
подскажите как побороть?
есть какое то решение ?
Здравствуйте.
Еще не дошел до решения данного вопроса. Ориентировочно 2-3 дня.
С уважением к вам, Сергей.
спасибо огромное, за отклик, буду ждать !
Content Downloader X1 версии 11.1.0000011 (06.10.2016)
– Множество доработок.
Сделайте возможность переноса PARAM в сканере сайтов, так же как в сканере ссылок. Очень нужно. Спасибо за программу и регулярные обновления.
На ваше усмотрение. Задание повторяющихся границ для сканера сайтов. Бывает нужно и с фильтрами меньше возни.
Здравствуйте.
1) Хорошо, учли!
2) Смотрите прикрепленный скриншот!
С уважением к вам, Сергей.
Спасибо. Не подозревал, что этим способом, можно проделать такое. Но инструмент не юзабелен и замедляет работу. Было бы неплохо видеть, что происходит. К сожалению всё больше сайтов на которых, даже используя просмотр кода не всегда просто понять где косяк. Хотя для крайних вариантов это вариант.
Доброго дня!
Сергей добавьте пожалуйста подсветку по ярче в окне поиска макросов!
А то в поиск вводишь, а потом еще ищешь в списке )
Здравствуйте!
Пользуюсь этой замечательной программой уже более года, не переставая восхищаться ей и автором!
Собственно, предложение-просьба по автоматизации программы. Очень часто возникает потребность закрыть программу по завершении парсинга.
Я когда-то ещё на форуме интересовался вопросом … но тогда сказали, такой возможности нет. Сейчас пользуюсь сторонними планировщиками, но это ОЧЕНЬ не удобно.
Не могли бы Вы добавить “галочку” “Закрыть CD при окончании парсинга” в окно “автоматизация”?
Спасибо!
Здравствуйте.
Во время парсинга, если работать в CSV редакторе, и менять разделитель ячеек
;/,
то разделитель ячеек в результирующем файле csv тоже меняется(на ходу), и получается половина строк с разделителем ; и половина с ,
так быть не должно, как по мне, редактор CSV это одно, файл результата парсинга это другое.
Предлагаю сделать дополнительный тег или опцию очистки HTML тэгов от мусора, например , сокращать до , до тоже самое с div и т.д.
Хорошо бы добавить функционал получения md5 хэша. Картинки например.