FAQ

January 17th, 2016 2,085 коммент. »

Здравствуйте!
WEB-страница доступна только для чтения! Если у вас есть какие-либо вопросы, можете задавать их на форуме http://forum.sbfactory.ru/
Спасибо!

Работа с границами парсинга

Повторяющиеся границы парсинга:

Для добавления определенного текста или кода в начало и/или конец текста каждого цикла повторяющейся границы парсинга нажмите ctrl+5 и вставьте добавляемый текст или код перед/после [VALUE] (оператор [VALUE] выводит значения циклов повторяющейся границы парсинга).

1
2
3

<DOWNLOADFILE>[VALUE]</DOWNLOADFILE> - для загрузки картинок или файлов
<NIMG>[VALUE]</NIMG> - для загрузки картинок (когда нужно оставить только имя файла картинки)
<img src="[VALUE]"> - для загрузки картинок (когда нужно оставить имя файла картинки с HTML-тегом img)

Активация и перенос программы

Активация:

Активировать каждый ключ можно только на одном компьютере.

При активации программы каждый ключ привязывается к отдельному e-mail. Например, для активации двух ключей, вам потребуется использовать два различных e-mail адреса.

Если вы при активации испытываете какие-либо проблемы (программа не может связаться с сервером активации), убедитесь, что с вашего компьютера доступен сайт http://ContentDownloader.ru
Также учтите, что запросы программы могут блокировать:
– Антивирусы
– Брандмауэры
– Firewall
Проблемы при активации, вызванные сторонним ПО, решаются на стороне пользователя (так как мы не несем ответственности за дополнительное программное обеспечение, которое он устанавливает).

Перенос программы с одного компьютера на другой:

Переносить программу с одного ПК на другой можно 1 раз в двое суток.

Для переноса программы на другой ПК или OS, активируйте ее на новом оборудовании обычным способом (так же, как и на первом ПК, методом ввода вашего кода активации и e-mail адреса). Чтобы посмотреть, какой ключ и e-mail используется в активированной копии программы, зайдите в главное меню -> справка -> о программе.

После выполнения процедуры переноса, программа будет деактивирована на старом ПК (если требуется использовать программу на двух компьютерах одновременно, обратите внимание на специальное предложение по приобретению дополнительного ключа).

Переименование/задание имен для изображений, файлов, документов при парсинге контента (с возможностью транслитизации)

Для задания имен файлов сохраняемых документов с контентом, используйте макрос шаблона вывода [DOCNAME]

Для задания имен файлов скачиваемых картинок, используйте макрос шаблона вывода [IMAGESNAMES].
Для задания папки сохранения скачиваемых картинок, используйте макрос шаблона вывода [IMAGESPATH].

Для присвоения имен и директорий сохранения файлам и картинкам, скачиваемым макросом DOWNLOADFILE, используйте макрос [DFN]

Вывод в результат парсинга контента некоторых данных

Для вывода ссылки, с которой парсится каждый документ, используйте макрос шаблона вывода <CD_DOCURL!>

Для вывода всего кода загружаемого WEB-документа используйте макрос шаблона вывода [DOCSOURCE]

Решение проблем с кодировками загружаемых WEB-документов и текстом интерфейса программы

Если при задании границ парсинга код WEB-страницы отображается корректно, а при парсинге в результате исчезают/заменяются символы юникода, поставьте кодировку сохраняемого документа UTF-8 без BOM!

ЕСЛИ У ВАС ПРОБЛЕМА С ОТОБРАЖЕНИЕМ ТЕКСТА ИНТЕРФЕЙСА ПРИ УСТАНОВКЕ ПРОГРАММЫ, ОБРАТИТЕ ВНИМАНИЕ НА ЭТОТ ВАРИАНТ ЕЕ РЕШЕНИЯ!

Решение вопросов с загрузкой кода WEB-документов

Если в ссылке содержится символ #, то все, что после него стоит, игнорируется в обычном GET-запросе, с которым по умолчанию работает программа. Символ решетки в ссылке (и последующие после него данные) нужен для передачи информации WEB-браузеру (который посылает дополнительные GET или POST-запросы для подгрузки WEB-контента).

Для того, чтобы Content Downloader парсил с обработкой информации после символа # в ссылках, в окне настроек HTTP-запросов программы (ctrl+h) включите библиотеку “Internet Explorer (DOM)”.

Второй вариант – определить с помощью плагина LiveHTTPHeaders (для Firefox), откуда (с каких WEB-адресов) происходит подгрузка недостающих данных и на основе этого подобрать решение по их парсингу.

Рекомендации по заданию вопросов:
1) Постарайтесь максимально подробно изложить все детали вопроса (чтобы мы ясно понимали, что вы делаете/что требуется получить/какие именно функции используете и так далее…) и, вероятно, мы вам сразу дадим ответ без дальнейшей переписки с целью выяснения нюансов;
2) Для публикации макросов или HTML-кода используйте кнопку “code” над формой ввода текста комментария.

Учтите! В разделе FAQ задаются вопросы следующего вида:
– Есть ли в программе такая-то функция?
– Как можно реализовать подобный алгоритм действий?
– Почему при парсинге происходит то-то или то-то?
– …
Иными словами: Раздел FAQ предназначен для осуществления консультаций.

Другие вопросы, которые требуют от нас изучения/доработки ваших файлов проектов, изучения сайтов, продумывания новых или специфичных алгоритмов для парсинга определенных данных с указанных ресурсов (т.е. где требуется выполнить работу) решаются платно! Их решают специалисты по настройке в индивидуальном порядке! Как заказать услуги специалистов по настройке (клик).

Примечания:
1) Мы в праве отказать в предоставлении ответов на некоторые вопросы без пояснения причин!
2) Мы в праве удалять любые комментарии без пояснения причин!

С уважением к вам, администрация сайта.

(оценок: 7, средний балл: 4.43)

Рубрики: Новости

Теги: Content Downloader, FAQ, поддержка, помощь

Все опции закрыты.

Есть 2,085 коммент. к теме: “FAQ”

admin says:

18 September 2016 at 5:24

Взято от комментария Владимира (http://sbfactory.ru/?p=1301&cpage=36#comment-35449)

Добрый день! При импорте файлов в WordPress столкнулся с проблемой невозможности импортировать миниатюры (Features image). В интернете много про это написано, но решения, подходящего для нашего инструмента так и не нашел. В итоге на основах разных решений слепил свое (может не самое профессиональное, но работающее), и хотел бы им поделиться дабы люди не тратили пару дней, как я :-). Если посчитаете это полезным, можно было бы вынести его в общее пользование:
1) Для начала при парсинге задаем метаполе с путем к фото на сервере назначения: [POSTMETA]attached_f////wp-content/uploads/2016/09/[/POSTMETA] ,где получается вида “featuresimage.jpg”.
2) Скачанное фото и заливаем по ftp на сервер назначения именно по этому пути: www site ru/wp-content/uploads/2016/09/featuresimage.jpg
3) В файл function.php вашей темы в самый низ добавляем код:
function auto_featured_s_image($post) { global $post; if( has_post_thumbnail($post->ID) ) return; $filename = get_post_meta( $post->ID, 'attached_f', true ); if (empty($filename) ){ return; } $filetype = wp_check_filetype( basename( $filename ), null ); $wp_upload_dir = wp_upload_dir(); $attachment = array( 'guid' => $wp_upload_dir['url'] . '/' . basename( $filename ), 'post_mime_type' => $filetype['type'], 'post_title' => preg_replace( '/\.[^.]+$/', '', basename( $filename ) ), 'post_content' => '', 'post_status' => 'inherit' );
$attach_id = wp_insert_attachment( $attachment, $filename, $post->ID ); set_post_thumbnail($post->ID, $attach_id); require ABSPATH . 'wp-admin/includes/image.php'; // Создадим метаданные для вложения и обновим запись в базе данных. $filen = $wp_upload_dir['path'] . '/' . basename( $filename ); $attach_data = wp_generate_attachment_metadata( $attach_id, $filen ); wp_update_attachment_metadata( $attach_id, $attach_data ); update_post_meta($post->ID, 'svtle-main-content', $filen); } // Use it temporary to generate all featured images add_action('the_post', 'auto_featured_image'); // Used for new posts add_action('save_post', 'auto_featured_s_image'); add_action('draft_to_publish', 'auto_featured_s_image'); add_action('new_to_publish', 'auto_featured_s_image'); add_action('pending_to_publish', 'auto_featured_s_image'); add_action('future_to_publish', 'auto_featured_s_image');

4) Создаем файл импорта при помощи “Обработка и импорт в КМС”, и импортируем стандартным плагином WordPress.
5) После обновления всех миниатюр удаляем код из functions.php, чтобы не грузился хостинг.
Все, картинки для миниатюры добавляются из метаполя, далее прикрепляются к посту, и им присваивается id, по которому они назначаются миниатюрой, и обновляются их метаданные.

Если постов большое количество (у меня было около миллиона), то сразу все миниатюры не установятся. В таком случае можно было придумать много способов для обновления всех постов, но я запустил webapp на админку сайта, чтобы он перебирал страницы с постами (вывод по 10 штук). За ночь все посты обновились.
евгений says:

20 September 2016 at 0:51

Не могу справится со сканированием сайта. Сканер получает только ссылки с первой страницы. Остальная инфа грузится с того же url динамически – её получить не удаётся.
Можно ли такое вообще провернуть сканером?
Вот адрес страницы:
vamsvet ru/catalog/section/newgoods

А это ссылки, по которым догружается контент:

vamsvet ru/catalog/section/newgoods/#p2
vamsvet ru/catalog/section/newgoods/#p3
- admin says:
  
  20 September 2016 at 12:33
  
  Здравствуйте.
  
  Загрузка данных на этом сайте осуществляется WEB-браузером при выполнении WEB-страницы с адресов типа http www vamsvet ru/catalog/section/newgoods/?catalog_ajax_call=Y&PAGEN_1=7&items_only=N
  
  Можете сгенерировать список таких страниц http://sbfactory.ru/cd/?p=999 и парсить с них нужные вам данные.
  
  С уважением к вам, Сергей.
  - gene says:
    
    21 September 2016 at 23:04
    
    Спасибо огромное. Удалось.
Василий says:

21 September 2016 at 8:05

Здравствуйте. Ребята огромная просьба подсказать по дополнительным границам парсинга.

Вопрос? Если при задании границ парсинга присутствует например слово КОМПЬЮТЕР, то такой документ вообще игнорировать и при парсинге эту ссылку не учитывать, то есть вообще игнорировать и не парсить?

Заранее огромное спасибо за ответ.
Дмитрий says:

21 September 2016 at 10:49

Приветствую, актуально ли сейчас парсить яндекс маркет программой? Или не работает? Где можно актуальную инструкцию глянуть?
Петр says:

21 September 2016 at 16:22

Добрый день.

[DFN][/DFN]

[DOCNAME].htm[/DOCNAME]

При таком виде шаблона вывода программа в файл htm добавляет в начало имя загружаемого файла (). Как исправить шаблон, чтобы имя файла не добавлялось?
Funnytattoo says:

22 September 2016 at 13:44

подскажите где почитать и есть ли возможность генерировать ссылки для парсинга с параметрами key и num? но при этом брать эти параметры из файла или таблицы в эксель (например для такого-то key такое-то значение и num), чтобы каждые раз не нажимать сгенерировать ссылки и не вводить эти параметры вручную, для большого количества ссылок

пока пониаю, что можно задать только 1 параметр num, и к по нему сгенерировать ссылки для всех значение параметра key, но в моем примере параметр num разный для различных kеу

еще не появилаось ли возможность задать границу парсинга текстом не из кода страницы, а произвольно, фиксированым текстом? очень бы облегчило назначение имен и задание сохранения путей файлов, а то так при парсинге каждой картинки приходится менять название папки подкаталога

спасибо
- admin says:
  
  27 September 2016 at 7:47
  
  Здравствуйте.
  
  Такой возможности нет.
  
  С уважением к вам, Сергей.
Wladimir says:

22 September 2016 at 20:44

Добрый день! По моему не работает оператор prevskip в функциях замены, в итоге воспроизвел примеры из подсказок – не функционирует…
a{skip}c|d {prevskip}|_

И есть ли решение с помощью макросов замены убрать (заменить) путь к фото в коде, Например:

<td width="117"> <img src="http://donor.ru/images/dji-authorized-dealer2.jpg"> </td>

на

<td width="117"> <img src="dji-authorized-dealer2.jpg"> </td>

Спасибо!
Иван says:

24 September 2016 at 12:50

Добрый день! Суть проблемы в том что страница долго загружается, поэтому
при задании границ парсинга в просмотре кода не загружаются фотки (они подгружаются Аяксом долго), а ниже в браузере уже подгрузились.

Поэтому сложно выбрать границы.
Что делать в такой ситуации. Сайт 1688.com.
Kekko says:

25 September 2016 at 9:30

Доброго времени дня Вам!

Возможно ли использовать ВАшу программу для парсинга картинок через гугл яндекс и тд. с возможностями фильтрации источников контента (wiki, VK. и т.д.), имеется ввиду насколько это юзабельно (настройка прокси, названий файлов, количества скачиваемых картинок или страниц по запросу, размеры картинок, типы фото, лица и тд. и т.п.)

Надеюсь на ваш ответ =/
Post says:

25 September 2016 at 13:00

парсится часть кода, в котором есть картинки, можно ли чтобы эти картинки грузились не в одну папку, так как у картинок разные пути, но одинаковы названия
напр.
site.ru/papka1/image.jpg

site.ru/papka2/image.jpg

и в итоге вторая картинка заменит первую.

можно конечно изменить название картинок, но тогда одни и те же картинки будут много дублей
Djah says:

25 September 2016 at 23:05

Доброй ночи!

Сергей, скажите, пожалуйста:

Как то можно использовать разные прокси, для getmorecontent c WBAMODE, Когда getmorecontent находится внутри повторяющейся границы?

А то у меня CD заходит 20 раз подряд с одного и того же прокси по getmorecontent и яндексу это не нравиться, и он меня обрубает.

Спасибо.
Djah says:

26 September 2016 at 0:00

Сергей, еще хотел спросить:
А функция, заменять мнемоники на их символы, поменяла алгоритм работы?

Раньше по моему было, если ее включишь, то она заменяла мнемоники всегда до, того как программа показывает код.

А сейчас включишь ее, а в меню задания границ парсинга, мнемоники показываются. А перейдешь потом в шаблон отображения, а он не показывает границу, потому что мнемоники заменены уже в коде, а в границе парсинга они назначены. Это при парсинге яндекса у меня так, или это у меня проблемы ?
- Djah says:
  
  26 September 2016 at 0:02
  
  Я понял, это происходит при использовании библиотеки clever internet Suite, видимо в ней мнемоники не меняются.
Djah says:

26 September 2016 at 10:33

Сергей, добрый день.
А сточки зрения стабильности работы программы и парсинга, как лучше делать при ежеминутном цикличном парсинге (программа бесконечно смотрит на сайт и ждет когда там появятся новые ссылки):
1) При каждом цикле парсинга запускать программу планировщиком, программа постоянно перезапускается!
Или
2) Программа постоянно запущена но ссылки постоянно добавляются в конец списка парсинга.
- admin says:
  
  26 September 2016 at 12:17
  
  Здравствуйте.
  
  Пояснения на скриншоте.
  
  С уважением к вам, Сергей.
  - Djah says:
    
    26 September 2016 at 22:31
    
    Спасибо, тогда буду использовать этот способ.
Владимир says:

26 September 2016 at 23:16

Приветствую! Делаю парсинг в txt файл. Как можно вывести текст “” (без кавычек) – именно текст, а не границу парсинга? т.е. сделать экранирование границы парсинга чтобы она не обрабатывалась.
- Владимир says:
  
  26 September 2016 at 23:17
  
  <CD_GRAN_20!> вот это в кавычках должно было стоять. В первом сообщении текст порезало
- admin says:
  
  27 September 2016 at 7:51
  
  Здравствуйте.
  
  Вот так:
  [REPLACE(}|>)]<CD_GRAN_20!}[/REPLACE]
  
  С уважением к вам, Сергей.
Djah says:

27 September 2016 at 0:08

Сергей, а как то csv файлы можно распарсить при помощи CD ?, есть куча файлов, их бы мне разпарсить .
- Djah says:
  
  27 September 2016 at 0:21
  
  Сам спросил, сам и отвечу: можно добавить файлы с диска и распарсить их.
Владимир says:

27 September 2016 at 8:50

Еще вопрос: можно ли каждый цикл повторяющейся границы сохранять в отдельный файл?
Например, я хочу распарсить выдачу яндекса. Через повторяющуюся границу собираю заголовки с 1 по 10 место, а затем через
<CD_CYCLE_GRAN_1!> [DOCNAME][CLEAR][TRANSLITE][INT_ID2].txt[/DOCNAME]
вывожу результат в файл. Вот, нужно это же, только чтобы каждый цикл повторяющейся границы был сохранен в отдельный файл. Тогда в примере получили бы не 1, а 10 файлов.
Пробовал вставить DOCNAME в окне настроек повторяющихся границ (где указано [VALUE]), но там похоже этот макрос не срабатывает
- admin says:
  
  27 September 2016 at 10:44
  
  Обратите внимание на этот материал системы помощи http://sbfactory.ru/cd/?p=1984
  - Владимир says:
    
    27 September 2016 at 18:32
    
    Спасибо, получилось
Евгений says:

27 September 2016 at 11:32

А есть ли возможность из гугловской выдачи по типу файла (filetype:abc)скачать эти самые файлы (abc)?

Если да, то как это реализовать?
Djah says:

27 September 2016 at 14:38

Сергей, добрый день.
Не подскажете, как то возможно текущим функционалом программы, сделать это?

Сайты отдают по GET запросу CSV файл.

Например:
GET /data/csv?key=9d32tgvfdg324gdfhbaad HTTP/1.1

Ну соответственно и по сылке отдает тоже:
supersite .ru /data/csv?key=9d32tgvfdg324gdfhbaad

CD соответственно этот файл хочет скачать на диск по этой ссылке, но я хочу его распарсить “налету”

Как то можно загнать данные сразу в задание границ парсинга, назначить границы, и вывести через шаблон?

Может как то можно преобразовать расширение на лету на html или txt , или как то еще ?
Владимир says:

27 September 2016 at 18:43

Вопрос 3: Собираю данные с каталога компаний. На странице компании есть поле для url ее сайта, которое забираю через обычную границу парсинга, например CD_GRAN_3!
Далее собираю емаил адреса с главной страницы сайта, указанного в CD_GRAN_3!, через такую конструкцию:
[EXTRACTEMAILS]<GETMORECONTENT><URL="<CD_GRAN_3!>"><START=""><STARTCOUNT="0"><END=""><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>[/EXTRACTEMAILS]

Еще необходимо собрать емаил со страницы сайта, указанного в CD_GRAN_3!, с раздела “контакты”. Нашел в CD макрос GETURLSBYANCHORS, но вот не могу сопоставить порядок с GETMORECONTENT т.е. мне нужно через GETURLSBYANCHORS найти ссылку на страницу контактов, а потом исползуя уже ее через GETMORECONTENT собрать емаил.

Пробовал такое:[GETURLSBYANCHORS(конт[NODUP])]<GETMORECONTENT><URL="<CD_GRAN_3!>"><START=""><STARTCOUNT="0"><END=""><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>[/GETURLSBYANCHORS], но он даже не хочет отрабатывать макрос GETMORECONTENT.

Если есть идеи, то прошу помочь. Спасибо.
- Владимир says:
  
  27 September 2016 at 23:12
  
  Не знаю правильная логика или нет, но получилось сделать через задание в переменную var вывода макроса GETMORECONTENT, а дальше GETURLSBYANCHORS с и снова GETMORECONTENT
вова says:

28 September 2016 at 20:55

Подскажите в чем может быть проблема
не собирает ссылки с сайта
sofino ua/double-size-wooden-beds
делаю через WBApp паузы ставлю
60 ссылок и все в тесте клики происходят но результата нет
- admin says:
  
  29 September 2016 at 8:38
  
  Здравствуйте.
  
  Нужно настроить автоклик по кнопке “показать все товары”.
  
  Пояснения на скриншоте.
  - вова says:
    
    29 September 2016 at 13:45
    
    спасибо решено

парсер, спарсить сайт, наполнить интернет-магазин товарами

FAQ

Наши продукты