FAQ | SBFactory – парсер контента, программа для наполнения интернет магазинов

FAQ

Здравствуйте!
WEB-страница доступна только для чтения! Если у вас есть какие-либо вопросы, можете задавать их на форуме http://forum.sbfactory.ru/
Спасибо!

Работа с границами парсинга
Повторяющиеся границы парсинга:

Для добавления определенного текста или кода в начало и/или конец текста каждого цикла повторяющейся границы парсинга нажмите ctrl+5 и вставьте добавляемый текст или код перед/после [VALUE] (оператор [VALUE] выводит значения циклов повторяющейся границы парсинга).

1
2
3
<DOWNLOADFILE>[VALUE]</DOWNLOADFILE> - для загрузки картинок или файлов
<NIMG>[VALUE]</NIMG> - для загрузки картинок (когда нужно оставить только имя файла картинки)
<img src="[VALUE]"> - для загрузки картинок (когда нужно оставить имя файла картинки с HTML-тегом img)
Активация и перенос программы
Активация:

Активировать каждый ключ можно только на одном компьютере.

При активации программы каждый ключ привязывается к отдельному e-mail. Например, для активации двух ключей, вам потребуется использовать два различных e-mail адреса.

Если вы при активации испытываете какие-либо проблемы (программа не может связаться с сервером активации), убедитесь, что с вашего компьютера доступен сайт http://ContentDownloader.ru
Также учтите, что запросы программы могут блокировать:
– Антивирусы
– Брандмауэры
– Firewall
Проблемы при активации, вызванные сторонним ПО, решаются на стороне пользователя (так как мы не несем ответственности за дополнительное программное обеспечение, которое он устанавливает).

Перенос программы с одного компьютера на другой:

Переносить программу с одного ПК на другой можно 1 раз в двое суток.

Для переноса программы на другой ПК или OS, активируйте ее на новом оборудовании обычным способом (так же, как и на первом ПК, методом ввода вашего кода активации и e-mail адреса). Чтобы посмотреть, какой ключ и e-mail используется в активированной копии программы, зайдите в главное меню -> справка -> о программе.

После выполнения процедуры переноса, программа будет деактивирована на старом ПК (если требуется использовать программу на двух компьютерах одновременно, обратите внимание на специальное предложение по приобретению дополнительного ключа).

Переименование/задание имен для изображений, файлов, документов при парсинге контента (с возможностью транслитизации)
Для задания имен файлов сохраняемых документов с контентом, используйте макрос шаблона вывода [DOCNAME]

Для задания имен файлов скачиваемых картинок, используйте макрос шаблона вывода [IMAGESNAMES].
Для задания папки сохранения скачиваемых картинок, используйте макрос шаблона вывода [IMAGESPATH].

Для присвоения имен и директорий сохранения файлам и картинкам, скачиваемым макросом DOWNLOADFILE, используйте макрос [DFN]

Вывод в результат парсинга контента некоторых данных
Для вывода ссылки, с которой парсится каждый документ, используйте макрос шаблона вывода <CD_DOCURL!>

Для вывода всего кода загружаемого WEB-документа используйте макрос шаблона вывода [DOCSOURCE]

Решение проблем с кодировками загружаемых WEB-документов и текстом интерфейса программы
Если при задании границ парсинга код WEB-страницы отображается корректно, а при парсинге в результате исчезают/заменяются символы юникода, поставьте кодировку сохраняемого документа UTF-8 без BOM!

2016-05-23_23-02-13


ЕСЛИ У ВАС ПРОБЛЕМА С ОТОБРАЖЕНИЕМ ТЕКСТА ИНТЕРФЕЙСА ПРИ УСТАНОВКЕ ПРОГРАММЫ, ОБРАТИТЕ ВНИМАНИЕ НА ЭТОТ ВАРИАНТ ЕЕ РЕШЕНИЯ!

Решение вопросов с загрузкой кода WEB-документов
Если в ссылке содержится символ #, то все, что после него стоит, игнорируется в обычном GET-запросе, с которым по умолчанию работает программа. Символ решетки в ссылке (и последующие после него данные) нужен для передачи информации WEB-браузеру (который посылает дополнительные GET или POST-запросы для подгрузки WEB-контента).

Для того, чтобы Content Downloader парсил с обработкой информации после символа # в ссылках, в окне настроек HTTP-запросов программы (ctrl+h) включите библиотеку “Internet Explorer (DOM)”.

Второй вариант – определить с помощью плагина LiveHTTPHeaders (для Firefox), откуда (с каких WEB-адресов) происходит подгрузка недостающих данных и на основе этого подобрать решение по их парсингу.

Рекомендации по заданию вопросов:
1) Постарайтесь максимально подробно изложить все детали вопроса (чтобы мы ясно понимали, что вы делаете/что требуется получить/какие именно функции используете и так далее…) и, вероятно, мы вам сразу дадим ответ без дальнейшей переписки с целью выяснения нюансов;
2) Для публикации макросов или HTML-кода используйте кнопку “code” над формой ввода текста комментария.

Учтите! В разделе FAQ задаются вопросы следующего вида:
– Есть ли в программе такая-то функция?
– Как можно реализовать подобный алгоритм действий?
– Почему при парсинге происходит то-то или то-то?
– …
Иными словами: Раздел FAQ предназначен для осуществления консультаций.

Другие вопросы, которые требуют от нас изучения/доработки ваших файлов проектов, изучения сайтов, продумывания новых или специфичных алгоритмов для парсинга определенных данных с указанных ресурсов (т.е. где требуется выполнить работу) решаются платно! Их решают специалисты по настройке в индивидуальном порядке! Как заказать услуги специалистов по настройке (клик).

Примечания:
1) Мы в праве отказать в предоставлении ответов на некоторые вопросы без пояснения причин!
2) Мы в праве удалять любые комментарии без пояснения причин!

С уважением к вам, администрация сайта.

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 7, средний балл: 4.43)
Loading...
Все опции закрыты.

Есть 2,085 коммент. к теме: “FAQ”

  1. Ната says:

    Здравствуйте. Я только изучаю парсер не могли бы Вы подсказать а парсит ли он желтые страницы и подобные сайты где есть информация о том или ином объекте (ах) с телефонами адресами и тд. и скартинками?
    Моно ли с его помощью парсить законы и всякую другую юридическую информацию?
    И можно ли парсить доски объявлений и вакансии по работе. Спасибо за ответ.

    • admin says:

      Здравствуйте.

      По вопросам парсинга определенных сайтов следует консультироваться со специалистами по настройке.

      Спасибо!

  2. Борис says:

    Добрый день!
    Последнее время провожу парсинг картинок и использую функцию [INT_ID].
    Все прекрасно работает, но вот небольшая, как по мне, проблема: с одной страницы выгружается альбом(название альбом-папка-подпапка-изображение_INT_ID)
    Хотелось бы узнать, возможно ли установить для данной функции ограничения, чтобы она не безостановочно считала, а сбрасывала значение в каждой новой папке?
    Весь код выглядит так: [DFN](CD_GRAN_4!)\(CD_GRAN_2!)_[INT_ID].png[/DFN](DOWNLOADFILE)[VALUE](/DOWNLOADFILE).

    Очень неудобно получается, когда первое изображение в папке имеет порядковый номер 40000 и более.

    • admin says:

      Здравствуйте.

      Не нужно использовать макрос [INT_ID], при совпадении имен, макрос DOWNLOADFILE сам переименует картинку!

      С уважением к вам, Сергей.

      • Борис says:

        Тогда не сохраняется очередность, а это важно. Могу я Вам на почту проект скинуть, чтобы вы увидели, что там без очередности никуда?:-)

        • admin says:

          Нет, проекты изучать желания нет.

          На данный момент не вижу других вариантов, кроме как, парсить в 1 поток (в этом случае порядок “нумерации” “сбиваться” не будет).

          • Борис says:

            Собственно именно так я и делаю.
            Можно ли в шаблон вывода или в настройках указать, чтобы он прерывал парсинг после каждой ссылки и начинал по новой?

          • admin says:

            Нет. Зачем это?

          • Борис says:

            Для того, чтобы в каждой папке они шли от одного и до максимума. Для дальнейшей обработки файлов это очень полезно.

          • Борис says:

            О, а возможно, чтобы счет шел не с единицы, а, например, со ста тысяч или миллиона, например?
            (100001-100002-…-104502-…-n)

          • admin says:

            Возможно.

            В программе: главное меню – настройка – настройка макросов – DOWNLOADFILE -> опция “стартовое значение числовой добавки для переименования файлов”.

            PS: Программа должна быть актуальной версии.

            С уважением к вам, Сергей.

          • Борис says:

            Спасибо! Именно то, что мне было нужно!:-)

          • admin says:

            Пожалуйста.

  3. Вячеслав says:

    Добрый день! Приобретал программу для парсинга сайта parts_amacoint_com

    Все делаю по инструкции, однако на этапе сканирования сайта в очередь поиска добавляется не более 500 ссылок, хотя знаю что их далеко за сто тысяч.

    Никаких фильтров не ставил. В чем причина, почему парсер работает некорректно?

    • admin says:

      Здравствуйте.

      Спасибо!

      Программа работает корректно! Просто нужно выполнить соответствующие настройки ввиду специфики работы этого сайта.

      На данном сайте ссылки на товары и каталоги(?) подгружаются скриптами при выполнении WEB-документа.

      Программа ПО УМОЛЧАНИЮ работает с обычными GET-запросами (при этом WEB-скрипты не выполняются, просто от сайта на GET-запрос приходит код WEB-документа в оригинальном виде).

      Для парсинга ссылок из этого сайта с обработкой WEB-скриптов необходимо включить библиотеку “Internet Explorer (DOM)” в окне ctrl+h.

      С уважением к вам, Сергей.

      • Вячеслав says:

        А я уже зарядился на борьбу 🙂

        Спасибо за оперативность и за то, что Вы делаете.

        Все работает! Спасибо еще раз.

        • admin says:

          Пожалуйста.

          Также рекомендую ознакомиться с этим материалом http://sbfactory.ru/cd/?p=2787 (при правильной настройке ускорится процесс парсинга и исключатся возможные пропуски парсинга некоторых ссылок).

          • Вячеслав says:

            Добрый день, и снова проблема с этим же ресурсом. Выгружает только 59000 ссылок, хотя знаю что там товаров только 300000.

            Пробовал убрать абсолютно все фильтры, парсил весь сайт от корки до корки – цифра не меняется, 59000 и все.

            Почему такое может быть?

            Пробовал программу на других ресурсах – все работает идеально.

  4. Loginov says:

    есть ли возможность в программе, если граница пустая то вместо нее берется другая граница?

    там вроде только другой шаблон вставляется… т.е. тот же шаблон но с другой границей одной?

  5. Петр says:

    Добрый вечер.
    Вроде бы где-то видел на сайте инструкцию, как работать с парсингом веб-каталогов, которые требуют залогинивания, но сейчас не могу найти. Можете напомнить / сбросить ссылку?

  6. Alex says:

    Добрый день, Сергей!
    Есть ли макрос преобразующий дату и время формата Unix timestamp?
    Пример этого формата в коде страницы:

  7. alex says:

    Здравствуйте, мне надо дату в шаблоне выставлять в определенном интервале например с 10.10.2016 по 05.05.2017 а сечас у меня стоит одна дата прописана, как это сделать?

    сечас вот так

    [DUPIGNORE][INT_ID][CSVCS]1[CSVCS]2016-01-10 [CD_DATE_HH]:[CD_DATE_NN]:[CD_DATE_SS][CSVCS]2016-01-10 [CD_DATE_HH]:[CD_DATE_NN]:[CD_DATE_SS][CSVCS]

  8. Александр says:

    Здравствуйте. Подскажите пожалуйста, если я через php скрипт, подключенный к программе, импортирую статьи с других сайтов в mysql, то как настроить загрузку изображений из этих статей на фтп, чтобы они оставались на тех же местах, т.е. как это происходит при просмотре парсинга с самой программы без php скрипта.

    Сейчас даже при просмотре в программе, если статья загрузилась через php скрипт, допустим переведена, то картинки тне грузятся даже на диск…

    • admin says:

      Здравствуйте.

      Опция загрузки скачанных картинок на FTP есть в окне дополнительных параметров загрузки изображений (ctrl+9). Также опция загрузки скачанных файлов на FTP есть у макроса DOWNLOADFILE (shift+ctrl+l).

      Вопрос по поводу загрузки картинок со статей после их перевода задайте на форуме.

  9. Алексей says:

    Здравствуйте, подскажите как загрузить код этой странички, без wb app ?

  10. Владимир says:

    Собственно заметил следующую интересную тенденцию.
    Использую ряд прокси для сбора информации с сайтов входящих в группу Indetex
    Через определенный промежуток времени IP с которого происходит сбор информации блокируют.
    При этом если в IE прописать любой из прокси то сканирование продолжается. Отсюда делаю вывод что модуль с прокси скорее всего работает некорректно, либо я делаю что то не так.

  11. Alex says:

    Здравствуйте, очень ждал ответа с 30 ноября. Нужен макрос (если есть такой), чтобы конвертировал дату-время из формата Unixtime в привычный формат DD.MM.YYYY HH-mm. Если нет, то не могли бы Вы такой макрос сделать? Спасибо!

    • admin says:

      Здравствуйте.

      Нет, такого макроса нет и его делать не собираемся (зачем его вводить, если он навряд ли кому-то еще понадобится). В таких случаях пользуйтесь макросом PHP_SCRIPT http://sbfactory.ru/cd/?p=186 В PHP есть функции для декодирования Unix TimeStamp.

    • admin says:

      Скачайте и установите доработанную версию программы (в программе: главное меню – файл – центр обновлений -> кнопка “обновить через сайт”).