FAQ

FAQ

Здравствуйте!
WEB-страница доступна только для чтения! Если у вас есть какие-либо вопросы, можете задавать их на форуме http://forum.sbfactory.ru/
Спасибо!

Работа с границами парсинга
Повторяющиеся границы парсинга:

Для добавления определенного текста или кода в начало и/или конец текста каждого цикла повторяющейся границы парсинга нажмите ctrl+5 и вставьте добавляемый текст или код перед/после [VALUE] (оператор [VALUE] выводит значения циклов повторяющейся границы парсинга).

1
2
3
<DOWNLOADFILE>[VALUE]</DOWNLOADFILE> - для загрузки картинок или файлов
<NIMG>[VALUE]</NIMG> - для загрузки картинок (когда нужно оставить только имя файла картинки)
<img src="[VALUE]"> - для загрузки картинок (когда нужно оставить имя файла картинки с HTML-тегом img)
Активация и перенос программы
Активация:

Активировать каждый ключ можно только на одном компьютере.

При активации программы каждый ключ привязывается к отдельному e-mail. Например, для активации двух ключей, вам потребуется использовать два различных e-mail адреса.

Если вы при активации испытываете какие-либо проблемы (программа не может связаться с сервером активации), убедитесь, что с вашего компьютера доступен сайт http://ContentDownloader.ru
Также учтите, что запросы программы могут блокировать:
– Антивирусы
– Брандмауэры
– Firewall
Проблемы при активации, вызванные сторонним ПО, решаются на стороне пользователя (так как мы не несем ответственности за дополнительное программное обеспечение, которое он устанавливает).

Перенос программы с одного компьютера на другой:

Переносить программу с одного ПК на другой можно 1 раз в двое суток.

Для переноса программы на другой ПК или OS, активируйте ее на новом оборудовании обычным способом (так же, как и на первом ПК, методом ввода вашего кода активации и e-mail адреса). Чтобы посмотреть, какой ключ и e-mail используется в активированной копии программы, зайдите в главное меню -> справка -> о программе.

После выполнения процедуры переноса, программа будет деактивирована на старом ПК (если требуется использовать программу на двух компьютерах одновременно, обратите внимание на специальное предложение по приобретению дополнительного ключа).

Переименование/задание имен для изображений, файлов, документов при парсинге контента (с возможностью транслитизации)
Для задания имен файлов сохраняемых документов с контентом, используйте макрос шаблона вывода [DOCNAME]

Для задания имен файлов скачиваемых картинок, используйте макрос шаблона вывода [IMAGESNAMES].
Для задания папки сохранения скачиваемых картинок, используйте макрос шаблона вывода [IMAGESPATH].

Для присвоения имен и директорий сохранения файлам и картинкам, скачиваемым макросом DOWNLOADFILE, используйте макрос [DFN]

Вывод в результат парсинга контента некоторых данных
Для вывода ссылки, с которой парсится каждый документ, используйте макрос шаблона вывода <CD_DOCURL!>

Для вывода всего кода загружаемого WEB-документа используйте макрос шаблона вывода [DOCSOURCE]

Решение проблем с кодировками загружаемых WEB-документов и текстом интерфейса программы
Если при задании границ парсинга код WEB-страницы отображается корректно, а при парсинге в результате исчезают/заменяются символы юникода, поставьте кодировку сохраняемого документа UTF-8 без BOM!

2016-05-23_23-02-13


ЕСЛИ У ВАС ПРОБЛЕМА С ОТОБРАЖЕНИЕМ ТЕКСТА ИНТЕРФЕЙСА ПРИ УСТАНОВКЕ ПРОГРАММЫ, ОБРАТИТЕ ВНИМАНИЕ НА ЭТОТ ВАРИАНТ ЕЕ РЕШЕНИЯ!

Решение вопросов с загрузкой кода WEB-документов
Если в ссылке содержится символ #, то все, что после него стоит, игнорируется в обычном GET-запросе, с которым по умолчанию работает программа. Символ решетки в ссылке (и последующие после него данные) нужен для передачи информации WEB-браузеру (который посылает дополнительные GET или POST-запросы для подгрузки WEB-контента).

Для того, чтобы Content Downloader парсил с обработкой информации после символа # в ссылках, в окне настроек HTTP-запросов программы (ctrl+h) включите библиотеку “Internet Explorer (DOM)”.

Второй вариант – определить с помощью плагина LiveHTTPHeaders (для Firefox), откуда (с каких WEB-адресов) происходит подгрузка недостающих данных и на основе этого подобрать решение по их парсингу.

Рекомендации по заданию вопросов:
1) Постарайтесь максимально подробно изложить все детали вопроса (чтобы мы ясно понимали, что вы делаете/что требуется получить/какие именно функции используете и так далее…) и, вероятно, мы вам сразу дадим ответ без дальнейшей переписки с целью выяснения нюансов;
2) Для публикации макросов или HTML-кода используйте кнопку “code” над формой ввода текста комментария.

Учтите! В разделе FAQ задаются вопросы следующего вида:
– Есть ли в программе такая-то функция?
– Как можно реализовать подобный алгоритм действий?
– Почему при парсинге происходит то-то или то-то?
– …
Иными словами: Раздел FAQ предназначен для осуществления консультаций.

Другие вопросы, которые требуют от нас изучения/доработки ваших файлов проектов, изучения сайтов, продумывания новых или специфичных алгоритмов для парсинга определенных данных с указанных ресурсов (т.е. где требуется выполнить работу) решаются платно! Их решают специалисты по настройке в индивидуальном порядке! Как заказать услуги специалистов по настройке (клик).

Примечания:
1) Мы в праве отказать в предоставлении ответов на некоторые вопросы без пояснения причин!
2) Мы в праве удалять любые комментарии без пояснения причин!

С уважением к вам, администрация сайта.

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 7, средний балл: 4.43)
Loading...
Все опции закрыты.
Есть 2,085 коммент. к теме: “FAQ”
  1. Степан says:

    Добрый день.
    Как с помощью WEBApp выполнить событие при условии наличия на странице определенного текста?

    • admin says:

      Здравствуйте.

      Такой функции пока нет. Ваш комментарий учли.

      Спасибо!

    • admin says:

      Здравствуйте еще раз!

      Вот добавили функционал:

      Content Downloader X1 версии 11.1.0000015 (28.10.2016)

      – Несколько доработок.

      [IFDOCHAS]:любой текст
      События внутри [IFDOCHAS]…[/IFDOCHAS] выполнятся, если “любой текст” содержится в текущем коде WEB-документа (для обозначения переносов строк в “любой текст” используйте оператор {br})
      Например, вот внутренние события:
      [SCROLLDOWN]
      [WAIT]:2000
      [/IFDOCHAS]

      [IFDOCHASNOT]:любой текст
      События внутри [IFDOCHASNOT]…[/IFDOCHASNOT] выполнятся, если “любой текст” НЕ содержится в текущем коде WEB-документа (для обозначения переносов строк в “любой текст” используйте оператор {br})
      Например, вот внутренние события:
      [SCROLLDOWN]
      [WAIT]:2000
      [/IFDOCHASNOT]

      С уважением.

      • Станислав says:

        вобще не плохой макрос но лучше бы просто условное форматирование сделал if else тогда бы больше функциональности добавилось бы макросам ожидания элемента

  2. Евгений says:

    Здравствуйте.
    Подскажите, прокси-серверы используются только при парсинге?
    Никак не могу собрать ссылки с сайта. По всей видимости забанен.
    На сайт через браузер войти также не получается. А включая прокси в браузере – проблем нет, страницы открываются.
    Добавление адресов прокси в CD при сканировании сайта не помогает.
    Как можно собрать ссылки?
    Спасибо.

    • admin says:

      Здравствуйте.

      Прокси сервера используются и при сборе ссылок (если поставлены соответствующие галочки в окне ctrl+r).

      С уважением к вам, Сергей.

  3. антон says:

    подскажите как get запрос сделать, программа отправляет пост запрос, а нужен гет.

  4. Петр says:

    Добрый день. Вопрос по WBApp.
    В помощи написано: “Напоминаем, что парсить через WBApp можно с любым типом лицензии, но использование списка событий WBApp возможно только с типом лицензии ULTIMATE! Обладатели менее продвинутых версий могут протестировать WBApp в полной мере (в режиме настройки WBApp)”. Смотрю обучающее видео, там при нажатии на кнопку выводятся настройки плюс окно с самой веб-страницей. А уменя только настройки.
    Я что-то делаю неправильно или это из-за того как раз, что у меня не Ультимейт версия?

    • admin says:

      Здравствуйте.

      Смотрю обучающее видео, там при нажатии на кнопку выводятся настройки плюс окно с самой веб-страницей. А уменя только настройки.

      Мне непонятно, о какой кнопке идет речь. Также непонятно, куда у вас делось окно с WEB-страницей (и что именно за окно).

      С уважением к вам, Сергей.

  5. Вера says:

    Добрый день.
    Наверняка, сеть видео урок, где рассказывается как парсить вот такие mik-ns ru/catalog/ магазины. Дайте, пжл., ссылочку.

  6. Loginov says:

    как при парсинге в csv у картинок менять расширение, с png на jpg например?

    • admin says:

      Здравствуйте.

      Форматы png и jpg имеют разные алгоритмы сжатия и банальная смена расширения в имени файла будет некорректным решением. Нужно переконвертировать сам файл (а не его название).

      “Функции переконвертации” форматов изображений в программе, на данный момент, нет.

      Как вариант, замените расширения в именах файлов макросом шаблона вывода [REPLACE] (чтобы картинки с новыми расширениями сохранились в CSV). А после парсинга изображения на диске можно будет обработать каким-нибудь подходящим конвертером.

      С уважением к вам, Сергей.

  7. валерон says:

    добрый день, подскажите как вставлять определенное слово при парсинге в рандомное место в предложении.
    напр текст:
    “маленький ежик по травке скочит мокрая травка щекотит.”
    нужно вставить слово “пупочек” в рандомное место в предложении
    “маленький ежиг по травке письку скочит мокрая травка щекотит.”
    допустим вставлять “пупочек” нужно 2-3 раза в спаршеном тексте.
    с уважением, валера.

    • admin says:

      Здравствуйте.

      Используйте макрос шаблона вывода [ADDKEYS].

      С уважением к вам, Сергей.

  8. валерон says:

    подскажите как осуществить
    -паршу форум, нужно отсеять комментарии в которых меньше (например 400) символов, я задаю потвторяющиеся границы и как сделать фильтр в них по колву символов.
    -парсинг на определеное включения слова/групп слов(при использовании повторяющихся границ), если есть слово – парсит топик, нет – не парсит
    спасибо

    • admin says:

      Здравствуйте.

      Используйте для этого следующую конструкцию макросов шаблона вывода:
      [CHECKENTRY2(слово)][MINLENGTH:400][VALUE][/MINLENGTH][/CHECKENTRY2]
      С уважением к вам, Сергей.

  9. Виктор says:

    Добрый день,
    очередной раз спасибо автору программы, вопрос у меня как технический так и идейный.
    Ума не приложу как лучше спарсить подобное alesyamebel_ru/catalog/gostinye/berlin_1/ и mfdiana_ru/detskie-2/detskaya-nemo

    Карточки -то без вопросов, а тут видно, что еще представлен модельный ряд (сами карточки) и их вложенность в общую.

    3ий день думаю, не могу придти к общему знаменателю, может подскажет кто в каком направлении пойти можно ? Чтобы максимально автоматизировать процесс парсинга, и дальнейшего импорта.

    Заранее благодарю,
    Виктор

  10. Loginov says:

    а DYNAMICVALUES не работает с обычными границами парсинга?
    т.е. парсинг в csv как обычно, там категории название товара и плюс DYNAMICVALUES

  11. Игорь says:

    Подскажите, пожалуйста, как можно сохранить url спарсеной страницы в одной строке с другими данными; как спарсить данные по товару вместе с названием категории/подкатегорий, в которых он находится?

    • admin says:

      Здравствуйте.

      1) Прочтите “Вывод в результат парсинга контента некоторых данных” (в начале этого поста)
      2) Задайте границы парсинга для категорий и подкатегорий и вставьте их в нужное место шаблона вывода http://sbfactory.ru/cd/

      С уважением к вам, Сергей.

  12. Loginov says:

    с локального компа не парсит прога? у меня пишет ошибку
    Программе не удалось загрузить WEB-страницу (Socket Error # 11001 Host not found)

    • admin says:

      Здравствуйте.

      Парсит. Как файлы добавляете к парсингу? Что именно добавляете?

      • Loginov says:

        файл html загружаю в браузер с диска и беру этот путь в строке
        file:///C:/Downloads/96.html

  13. Павел says:

    Не совсем по парсеру, но, где бы тыкнуть галочку чтоб Windows, не уходила в сон при работе парсера?

    • admin says:

      Здравствуйте.

      В программе такой опции нет, настройте Windows (смотрите скриншот).

      С уважением к вам, Сергей.

  14. Wladimir says:

    Добрый день! Пользуюсь макросом [EXTRACTPHONES]
    со страниц дергает странные числа, которые я даже в коде найти не могу. Как с этим быть? Есть ли какое решение?
    Пример:
    vietpepper_com_vn/vietnam-black-pepper/#contactdetailrow

    [EXTRACTPHONES][DOCSOURCE][/EXTRACTPHONES] выводит
    82052209934
    81231934160
    81801594933
    89999001106

    Спасибо

    • admin says:

      Здравствуйте.

      Цифры такие в коде есть.

      Макрос использует простые алгоритмы вычисления номеров телефонов. Чтобы его сделать “всеядным” потребуется много времени. Сейчас пока это реализовать не удалось.

      С уважением к вам, Сергей.

      • Wladimir says:

        Понимаю – все лучше, чем ничего) и за это спасибо!
        Еще предложение по этим макросам – нельзя ли ввести кастомный разделитель? В csv иногда неудобно очень пользоваться результатами с переносом строки между результатами. Это же касается GETURLSBYANCHORS – было бы здорово.
        И вопрос – сейчас при поиске телефона получается макрос подставляет впереди восьмерку?

        • admin says:

          Пожалуйста.

          Да, восьмерка подставляется автоматически (не очень хорошая идея была по поводу этого, но для российских номеров подходило). Если надо, макрос доработаем, как дойдет до него дело!

          Замену разделителя на любой другой можно осуществить макросом [REPLACE] (заменить переносы строки: {br}|другой_разделитель).

          С уважением к вам, Сергей.

  15. Loginov says:

    паршу в CSV магаз, и почему то не все страницы парсит, хотя при открытии в программе ctrl+f2 все поля подгружаются этих страниц.
    т.е. происходит как бы проскальзывание ссылок некоторых
    паршу в 1 поток 4 сек задержка

    ставил “приостановить если бан” потом по пустоте границы напр. категории.
    и все равно пропускает некоторые страницы

    • Loginov says:

      може программа не успевает загрузить страницу и происходит переход на следующую?

      • Loginov says:

        скорей так оно и есть, что программа не успевает загрузить документ и через 4 секунды берет следующий

        разве в программе не предусмотрено чтобы документ полностью загружался?

      • admin says:

        Здравствуйте.

        Парсите с использованием библиотеки Inrernet Explorer (DOM) (ctrl+h)?

  16. Loginov says:

    лог

    • Loginov says:

      номера строк
      1
      4
      5
      6
      8
      9
      10

      т.е. 2,3,7 ссылки пропустил, в файле csv их нет

      • admin says:

        Вышлите проект на почту sbfroot@gmail.com
        Вы случайно CSV не открываете во время парсинга?

        • Loginov says:

          да, открываю, во время парсинга

          • admin says:

            После парсинга открывайте! Если вы открываете файл, например в Excel, запись в него блокируется! Не открывайте файл во время парсинга!!!

  17. alex says:

    Здравствуйте!
    Подскажите как избежать замену буквы u с двумя точками над ней (и т.п.) на ü

    • alex says:

      Вернее буквы ü наü

      • alex says:

        Вобщем такие буквы подменяются несколькими символами

        • admin says:

          Здравствуйте. Они не подменяются программой, они представлены сайтом в таком виде. Ознакомьтесь с основами HTML, если интересно.

          • alex says:

            Хорошо, спасибо, почитаю об этом. =)
            Но какие инструменты есть в программе или может быть есть макросы, обрабатывающие такие “закодированные” буквы. При парсинге ссылок, у меня получаются абсолютно не рабочие ссылки, если в них попадаются эти буквы.

        • admin says:

          Если парсите во вкладке “Ссылки”, воспользуйтесь соответствующей функцией поиск-замены для преобразования таких дел (смотрите прикрепленный скриншот).

          Если парсите во вкладке “Контент”, воспользуйтесь макросом шаблона вывода [HTMLDECODE]…[/HTMLDECODE].

          С уважением к вам, Сергей.

  18. Игорь says:

    Здравствуйте, у меня такой вопрос: как собрать ссылки только вида адрес/ddddd, где ddddd – это цифры, остальные не нужны. Я так понимаю, нужно в фильтре ссылок задать шаблон для цифр, но не знаю как. Спасибо

    • admin says:

      здравствуйте.

      Используйте регулярные выражения в фильтрах ссылок (http://sbfactory.ru/cd/?p=2332)

      1
      
      re:адрес/[0-9]+?$

      С уважением к вам, Сергей.

  19. Владимир says:

    Добрый день, подскажите можно ли при Парсинге картинок задовить им другой размер и наносить надписи на изображение, например название товара?

    • admin says:

      Здравствуйте.

      Средствами программы пока это сделать нельзя.

      С уважением к вам, Сергей.

  20. Loginov says:

    можно ли к скачиваемым картинкам добавлять типа префикса не затрагивая названия картинок
    т.е.

    паршу в csv, в одной из ячеек код хтмл и там картинки

    и чтоб было так
    в коде на сайте допустим
    name.jpg
    name2.jpg

    а программа должна брать

    prefix_name.jpg
    prefix_name2.jpg

    • admin says:

      Здравствуйте.

      С помощью макроса [DFN] можно задать любые имена для файлов, скачиваемых с помощью <DOWNLOADFILE>.

      http://sbfactory.ru/cd/?p=1070

      С уважением к вам, Сергей.