Шаблон вывода


Предназначение:

Шаблон вывода используется в тех случаях, когда необходимо изменить порядок вывода границ парсинга (читать про границы парсинга), вставить любой произвольный текст/код в сохраняемые документы и так далее. Также шаблон вывода необходимо использовать для сохранения контента в формат CSV (читать про вывод контента в CSV формат).


Как вызывется редактор шаблона вывода:

Content Downloader - шаблон вывода

Редактор шаблона вывода вызывается нажатием кнопки “редактировать шаблон вывода” (вкладка контент).


Включение шаблона вывода:
Чтобы задействовать шаблон вывода, необходимо переключиться на “парсить заданные части документа” (смотрите верхний рисунок), задать хотябы одну границу парсинга (читать про границы парсинга), и поставить галочку на “использовать шаблон вывода” (смотрите верхний рисунок).


Редактирование шаблона вывода:

Content Downloader - шаблон вывода

Код шаблона вывода располагается в окне a. Шаблон вывода редактируется с клавиатуры (как в блокноте). Для более удобной вставки макросов пользуйтесь кнопками, расположенными над окном a.

Каждый макрос (CD_HEADER!, CD_GRAN1! и так далее) соответствует определенной границе парсинга (читать про границы парсинга). Помимо макросов, код шаблона вывода может содержать любой текст!

Если задействовать шаблон вывода, все загружаемые web-документы будут иметь структуру, основанную на заданном шаблоне.
Например, вам нужно создать базу для онлайн-магазина в csv формате (читать про вывод контента в CSV формат). Пусть каждый товар (который располагается на загружаемом сайте) имеет следующие параметры: вес, длину и диаметр. Задайте границу парсинга с названием товара (CD_GRAN1!), границу с параметром вес (CD_GRAN2!), границу с параметром длина (CD_GRAN3!), границу с параметром диаметр (CD_GRAN4!).

Поставьте галочку на “в один файл” (чтобы данные из каждого загружаемого документа добавлялись на новую строку сохраняемого файла), задайте расширение сохраняемого документа – “csv” (смотрите верхний рисунок).

Затем включите шаблон вывода и задайте его код следующим образом:

1
<CD_GRAN_1!>;<CD_GRAN_2!>;<CD_GRAN_3!>;<CD_GRAN_4!>

Тогда, после парсинга, скажем, пяти страниц с товарами, загруженные данные будут иметь примерно такой вид:

1
2
3
4
5
Медный прут;50 кг;5 м;0,05 м
Латунный прут;50 кг;5 м;0,05 м
Стальной прут;70 кг;6 м;0,04 м
Дюралевый прут;30 кг;4 м;0,07 м
Прут из нерзавеющей стали;50 кг;5 м;0,05 м



Пример использования:

Цель – спарсить названия и цены товаров, сохранить данные в csv файл с использованием шаблона вывода.

1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 2, средний балл: 5.00)
Loading...
Автор: admin, 11 October 2010
Рубрики: Парсинг
Tags: , ,
Есть 14 коммент. к сообщению: “Шаблон вывода”
  1. k1nop says:

    Подскажите, пожалуйста, каким образом можно сделать автоинкримент? К примеру, добавим ID спарсенной записи:

    1;Медный прут;50 кг;5 м;0,05 м
    2;Латунный прут;50 кг;5 м;0,05 м
    3;Стальной прут;70 кг;6 м;0,04 м
    4;Дюралевый прут;30 кг;4 м;0,07 м
    5;Прут из нерзавеющей стали;50 кг;5 м;0,05 мМе

  2. Admin says:

    Подключить файл с диска, в котором на каждой строке нужное число.

  3. Admin says:

    Если надо по порядку, количество потоков следует выставить – 1.

  4. k1nop says:

    Благодарю! В обучающем ролике увидел как это можно сделать.

  5. Как вставить ссылку a href в шаблон вывода?
    Они почемуто удаляются

    • admin says:

      Вкладка контент, кнопка дополнительно. Там снять галочку с “удалять теги ссылок”.

  6. И вообще очень не хватает поиск-замена + по регвыру

  7. Againito says:

    в коменте пропал тег -хедер-
    Здравствуйте. Никак не удается сохранить первую строчку при сохранении спарсенного контента в разные папки. Программа забирает её для названия папки и не позволяет повторно сохранить в документе, как границу вывода, если не активизировать -хедер- . Если вставить -хедер- программа сохраняет одну границу хоть 5 раз, но не делает папок с “правильным именем”. Есть какое-нибудь решение позволяющее сохранить первую строчку в документе и добиться правильного названия файла?
    Спасибо.

  8. Глеб says:

    Хай! Как сделать так, чтобы в шаблоне вывода сохранялся УРЛ каждой страницы, с которой происходит парсинг. Пример:

    Спс!

    • admin says:

      Здравствуйте, используйте макрос шаблона вывода <CD_DOCURL!>

  9. Илья says:

    Программа отличная. Но не могу никак разобраться с категориями. Вот надо чтобы статьи были по категориями так как были на доноре
    Пример:Донор- 1категория(статьи),2категория(статьи),3категория(статьи)…
    После парсинга:
    1категория(статьи)
    2категория(статьи)
    3категория(статьи)
    Можно чтобы статьи были в разных папках с названием категории, или хотя б так:
    Файл с названием категории и после него сами статьи. Пример
    ford.html
    1 статья
    2 статья
    ….
    opel
    1 статья
    2 статья
    ….

Написать комментарий

Последние статьи

css.php