Как парсить контент в CSV файлы (также про автозамену переносов строк и символов ; (точки с запятой) при парсинге в CSV)


Структура csv файла:

Для разделения ячеек в csv файлах используется символ «;». Каждая новая строка в файле создает каждый новый ряд ячеек.
Например, чтобы получить таблицу такого плана:

Content Downloader - csv

Необходимо задать примерно такой шаблон вывода:

1
<CD_GRAN_1!>;<CD_GRAN_2!>;<CD_GRAN_3!>

Код (текст) этого файла выглядит так:

1
2
Стекло;100;57
Сталь;400;353



Использование шаблона вывода для сохранения данных в csv формат:

Например, вам нужно создать базу для онлайн-магазина в csv формате. Пусть каждый товар (который располагается на загружаемом сайте) имеет следующие параметры: вес, длину и диаметр. Задайте границу парсинга (читать про границы парсинга) с названием товара (CD_GRAN1!), границу с параметром вес (CD_GRAN2!), границу с параметром длина (CD_GRAN3!), границу с параметром диаметр (CD_GRAN4!).

Поставьте галочку на «в один файл» (вкладка «контент» — группа «общее») (чтобы данные из каждого загружаемого документа добавлялись на новую строку сохраняемого файла), задайте расширение сохраняемого документа — «csv» (вкладка «контент» — группа «общее»).

Затем отредактируйте шаблон вывода следующим образом (кнопка «редактировать шаблон вывода на панели инструментов):

1
<CD_GRAN_1!>;<CD_GRAN_2!>;<CD_GRAN_3!>;<CD_GRAN_4!>

Тогда, после парсинга, скажем, пяти страниц с товарами, загруженные данные будут иметь примерно такой вид:

1
2
3
4
5
Медный прут;50 кг;5 м;0,05 м
Латунный прут;50 кг;5 м;0,05 м
Стальной прут;70 кг;6 м;0,04 м
Дюралевый прут;30 кг;4 м;0,07 м
Прут из нержавеющей стали;50 кг;5 м;0,05 м



Автозамена символов переносов строк и ; (точки с запятой) при парсинге в CSV:

При парсинге в CSV производится удаление всех переносов строк и автозамена символа «;» на символ «-» (по умолчанию). Чтобы отключить или настроить эти функции нажмите на графическую кнопку «настроить функцию преобразования текста в одну строку» (вкладка «контент» — группа «общее» — правее чекбокса (галочки) «в одну строку).

Стоит отметить, что при парсинге в CSV символы переносов строк из <CD_CYCLE_GRAN_1!>, <CD_CYCLE_GRAN_2!>, <CD_CYCLE_GRAN_3!>, <CD_CYCLE_GRAN_4!>, <CD_CYCLE_GRAN_5!> удаляются, а из <CD_CYCLE_GRAN_ALL!> — нет!


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 6, средний балл: 5,00)

Загрузка...
Автор: admin, 11 октября 2010
Рубрики: Парсинг
Метки: ,
4 комментария к сообщению: “Как парсить контент в CSV файлы (также про автозамену переносов строк и символов ; (точки с запятой) при парсинге в CSV)”
  1. Benjamin Coleman:

    Не советую использовать ; — можно попасть со вхождениями в текст. Для себя много времени назад выбрал такие правила для csv:
    1. Разделитель — |
    2. Обязательно экранировать колонки в кавычки: «»|»»

    И проблем будет меньше, проверено.

  2. Benjamin Coleman:

    Вордпресс сьел код в предыдущем комменте:

    ""|""

  3. Андрей:

    При парсинге html таблицы вместо знака пробела мне выводит в экселе такое &nbsp-
    как исправить ?

Написать комментарий

Вы должны войти чтобы добавить комментарий.

Последние статьи

css.php