Как парсить контент в CSV файлы (также про автозамену переносов строк и символов ; (точки с запятой) при парсинге в CSV)


Структура csv файла:

Для разделения ячеек в csv файлах используется символ “;”. Каждая новая строка в файле создает каждый новый ряд ячеек.
Например, чтобы получить таблицу такого плана:

Content Downloader - csv

Необходимо задать примерно такой шаблон вывода:

1
<CD_GRAN_1!>;<CD_GRAN_2!>;<CD_GRAN_3!>

Код (текст) этого файла выглядит так:

1
2
Стекло;100;57
Сталь;400;353



Использование шаблона вывода для сохранения данных в csv формат:

Например, вам нужно создать базу для онлайн-магазина в csv формате. Пусть каждый товар (который располагается на загружаемом сайте) имеет следующие параметры: вес, длину и диаметр. Задайте границу парсинга (читать про границы парсинга) с названием товара (CD_GRAN1!), границу с параметром вес (CD_GRAN2!), границу с параметром длина (CD_GRAN3!), границу с параметром диаметр (CD_GRAN4!).

Поставьте галочку на “в один файл” (вкладка “контент” – группа “общее”) (чтобы данные из каждого загружаемого документа добавлялись на новую строку сохраняемого файла), задайте расширение сохраняемого документа – “csv” (вкладка “контент” – группа “общее”).

Затем отредактируйте шаблон вывода следующим образом (кнопка “редактировать шаблон вывода на панели инструментов):

1
<CD_GRAN_1!>;<CD_GRAN_2!>;<CD_GRAN_3!>;<CD_GRAN_4!>

Тогда, после парсинга, скажем, пяти страниц с товарами, загруженные данные будут иметь примерно такой вид:

1
2
3
4
5
Медный прут;50 кг;5 м;0,05 м
Латунный прут;50 кг;5 м;0,05 м
Стальной прут;70 кг;6 м;0,04 м
Дюралевый прут;30 кг;4 м;0,07 м
Прут из нержавеющей стали;50 кг;5 м;0,05 м



Автозамена символов переносов строк и ; (точки с запятой) при парсинге в CSV:

При парсинге в CSV производится удаление всех переносов строк и автозамена символа “;” на символ “-” (по умолчанию). Чтобы отключить или настроить эти функции нажмите на графическую кнопку “настроить функцию преобразования текста в одну строку” (вкладка “контент” – группа “общее” – правее чекбокса (галочки) “в одну строку).

Стоит отметить, что при парсинге в CSV символы переносов строк из <CD_CYCLE_GRAN_1!>, <CD_CYCLE_GRAN_2!>, <CD_CYCLE_GRAN_3!>, <CD_CYCLE_GRAN_4!>, <CD_CYCLE_GRAN_5!> удаляются, а из <CD_CYCLE_GRAN_ALL!> – нет!


1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 6, средний балл: 5.00)

Loading...
Автор: admin, 11 October 2010
Рубрики: Парсинг
Tags: ,
Есть 4 коммент. к сообщению: “Как парсить контент в CSV файлы (также про автозамену переносов строк и символов ; (точки с запятой) при парсинге в CSV)”
  1. Benjamin Coleman says:

    Не советую использовать ; – можно попасть со вхождениями в текст. Для себя много времени назад выбрал такие правила для csv:
    1. Разделитель – |
    2. Обязательно экранировать колонки в кавычки: “”|””

    И проблем будет меньше, проверено.

  2. Benjamin Coleman says:

    Вордпресс сьел код в предыдущем комменте:

    ""|""

  3. Андрей says:

    При парсинге html таблицы вместо знака пробела мне выводит в экселе такое &nbsp-
    как исправить ?

Написать комментарий

Последние статьи

css.php