Преобразование html кода в текст, удаление лишних тегов


Предназначение:

Функция htm to txt используется для чистки загружаемых web-документов от лишних html тегов, ява скриптов, стилей css. Настроив ее определенным образом, можно оставить только нужные теги, а остальные удалить. Например, оставить в коде только теги изображений, заголовков и абзацев. Это очень удобно и сильно упрощает работу.


Включение и настройка функции:

скриншот 1

Content Downloader

скриншот 2

Content Downloader

PS: Функция также может вызываться в “обработка и импорт в КМС” – “массовая обработка файлов” – вкладка “htm to txt”. Еще один способ – правый клик по редактору кода в “обработка и импорт в КМС” – “преобразовать html в текст”.


Простой пример работы функции:

Было (настройки и список неудаляемых тегов такие же, как и на скриншоте 2):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
<script>
   код скрипта
   код скрипта
   код скрипта
   код скрипта
</script>
<style>
   код стиля
   код стиля
   код стиля
</style>
<body>
   <table>
      <tr>
         <td>
            <h1>Заголовок статьи</h1>
            <img>
            <p>текст статьи</p>
            <Google ads>
            <p>текст статьи</p>
         </td>
      </tr>
   </table>
</body>

Стало:

1
2
3
4
<h1>Заголовок статьи</h1>
<img>
<p>текст статьи</p>
<p>текст статьи</p>
1 Star2 Stars3 Stars4 Stars5 Stars (оценок: 9, средний балл: 5.00)
Loading...
Автор: admin, 23 October 2010
Рубрики: Функции обработки
Tags:
Есть 10 коммент. к сообщению: “Преобразование html кода в текст, удаление лишних тегов”
  1. Oleg says:

    Это было понятно и в старой версии а вот как сейчас сделать это? Сталкнулся с проблемой что парсит текст и если в тексте есть внешние ссылки то и он их тоже парсить ну а мне нужент только один чистый текст + картинки! Обновите информацию!) Я был бы вам очень признателен!

  2. Anonymous says:

    8.) Преобразование html-кода в текст ([HTMTOTXT:][/HTMTOTXT]):
    Удаление всех тегов, кроме указанных

    1
    [HTMTOTXT:a,br,p]текст, в котором надо удалить теги[/HTMTOTXT]
    где a,br,p — теги, которые надо оставить в «текст, в котором надо удалить теги» (теги указываются через запятую, без пробелов, без скобок)

    Важно: при удалении тегов типа p (абзац), функция может вставлять переносы строк. Чтобы избежать появления таких переносов строк, смените расширение сохраняемого документа на CSV (вкладка «контент» — группа «общее»)!

  3. Потап says:

    Здравствуйте, подскажите а как сейчас
    При создании файла импорта в заголовке прописывается название статьи article_ и тд, подскажите, как или где отметить чтобы прописывалось название файла по названию статьи?

  4. Потап says:

    спасибо Сергей, буду пробовать

  5. Потап says:

    подскажите, а где прописывать [DOCNAME]777\1234567.txt[/DOCNAME]

  6. Потап says:

    вопрос решил – макросы!

Написать комментарий

Последние статьи

css.php