TextoGEN – новое слово в генерации контента

TextoGEN – новое слово в генерации контента

Здравствуйте, дорогие друзья. Решил представить вам одну интересную программу для генерации контента – TextoGEN. В основе софта лежит наша новая технология, надеюсь, вы ее признаете, да и Яндекс тоже ;).

Суть в том, что программа сама строит совершенно уникальные тексты. Никакого “сырья” в виде статей для этого не требуется. Для построения текста программа использует свои базы. Пока их 11 штук (прилагательные, существительные, глаголы и прочее).

Текст генерируется по базе специальных шаблонов, которые вы сможете спокойно дополнять, редактировать и изменять.

Схема генерации довольна проста.

Программа из базы случайным образом выбирает один шаблон предложения, например: {when1}f1 {who2}f2 {glagol1}f1 {what1}f1..cat1, и на его основе строит предложение (когда, кто, действие, над чем происходит действие) . Выражение {when1}f1 указывает программе на то, что следует выборочно взять слово из базы when.txt соответствующее категории 1 (.cat1) и форме 1 (все записи в базах разбиты на категории, каждая категория может содержать в себе до 9 форм слов и выражений). При построении предложения по этому шаблону мы можем получить огромное количество вариантов:

В прошлую минуту архитекторы заштукатурили фасад здания.
На этой неделе хачики выкрасили офис.
В прошлом часу монтажники выкрасили офис.
На этой неделе плотники отремонтировали зал.
В прошлом месяце прорабы отремонтировали дом.
На этой неделе подсобные рабочие отделали гараж.
В этом часу Равшан и Джамшут выстроили гараж.
В прошлом году монтажники выстроили фасад здания.
На прошлой неделе отделочники отремонтировали склад.

И так далее…

TextoGEN

Прелесть в том, что даже маленькие базы слов и шаблонов предложений (размером, скажем, по 30 записей) могут дать огромное количество уникального контента. Эти базы легко редактируются и пополняются, можно постоянно создавать новые наборы баз с любой тематикой.

То, как Яндекс кушает эти статьи, я пока сказать не могу, мы недавно сделали тестовый сайт на этом контенте, ждем результатов индексации. Думаю, все пройдет успешно. Все предложения имеют правильную структуру и даже немного связаны между собой (категории шаблонов выбираются из базы по порядку: сначала выборочно из первой категории, потом из второй и так далее).

– пример текста из тестовых баз строительной тематики (около 100 000 символов + заголовки);
– базы слов и выражений;
– база шаблонов предложений.

Скорость генерации довольно высокая. За секунду программа может выдавать по одному мегабайту текста.

Продукт еще не поступил в продажу. Ориентировочная дата релиза (если все пройдет успешно и Яндексу понравится тестовый сайт) – 3 июля 2010 года.

Пока все, желаю вам удачи в делах.

Вы можете оставить комментарий, или поставить трэкбек со своего сайта.
Есть 28 коммент. к теме: “TextoGEN – новое слово в генерации контента”
  1. mik says:

    ждем результата…

  2. Yurik says:

    как давно тестовый ГС был запущен? В идеале должно пройти несколько апов, чтоб понять отношение яши к такому контенту.

  3. admin says:

    Три дня назад.

  4. admin says:

    Если этот контент в индекс залезет, то никаких проблем с геном быть не должно вообще. Тестовый сайт генерился с базами вдвое меньшими, чем приведенные тут.

    Если не залезет, все равно рано или поздно добьюсь положительного результата.

  5. admin says:

    Алгоритмы программы позволяют строить правильный, с точки зрения ПС текст. Сейчас все упирается в базы.

  6. flaming23 says:

    Еще зимой делал по этому алгоритму генератор на php с использованием морфологического движка, было сделано несколько сайтов, которые благополучно вылетели через месяц из Яндекса, хотя текст был морфологически правильным, генерился по шаблонам, так же как и у Вас, но но тем не менее все вылетело

  7. mafia_director says:

    Ваще неплохо. Я тут подумал даже о возможности применения в этой теме элементов генетического программирования с последующим прогоном полученных моделей по книгам.
    Таким образом можно значительно расширить количество шаблонов.

  8. admin says:

    flaming23, возможно вы не учли несколько факторов, присущих естественным текстам. Если вы использовали морфологический движек (хотя я даже точно не знаю что это такое и мне не стыдно ;)), то скорее всего ваши тексты фильтровались по несовпадению словоформ, уверен, они встречались. В моем же генераторе, при правильном составлении шаблонов, факт нарушения состыковки слов невозможен. Генерировать индексируемые статьи вполне реально! Просто, надо не опускать руки и идти до конца.

    mafia_director, я думаю это лишнее. Вполне хватит и сотни шаблонов.

  9. flaming23 says:

    admin, может Вы и правы, посмотрим на результат работы Вашей проги

  10. admin says:

    Да, но вопрос в том, с какой попытки получится сделать “невылетаемый” текст ;).

  11. Степан says:

    admin, а когда все таки будет релиз, уже 6 июля?((

  12. mik says:

    ну как в индекс защел текст?

  13. admin says:

    Затягивается релиз, еще саты в индекс не попали…

  14. alekzey says:

    А какова планируемая стоимость?

  15. Yurik says:

    Брал у автора сгенерированный текст для теста. Сатик после апа в индекс не влез. Но пока рано говорить о отношении ПС к такому тексту, т.к. на двух СДЛ новые страницы также не влезли в индекс, да и беки особо не прибавились. Будем ждать следующего апа. Думаю что вскоре можно будет дать четкую оценку такому контенту.

  16. Yurik says:

    Дополню 😉 Тестовый ГС влез тремя страницами сегодня в гуглю. Наблюдая за последним поведением данной ПС – считаю не плохим результатом (в последнее время я с трудом запихиваю в гугль авто-синонимированный контент, а сгенерированный текст влез в индекс менее чем за неделю) Ну чтож… Последнее слово за яшей 😉

  17. admin says:

    Яша жуткий превереда, пока не сожрал (может потому что апов было мало). Посмотрим, что будет далее.
    Программа будет стоить 37 долларов (если все ок с индексацией).

  18. Альтаир says:

    Увы, но в сапу теперь не берут сайты с таким контентом пруф

  19. Yurik says:

    Альтаир, у меня пару сатов не приняли в сапу из-за Г-контента и было это еще несолько месяцев назад. То что сапа как минимум отправляет ГС в базу подозрительных сайтов – это фак и не новость. А следовательно чтоб, хоть с первого взгляда сайт напоминал СДЛ – ГС придеся дорабатывать ручками, начиная с контента, заканчивая шаблоном.

  20. admin says:

    Так, сегодня первые два сата залезли в индекс (линки не выложу, зону просили не палить).

    Саты проспамили по базе русскоязычных форумов, есть трафик:

    4-636-385 ‎(21:31):
    20-30 посещалка на каждом
    4-636-385 ‎(21:32):
    росия 5-15 хостов

Написать комментарий

Пожалуйста, ознакомьтесь с правилами комментирования (причина УДАЛЕНИЯ некоторых комментариев)

Добавить изображение к комментарию (jpg)