Здравствуйте, дорогие друзья. Решил представить вам одну интересную программу для генерации контента – TextoGEN. В основе софта лежит наша новая технология, надеюсь, вы ее признаете, да и Яндекс тоже ;). Суть в том, что программа сама строит совершенно уникальные тексты. Никакого “сырья” в виде статей для этого не требуется. Для построения текста программа использует свои базы. Пока их 11 штук (прилагательные, существительные, глаголы и прочее). Текст генерируется по базе специальных шаблонов, которые вы сможете спокойно дополнять, редактировать и изменять. Схема генерации довольна проста. |
Программа из базы случайным образом выбирает один шаблон предложения, например: {when1}f1 {who2}f2 {glagol1}f1 {what1}f1..cat1, и на его основе строит предложение (когда, кто, действие, над чем происходит действие) . Выражение {when1}f1 указывает программе на то, что следует выборочно взять слово из базы when.txt соответствующее категории 1 (.cat1) и форме 1 (все записи в базах разбиты на категории, каждая категория может содержать в себе до 9 форм слов и выражений). При построении предложения по этому шаблону мы можем получить огромное количество вариантов:
В прошлую минуту архитекторы заштукатурили фасад здания.
На этой неделе хачики выкрасили офис.
В прошлом часу монтажники выкрасили офис.
На этой неделе плотники отремонтировали зал.
В прошлом месяце прорабы отремонтировали дом.
На этой неделе подсобные рабочие отделали гараж.
В этом часу Равшан и Джамшут выстроили гараж.
В прошлом году монтажники выстроили фасад здания.
На прошлой неделе отделочники отремонтировали склад.
И так далее…
Прелесть в том, что даже маленькие базы слов и шаблонов предложений (размером, скажем, по 30 записей) могут дать огромное количество уникального контента. Эти базы легко редактируются и пополняются, можно постоянно создавать новые наборы баз с любой тематикой.
То, как Яндекс кушает эти статьи, я пока сказать не могу, мы недавно сделали тестовый сайт на этом контенте, ждем результатов индексации. Думаю, все пройдет успешно. Все предложения имеют правильную структуру и даже немного связаны между собой (категории шаблонов выбираются из базы по порядку: сначала выборочно из первой категории, потом из второй и так далее).
– пример текста из тестовых баз строительной тематики (около 100 000 символов + заголовки);
– базы слов и выражений;
– база шаблонов предложений.
Скорость генерации довольно высокая. За секунду программа может выдавать по одному мегабайту текста.
Продукт еще не поступил в продажу. Ориентировочная дата релиза (если все пройдет успешно и Яндексу понравится тестовый сайт) – 3 июля 2010 года.
Пока все, желаю вам удачи в делах.
ждем результата…
как давно тестовый ГС был запущен? В идеале должно пройти несколько апов, чтоб понять отношение яши к такому контенту.
Три дня назад.
Если этот контент в индекс залезет, то никаких проблем с геном быть не должно вообще. Тестовый сайт генерился с базами вдвое меньшими, чем приведенные тут.
Если не залезет, все равно рано или поздно добьюсь положительного результата.
Алгоритмы программы позволяют строить правильный, с точки зрения ПС текст. Сейчас все упирается в базы.
Еще зимой делал по этому алгоритму генератор на php с использованием морфологического движка, было сделано несколько сайтов, которые благополучно вылетели через месяц из Яндекса, хотя текст был морфологически правильным, генерился по шаблонам, так же как и у Вас, но но тем не менее все вылетело
Ваще неплохо. Я тут подумал даже о возможности применения в этой теме элементов генетического программирования с последующим прогоном полученных моделей по книгам.
Таким образом можно значительно расширить количество шаблонов.
flaming23, возможно вы не учли несколько факторов, присущих естественным текстам. Если вы использовали морфологический движек (хотя я даже точно не знаю что это такое и мне не стыдно ;)), то скорее всего ваши тексты фильтровались по несовпадению словоформ, уверен, они встречались. В моем же генераторе, при правильном составлении шаблонов, факт нарушения состыковки слов невозможен. Генерировать индексируемые статьи вполне реально! Просто, надо не опускать руки и идти до конца.
mafia_director, я думаю это лишнее. Вполне хватит и сотни шаблонов.
admin, может Вы и правы, посмотрим на результат работы Вашей проги
Да, но вопрос в том, с какой попытки получится сделать “невылетаемый” текст ;).
admin, а когда все таки будет релиз, уже 6 июля?((
ну как в индекс защел текст?
Затягивается релиз, еще саты в индекс не попали…
А какова планируемая стоимость?
Брал у автора сгенерированный текст для теста. Сатик после апа в индекс не влез. Но пока рано говорить о отношении ПС к такому тексту, т.к. на двух СДЛ новые страницы также не влезли в индекс, да и беки особо не прибавились. Будем ждать следующего апа. Думаю что вскоре можно будет дать четкую оценку такому контенту.
Дополню 😉 Тестовый ГС влез тремя страницами сегодня в гуглю. Наблюдая за последним поведением данной ПС – считаю не плохим результатом (в последнее время я с трудом запихиваю в гугль авто-синонимированный контент, а сгенерированный текст влез в индекс менее чем за неделю) Ну чтож… Последнее слово за яшей 😉
Яша жуткий превереда, пока не сожрал (может потому что апов было мало). Посмотрим, что будет далее.
Программа будет стоить 37 долларов (если все ок с индексацией).
Увы, но в сапу теперь не берут сайты с таким контентом пруф
Альтаир, у меня пару сатов не приняли в сапу из-за Г-контента и было это еще несолько месяцев назад. То что сапа как минимум отправляет ГС в базу подозрительных сайтов – это фак и не новость. А следовательно чтоб, хоть с первого взгляда сайт напоминал СДЛ – ГС придеся дорабатывать ручками, начиная с контента, заканчивая шаблоном.
Так, сегодня первые два сата залезли в индекс (линки не выложу, зону просили не палить).
Саты проспамили по базе русскоязычных форумов, есть трафик:
4-636-385 (21:31):
20-30 посещалка на каждом
4-636-385 (21:32):
росия 5-15 хостов