Мой взгляд на рерайт (синонимизацию) контента

Все, что будет написано в этой статье, не является полностью достоверной информацией. Нижеизложенные мысли основаны на собственном опыте и опыте общения с другими людьми. Полностью полагаться на содержание этого текста не стоит, стоит только прислушаться, задуматься и сделать некие выводы.

Казалось бы, все так просто, взял контент с другого источника, прогнал через синонимайзер и радуйся. Но вот ряд проблем, с которыми приходится сталкиваться веб-мастеру:

Первое: Неизвестно сколько человек уже синонимизировало статью, которую хотите использовать вы. Я думаю не стоит объяснять то, что если дважды сделать рерайт одной и той же статьи даже чуть схожими базами, то получатся чуть различные тексты, которые полетят не в индекс, а куда подальше. В голову приходит одна мысль: нашли источник контента, загрузите пару статей в программу для проверки уникальности. Если найдет много дублей – плохо, нашло 1-2 дубля (синонимизарованных версий) – можно приступать к рерайту.

Второе: Статья может выпасть из индекса и по ляпам в тексте (“Маша шла со апельсинами” и так далее), разного рода ошибкам, возникающим при синонимизации. Да чаще всего так и происходит, хотя многие думают, что сайты вылетают из индексации из-за недостаточной уникальности текста. Потом веб-мастера пытаются найти базы еще большего размера, с еще большим количеством ляпов.
Мой вам совет: не стоит гнаться за огромными базами. Во первых: они спарсены из разного рода словарей, которые содержат классные синонимы, но они не как не подходят для авторерайта. То есть словарь синонимов (например, MS Word) никак негодится для использования в синонимайзере. Базы должны быть собраны вручную, должно обдумываться каждое слово + в базе должно содержаться процентов 30 словосочетаний.
К чему я это все, просто найдите хорошую базу, которая дает на выходе читабельный текст, самое главное без всяких несогласованностей падежей, родов и прочего, по которым сразу попадете под фильтр. Ну и после рерайта целесообразно хотя бы прочитать текст по диагонали и чуть доработать его.

Как же быть? Что делать? Где взять уникальный контент, да еще и много?
Не буду в этой статье обсуждать другие источники уникального контента. А остановлюсь на идее, которая мне как-то пришла в голову, но я даже еще не пробовал ее реализовать.
Если вы не в курсе, что такое метод шинглов и описательных слов, то ознакомтесь с этим материалом.
То есть, скажу просто и ясно. Чтобы получить уник (уникальный контент) необходимо сделать следующее:
– разбить шинглы
– изменить выборку описательных слов (проблематично добиться этого только рерайтом)
– не допустить появления ошибок в тексте (не только орфографических)

Дак вот, суть моей идеи в следующем:
Берем 100 статей одной тематики (лучше будет если тематика не только, например, авто, а авто-аккумуляторы) и строим 70-120 новых статей по следующему принципу: первый абзац первой статьи берется из первого абзаца первой статьи, второй абзац первой статьи берется из первого абзаца второй статьи, третий абзац первой берется из первого абзаца третьей статьи и так далее. Думаю суть ясна, тоесть тусуем абзацы не в пределах одной статьи, а в пределах ста тематических. Что нам это даст: 100% обход метода описательных слов, дополнительную разбивку шинглов. Но этого недостаточно. Такой контент вылетит из индекса с 90% вероятностью. Теперь прогоняем наши 70-120 новых статей через синонимайзер (достаточно будет заменить каждое пятое слово) (главное чтобы текст был без ошибок) и после этого, если все грамотно сделано, текст уже спокойно залезает в индекс и держится там долго и счастливо.
С точки зрения ПС (поисковой системы) это будет идеальный текст, с точки зрения любопытного читателя – не совсем.

Ну вот собственно и все, надеюсь моя идея окажется вам интересной и полезной, если кто реализует – буду рад узнать результаты (так как сам еще не пробовал).

Вы можете оставить комментарий, или поставить трэкбек со своего сайта.

Есть 4 коммент. к теме: “Мой взгляд на рерайт (синонимизацию) контента”

  1. Yurik says:

    Могу ошибаться, но данный метод давно используется в доргенераторах. А на сколько мне извесно, такие доры в индексе держутся пару апов. Да и анализ уникальности основывается не на всем тексте, а на кусочках. Таким образом, для ПС перемешка абзацев из разных статей (даже при условии синонимизации), врядле даст желаемый результат. Но опять же, могу ошибаться… Лично не тестил.

  2. admin says:

    Я просто высказал предположение. Просто если взять и запостить кусочки без синонимизации, то поисковику еще как-то реально дубли отыскать. Ну а если еще и синонимизаровать статью (да еще и кусочки взять с разных источников) не думаю что мощности нынешних компьютеров хватит на такие алгоритмы.
    А вылетают статьи из-за различного рода ошибок в тексте.
    Может быть я не прав ).

  3. azat says:

    тоже об этом думал, думаю такого
    первый абзац первой статьи берется из первого абзаца первой статьи, второй абзац первой статьи берется из первого абзаца второй статьи, третий абзац первой берется из первого абзаца третьей статьи и так далее.
    можно и не делать, а просто сделать перемешивальщик абзацев, а деление сделать по точкам. Ну а потом по схеме, разделить по 1000 знаков или 500 и запостить на 10 разных сайтах, а не на один все это выкладывать.
    admin, если не лень, перемешивальщик предложений сделайте. Для теста думаю сначало запостить эти статьи на каких нибудь блогах типа ya.ru

  4. Виталий says:

    А если взять контент на украинском языке и перевести его на русский, например, переводчиком от GOOGLE? Текст получится вполне читаемым. Только вопрос как поисковые системы отнесутся к такому контенту?

Написать комментарий

Пожалуйста, ознакомьтесь с правилами комментирования (причина УДАЛЕНИЯ некоторых комментариев)

Добавить изображение к комментарию (jpg)