Как Яндекс вычисляет дублированный контент

Как Яндекс вычисляет дублированный контент

как Яндекс вычисляет дублированный контентВ последнее время интернет все больше и больше стал наполняться дублированным (частично измененным) контентом, который не всегда читабельный и интересный. Этот факт сильно раздражает поисковые системы, в частности Яндекс. Единственным решением для поисковиков является отсеивание из поисковой выдачи такого контента. А зачем они это делают? Ответ предельно ясен и прост – для того, чтобы поисковая выдача содержала в себе сайты только с оригинальными, интересными для посетителя статьями (как эта). Поэтому с каждым днем алгоритмы отсеивания дубликатов становятся все лучше и лучше.

Но мы то с вами знаем, что можно обойти любой алгоритм или фильтр, знаем, что куда проще модифицировать статью, чем найти ее дубликат среди миллиардов веб-страниц.
Существует полно методов и принципов, по которым поисковая система отсеивает некачественный или дублированный контент. В этой статье я вам поведаю об основных таких методах.

Метод шинглов – разработан Андреем Бродером в 1997 году.
Свое название он получил из-за того, что разбивает текст на кусочки, на шинглы (англ. shingles – чешуйки, черепички.).
Я не буду повествовать о сути этого метода, используя сложные термины и определения, я просто покажу, как он работает на примере, это будет куда проще и лучше для вашего понимания.
Допустим, имеется текст – “Может, как-нибудь поиграем в SEO – классная игра”. Отбрасываем все лишнее (знаки табуляции и пунктуации, лишние пробелы и прочее), в итоге получим – “Может какнибудь поиграем в SEO классная игра”. Далее бьем текст на шинглы (длинной в четыре, например):
– Может какнибудь поиграем в;
– какнибудь поиграем в SEO;
– поиграем в SEO классная;
– в SEO классная игра.
Отмечу то, что шинглы строятся внахлест – это дает гарантию, что мы не пропустим не одной подстроки текста, что очень важно в процессе нахождения дублей. Для нахождения дублей отбираются не все шинглы, а кратные числу m (зависит от количества слов в тексте), иначе этот и без того ресурсоемкий процесс затянется навечно (что нам с вами на руку).
И последний этап – сравнение шинглов различных текстов, чем меньше шинглов совпало, тем меньше вероятность того, что статья является дубликатом.

Метод описательных слов.
Суть метода заключается в том, что формируется выборка объемом 2-3 тысячи слов. Эта выборка должна соответствовать следующим критериям:
– она должна описывать почти любой документ в сети;
– это описание должно быть минимальным и не избыточным.
Для построения выборки отбрасываются определенные стоп-слова, различные тематические термины (такие как “синхрофазотрон”) и прилагательные.
Затем каждая веб-страница сопоставляется с выборкой, и рассчитывается определенный вектор (размерность вектора равна объему выборки). Страницы сравниваются путем сопоставления этих векторов.

Перечислю и то, что явно выдает синонимизированный текст:
– Наличие в тексте несогласованных друг с другом слов по родам, числам, падежам (“этот машина очень дорогой” и прочее). Такое часто встречается при использовании некачественных баз синонимов;
– Большое количество низкочастотных (редкоупотребляемых) слов в тексте. Так как в базах синонимов ключевому (поисковому) высокочастотному слову соответствуют низкочастотные слова. Например, наслоение – напластование.

Подведем итог. Для того, чтобы наши модифицированные тексты с высокой вероятностью попадали в индекс поисковых систем, следует придерживаться следующих правил:
– Заменять как можно больше устойчивых выражений;
– Избегать замены отдельных высокочастотных (часто встречающихся в тексте) слов на низкочастотные (редко встречающиеся тексты);
– Нельзя допускать появления в тексте несогласованных друг с другом слов;
– Стараться разбавить текст различными словами и оборотами.
Следует отметить и тот факт, что перемешка абзацев не даст значительного прироста уникальности.

На этом все. Искренне желаю вам успехов! Периодически проверяйте наличие свежих статей.

Вы можете оставить комментарий, или поставить трэкбек со своего сайта.
Есть 4 коммент. к теме: “Как Яндекс вычисляет дублированный контент”
  1. Admirus says:

    Действительно хороший анализ, теперь будем думать как делать сайты и не попасть под злого Яндексоида.

  2. admin says:

    Прогонять через синонимайзер + дорабатывать руками, тогда точно в индексте окажетесь.

  3. Romashkin says:

    Навряд ли, то есть не точно. У меня есть 100% уник, а Яндекс его не индексит, собака.

  4. admin says:

    Значит вы попали под иные фильтры, количество замен может быть 100% а результат нулевой. Стоит подумать о качестве текста.

Написать комментарий

Пожалуйста, ознакомьтесь с правилами комментирования (причина УДАЛЕНИЯ некоторых комментариев)

Добавить изображение к комментарию (jpg)