В последнее время интернет все больше и больше стал наполняться дублированным (частично измененным) контентом, который не всегда читабельный и интересный. Этот факт сильно раздражает поисковые системы, в частности Яндекс. Единственным решением для поисковиков является отсеивание из поисковой выдачи такого контента. А зачем они это делают? Ответ предельно ясен и прост – для того, чтобы поисковая выдача содержала в себе сайты только с оригинальными, интересными для посетителя статьями (как эта). Поэтому с каждым днем алгоритмы отсеивания дубликатов становятся все лучше и лучше.
Но мы то с вами знаем, что можно обойти любой алгоритм или фильтр, знаем, что куда проще модифицировать статью, чем найти ее дубликат среди миллиардов веб-страниц.
Существует полно методов и принципов, по которым поисковая система отсеивает некачественный или дублированный контент. В этой статье я вам поведаю об основных таких методах.
Метод шинглов – разработан Андреем Бродером в 1997 году.
Свое название он получил из-за того, что разбивает текст на кусочки, на шинглы (англ. shingles – чешуйки, черепички.).
Я не буду повествовать о сути этого метода, используя сложные термины и определения, я просто покажу, как он работает на примере, это будет куда проще и лучше для вашего понимания.
Допустим, имеется текст – “Может, как-нибудь поиграем в SEO – классная игра”. Отбрасываем все лишнее (знаки табуляции и пунктуации, лишние пробелы и прочее), в итоге получим – “Может какнибудь поиграем в SEO классная игра”. Далее бьем текст на шинглы (длинной в четыре, например):
– Может какнибудь поиграем в;
– какнибудь поиграем в SEO;
– поиграем в SEO классная;
– в SEO классная игра.
Отмечу то, что шинглы строятся внахлест – это дает гарантию, что мы не пропустим не одной подстроки текста, что очень важно в процессе нахождения дублей. Для нахождения дублей отбираются не все шинглы, а кратные числу m (зависит от количества слов в тексте), иначе этот и без того ресурсоемкий процесс затянется навечно (что нам с вами на руку).
И последний этап – сравнение шинглов различных текстов, чем меньше шинглов совпало, тем меньше вероятность того, что статья является дубликатом.
Метод описательных слов.
Суть метода заключается в том, что формируется выборка объемом 2-3 тысячи слов. Эта выборка должна соответствовать следующим критериям:
– она должна описывать почти любой документ в сети;
– это описание должно быть минимальным и не избыточным.
Для построения выборки отбрасываются определенные стоп-слова, различные тематические термины (такие как “синхрофазотрон”) и прилагательные.
Затем каждая веб-страница сопоставляется с выборкой, и рассчитывается определенный вектор (размерность вектора равна объему выборки). Страницы сравниваются путем сопоставления этих векторов.
Перечислю и то, что явно выдает синонимизированный текст:
– Наличие в тексте несогласованных друг с другом слов по родам, числам, падежам (“этот машина очень дорогой” и прочее). Такое часто встречается при использовании некачественных баз синонимов;
– Большое количество низкочастотных (редкоупотребляемых) слов в тексте. Так как в базах синонимов ключевому (поисковому) высокочастотному слову соответствуют низкочастотные слова. Например, наслоение – напластование.
Подведем итог. Для того, чтобы наши модифицированные тексты с высокой вероятностью попадали в индекс поисковых систем, следует придерживаться следующих правил:
– Заменять как можно больше устойчивых выражений;
– Избегать замены отдельных высокочастотных (часто встречающихся в тексте) слов на низкочастотные (редко встречающиеся тексты);
– Нельзя допускать появления в тексте несогласованных друг с другом слов;
– Стараться разбавить текст различными словами и оборотами.
Следует отметить и тот факт, что перемешка абзацев не даст значительного прироста уникальности.
На этом все. Искренне желаю вам успехов! Периодически проверяйте наличие свежих статей.
Новости RSS

Рубрики:
С вопросами о покупке (или другими организационными), вы можете в любое время обращаться по Телефону +7 983 381 3211 или Телеграм @ContentDownloaderX1 (Сергей Владимирович)
WBApp (дополнение для Content Downloader) - парсинг с выполнением WEB-скриптов, с возможностью имитации кликов по элементам страниц, произведение прокрутки страниц, заполнение текстовых полей и многое другое...
Действительно хороший анализ, теперь будем думать как делать сайты и не попасть под злого Яндексоида.
Прогонять через синонимайзер + дорабатывать руками, тогда точно в индексте окажетесь.
Навряд ли, то есть не точно. У меня есть 100% уник, а Яндекс его не индексит, собака.
Значит вы попали под иные фильтры, количество замен может быть 100% а результат нулевой. Стоит подумать о качестве текста.