Новости RSS

парсер, спарсить сайт, наполнить интернет-магазин товарами

Как Яндекс вычисляет дублированный контент

January 11th, 2010 4 коммент. »

как Яндекс вычисляет дублированный контент В последнее время интернет все больше и больше стал наполняться дублированным (частично измененным) контентом, который не всегда читабельный и интересный. Этот факт сильно раздражает поисковые системы, в частности Яндекс. Единственным решением для поисковиков является отсеивание из поисковой выдачи такого контента. А зачем они это делают? Ответ предельно ясен и прост – для того, чтобы поисковая выдача содержала в себе сайты только с оригинальными, интересными для посетителя статьями (как эта). Поэтому с каждым днем алгоритмы отсеивания дубликатов становятся все лучше и лучше.

Но мы то с вами знаем, что можно обойти любой алгоритм или фильтр, знаем, что куда проще модифицировать статью, чем найти ее дубликат среди миллиардов веб-страниц.
Существует полно методов и принципов, по которым поисковая система отсеивает некачественный или дублированный контент. В этой статье я вам поведаю об основных таких методах.

Метод шинглов – разработан Андреем Бродером в 1997 году.
Свое название он получил из-за того, что разбивает текст на кусочки, на шинглы (англ. shingles – чешуйки, черепички.).
Я не буду повествовать о сути этого метода, используя сложные термины и определения, я просто покажу, как он работает на примере, это будет куда проще и лучше для вашего понимания.
Допустим, имеется текст – “Может, как-нибудь поиграем в SEO – классная игра”. Отбрасываем все лишнее (знаки табуляции и пунктуации, лишние пробелы и прочее), в итоге получим – “Может какнибудь поиграем в SEO классная игра”. Далее бьем текст на шинглы (длинной в четыре, например):
– Может какнибудь поиграем в;
– какнибудь поиграем в SEO;
– поиграем в SEO классная;
– в SEO классная игра.
Отмечу то, что шинглы строятся внахлест – это дает гарантию, что мы не пропустим не одной подстроки текста, что очень важно в процессе нахождения дублей. Для нахождения дублей отбираются не все шинглы, а кратные числу m (зависит от количества слов в тексте), иначе этот и без того ресурсоемкий процесс затянется навечно (что нам с вами на руку).
И последний этап – сравнение шинглов различных текстов, чем меньше шинглов совпало, тем меньше вероятность того, что статья является дубликатом.

Метод описательных слов.
Суть метода заключается в том, что формируется выборка объемом 2-3 тысячи слов. Эта выборка должна соответствовать следующим критериям:
– она должна описывать почти любой документ в сети;
– это описание должно быть минимальным и не избыточным.
Для построения выборки отбрасываются определенные стоп-слова, различные тематические термины (такие как “синхрофазотрон”) и прилагательные.
Затем каждая веб-страница сопоставляется с выборкой, и рассчитывается определенный вектор (размерность вектора равна объему выборки). Страницы сравниваются путем сопоставления этих векторов.

Перечислю и то, что явно выдает синонимизированный текст:
– Наличие в тексте несогласованных друг с другом слов по родам, числам, падежам (“этот машина очень дорогой” и прочее). Такое часто встречается при использовании некачественных баз синонимов;
– Большое количество низкочастотных (редкоупотребляемых) слов в тексте. Так как в базах синонимов ключевому (поисковому) высокочастотному слову соответствуют низкочастотные слова. Например, наслоение – напластование.

Подведем итог. Для того, чтобы наши модифицированные тексты с высокой вероятностью попадали в индекс поисковых систем, следует придерживаться следующих правил:
– Заменять как можно больше устойчивых выражений;
– Избегать замены отдельных высокочастотных (часто встречающихся в тексте) слов на низкочастотные (редко встречающиеся тексты);
– Нельзя допускать появления в тексте несогласованных друг с другом слов;
– Стараться разбавить текст различными словами и оборотами.
Следует отметить и тот факт, что перемешка абзацев не даст значительного прироста уникальности.

На этом все. Искренне желаю вам успехов! Периодически проверяйте наличие свежих статей.

Рубрики: Новости

Вы можете оставить комментарий, или поставить трэкбек со своего сайта.

Есть 4 коммент. к теме: “Как Яндекс вычисляет дублированный контент”

Admirus says:

20 January 2010 at 18:13

Действительно хороший анализ, теперь будем думать как делать сайты и не попасть под злого Яндексоида.

Reply
admin says:

20 January 2010 at 22:34

Прогонять через синонимайзер + дорабатывать руками, тогда точно в индексте окажетесь.

Reply
Romashkin says:

30 January 2010 at 1:02

Навряд ли, то есть не точно. У меня есть 100% уник, а Яндекс его не индексит, собака.

Reply
admin says:

9 May 2010 at 7:19

Значит вы попали под иные фильтры, количество замен может быть 100% а результат нулевой. Стоит подумать о качестве текста.

Reply

Написать комментарий

Пожалуйста, ознакомьтесь с правилами комментирования (причина УДАЛЕНИЯ некоторых комментариев)

парсер, спарсить сайт, наполнить интернет-магазин товарами

Как Яндекс вычисляет дублированный контент

Наши продукты