При использовании различных CMS контент часто дублируется и обрезается. Например, короткие анонсы новостей, которые мы видим на главной странице сайта, страницы тегов, архивы и прочее – все это лезет в индекс даже лучше чем оптимизированные под определенные запросы статьи. Естественно, от такой каши из контента мы никакого хорошего трафика из поисковых систем не получим (поисковики такие привереды ;)).
Немного про RSS ленты: Ленты в первую очередь попадают в индекс (по крайней мере у меня так было), в следствии этого, пользователь, пришедший из ПС, перенаправится не на страницу со статьей, а на RSS ленту, что не есть хорошо!
Я веду несколько сайтов на движке WordPress. Поначалу были проблемы с индексацией контента и картинок, но теперь, после правильной настройки блогов, в индекс поисковиков лезут только страницы и посты, то есть именно то, что нужно.
Сейчас я в двух словах расскажу, как правильно кормить поисковики (на примере WordPress). Для начала настроим файл robots.txt. Это своего рода инструкция, которая задает правила индексации сайта для поисковиков. По файлу robots.txt ПС будут определять, какие разделы или части сайта им индексировать, а какие нет. Это простой txt файл, который необходимо зарядить определенными выражениями, сохранить в ANSI кодировке и залить в корень нашего сайта.
Давайте изучим его содержимое:
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /articles
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /?cat=*
Disallow: /?tag=*
Disallow: /?m=*
Disallow: /?feed=*
Host: www.sbfactory.ruUser-agent: *
Disallow: /cgi-bin
Disallow: /articles
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /?cat=*
Disallow: /?tag=*
Disallow: /?m=*
Disallow: /?feed=*Sitemap: http://sbfactory.ru/sitemap.xml
Выражение “User-agent” определяет, к какому поисковику будут относиться низлежащие операторы. “Disallow” запрещает индексацию определенного раздела сайта. Например, “Disallow: /?tag=*” запретит индексацию всех страниц тегов: http://sbfactory.ru/?tag=индексация и тд. А “Disallow: /?feed=*” запретит индексацию RSS фида (звездочка указывает поисковику на то, что на ее месте может быть любой текст). Будьте осторожны при составлении этого файла. Можно сделать так, что ни одна страница сайта не будет индексироваться.
Идем далее. Чтобы поисковику было “легче” индексировать сайт, необходимо создать xml карту сайта (например, такую как эту). Естественно, на то, чтобы писать ее каждый раз руками, у нас не стоит ;). Поэтому качаем плагин Google (XML) Sitemaps Generator for WordPress, немного его настраиваем и радуемся (не забудьте добавить в файл robots.txt строку “Sitemap: http://ваш_сайт.ru/sitemap.xml”).
После правильной настройки robots.txt и xml карты сайта проблем с индексацией быть не должно.
Теперь про картинки. Картинки тоже поедаются поисковыми системами и приносят дополнительный трафик (дополнительных пользователей). Некоторые люди возмущаются: “Почему это мои уникальные картинки никак не лезут в индекс поисковиков???”. Тут все просто. Поисковики индексируют картинки только по атрибуту “alt”! Все теги картинок (img), без этого атрибута НИКОГДА не попадут в индекс. Поэтому не забывайте присваивать его всем изображениям.
Вот вроде бы и все. Задавайте вопросы в комментариях.
Сделайте линк с форума на блог. Устал в адресной строке каждый раз писать
WeXX а в закладки добавить религия не позволяет!?!
Может лучше по сабжу говорить будем))).
То есть есть смысл загнать в нофоллоу краткий обзор полной новости на главной?
Да как бы плохого ничего нет, но у меня только страницы со статьями и главная в индексе.
Я проверяю статьи на уникальность и мне программа находит совпаденияна главной странице и краткое содержание статьи (после которого идет Далее) как сделать чтобы на главной все посты не индексировались и краткие содержания тоже??????????
Плиз помогите
Думаю, на морде не страшно. Так что не беспокойтесь, все равно при публикации новых постов старые уйдут с главной страницы.
Ну а если уж очень хочется скрыть какую-то часть страницы от индексации, добавьте в шаблон вашей CMS тег noindex.
Как написать в файле robots.txt чтобы все поисковики могли индексировать мой сайт покажите пожалуйста
Они и без robots.txt должны индексировать.
доброго времени суток!а есть лобрые люди которые проиндексиуют мой ресурс?без моего участия висправлении файла.
howdy, good website, and a really good understand! at least one for my book marks.
Hello, this is a great blog!
Hello, this is a great blog!