Создаем файлы Robots.txt и sitemap.xml у сайта
Автор: Westblogger, 2010 год. 949В этом посте пожалуй расширю тему создания сайта, и расскажу про то, как сделать Robots.txt и Sitemap.xml файлы, чтобы поисковики корректно индексировали то что нужно, а не все подряд, и не брали в выдачу всякий мусор, типа страниц админ части, или дублей урлов и т.п. Также sitemap у сайта может способствовать более быстрому индексированию.
Итак, сначало выясним что из себя представляет файл Robots.txt Это текстовый документ (с расширением .txt) который можно создать в обычном блокноте. Он содержит в себе набор различных указаний или директив для пауков и поисковых роботов поисковых систем. С помощью них можно, например, запретить индексирование для Яндекса какой либо части сайта.
Указание для конкретного поискового робота задается так:
1)Для Яндекса: User-agent: Yandex
2)Для Google: User-agent: Googlebot
3)Для всех: User-agent: * (примечание * - означает все, для всех или для всего остального)
Следующими строчками будут сами указания запретов, причем запреты делаются по какой либо повторяющийся части url у сайта. Например на моем блоге повторяющаяся часть урл у постов это /?p=32 И чтобы запретить индексирование всех постов на моем блоге, нужно прописать в следующей строчке:
Disallow: /?p=*
Помните я писал что звездочка имеет смысл "все"? Вот таким образом мы запретили все числовые порядковые номера постов.
Или другой пример, нам нужно запретить к индексированию всю админскую часть в wordpress блоге. Прописываем:
Disallow: /wp-admin/
Так как все урлы в админ части содержат /wp-admin/, что то типа http://westblog/wp-admin/post.php
В конце нашего с вами файла прописываем директивы :
Host: westblog.ru
Это как раз указывает на то, что роботам поисковиков считать основным доменом, westblog.ru или www.westblog.ru
И последнее:
Sitemap: http://westblog.ru/sitemap.xml
Здесь указывается путь к файлу, который называется sitemap или в переводе "карта сайта". Он поможет наиболее быстро проиндексировать ваш сайт поисковым роботам. Этот файл может иметь .html формат иначе видимая карта сайта и .xml формат, его можно назвать скорее невидимой картой. Если давать более простое определение sitemap, то его можно назвать обычной страницей (страничками) которые содержат только внутренние ссылки на все. Эти ссылки имеют атрибуты, которые указывают насколько часто нужно поисковым системам переиндексировывать (кхе) эти странички.
Создать для блога на wordpress карту сайта проще легкого, просто качайте плагин под названием XML-sitemap. Для обычного сайта, карту можно создать при помощи различных сервисов. (просто вбейте в поисковике "создать карту сайта онлайн" или если вы хотите разместить ее где-нибудь, чтобы и посетители смогли ее видеть, то "создать html карту сайта"
Ну и пример sitemap.xml моего блога, смотрите здесь: http://westblog/sitemap.xml и пример robots смотрите здесь http://westblog.ru/Robots.txt
Кстати все эти файлы нужно помещать в корень каталога на вашем хостинге. (причем для sitemap это необязательно, но желательно)
Статья познавательная. Прочитал с удовольствием. Спасибо
Комментарий от vitalik — 11.08.2010 @ 13:38 (мск)
какой то текст не связный
Комментарий от Moogutilara — 11.08.2010 @ 14:31 (мск)
Настолько же не связный, насколько ваш коммент не спамный
Комментарий от West Blogger — 12.08.2010 @ 07:13 (мск)
Не за что, читайте и комментируйте есчо
Комментарий от West Blogger — 12.08.2010 @ 07:16 (мск)
Подскажите проверенные сервисы для генерации Sitemap?
Комментарий от UserD — 28.08.2010 @ 21:23 (мск)
Проверенных куча, достаочно ывбить в яндекс или гугл Создать sitemap
Комментарий от West Blogger — 30.08.2010 @ 11:47 (мск)