Правильно управляем поисковыми роботами при индексации
Автор: Westblogger, 2012 год.Всем приветик. Сегодня мне бы хотелось поговорить на такую тему, как правильная индексация или иными словами о том, как правильно управлять поисковыми роботами индексаторами.
Что я имею ввиду под правильной индексацией и вообще в чем может быть проблема. Если с поисковой системой Яндекс дела обстоят не так критично в плане индексации, поскольку хватает правильно составленного роботса.тхт, то Гугл пожирает буквально все на своем пути и зачастую количество страничек в индексе этой поисковой системы значительно превышает число страниц в базе Яндекса, даже не смотря на тот же самый файлик роботс.тхт
Недавно я выяснил в чем проблема, правда выяснил я это скорее не недавно, а достаточно давно, но одна маленькая мелочь испортила всю картину. Поясню поподробней: оказывается важность файла Роботс.тхт для Гугла очень маленькая и директивы прописанные там, имеют для него чисто рекомендательный характер. Из-за этого, даже если страничка запрещена в роботсе, совершенно не факт что она не появится в индексе, что и свидетельствует индексация моего блога этой системой – в индексе появляются все новые и новые странички с пагинацией, которые запрещены не только в роботсе, но и мета тегом robots noindex.
Причина такого поведения гугла проста – даже если страница запрещена к индексации в файле роботс тхт, но если на нее паук где-то в интернете находит ссылку, то он все равно возьмет такую страничку в индекс, несмотря ни на какие запреты (есть мнение что не только ссылка может загнать ту или иную страничку в индекс). Решением проблемы (как написано в руководстве Гугл для вебмастеров) выступает мета тег robots, с прописанным свойством noindex.
Но каково же было мое удивление, когда я прописав эту директиву примерно год назад не увидел ровным счетом никакого эффекта – дубли страничек, теги, пагинация, фид лента как была в индексе Гугла, так в нем и находится по сей день, более того, в индексе регулярно появляются новые странички с пагинацией, что не удивительно, ведь я ссылаюсь на эти странички с блога.
Сегодня я понял, что эффекта не было потому что свою роль сыграл неисправленный файл Роботс.тхт, которые формально все же запрещает Гуглопауку заходит на запрещенную страничку, а значит и читать код. Именно поэтому ПС Гугл так и не смог исключить странички где прописан тег robots – он его просто не прочел из-за роботса.
В данный момент надеюсь, что через некоторое время Гугл все же выкинет лишние странички из индекса (через месяц-два, может и больше) так как сейчас я все поправил и вроде как наконец разобрался как эффективно управлять поисковым роботом при индексации моего блога.
Ну и в конце концов, если вы планируете сдавать на права, то вам просто необходимо знание всех правил дорожного движение в самой последней редакции – 2012 года. Скачать ПДД 2012 архивом вы сможете на сайте Steer.
Почитайте также похожие посты:
- Заметки западаного блога №18 Нуу, Яндекс, нуу, погоди! В общем, у меня никак по другому не получилось...
- Яндекс плохо индексирует новые страницы Что-то замечаю, последние наверно месяцы, Яндекс начал очень плохо кушать...
- Апдейт Яндекса за 20 и 23 октября Решил немного написать про недавние апдейты Яндекса за 20 и...
- Меры по улучшению индексации блога Всем приветик. В последнее время я наблюдаю неприятную картину на...
- Заметки западного блога №1 Html, narod и попытка заработать на халяве Что-то давненько я не писал в блоге Все ковырялся в...