Поисковые роботы


Как вы думаете, каждый ли вебмастер хочет, чтобы любые поисковые роботы, не пропуская ни одной страницы его сайта, помешали соответствующие ссылки в индекс и таким образом обеспечивали приток посетителей?

Отнюдь. Иногда владельцы хотят оградить от роботов все свое творение, какую-либо его часть или даже отдельную страницу. Вполне типична ситуация, когда автор предназначенного исключительно для семьи и узкого круга друзей не желает сообщать о нем поисковым системам или тех страниц, что не годятся, чтобы заработать на сайте.

Еще один пример - загрузка на сайт нескольких временных страниц, которые будут вскоре удалены и поэтому их присутствие в индексах поисковых машин излишне.

Требования файла robots.txt или метатэга robots обязательны для spider-программ. Наиболее солидные поисковые серверы учитывают предписания как первого, так и второго ограничителей.

Существуют два способа запретить внесение в индекс ссылки на сайт или какую-либо его часть: использование метатэга robots и файла robots.txt.


Мегатэг robots



Метатэг robots, подобно другим, должен располагаться в области HTML-документа.

"noindex" запрещает программе-"пауку" вносить страницу в индекс, a "nofollow" не позволяет следовать по ссылкам, которые на ней находятся. При помощи данного тэга вы можете выполнять разные задачи.


Файл robots.txt





Поведением спайдеров на вашем сайте можно управлять и другим способом: добавив простой текстовый файл, названный robots.txt, в корневую директорию. Это означает, что URL файла записывается по схеме http:// sample.**/robots.txt. Если вы не можете похвастать выделенным доменом второго уровня и соответствующей директорией, этот метод вам не подойдет; вместо него вы должны будете применить метатэг robots.

Файл robots.txt обычно создается при помощи обыкновенного текстового редактора. Документ выглядит примерно так:

User-agent:
Disallow: /cgi-bin/
Disallow: /temp/
Disallow: /semya/deti.html

Первая строка, User-agent указывает, что данная информация относится ко всем посещающим сайт spider. При желании можете указать какой-то определенный робот, но вы, скорее всего, предпочтете, чтобы все "поисковики" следовали одним и тем же инструкциям.

Каждая строка Disallow (Запретить) определяет каталог или файл, которые spider не должен посещать. В вышеприведенном примере закрыто все содержимое каталогов cgi-bin и temp, равно как и файл с URL.


Определение готовности сайта к работе с поисковыми роботами



Ниже перечислены операции, которые позволяют проверить, насколько хорошо вы подогнали сайт под требования "поисковиков":

• страницы находятся в законченном, готовом к просмотру состоянии;

• метатэги keywords и description включены в код каждой важной страницы;

• на всех страницах сайта имеется тэг ;

• ключевые слова встречаются в верхней части каждой страницы;

• там, где это необходимо, присутствуют файл robots.txt или метатэг robots.



Маргарита Акулич. Интернет-маркетинг: учебник для бакалавров

Еще советуем: