
Как вы думаете, каждый ли вебмастер хочет, чтобы любые поисковые роботы, не пропуская ни одной страницы его сайта, помешали соответствующие ссылки в индекс и таким образом обеспечивали приток посетителей?
Отнюдь. Иногда владельцы хотят оградить от роботов все свое творение, какую-либо его часть или даже отдельную страницу. Вполне типична ситуация, когда автор предназначенного исключительно для семьи и узкого круга друзей не желает сообщать о нем поисковым системам или тех страниц, что не годятся, чтобы заработать на сайте.
Еще один пример - загрузка на сайт нескольких временных страниц, которые будут вскоре удалены и поэтому их присутствие в индексах поисковых машин излишне.
Требования файла robots.txt или метатэга robots обязательны для spider-программ. Наиболее солидные поисковые серверы учитывают предписания как первого, так и второго ограничителей.
Существуют два способа запретить внесение в индекс ссылки на сайт или какую-либо его часть: использование метатэга robots и файла robots.txt.
Мегатэг robots
Метатэг robots, подобно другим, должен располагаться в области HTML-документа.
"noindex" запрещает программе-"пауку" вносить страницу в индекс, a "nofollow" не позволяет следовать по ссылкам, которые на ней находятся. При помощи данного тэга вы можете выполнять разные задачи.
Файл robots.txt

Поведением спайдеров на вашем сайте можно управлять и другим способом: добавив простой текстовый файл, названный robots.txt, в корневую директорию. Это означает, что URL файла записывается по схеме http:// sample.**/robots.txt. Если вы не можете похвастать выделенным доменом второго уровня и соответствующей директорией, этот метод вам не подойдет; вместо него вы должны будете применить метатэг robots.
Файл robots.txt обычно создается при помощи обыкновенного текстового редактора. Документ выглядит примерно так:
User-agent:
Disallow: /cgi-bin/
Disallow: /temp/
Disallow: /semya/deti.html
Первая строка, User-agent указывает, что данная информация относится ко всем посещающим сайт spider. При желании можете указать какой-то определенный робот, но вы, скорее всего, предпочтете, чтобы все "поисковики" следовали одним и тем же инструкциям.
Каждая строка Disallow (Запретить) определяет каталог или файл, которые spider не должен посещать. В вышеприведенном примере закрыто все содержимое каталогов cgi-bin и temp, равно как и файл с URL.
Определение готовности сайта к работе с поисковыми роботами
Ниже перечислены операции, которые позволяют проверить, насколько хорошо вы подогнали сайт под требования "поисковиков":
• страницы находятся в законченном, готовом к просмотру состоянии;
• метатэги keywords и description включены в код каждой важной страницы;
• на всех страницах сайта имеется тэг ;
• ключевые слова встречаются в верхней части каждой страницы;
• там, где это необходимо, присутствуют файл robots.txt или метатэг robots.