Файл robots.txt — задаем команды поисковому роботу

Поисковый бот, посетивший ваш интернет-ресурс, сканирует сначала robots.txt. Для чего же он необходим? Robots.txt представляет из себя список исполняемых правил для роботов поисковиков. Этот файл размещается в основной директории ресурса, что обеспечивает быстрый доступ к его содержимому. Основываясь на содержимом файла robots.txt поисковый бот часть страниц индексирует, а часть – нет. К дополнительной информации, содержащейся в файле robots.txt, относится главное зеркало и расположения карты сайта.

В чем же основная задача файла robots.txt? В создании описания индексации вашего сайта. Чтобы в выдаче поисковиков не оказалось дубликатов страниц и тех страниц и документов, которые должны быть надежно спрятаны от глаз пользователя. Единожды грамотно описав правила индексации ресурса в robots.txt, вы в дальнейшем избавите себя от множества проблем, связанных с выдачей в системах Яндес, Google, Bing и т.д. и индексации всех зеркал ресурса.

Составляем robots.txt грамотно

Разработка инструкций в файле robots.txt задача не сложная, не требующая специальных навыков. Для начала вам предстоит создать обычный файл с текстовым разрешением. Прописываем директории для программ-ботов. После чего необходимо просто сохранить файл, изменив название на robots.txt. Когда файл готов, его можно закачать в основную папку сайта на вашем хостинге.

Существует одно правило: «Один сайт – один robots.txt»; об этом не следует забывать. Если при попадании на страницы вашего ресурса поисковый бот не видит этого файла, он расценивает это как разрешение индексировать абсолютно любые страницы, что не очень хорошо. В содержимом файла прописываются правила работы со всеми директивами для любого поисковика. Причем прописать инструкции можно для каждой поисковой системы в отдельности. Такое разделение описаний чтения страниц для поисковиков (ПС) возможно с применением правил User-agent. Об этом будет сказано чуть ниже.

Краткий список директив robots

Для вывода страниц в топ ПС в robots.txt используются специальные операторы.
Чтобы разобраться в них, стоить изучить каждый оператор более подробно.

User-agent

Данная директива разработана для точного указания бота, для которого будет использоваться та или иная инструкция. Установка знака «*» означает использование прописанных описаний для всех ПС. Чтобы указать определенного поискового бота, следует прописать его наименование, например, команда Googlebot укажет, что все инструкции описаны для бота ПМ Google.

Отличительной чертой такого указания является игнорирование всех инструкций, которые прописаны для остальных ПС без точных указаний. Бот компании Яндес будет действовать аналогичным путем.
Рассмотрим некоторые записи директивы:

User-agent: YandexBot – основная инструкция, используемая главным ботом ПС Яндекс;
User-agent: Yandex– инструкция для всех ботов ПС Яндекс за исключением основного;
User-agent: * — эта запись означает инструкции для всех ботов ПС.

Disallow и Allow

Данные директивы указывают страницы и директории, которые разрешено читать посещающим ресурс ботам, а к которым доступ запрещен. Команда Disallow указывает на страницы ресурса или разделы, индексация которых строго запрещена, Allow – наоборот, указывает боту ту информацию, которая подлежит попаданию в ПС.

Disallow: / — данная команда запретит индексировать боту весь сайт;
Disallow: /photos/ — запрет чтения директории «photos»;
Disallow:/settings.php – в этом случае индексированию не подлежит файл settings.php.Allow: /cgi-bin – разрешение поисковому боту проиндексировать все страницы cgi-bin

Отличительной чертой профессиональной разработки файла robots.txt является использование в директивах Disallow и Allow специальных символов, которые предназначаются для записи регулярок.

Символ * может стать заменой практически любого набора символов. По умолчанию он должен прописывать в конце каждой инструкции. Если по какой-либо причине вы забыли проставить данный спецсимвол, ПС сделает это за вас.

Disallow: /*user – запрет индексации всех файлов и директорий, в которых содержится слово user.

Символ $ — отмена вышеописанного спецсимвола *, расположенного в конце инструкции:
Disallow: /posts$ — такая конструкция правила запретит индексацию ‘/posts’, но позволит поисковому боту проиндексировать ‘/posts.html’.

Если символ $ не прописать в конце правила, то ПС не смогу проиндексировать ‘/posts/’ и ‘/posts.html’.

Sitemap

Директива укажет расположение роботу, где хранится специальный файл – карта сайта. Карта сайта должна иметь определенный формат: sitemaps.xml, и он не должен изменяться. Создание файла sitemaps преследует лишь одну цель – более быструю и глубокую индексацию страниц. Карта сайта может состоять из несколько файлов, главное не менять их формат. Например:

Sitemap: http://seobz.ru/sitemaps10.xml
Sitemap: http://seobz.ru/sitemaps11.xml

Host

Директива разработана для предотвращения создания дублей сайтов в поисковой выдаче. Для того чтобы в выдачу не попали зеркала, прописывать эту директиву крайне важно. Если в robots.txt не будет прописана директива Host, он будет индексировать ресурс дважды: с www и без. Это будет происходить до тех пор, пока специальный робот не скрепит дважды проиндексированные страницы.

Host: www.sitebz.ru
Host: sitebz.ru

В robots.txt разрешается прописывать лишь одну директиву Host. В случае, когда директив будет несколько, поисковая система станет обрабатывать лишь первую, игнорируя все остальные.Для правильного описания существующих зеркал следует придерживаться основных правил:

  • Обращать внимания на протокол соединения;
  • Прописывать только имя домена (ни в коем случае нельзя указывать IP-адрес);
  • Если потребуется, стоит указать номер порта.Директивы, прописанные с ошибками, боты будут игнорировать.

Примеры ошибочных инструкций директивы Host:

директива host для файла robots.txt

До сих пор не утихают споры по поводу правильного указания сайта в директиве Host. Некоторые считают, что лучше указывать с www, остальные – что без нее. Но разницы здесь нет, это лишь дело вкуса и привычки. Главное не забыть указать зеркало, чтобы поисковый бот не создавал дубликаты страниц.

Crawl-delay

Использование Crawl-delay необходимо в тех случаях, когда сайт не выдерживает нагрузки при натиске ботов. Особенно это важно для сайтов на недорогих хостингах, которые не имеют отдельного выделенного сервера, чтобы выдерживать большую нагрузку. Директива устанавливает время ожидания между окончанием скачивания одной информации и стартом загрузки другой. Данное правило должно располагаться сразу же после указания инструкций Disallow и Allow.

директива crawl-delay

Clean-param

Данное правило применяется на сайтах, где используются динамические параметры, обычно передаваемые способами GET, POST и другими. К таким параметрам можно отнести идентификаторы сессий, id пользователей или статей и т.д. Чтобы в выдаче не возникало дублей таких страниц и используется Clean-param. При ее использовании поисковым системам будет дана команда не закачивать дополнительную информацию.

Clean-param: s/post/show.php

Такая инструкция скажет ПС, что параметр s является неважным и его считывание необязательно для страниц содержащих /post/show.php

Для описания директивы Clean-param можно использовать 500 символов.

После того, как прописаны все директивы необходимо настроить robots.txt

Создаем правильные настройки robots.txt файла

Файл инструкций для роботов-ботов должен в себе иметь, как минимум, две инструкции. Во-первых, это User-agent, указывающая ПС, для которой будут описаны инструкции. Во-вторых, Disallow, которое уточнит список файлов и разделов для запрета индексирования.Указывать правила можно, как для отдельных ПС, так и для всех существующих. Если вы желаете прописать инструкции для всех поисковых систем, используйте следующую запись:

User-agent: *

Если вы хотите, чтобы правила были прописаны, например, для бота Яндекса, то вам следует указать:

User-agent: YandexBot

Простым примером robots.txt может служить следующая запись:

User-agent: *
Disallow: /settings.php
Disallow: /posts/
Host: sitebz.ru

Когда ваш ресурс не имеет информации, которую не стоит считывать, то содержание robots.txt должно иметь следующий вид:

User-agent: *
Disallow:
Host: sitebz.ru

Для использования инструкция под определенные поисковики, файл robots.txt следует изменить, указывая ботом той или иной ПС.

Текст robots.txt для ПС Bing

В данном случае текст robots.txt будет практически идентичным тому, что мы составили для ПС Яндекс. Есть только одно важное отличие: Bing не считывает директиву Host, поэтому здесь мы ее не прописываем.

User-agent: BingBot
Disallow: /admin
Sitemap: http://seobz.ru/sitemaps.xml

Надеемся, что вышеизложенная информация помогла вам в осознании важности файла robots.txt и его правильном и грамотном составлении, ведь от него зависит выдача ваших страниц в поисковиках. Отдельно следует обратить внимание на создание robots.txt для известных систем CMS.

Оглавление