Файл robots.txt: как создать и не допустить ошибки

Время прочтения: 7 мин.
Чтобы сайт высоко ранжировался в выдаче, SEO-специалисты оптимизируют его страницы, чтобы сделать их привлекательными для поисковых роботов. Однако на любом сайте есть «уголки», оптимизировать которые невозможно и бессмысленно, и поисковым роботам «знать» о них не следует.

Речь идет ни в коем случае не о подменных страницах: клоакинг строго запрещен во всех поисковых системах и карается фильтрами. Но клоакинг здесь не причем.

Админ-панель, формы обратной связи и регистрации, политика обработки данных, служебные и технические страницы – это компоненты, без которых сайту не обойтись, но оптимизировать их по требованиям SEO невозможно и незачем. Соответственно, нет смысла показывать эти страницы поисковым роботам: продвинуться в топ они не помогут, а вот ухудшить позиции – да. Тем более не следует показывать корзины и личные кабинеты пользователей, поскольку это чревато утечкой личных данных клиентов в поисковую систему.

Для того, чтобы роботы «знали», какие страницы им оценивать, а какие – пропускать, используют файл robots.txt. Разберемся, что это такое, откуда берется и как работает.


Что такое robots.txt и зачем он нужен

Robots.txt – это служебный файл, который размещается в корневом каталоге сайта. В этом файле прописываются указания (директивы) для роботов поисковых систем. Директивы сообщают роботам, какие части сайта индексировать, а какие нет.

Файл robots.txt технически представляет собой документ, созданный в простом текстовом редакторе – например, в Блокноте. Создать его может как веб-мастер, так и SEO-специалист или сам владелец сайта. Указания для роботов прописываются в виде стандартных директив. С их помощью можно закрыть от индексации отдельные страницы или сайт целиком, если он находится на стадии разработки и еще не готов к ранжированию в ПС.

Если поисковые роботы не обнаружат в корне сайта файл robots.txt, то будут сканировать все его страницы. Среди них могут оказаться служебные, технические, в том числе с дублированным контентом. Подобные страницы будут низко оцениваться роботами и препятствовать SEO-продвижению. Сайт, который роботы считают низкокачественным, не поднимется на первые позиции органической выдачи.
Файл robots.txt: пример

Какие требования к файлу robots.txt

Чтобы поисковый робот «понял» вас и прислушался к вашим рекомендациям, файл robots.txt должен соответствовать принятым требованиям:

1
Единственно допустимое название – robots.txt В названии нельзя использовать заглавные буквы, дополнительные символы и т.д.
2
Единственный разрешенный формат – .txt.
3
Вес файла не может превышать 32 Кб.
4
Все директивы в документе прописываются только латиницей. Если в адресах страниц и разделов сайта используется кириллическая символика, то ее необходимо перевести в латиницу с помощью конвертера.

Файл robots.txt: пример
Файл robots.txt должен быть размещен в корневом каталоге сайта и доступен по ссылке https://yoursite.ru/robots.txt, где yoursite.ru – ваш домен. Инструкции, указанные в документе, касаются всего ресурса вместе с поддоменами.

Перечисленные правила обязательны к соблюдению как в Яндексе, так и в Google. Если какое-либо правило не соблюдается, то поисковые роботы вас «не поймут» и будут сканировать сайт целиком без учета запретов и разрешений.

Как составить robots.txt: основные директивы

Создать файл с инструкциями для роботов просто. Открываем Блокнот и создаем новый документ с именем robots.txt.
Не используйте текстовые редакторы Microsoft Office, поскольку поисковые роботы не воспринимают файлы с расширением .doc, .docx и другие.
В созданном файле прописываем необходимые директивы – каждую с новой строки. Значение пишем через двоеточие.

Основные параметры, которые используются в файле robots, приведены ниже.

User-agent

Обозначает поискового бота, на которого рассчитана конкретная директива. Если рекомендация дана для всех поисковиков, то ставится знак звездочка (*).

Например:
User-agent: * – действительна для всех ПС
User-agent: Yandex – только для роботов Яндекса
User-agent: Google – только для роботов ПС Гугла
User-agent: YandexImages – для роботов Яндекса, которые сканируют только изображения

Disallow

Запрещает индексирование конкретной страницы, раздела или всего сайта. Это означает, что роботам запрещено сканировать указанный URL.

Например:
Disallow: /about/ – закрывает от индексации страницу «О компании», размещенную по адресу https://yoursite.ru/about/
Disallow: /blog/article1/ – запрещает индексировать страницу статьи, размещенную в блоге по адресу https://yoursite.ru/blog/article1/
Disallow: / – полностью закрывает сайт от индексации.

Если оставить строку с директивой Disallow пустой, то это будет означать отсутствие запретов для сканирования.

То есть:
Disallow:
– сайт целиком открыт для индексации, поисковым роботам разрешено сканировать все страницы.

Allow

Указывает на разрешение индексирования. Используется, чтобы задавать исключения: например, когда основная часть раздела закрывается от роботов, но отдельные страницы можно им показать.

Например:
Disallow: /blog/ – запрещена индексация блога
Allow: /blog/article2/ и Allow: /blog/article3/ – разрешена индексация статей 2 и 3

Disallow: /papka/ – запрещена индексация всей папки
Allow: /papka/page2/ – разрешена индексация страницы 2 из папки
Прописывать директиву Allow для всех разрешенных страниц не требуется. Все страницы и разделы, которые вы не закрыли директивой Disallow, по умолчанию считаются открытыми для индексации.

Если оставить поле после директивы Allow пустым, то это означает отсутствие разрешенных для сканирования страниц.

То есть:
Allow:
– все страницы сайта закрыты для поисковых роботов, нет ни одного разрешения. Сайт полностью закрыт для индексации.

Другие директивы

Помимо перечисленных также используются:

Clean-param. Правило действительно только для Яндекса, указывает на страницы, содержащие UTM-метки. Из-за этих меток могут появляться дубли страниц, которые Яндекс воспринимает негативно. Когда роботы видят в файле инструкций директиву clean-param, то понимают, что сканировать каждый дубль в отдельности не нужно.
Crawl-delay. Задает минимальный интервал времени между сканированиями страниц роботами. Чем меньше указанный интервал, тем меньше страниц робот сканирует в пределах одной сессии. Прописывать интервал можно в виде целых чисел или дробных – например crawl-delay: 0.5. Такая директива запрещает роботам делать сканирование чаще 1 раза в 0,5 секунды. Директива crawl-delay используется для, чтобы снизить нагрузку на сервер.
Sitemap. Указывает на карту сайта, помогая роботам правильно «понять» и просканировать структуру ресурса. Если вы не пользуетесь Sitemap, то прописывать соответствующую директиву не нужно.

Также важно знать специальные символы которые используются при составлении robots.txt:

  • * означает, что директива распространяется на любые символы, которые могут следовать после знака;
  • $ означает окончание действия правила;
  • # обозначает комментарий, который веб-мастер прописывает для себя, чтобы роботы его не учитывали

Например:
Disallow: /news/* – запрещены все страницы в разделе «Новости» https://yoursite/news/
Disallow: /*index.php$ – запрещены все страницы, оканчивающиеся на index.php

Частые ошибки в файле robots.txt

Если правильно составленный файл robots улучшает ранжирование сайта, то некорректный, напротив, препятствует продвижению. Неверно указанные директивы чреваты ухудшением позиций в выдаче, поскольку роботы будут сканировать не то, что нужно, а важные части сайта будут пропускать. Если подобные ошибки допустить на сайте интернет-магазина, то можно в кратчайшие сроки лишиться большой части дохода.

Частые ошибки в файле robots.txt
Ошибки, которые часто допускают по неопытности или невнимательности:

Запрет индексации важных страниц. Неправильно прописанные правила приводят к тому, что роботы не индексируют основные страницы, которые вы хотите им показать. Из-за этого ухудшается видимость сайта в поиске. Следует с осторожностью пользоваться символами * и $, чтобы случайно не закрыть больше страниц, чем требуется.
Путаница и противоречия. Если правила в файле противоречат друг другу, то роботы не будут индексировать страницы, которые посчитают «неоднозначными». Также важно учитывать, что роботы читают директивы последовательно сверху вниз, поэтому в списке противоречивых правил робот последует тому, которое прописано последним.
Блокировка скриптов и стилей. Например, JavaScript или CSS. Эти файлы нельзя закрывать, поскольку без них Google некорректно «прочитает» страницы, воспринимая их как просто набор кодов. Такой сайт не поднимется на первые позиции выдачи. Ни в коем случае нельзя просто закрывать директорию со стилями.
Разрешение сканировать сайты и страницы на стадии разработки. Если страница еще не готова и не оптимизирована, то ей незачем попадать в индекс.
Неверный адрес файла из-за неправильного расположения. Если файл robots.txt лежит не в корневом каталоге, то поисковые роботы его не увидят. Соответственно, все прописанные инструкции будут бесполезными.

Еще одна возможная ошибка – расстановка запретов тегом noindex.

С 2019 года роботы ПС Google не учитывают эту директиву при сканировании. Поэтому если сайт существует давно, то следует проверять на актуальность правила, указанные в файле robots.


Как проверить правильность robots.txt

Для того, чтобы проверить корректность файла robots.txt, используют сервис Яндекс Вебмастер.

Алгоритм действий для Яндекса:

1
Зайти в Вебмастер. В правом верхнем углу – «Инструменты» – выбрать «Анализ robots.txt»/
Как проверить robots.txt в Яндекс Вебмастере
2
В поле «Проверяемый сайт» указать полный адрес файла robots.txt.
Другой вариант: скопировать текст из файла robots.txt и вставить в поле «Исходный код файла».
Как проверить корректность составления robots.txt в Яндекс Вебмастере
3
Запустить проверку.

Если система выявит ошибки, то укажет их в отчете «Результаты анализа robots.txt» с комментариями. Если ошибки не зафиксированы, то файл составлен верно.
Как проверить robots.txt в Яндекс Вебмастере. Результаты проверки
Рекомендуется также проверить отдельные адреса. Для этого пропишите их в поле «Разрешены ли URL?» Если раздел или страница, которую вы запретили, воспринимается системой как запрещенная, значит, директивы в robots.txt прописаны правильно.

Как проверить robots.txt в Яндекс Вебмастере. Проверить URL
Помните, что наличие корректно составленных инструкций в значительной мере облегчает роботам задачу и улучшает ранжирование вашего сайта в ПС.

Авторы статьи
  • Полина
    Глав.ред., копирайтер,
    контент-менеджер
Статья была полезной?
Подпишись на полезные материалы
Делимся инсайдерской информацией, только тсссс!

Еще полезные статьи