Файл robots.txt: как создать и не допустить ошибки

Полина Смирнова

Главный редактор, копирайтер, контент-менеджер

Что вы узнаете

Содержание статьи

Чтобы сайт высоко ранжировался в выдаче, SEO-специалисты оптимизируют его страницы, чтобы сделать их привлекательными для поисковых роботов. Однако на любом сайте есть «уголки», оптимизировать которые невозможно и бессмысленно, и поисковым роботам «знать» о них не следует.

Речь идет ни в коем случае не о подменных страницах: клоакинг строго запрещен во всех поисковых системах и карается фильтрами. Но клоакинг здесь не причем.

Админ-панель, формы обратной связи и регистрации, политика обработки данных, служебные и технические страницы – это компоненты, без которых сайту не обойтись, но оптимизировать их по требованиям SEO невозможно и незачем. Соответственно, нет смысла показывать эти страницы поисковым роботам: продвинуться в топ они не помогут, а вот ухудшить позиции – да. Тем более не следует показывать корзины и личные кабинеты пользователей, поскольку это чревато утечкой личных данных клиентов в поисковую систему.

Для того, чтобы роботы «знали», какие страницы им оценивать, а какие – пропускать, используют файл robots.txt. Разберемся, что это такое, откуда берется и как работает.

Что такое robots.txt и зачем он нужен

Robots.txt – это служебный файл, который размещается в корневом каталоге сайта. В этом файле прописываются указания (директивы) для роботов поисковых систем. Директивы сообщают роботам, какие части сайта индексировать, а какие нет.

Файл robots.txt технически представляет собой документ, созданный в простом текстовом редакторе – например, в Блокноте. Создать его может как веб-мастер, так и SEO-специалист или сам владелец сайта. Указания для роботов прописываются в виде стандартных директив. С их помощью можно закрыть от индексации отдельные страницы или сайт целиком, если он находится на стадии разработки и еще не готов к ранжированию в ПС.

Если поисковые роботы не обнаружат в корне сайта файл robots.txt, то будут сканировать все его страницы. Среди них могут оказаться служебные, технические, в том числе с дублированным контентом. Подобные страницы будут низко оцениваться роботами и препятствовать SEO-продвижению. Сайт, который роботы считают низкокачественным, не поднимется на первые позиции органической выдачи.

Какие требования к файлу robots.txt

Чтобы поисковый робот «понял» вас и прислушался к вашим рекомендациям, файл robots.txt должен соответствовать принятым требованиям:

  1. Единственно допустимое название – robots.txt В названии нельзя использовать заглавные буквы, дополнительные символы и т.д.
  2. Единственный разрешенный формат – .txt.
  3. Вес файла не может превышать 32 Кб.
  4. Все директивы в документе прописываются только латиницей. Если в адресах страниц и разделов сайта используется кириллическая символика, то ее необходимо перевести в латиницу с помощью конвертера.

Файл robots.txt: пример

Файл robots.txt должен быть размещен в корневом каталоге сайта и доступен по ссылке https: //yoursite. ru/robots.txt, где yoursite.ru – ваш домен. Инструкции, указанные в документе, касаются всего ресурса вместе с поддоменами.

Перечисленные правила обязательны к соблюдению как в Яндексе, так и в Google. Если какое-либо правило не соблюдается, то поисковые роботы вас «не поймут» и будут сканировать сайт целиком без учета запретов и разрешений.

Как составить robots.txt: основные директивы

Создать файл с инструкциями для роботов просто. Открываем Блокнот и создаем новый документ с именем robots.txt.

Не используйте текстовые редакторы Microsoft Office, поскольку поисковые роботы не воспринимают файлы с расширением .doc, .docx и другие.

В созданном файле прописываем необходимые директивы – каждую с новой строки. Значение пишем через двоеточие.

Основные параметры, которые используются в файле robots, приведены ниже.

User-agent

Обозначает поискового бота, на которого рассчитана конкретная директива. Если рекомендация дана для всех поисковиков, то ставится знак звездочка (*).

Например:

User-agent: * – действительна для всех ПС

User-agent: Yandex – только для роботов Яндекса

User-agent: Google – только для роботов ПС Гугла

User-agent: YandexImages – для роботов Яндекса, которые сканируют только изображения

Disallow

Запрещает индексирование конкретной страницы, раздела или всего сайта. Это означает, что роботам запрещено сканировать указанный URL.

Например:

Disallow: /about/ – закрывает от индексации страницу «О компании», размещенную по адресу https: //yoursite.ru/about/

Disallow: /blog/article1/ – запрещает индексировать страницу статьи, размещенную в блоге по адресу https: //yoursite.ru/blog/article1/

Disallow: / – полностью закрывает сайт от индексации.

Если оставить строку с директивой Disallow пустой, то это будет означать отсутствие запретов для сканирования.

То есть:

Disallow:

– сайт целиком открыт для индексации, поисковым роботам разрешено сканировать все страницы.

Allow

Указывает на разрешение индексирования. Используется, чтобы задавать исключения: например, когда основная часть раздела закрывается от роботов, но отдельные страницы можно им показать.

Например:

Disallow: /blog/ – запрещена индексация блога

Allow: /blog/article2/ и Allow: /blog/article3/ – разрешена индексация статей 2 и 3

Disallow: /papka/ – запрещена индексация всей папки

Allow: /papka/page2/ – разрешена индексация страницы 2 из папки

Прописывать директиву Allow для всех разрешенных страниц не требуется. Все страницы и разделы, которые вы не закрыли директивой Disallow, по умолчанию считаются открытыми для индексации.

Если оставить поле после директивы Allow пустым, то это означает отсутствие разрешенных для сканирования страниц.

То есть:

Allow:

– все страницы сайта закрыты для поисковых роботов, нет ни одного разрешения. Сайт полностью закрыт для индексации.

Другие директивы

Помимо перечисленных также используются:

  • Clean-param. Правило действительно только для Яндекса, указывает на страницы, содержащие UTM-метки. Из-за этих меток могут появляться дубли страниц, которые Яндекс воспринимает негативно. Когда роботы видят в файле инструкций директиву clean-param, то понимают, что сканировать каждый дубль в отдельности не нужно.

  • Crawl-delay. Задает минимальный интервал времени между сканированиями страниц роботами. Чем меньше указанный интервал, тем меньше страниц робот сканирует в пределах одной сессии. Прописывать интервал можно в виде целых чисел или дробных – например crawl-delay: 0.5. Такая директива запрещает роботам делать сканирование чаще 1 раза в 0,5 секунды. Директива crawl-delay используется для, чтобы снизить нагрузку на сервер.

  • Sitemap. Указывает на карту сайта, помогая роботам правильно «понять» и просканировать структуру ресурса. Если вы не пользуетесь Sitemap, то прописывать соответствующую директиву не нужно.

Также важно знать специальные символы которые используются при составлении robots.txt:

  • * означает, что директива распространяется на любые символы, которые могут следовать после знака;

  • $ означает окончание действия правила;

  • # обозначает комментарий, который веб-мастер прописывает для себя, чтобы роботы его не учитывали

Например:

Disallow: /news/* – запрещены все страницы в разделе «Новости» https ://yoursite/news/

Disallow: /*index.php$ – запрещены все страницы, оканчивающиеся на index.php

Частые ошибки в файле robots.txt

Если правильно составленный файл robots улучшает ранжирование сайта, то некорректный, напротив, препятствует продвижению. Неверно указанные директивы чреваты ухудшением позиций в выдаче, поскольку роботы будут сканировать не то, что нужно, а важные части сайта будут пропускать. Если подобные ошибки допустить на сайте интернет-магазина, то можно в кратчайшие сроки лишиться большой части дохода.

Ошибки, которые часто допускают по неопытности или невнимательности:

  • Запрет индексации важных страниц. Неправильно прописанные правила приводят к тому, что роботы не индексируют основные страницы, которые вы хотите им показать. Из-за этого ухудшается видимость сайта в поиске. Следует с осторожностью пользоваться символами * и $, чтобы случайно не закрыть больше страниц, чем требуется.

  • Путаница и противоречия. Если правила в файле противоречат друг другу, то роботы не будут индексировать страницы, которые посчитают «неоднозначными». Также важно учитывать, что роботы читают директивы последовательно сверху вниз, поэтому в списке противоречивых правил робот последует тому, которое прописано последним.

  • Блокировка скриптов и стилей. Например, JavaScript или CSS. Эти файлы нельзя закрывать, поскольку без них Google некорректно «прочитает» страницы, воспринимая их как просто набор кодов. Такой сайт не поднимется на первые позиции выдачи. Ни в коем случае нельзя просто закрывать директорию со стилями.

  • Разрешение сканировать сайты и страницы на стадии разработки. Если страница еще не готова и не оптимизирована, то ей незачем попадать в индекс.

  • Неверный адрес файла из-за неправильного расположения. Если файл robots.txt лежит не в корневом каталоге, то поисковые роботы его не увидят. Соответственно, все прописанные инструкции будут бесполезными.

Еще одна возможная ошибка – расстановка запретов тегом noindex.

С 2019 года роботы ПС Google не учитывают эту директиву при сканировании. Поэтому если сайт существует давно, то следует проверять на актуальность правила, указанные в файле robots.

Как проверить правильность robots.txt

Для того, чтобы проверить корректность файла robots.txt, используют сервис Яндекс Вебмастер.

Алгоритм действий для Яндекса:

    1. Зайти в Вебмастер. В правом верхнем углу – «Инструменты» – выбрать «Анализ robots.txt».
      Как проверить robots.txt в Яндекс Вебмастере

    2. В поле «Проверяемый сайт» указать полный адрес файла robots.txt.
      Другой вариант: скопировать текст из файла robots.txt и вставить в поле «Исходный код файла».

      Как проверить корректность составления robots.txt в Яндекс Вебмастере

    3. Запустить проверку.
      Если система выявит ошибки, то укажет их в отчете «Результаты анализа robots.txt» с комментариями. Если ошибки не зафиксированы, то файл составлен верно.

      Как проверить robots.txt в Яндекс Вебмастере. Результаты проверки

Рекомендуется также проверить отдельные адреса. Для этого пропишите их в поле «Разрешены ли URL?» Если раздел или страница, которую вы запретили, воспринимается системой как запрещенная, значит, директивы в robots.txt прописаны правильно.

Как проверить robots.txt в Яндекс Вебмастере. Проверить URL

Помните, что наличие корректно составленных инструкций в значительной мере облегчает роботам задачу и улучшает ранжирование вашего сайта в ПС.

@planerochnaya

Телеграм-канал об интернет-маркетинге и бизнесе с перцем из первых уст Владимира Пивульского

Подпишитесь на полезную рассылку

Получайте свежие статьи о трендах в маркетинге, приглашения на вебинары с экспертами, закрытые мероприятия и другие эксклюзивные предложения для наших подписчиков

Нажимая кнопку «Оставить заявку», вы соглашаетесь с политикой обработки персональных данных

Нажимая кнопку «Оставить заявку», вы соглашаетесь получать рассылку о новостях и акциях