Robots.txt
Robots.txt — это текстовой файл, который содержит инструкции как сканировать ваш сайт для поисковых работов. Файл robots.txt является частью cтандарта исключений для роботов (REP), группы веб-стандартов, которые регулируют как роботы сканируют, получают доступ и индексируют контент, а так же предоставляют контент пользователям. REP так же включают в себя директивы, такие как meta robots, а также инструкции для сайта о том, как поисковые роботы будут обрабатывать ссылки (follow, nofollow).
Простыми словами, файл robots.txt может скрыть от поисковых роботов (всех или определённых) страницы и разделы, которые вы хотите скрыть (disallowing, allowing).
На практике:
User-agent: [наименование робота]
Disallow: [URL адрес, который нужно запретить]
По факту так может выглядеть готовый robots.txt. Но так же robots.txt может содержать несколько строк: наименований поисковых роботов и различных директив.
В файле robots.txt каждый набор директив поискового робота отображается как дискретный набор, разделенный разрывом строки:
В файлах robots.txt с несколькими директивами посиковых роботов каждое разрешающее или запрещающее правило относится только к одному агенту. Если поставили allow на Google бота, оно не будет распространяться на Яндекс бота. Если в файле стоит директива правил для всех агентов, то они будут применяться ко всем роботам.
Пример Robots.txt
Несколько различных примеров использования robots.txt для сайта reaktorsite.ru:
Robots.txt файл URL: www.reaktorsite.ru/robots.txt
Блокируем весь контент на сайте для всех поисковых роботов:
User-agent: *
Disallow: /
Используя данный синтаксис в файле robots.txt, мы автоматически закрываем все страницы для всех роботов на сайте reaktorsite.ru, включая главную страницу.
Открываем весь контент на сайте для всех поисковых роботов:
Используя данный синтаксис в файле robots.txt, мы автоматически открываем все страницы для всех роботов на сайте reaktorsite.ru, включая главную страницу.
Блокируем определённый поисковый робот и определённую директорию:
User-agent: Googlebot
Disallow: / portfolio-category /
Используя данный синтаксис в файле robots.txt, мы автоматически закрываем от Google бота директорию портфолио.
Блокируем определённый поисковый робот и определённую страницу:
User-agent: YandexBot
Disallow: / portfolio-item/kladez.html
Используя данный синтаксис в файле robots.txt, мы автоматически закрываем от Yandex бота конкретную страницу портфолио.
Как работает robots.txt?
Поисковые системы созданы для:
- Сканирования интернета в поисках контента.
- Индексирование контента, что пользователи могли увидеть его в поисковой выдаче.
Поисковые роботы переходят по ссылкам с одного сайта на другой и в конечном итоге обходят миллиарды ссылок и сайтов. Образуя, образно выражаясь, “паутину” из множества сайтов.
Перед тем как занести сайт в “паутину”, поисковые роботы первым делом ищут файл Robots.txt. Если такой файл имеется, то робот в первую очередь просканирует его, прежде чем начнёт обходить страницы сайта. Такой порядок обусловлен тем, что в файле robots.txt содержится информация, как поисковый робот должен сканировать ваш сайт. Если robots.txt не содержит директив к запрету сканирования, тогда поисковый робот начнёт обходить непосредственно страницы сайта.
Индексация Robots.txt
- Чтобы файл robots.txt был найден поисковыми роботами, его необходимо поместить в каталог верхнего уровня сайта.
- Файл robots.txt чувствителен к регистру. Он должен называться robots.txt. Не рекоммендуется называть его Robots.txt, robots.TXT, роботс.txt.
- Файл /robots.txt находится в свободном доступе: просто добавьте /robots.txt в конец любого корневого домена, чтобы увидеть директивы этого веб-сайта (если на этом сайте есть файл robots.txt!). Это означает, что любой может увидеть, какие страницы вы открыли для роботов, а какие не хотите сканировать.
- Каждый поддомен в корневом домене использует отдельные файлы robots.txt. Это означает, что и en.reaktorsite.ru и reaktorsite.ru должны иметь свои собственные файлы robots.txt (по адресу en.reaktorsite.ru /robots.txt и reaktorsite.ru /robots.txt).
- Рекомендуется указывать расположение карт сайта, связанных с этим доменом, в нижней части файла robots.txt.
Технический синтаксис файла robots.txt
Существуют 5 основных терминов, которые встречаются в файлах robots.txt:
- User-agent: конкретный поисковый робот, которому вы даете инструкции для сканирования (обычно это поисковая система). Их существует более трёхсот, но танцы с бубном устраивать не нужно: Googlebot и YandexBot два основных в России.
- Disallow: команда, используемая для указания роботу не сканировать определенный URL. Для каждого URL разрешена только одна строка «Disallow:».
- Allow: команда, сообщающая роботу, что он может получить доступ к странице или подпапке, даже если его родительская страница или подпапка под запретом.
- Crawl-delay: сколько секунд робот должен ждать перед загрузкой и сканированием содержимого страницы.
- Sitemap: указывает на местоположения любых XML-файлов карт сайта, связанных с этим URL.
Где находится файл robots.txt
Любая поисковая система, сканирующая ваш сайт, первым делом ищет файл robots.txt. Но искать она его будут в одном месте — в родительской категории сайта. Если поисковый робот не находит там файла robots.txt, в другом месте он его искать не будет и начнёт обход сайта, как будто файла robots.txt не существует.
Чтобы обезопасить себя и свой сайт, всегда включайте файл robots.txt в корневой каталог сайта.
Зачем мне использовать файл robots.txt
Файл robots.txt управляет доступом к разделам вашего сайта. Это может быть как и опасно (если вы по неопытности поставите disallow на весь сайт), так и очень полезно.
Самые распространённые варианты использования файла robots.txt:
- Предотвращение появления дублированного контента в результатах поиска.
- Сохранение конфиденциальности определённых разделов сайта.
- Исключение ненужных страниц из индексации (например результаты поиска на вашем сайте).
- Указание местоположения карты сайта.
- Запрет на индексацию определённых файлов (фото, видео, pdf).
Проверка наличия файла robots.txt
Вы хотите узнать есть ли у вас файл robots.txt? Введите свой URL домен и добавьте к нему в конце /robots.txt. Например у нашего сайта robots.txt находится по адресу reaktorsite.ru/robots.txt
Если по этому адресу страница не отображается, значит файл robots.txt отсутствует или расположен в неправильном месте.
Как создать файл robots.txt
Если у вас до сих пор нет файла robots.txt или вы хотите отредактировать текущий — сделать это не сложно. Вы можете следовать нашим рекомендациям описаным выше. У Google есть хорошая статья (https://support.google.com/webmasters/answer/6062596?hl=en) по созданию файла robots.txt, а так же инструмент (https://support.google.com/webmasters/answer/6062598?hl=en&ref_topic=6061961) для проверки его на ошибки.
Как создать файл robots.txt
Если у вас до сих пор нет файла robots.txt или вы хотите отредактировать текущий — сделать это не сложно. Вы можете следовать нашим рекомендациям описаным выше. У Google есть хорошая статья (https://support.google.com/webmasters/answer/6062596?hl=en) по созданию файла robots.txt, а так же инструмент (https://support.google.com/webmasters/answer/6062598?hl=en&ref_topic=6061961) для проверки его на ошибки.
Robots.txt, meta robots, x-robots
В чём разница между этими тремя роботами? Robots.txt это обычный текстовый файл, тогда как meta robots и x-robots это метадирективы. Да и функции у них разные. Robots.txt задаёт напрваление боту при сканировании всего сайта, тогда как meta robots и x-robots определяют поведение бота на отдельной странице, либо на отдельном элементе страницы.
Robots.txt и wordpress
По умолчанию WordPress сам создаёт файл robots.txt, для созданного вами сайта. Поэтому даже если вы ничего не сделаете, на вашем сайте уже должен стоять robots.txt. Но поскольку этот файл виртуальный, вы не сможете его редактировать, поэтому необходимо создать физический файл на своём сервере. Сделать это можно при помощи СЕО плагинов WordPress.