Семальт: как заблокировать Darodar Robots.txt

Файл Robots.txt - это типичный текстовый файл, содержащий инструкции о том, как сканеры или боты должны сканировать сайт. Их применение очевидно в поисковых роботах, которые распространены на многочисленных оптимизированных веб-сайтах. Как часть протокола исключения роботов (REP), файл robots.txt является важным аспектом индексации содержимого веб-сайта, а также позволяет серверу соответствующим образом аутентифицировать пользовательские запросы.

Юлия Вашнева, старший менеджер по работе с клиентами Semalt , объясняет, что связывание является аспектом поисковой оптимизации (SEO), который включает получение трафика из других доменов в вашей нише. Чтобы ссылки «перешли» для передачи ссылочного сока, необходимо включить файл robots.txt в пространство размещения вашего сайта, чтобы он действовал в качестве инструктора того, как сервер взаимодействует с вашим сайтом. Из этого архива приводятся инструкции, позволяющие или запрещающие поведение некоторых конкретных пользовательских агентов.

Базовый формат файла robots.txt

Файл robots.txt содержит две основные строки:

Агент пользователя: [имя агента пользователя]

Disallow: [строка URL не будет сканироваться]

Полный файл robots.txt должен содержать эти две строки. Однако некоторые из них могут содержать несколько строк пользовательских агентов и директив. Эти команды могут содержать такие аспекты, как разрешает, запрещает или задерживает сканирование. Обычно есть разрыв строки, который разделяет каждый набор инструкций. Каждая из инструкций разрешить или запретить отделяется этим разрывом строки, особенно для robots.txt с несколькими строками.

Примеры

Например, файл robots.txt может содержать такие коды:

Пользователь-агент: дародар

Disallow: / плагин

Disallow: / API

Disallow: / _comments

В данном случае это заблокированный файл robots.txt, который ограничивает доступ к вашему веб-сайту Darodar. В приведенном выше синтаксисе код блокирует такие аспекты веб-сайта, как плагины, API и раздел комментариев. Благодаря этим знаниям можно добиться многочисленных преимуществ от эффективного выполнения текстового файла робота. Файлы Robots.txt могут выполнять множество функций. Например, они могут быть готовы к:

1. Разрешить содержание всех веб-сканеров на странице веб-сайта. Например;

Пользователь-агент: *

Disallow:

В этом случае доступ ко всему пользовательскому контенту может получить любой веб-сканер, запрашиваемый для перехода на веб-сайт.

2. Заблокируйте определенный веб-контент из определенной папки. Например;

Пользователь-агент: Googlebot

Disallow: / пример-подпапка /

Этот синтаксис, содержащий имя пользователя-агента Googlebot, принадлежит Google. Он ограничивает доступ бота к любой веб-странице в строке www.ourexample.com/example-subfolder/.

3. Заблокируйте определенный веб-сканер с определенной веб-страницы. Например;

Пользователь-агент: Bingbot

Disallow: /example-subfolder/blocked-page.html

Пользовательский агент бот Bing принадлежит веб-сканерам Bing. Этот тип файла robots.txt ограничивает веб-сканер Bing от доступа к определенной странице со строкой www.ourexample.com/example-subfolder/blocked-page.

Важная информация

  • Не каждый пользователь использует ваш файл robts.txt. Некоторые пользователи могут решить игнорировать это. Большинство таких сканеров включают трояны и вредоносные программы.
  • Чтобы файл Robots.txt был виден, он должен быть доступен в каталоге веб-сайта верхнего уровня.
  • Символы «robots.txt» чувствительны к регистру. В результате вы не должны изменять их каким-либо образом, в том числе с использованием некоторых аспектов.
  • Файл /robots.txt является общественным достоянием. Любой может найти эту информацию, добавив ее к содержимому любого URL. Вы не должны индексировать важные детали или страницы, которые вы хотите, чтобы они оставались конфиденциальными.