Правильный robots для joomla 3. Мета-тег Robots — помогает закрыть дубли контента

30.03.2020

В этой статье поговорим как составить правильный файл robots.txt для Joomla . Он играет важнейшую роль для правильной, быстрой индексации вашего проекта, и если robots.txt составлен не верно, то некоторые страницы вашего сайта вообще могут быть исключены поисковиками, а дублированные и мусорные попадут в индекс, что естественно отрицательно скажется на поисковой выдаче и ваши усилия по оптимизации сайта пойдут прахом.

И так, файл robots.txt, это текстовый файл, который находиться в корне вашего сайта и говорит поисковым роботам как именно индексировать ваш проект. На какие страницы не стоит обращать внимание, а каким уделить особое внимание.

Если в файле robots.txt не правильно определить правила для поисковых роботов, то они проиндексируют много мусорных страниц, и может произойти многократное дублирование информации вашего сайта, то есть одна и та же статья будет доступна по разным ссылкам а это не есть хорошо.

Давайте рассмотрим основные директивы и правила этого файла.

Директивы и правила написания файла robots.txt.

Файл начинается с наиболее важной директивы -User-agent – она содержит название поискового робота. Для всех поисковых роботов - User-agent: *, а для Яндекса добавляем в User-agent название Yandex - User-agent: Yandex.

Следущие это Allow и Disallow . Первая разрешает, а вторая запрещает индексацию поисковым роботам.

Ваш правильный файл robots.txt должен содержать как минимум одну директиву «Disallow» соответственно после каждой записи «User-agent». А вот если вы оставите совсем пустой файл robots.txt, то поисковые машины будут индексировать ваш ресурс полностью, и в индекс попадет много мусорных и дублированных страниц.

Также необходима директива Host – которую понимает только поисковая система Яндекс, она служит, для определения главного зеркала вашего сайта, то есть ваш ресурс может быть доступен по нескольким адресам, допустим с www и без, что для поисковых систем это является двумя разными сайтами.

Так как директиву Host понимает только Яндекс, то для этого нужно использовать отдельно User-agent: Yandex, а для указания действий к индексации другим поисковым роботам использовать директиву User-agent.

Да и при составлении правильного robots.txt вы должны соблюдать правила написания: (директива):(пробел)(значение).

И последняя важная директива - Sitemap . Она показывает поисковикам где у вас на блоге расположена карта сайта в формате.xml.

Правильный robots.txt для Joomla

Правильный файл robots.txt для Joomla которую использую я на этом сайте, выглядит так:

Кстати, если вы хотите просмотреть роботс любой интернет-площадки, то достаточно дописать в командной строке браузера к url /robots.txt, допустим .

Да и необходимо знать, что у поисковых систем Google и Яндекс по мимо основных имеются специальные роботы для индексации новостей, изображений и т.д., так что не забудьте открыть для индексации изображения с вашего сайта. По умолчанию в robots.txt Joomla стоит Disallow: /images/. Удалите эту директиву.

Перед тем как внести изменения в файл robot.txt, думаю, будет не лишним рассказать, что это за файл и для чего он нужен. Те, кто уже знаком с данным файлом первую часть текста могут пропустить.

Robots.txt что это за файл и для чего он нужен

Это обычный текстовый файл, который нужен исключительно для поисковых систем, именно он служит для указания (или если хотите рекомендации) поисковым роботам, что и как индексировать. От правильно составленного файла robot.txt зависит многое, с его помощью можно закрыть сайт от поисковых роботов или наоборот, разрешить обход только определенных разделов сайта. Поэтому грамотное его составление является одной из приоритетных задач в SEO оптимизации сайта.

Для того чтобы правильно отредактировать файл robots.txt сначала необходимо определиться с его расположением. Для любого сайта, в том числе, созданном в CMS Joomla 3, данный файл находится в корневой директории (папке) сайта. После установки Joomla 3 этот файл уже присутствует, но его содержание далеко от идеала.

Синтаксис файла robots.txt

В Joomla 3 файл robots.txt в базовом варианте содержит только самое основное, его содержимое примерно такое:

User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/

В самом начале файла может содержаться еще текст, но он, скажем так, закомментирован символом «#». Проще говоря, строка, вначале которой содержится символ «#» не учитывается поисковыми роботами и для уменьшения размера файла их можно смело удалять. Таким образом, базовый файл robot.txt будет иметь именно указанное выше содержание. Давайте разберем каждую строку.

Первая строка содержит директиву User-agent, в качестве параметров которой выступает имя робота, который будет индексировать сайт. Таким образом, следующие за ней директивы будут обрабатываться только указанным роботом. Параметров может быть множество, но давайте рассмотрит только те, которые нужны именно нам:

User-agent: * #Данный параметр со значением "*" говорит, что следующий за данной строкой текст будет содержать информацию для всех роботов без исключения.

У данного параметра существуют и другие значения, самые распространенные из них это робот Яндекса и Гугла:

User-agent: Yandex #как понятно из названия параметр предназначен для роботов Яндекса, причем для всех роботов, которых у Яндекса больше 10 штук, рассматривать каждый по отдельности не вижу смысла.
User-agent: Googlebot #а это основной индексирующий робот Гугла.

Стоит отметить, если вы не указали директиву User-agent, то роботы будут думать, что им разрешен обход всего сайта, то есть доступ не ограничен. Так что не стоит ею пренебрегать.

Следующая директива Disallow , она необходима, для запрета поисковым роботам индексировать определенные разделы, она играет очень важную роль, поскольку Joomla славится созданием дублей страниц.

На этом директивы в базовом файле robots.txt закончились, но их гораздо больше чем две. Все описывать не буду, напишу только то, что действительно нужно для правильной индексации сайтов на Joomla.

Составляем правильный файл robots.txt для Joomla 3

Избавлю Вас от лишнего текста и сразу приведу пример моего файла robots.txt, а к строчкам допишу комментарии:

User-agent: * # указываем что следующие директивы предназначены для всех роботов без исключения Host: сайт #Директива указывает на главное зеркало сайта, по рекомендациям Яндекса её желательно размещать после директив Allow и Disallow Disallow: /administrator Disallow: /component/slogin/* #запрет обхода левых страниц создаваемых компонентом авторизации Slogin (если такого компонента нет, то директиву убираем) Disallow: /component/jcomments/ #Запрещаем роботам скачивать страницы создаваемые компонентом JComments (убираем если не используется) Disallow: /component/users #Таким же образом запрещаем обход других левых страниц Disallow: /bin/ #Запрет обхода системных папок Disallow: /cache Disallow: /cli Disallow: /includes Disallow: /installation Disallow: /language Disallow: /layouts Disallow: /libraries Disallow: /logs Disallow: /tmp Disallow: /components Disallow: /modules Disallow: /plugins Disallow: /component/content Disallow: /component/contact Disallow: /404 #закрываем 404 ошибку от глаз робота Disallow: /index.php? #урлы с параметрами, таких страниц Joomla может создать великое множество, они не должны попасть в индекс Disallow: /*? #урлы с вопросами Disallow: /*% #урлы с процентами Disallow: /*& #урлы со знаком & Disallow: /index.php #убираем дубли, их так же быть не должно Disallow: /index2.php #снова дубли Allow: /*.js* #Данная директива разрешает роботам индексировать файлы с указанными расширениями. Allow: /*.css* Allow: /*.png* Allow: /*.jpg* Allow: /*.gif* Allow: /index.php?option=com_jmap&view=sitemap&format=xml #Разрешаем обход карты сайта, в противном случае она будет под запретом..php?option=com_jmap&view=sitemap&format=xml #Данная директива предназначена для указания работу места хранения карты сайта в xml формате

Вот примерно такой файл robot.txt используется на данном сайте, в нем указаны как разрешающие , так и запрещающие директивы , указано главное зеркало сайта , а также путь до карты сайта . Разумеется, для каждого сайта все индивидуально и директив может быть гораздо больше. Но на данном примере можно понять основные принципы работы с файлом «робот тхт» и в дальнейшем раздавать запреты либо разрешения на определенные страницы уже конкретно под ваш сайт.

Хочу добавить, что вопреки рекомендациям Яндекса о том, что директиву Host лучше располагать после директив Disallow и Allow я все же разместил её почти в самом верху. А сделал я это после того как после очередного обхода сайта роботом Яндекс сообщил мне о том, что не может найти данную директиву. Был ли это временный сбой, или что-то еще я проверять не стал и вернул данную директиву в самый верх.

Обратите внимание на последнюю директиву, имя которой Sitemap, она необходима для указания поисковому роботу на место расположения карты сайта, это очень важный момент. Что такое файл Sitemap и какова его роль в продвижение сайта можно почитать в

Online service by OceanTheme are is a platform where people can unite with each other with mutual interest to purchase premium templates and extensions Joomla! at a bargain price. The target audience of the service are individuals and small and medium businesses, professional web developers to create online stores, community sites or people wishing to have your blog. In our great collection of premium solutions everyone will find what he needs.

Our resource acts as an organizer pooling, specifies the number of people that you want to buy templates and extensions, the cost of goods, as well as the amount and access to these materials. Our website has a lot of opportunities for easy searching of templates and extensions. Intuitive navigation, tagging system, sorting by the filter and the tool "add to bookmarks" will allow you to find the right material you want incredibly fast. In addition You will always find the latest information, so as to update the collection every day.

Access to the entire database of materials is provided for the duration of the club specified in the subscription purse. Subscribers receive unrestricted access to all available archives, news and updates, as well as technical support throughout the subscription period.

All the products you can find on this site are 100% GPL-compatible, which means you can change them as you want and install on unlimited number of sites.

Thanks to our collection you will save a lot of time and money, as the templates and extensions easy to use, easy to install and configure, multi-functional and diverse. That will allow you to create a website of any complexity and orientation, without learning advanced web development technologies.

Main features of our website

A rich set of functions, working out of the box:

Use all opportunities of our resource to get ready-made professional solution for rapid implementation of your business projects or creative ideas.

Use the search tools

Use advanced search and filtering, and easy navigation for quickly finding the desired web solutions in design, functionality and other criteria.

To favorite materials were always at hand, use the unique function "Add to favorites", and they are available in a separate section for the whole year.

Logged into our site, you will be able to leave comments and to participate in promotions, as well as use of a free subscription with permium access.

Join our club membership

Club subscription gives you full access to our entire catalogue of original material. And includes premium templates and extensions for several years.

Download appropriate to your Joomla templates and extensions, both free and subscription for the club without any limits and ogoranicheny speed.

If you liked any material on the site, you can leave your voice, as well as share it with friends via social networks.

Файл robots.txt текстовой файл, для управления поведением поисковых машин при сканировании сайта. Используя директории disallow можно закрывать от сканирования отдельные страницы сайта, его разделы и сайт целиком. Однако, disallow закрывают индексирование страниц только для ботов Яндекс.

О файле robots.txt

Не стоит откладывать шаги по подготовке сайта к индексации до заполнения его материалами. Основную подготовку сайта к индексации можно сделать сразу после создания сайта.

Основными инструментами для управления поисковых систем Google, Яндекс, Bing и других является текстовой файл robots.txt. С помощью файла robots.txt можно управлять, что поисковики должны сканировать, а что им следует обходить. Яндекс читает директивы файла robots.txt не только для разрешения на сканирование, но и разрешения на индексирование страниц. Если страница есть в запрете robots, Яндекс, через некоторое время уберет её из индекса, если она там есть, и не индексирует, если страницы нет в индексе.

Файл robots.txt это текстовой файл, размещаемый в корне сайта. В нем по определенным правилам прописывается, какой материал сайта поисковики должны сканировать, а какой материал «обходить стороной». Задать правила поведения поисковиков по отношению к материалу сайта необходимо в файле robots.txt.

Чтобы посмотреть, как выглядит файл robots.txt (если он есть в каталоге сайта), достаточно в строке браузера к имени сайта, через слеш приписать robots.txt.

Создается файл robots.txt по определенным правилам. Правила эти называют синтаксис файла. Подробно синтаксис файла robots.txt можно посмотреть на Яндекс (https://help.yandex.ru/webmaster/?id=996567 ). Здесь остановлюсь на основных правилах, которые помогут создать файл robots.txt для сайта Joomla.

Правила создания файла robots.txt

Для начала обращу ваше внимание: файл robots.txt должен создаваться индивидуально, учитывая особенности структуры сайта и политики его продвижения. Предложенный вариант файла является условным и примерным и не может претендовать на универсальность.

Каждая строка в файле называется директива. Директивы файла robots.txt имеют следующий вид:

<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>

Пустой файл robots.txt означает индексацию всего сайта.

Казалось бы, что тут плохого. Пусть поисковики сканируют и индексируют весь материал сайта. Но это хорошо пока сайт пустой. С наполнением его материалами, постоянным редактированием, загрузкой фото, удалением материалов в индексацию попадают статьи, которые уже не имеют отношения к сайту, дублированные страницы, старые архивы, и другой мусорный материал. Поисковики этого не любят, особенно дубли страниц, да и за этим «мусором» основной материал может теряться.

Директивы файла robots.txt

«User-agent» это именное или общее обращение к поисковикам.
«Allow» это разрешающие директивы;
«Disallow» это запрещающие директивы.

Директива «User-agent»

Если в строке User-agent поисковик не указан, в строке «User-agent» стоит звездочка (*), значит, все директивы файла robots.txt относятся ко всем поисковикам.

Можно задать правила индексации для определенного поисковика. Например, правила для Яндекс должны прописываться в директиве «User-agent» ,так

User-agent: Yandex

Приведу пример других поисковиков,которые можно прописать в директории «User-agent».

Google Googlebot
Yahoo! Slurp ( или Yahoo! Slurp)
AOL Slurp
MSN MSNBot
Live MSNBot
Ask Teoma
AltaVista Scooter
Alexa ia_archiver
Lycos Lycos
Яндекс Yandex
Рамблер StackRambler
Мэйл.ру Mail.Ru
Aport Aport
Вебальта WebAlta (WebAlta Crawler/2.0)

Важно! В файле robots.txt обязательна, должна быть директива «Disallow». Даже если весь файл robots.txt пустой, директива «Disallow» в нем быть должна.

Разберем знаки синтаксиса, которые задают правила индексации

Разрешены следующие специальные символы «звездочка» (*); слеш (/); и ($).

Символ «звездочка» (*) означает «любой» , «все».
Символ ($) отменяет (*)
Символ слеш (/) в одиночестве означает корневую директорию сайта, как разделитель слеш (/) показывает пути к файлам, для которых пишется правило.

Например, строка:

Disallow:

Означает запрет «ни для кого»,то есть отсутствие запрета для всего сайта. А строка:

Disallow: /

Означает запрет «для всех»,то есть запрет для всех папок и файлов сайта. Строка типа:

Disallow: /components/

Полностью формирует запрет на всю папку /components/ ,которая находится по адресу: http://ваш_сайт/components/

А вот строка

class="eliadunit"> Disallow: /components

Создает запрет на папку “components” и на все файлы и папки начинающиеся на “components”. Например: “components56”;”components77”.

Если к приведенным примерам директорий “Disallow”, добавить для какого поисковика это правило создано, получаем готовый файл robots.txt

User-agent: Yandex Disallow:

Это файл robots.txt который означает, что поисковик Yandex может индексировать весь сайт без исключений.

А такое написание строк:

User-agent: Yandex Disallow: /

Наоборот полностью запрещает Yandex индексировать весь сайт.

Принцип понятен, разберу несколько примеров и в конце приведу классические файлы robots.txt для Yandex и Google.

Следующий пример это файл robots.txt шаблонного (только, что установленного) сайта на Joomla

Этот файл robots.txt определяет правила для всех поисковиков и запрещает индексацию 15 папок сайта, находящихся в корневой директории (корне) сайта.

Дополнительная информация в файле robots.txt

В файле robots.txt нужно указать поисковикам адрес карты-сайта Sitemap и зеркальный домен для поисковика Yandex.

Sitemap: http://exempl.com/sitemap.xml.gz
Sitemap: http://exempl.com/sitemap.xml

Отдельно можно сделать robots.txt для Яндекс,чтобы в нем сделать директиву Host и в ней указать зеркало сайта.

Host: www.vash-site.com # означает, что основное зеркало сайта с www.

Host: vash-site.com #означает, что основной домен сайта без www.

Важно! При написании файла robots.txt не забывайте про пробел после двоеточия, и после двоеточия всё должно быть написано в нижнем регистре.

Важно! Старайтесь не использовать шаблоные файла robots.txt взятвые из Интернет (кроме robots.txt Joomla по умочанию). Каждый фал robots.txt должен составляться индивидуально и редактироваться в зависимости от посещаемости сайта и его SEO анализа .

В конце статьи приведу пример правильного файла robots.txt для сайта на Joomla.

User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /tmp/ Disallow: /templates/ User-agent: Yandex Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /templates/ Disallow: /*?* Host: domen.ru (или https://domen.ru) Sitemap: http://domen.ru/sitemap.xml (или https://domen.ru/sitamap.xml)

Выводы

Несмотря на традиции, замечу, для закрытия страниц сайт от индексации используйте внутренние инструменты CSM. Во всех редакторах контента есть вставке тегов noindex, nofollow.

закрытия всего сайта при его создании;
закрытия сайта от ненужных поисковиков;
закрытия личных разделов;
снижения нагрузки на сервер (директива crawl-delay).

закрытия индексации страниц пейджинга, сортировки и поиска;
Закрывать дубли страниц только для Яндекс, а для Google использовать средства CMS;
Не пытаться удалить из индекса Google страницы и разделы. Это работает только для Яндекс.

В итоге, еще раз замечу, файл robots.txt для сайта Joomla составляется индивидуально. Для начала работ используйте коробочную версия файла robots.txt.disc, который переименуйте в robots.txt и разделите на две секции, одна для Яндекс и вторая, для всех остальных ботов. Для Яндекс обязательно добавьте директорию Host, указав в ней главное зеркало сайта.

Добрый день, дорогие друзья! Все вы знаете, что поисковая оптимизация – дело ответственное и тонкое. Нужно учитывать абсолютно каждую мелочь, чтобы получить приемлемый результат.

Сегодня мы поговорим о robots.txt – файле, который знаком каждому вебмастеру. Именно в нем прописываются все самые основные инструкции для поисковых роботов. Как правило, они с удовольствием следуют предписанным указаниям и в случае неправильного составления отказываются от индексации веб-ресурса. Далее я расскажу вам о том, как составлять правильный вариант robots.txt, а также о том, как его настроить.

В предисловии я уже описал, что это такое. Теперь расскажу, зачем он нужен. Robots.txt – небольшой текстовой файл, который хранится в корне сайта. Он используется поисковыми системами. В нем четко прописаны правила индексации, т. е. какие разделы сайта нужно индексировать (добавлять в поиск), а какие – нет.

Обычно от индексации закрываются технические разделы сайта. Изредка в черный список попадают неуникальные страницы (копипаст политики конфиденциальности тому пример). Здесь же “роботам объясняются” принципы работы с разделами, которые нужно индексировать. Очень часто прописывают правила для нескольких роботов отдельно. Об этом мы и поговорим далее.

При правильной настройке robots.txt ваш сайт гарантированно вырастет в позициях поисковых систем. Роботы будут учитывать только полезный контент, обделяя вниманием дублированные или технические разделы.

Создание robots.txt

Чтобы создать файл, достаточно воспользоваться стандартным функционалом вашей операционной системы, после чего выгрузить его на сервер через FTP. Где он лежит (на сервере) догадаться несложно – в корне. Обычно эта папка называется public_html.

Вы без труда сможете попасть в нее с помощью любого FTP-клиента (например, ) или встроенного файлового менеджера. Естественно, мы не будем загружать на сервер пустой роботс. Впишем туда несколько основных директив (правил).

User-agent: *
Allow: /

Используя эти строки в своем файле robots, вы обратитесь ко всем роботам (директива User-agent), позволив им индексировать ваш сайт всецело и полностью (включая все тех. страницы Allow: /)

Конечно же, такой вариант нам не особо подходит. Файл будет не особо полезен для оптимизации под поисковики. Он определенно нуждается в грамотной настройке. Но перед этим мы рассмотрим все основные директивы и значения robots.txt.

Директивы

User-agent	Одна из важнейших, т. к. указывает каким роботам следовать идущим после нее правилам. Правила учитываются до следующего User-agent в файле.
Allow	Разрешает индексацию каких-либо блоков ресурса. Например: “/” или “/tag/”.
Disallow	Наоборот, запрещает индексацию разделов.
Sitemap	Путь до карты сайта (в формате xml).
Host	Главное зеркало (с www или без, или если у вас несколько доменов). Здесь же указывается защищенный протокол https (при наличии). Если у вас стандартный http, его указывать не нужно.
Crawl-delay	С ее помощью вы сможете установить интервал посещения и загрузки файлов вашего сайта для роботов. Помогает снизить нагрузку на хост.
Clean-param	Позволяет отключить индексацию параметров на тех или иных страницах (по типу www.site.com/cat/state?admin_id8883278). В отличие от предыдущих директив, здесь указываются 2 значения (адрес и сам параметр).

Это все правила, которые поддерживаются флагманскими поисковиками. Именно с их помощью мы будем создавать наш роботс, оперируя различными вариациями для самых разных видов сайтов.

Настройка

Для грамотной настройки файла роботов нам нужно точно знать, какие из разделов сайта должны быть проиндексированы, а какие – нет. В случае с простым одностраничником на html + css нам достаточно прописать несколько основных директив, таких как:

User-agent: *
Allow: /
Sitemap: site.ru/sitemap.xml
Host: www.site.ru

Здесь мы указали правила и значения для всех поисковых систем. Но лучше добавить отдельные директивы для Гугла и Яндекса. Выглядеть это будет так:

User-agent: *
Allow: /

User-agent: Yandex
Allow: /
Disallow: /politika

User-agent: GoogleBot
Allow: /
Disallow: /tags/

Sitemap: site.ru/sitemap.xml
Host: site.ru

Теперь на нашем html-сайте будут индексироваться абсолютно все файлы. Если мы хотим исключить какую-то страницу или картинку, то нам необходимо указать относительную ссылку на этот фрагмент в Disallow.

Вы можете использовать сервисы автоматической генерации файлов роботс. Не гарантирую, что с их помощью вы создадите идеально правильный вариант, но в качестве ознакомления можно попробовать.

Среди таких сервисов можно выделить:

С их помощью вы сможете создать robots.txt в автоматическом режиме. Лично я крайне не рекомендую этот вариант, потому как намного проще сделать это вручную, настроив под свою платформу.

Говоря о платформах, я имею ввиду всевозможные CMS, фреймворки, SaaS-системы и многое другое. Далее мы поговорим о том, как настраивать файл роботов WordPress и Joomla.

Но перед этим выделим несколько универсальных правил, которыми можно будет руководствоваться при создании и настройке роботс почти для любого сайта:

Закрываем от индексирования (Disallow):

админку сайта;
личный кабинет и страницы регистрации/авторизации;
корзину, данные с форм заказов (для интернет-магазина);
папку cgi (располагается на хосте);
служебные разделы;
скрипты ajax и json;
UTM и Openstat-метки;
различные параметры.

Открываем (Allow):

картинки;
JS и CSS-файлы;
прочие элементы, которые должны учитываться поисковыми системами.

Помимо этого, в конце не забываем указать данные sitemap (путь к карте сайта) и host (главное зеркало).

Robots.txt для WordPress

Для создания файла нам нужно точно так же забросить robots.txt в корень сайта. Изменять его содержимое в таком случае можно будет с помощью все тех же FTP и файловых менеджеров.

Есть и более удобный вариант – создать файл с помощью плагинов. В частности, такая функция есть у Yoast SEO. Править роботс прямо из админки куда удобнее, поэтому сам я использую именно такой способ работы с robots.txt.

Как вы решите создать этот файл – дело ваше, нам важнее понять, какие именно директивы там должны быть. На своих сайтах под управлением WordPress использую такой вариант:

User-agent: * # правила для всех роботов, за исключением Гугла и Яндекса

Disallow: /cgi-bin # папка со скриптами
Disallow: /? # параметры запросов с домашней страницы
Disallow: /wp- # файлы самой CSM (с приставкой wp-)
Disallow: *?s= # \
Disallow: *&s= # все, что связано с поиском
Disallow: /search/ # /
Disallow: /author/ # архивы авторов
Disallow: /users/ # и пользователей
Disallow: */trackback # уведомления от WP о том, что на вас кто-то ссылается
Disallow: */feed # фид в xml
Disallow: */rss # и rss
Disallow: */embed # встроенные элементы
Disallow: /xmlrpc.php # WordPress API
Disallow: *utm= # UTM-метки
Disallow: *openstat= # Openstat-метки
Disallow: /tag/ # тэги (при наличии)
Allow: */uploads # открываем загрузки (картинки и т. д.)

User-agent: GoogleBot # для Гугла
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/
Allow: */uploads
Allow: /*/*.js # открываем JS-файлы
Allow: /*/*.css # и CSS
Allow: /wp-*.png # и картинки в формате png
Allow: /wp-*.jpg # \
Allow: /wp-*.jpeg # и в других форматах
Allow: /wp-*.gif # /
# работает вместе с плагинами

User-agent: Yandex # для Яндекса
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tag/
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
# чистим UTM-метки
Clean-Param: openstat # и про Openstat не забываем

Sitemap: # прописываем путь до карты сайта
Host: https://site.ru # главное зеркало

Внимание! При копировании строк в файл – не забудьте удалить все комментарии (текст после #).

Такой вариант robots.txt наиболее популярен среди вебмастеров, которые используют WP. Идеальный ли он? Нет. Вы можете попытаться что-то добавить или наоборот убрать. Но учтите, что при оптимизации текстовика роботов нередки ошибки. О них мы поговорим далее.

Robots.txt для Joomla

И хотя в 2018 Joomla редко кто использует, я считаю, что нельзя обделять вниманием эту замечательную CMS. При продвижении проектов на Joomla вам непременно придется создавать файл роботс, а иначе как вы хотите закрывать от индексации ненужные элементы?

Как и в предыдущем случае, вы можете создать файл вручную, просто закинув его на хост, либо же использовать модуль для этих целей. В обоих случаях вам придется его грамотно настраивать. Вот так будет выглядеть правильный вариант для Joomla:

User-agent: *
Allow: /*.css?*$
Allow: /*.js?*$
Allow: /*.jpg?*$
Allow: /*.png?*$
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administrator/
Disallow: /installation/
Disallow: /cli/
Disallow: /libraries/
Disallow: /language/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

User-agent: Yandex
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administrator/
Disallow: /installation/
Disallow: /cli/
Disallow: /libraries/
Disallow: /language/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

User-agent: GoogleBot
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administrator/
Disallow: /installation/
Disallow: /cli/
Disallow: /libraries/
Disallow: /language/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

Host: site.ru # не забудьте здесь поменять адрес на свой
Sitemap: site.ru/sitemap.xml # и здесь

Как правило, этого достаточно, чтобы лишние файлы не попадали в индекс.

Ошибки при настройке

Очень часто люди допускают ошибки при создании и настройке файла роботс. Вот самые часто встречающиеся из них:

Правила указаны только для User-agent.
Отсутствуют Host и Sitemap.
Наличие http-протокола в директиве Host (нужно указывать лишь https).
Несоблюдение правил вложенности при открытии/закрытии картинок.
Не закрыты UTM и Openstat-метки.
Прописывание директив host и sitemap для каждого робота.
Поверхностная проработка файла.

Очень важно правильно настроить этот маленький файлик. При допущении грубых ошибок вы можете потерять значительную часть трафика, поэтому будьте предельно внимательны при настройке.

Как проверить файл?

Для этих целей лучше использовать специальные сервисы от Yandex и Google, т. к. эти поисковые системы являются наиболее популярными и востребованными (чаще всего единственно используемыми), такие поисковики как Bing, Yahoo или Rambler рассматривать нет смысла.

Для начала рассмотрим вариант с Яндексом. Заходим в Вебмастер . После чего в Инструменты – Анализ robots.txt.

Здесь вы сможете проверить файл на ошибки, а также проверить в реальном времени, какие страницы открыты для индексации, а какие – нет. Весьма удобно.

У Гугла есть точно такой же сервис. Идем в Search Console . Находим вкладку Сканирование, выбираем – Инструмент проверки файла robots.txt.

Здесь точно такие же функции, как и в отечественном сервисе.

Обратите внимание, что он показывает мне 2 ошибки. Связано это с тем, что Гугл не распознает директивы очистки параметров, которые я указал для Яндекса:

Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat

Обращать внимание на это не стоит, т. к. роботы Google используют только правила для GoogleBot.

Заключение

Файл robots.txt очень важен для SEO-оптимизации вашего сайта. Подходите к его настройке со всей ответственностью, потому как при неправильной реализации все может пойти прахом.

Учитывайте все инструкции, которыми я поделился в этой статье, и не забывайте, что вам не обязательно точь-в-точь копировать мои варианты роботс. Вполне возможно, что вам придется дополнительно разбираться в каждой из директив, подстраивая файл под свой конкретный случай.

А если вы хотите более глубоко разобраться в robots.txt и создании сайтов на WordPress, то я приглашаю вас на . На нем вы узнаете, как можно без особого труда создать сайт, не забыв оптимизировать его для поисковиков.