robots.txt — это текстовый файл, который используется для того, чтобы запретить роботам (в частности ботам поисковых систем) индексацию и «обход» определенных частей вашего сайта. Без этого файла боты смогут свободно гулять по вашему сайту, что не очень то и хорошо.
По-умолчанию WordPress не создает файл robots.txt, поэтому его необходимо создать самостоятельно и настроить тоже самому.
Общий смысл запрета доступа к определенным частям вашего сайта в том, чтобы сфокусировать внимание роботов на важном контенте.
Что произойдет, если у вас не будет файла robots.txt?
Вкратце, будет индексироваться все подряд.
Для WordPress это означает следующее:
- /cgi-bin
- /wp-admin
- /wp-includes
- /wp-content/themes
- /wp-content/plugins/
Как вы уже, наверное, догадались, ничего из вышеперечисленного не является релевантным контентом для SEO и может даже навредить вашему сайту. Google разрешает только определенное количество «ссылочного мусора», поэтому имеет смысл сконцентрировать усилия на контенте и страницах.
Как можно контролировать индексацию своего сайта?
Решение очень простое.
Создайте текстовый файл, используя ваш любимый текстовый редактор, или же, если на хостинге у вас установлена Cpanel, то создайте новый файл в файловом менеджере и назовите его robots.txt.
Скопируйте и вставьте в него следующее:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/themes Disallow: /wp-content/plugins/ Allow: /wp-content/uploads Allow: /feed*
Сохраните файл. Если же вы создали его вне сервера, то просто загрузите в корневую директорию сайта. Это та же директория, где расположены папки wp-admin, wp-includes и wp-content.
Вот и все. Теперь вы заметите, что некоторые ссылки сайта станут выпадать из поиска в течение нескольких дней или даже недель.
Если вы захотите добавить другие файлы, просто добавьте правило вроде этого:
Allow: /путь_к/папке
Обратите внимание, что мы пропускаем домен сайта, а добавляем путь к папке начиная с прямого слеша (/).
За несколько лет работы с WordPress мы собрали для себя оптимальный «набор» правил для robots.txt. Ниже приводим его содержание. Его можно взять за основу, однако стоит разобраться что именно вы закроете от индексации. Некоторые вебмастера предпочитают закрывать рубрики и теги, другие же — наоборот, оставляют открытыми для ботов.
# All User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /page* Disallow: /page Disallow: /author/* Disallow: /20* Disallow: /feed Disallow: /*/feed Disallow: */comme Disallow: */feednt-page-* Disallow: */trackback Disallow: /trackback Disallow: /*?* Disallow: /*? Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /search/*/feed Disallow: /search/*/* Disallow: /tag/ Disallow: */*?replytocom* Disallow: */*/feed/*/ Disallow: */feed Allow: /wp-content/uploads/ Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Google Image User-agent: Googlebot-Image Disallow: Allow: /* # Google AdSense User-agent: Mediapartners-Google* Disallow: Allow: /* # Yandex User-agent: Yandex Host: site.ru Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /page* Disallow: /page Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /20* Disallow: /feed Disallow: /author/* Disallow: */comme Disallow: */feednt-page-* Disallow: */trackback Disallow: /trackback Disallow: /*?* Disallow: /*? Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /search/*/feed Disallow: /search/*/* Disallow: /tag/ Disallow: */*?replytocom* Disallow: */*/feed/*/ Disallow: */feed Allow: /wp-content/uploads/ Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # YandexBlog User-agent: YandexBlog Disallow: Allow: /*