Ошибки в robots.txt на WordPress могут привести к потере до 30-40% краулингового бюджета из-за индексации технических страниц и дублей. Правильный файл не просто «дает инструкции», а жестко отсекает мусорный трафик ботов, ускоряя индексацию конверсионных страниц в 1.5-2 раза.
Базовая архитектура и критические директивы
Для WordPress стандартный набор Disallow должен закрывать системные папки /wp-admin/ и /wp-includes/, но с важным нюансом: доступ к /wp-admin/admin-ajax.php должен быть открыт, иначе часть динамического контента (фильтры, формы) не прогрузится для бота. Игнорирование этого момента приводит к ошибкам рендеринга в Google Search Console в 15-20% случаев.
Кейс: на сайте с 5000+ товаров закрытие всего /wp-includes/ без исключений привело к тому, что Google перестал видеть критические JS-скрипты оформления заказа. Итог — падение позиций по коммерческим запросам на 5-7 пунктов за две недели.
Экспертный вывод: используйте точечные исключения (Allow) для AJAX и скриптов, иначе рискуете получить статус «Страница не соответствует требованиям мобильного поиска».
Борьба с дублями: теги, архивы и пагинация
WordPress по умолчанию генерирует массу дублей через страницы тегов (/tag/) и архивы авторов (/author/). В 80% случаев эти страницы не несут ценности для SEO и размывают вес. Рекомендую закрывать их через Disallow, если у вас нет стратегии продвижения по низкочастотным тематическим подборкам.
Особое внимание — параметрам сортировки (?orderby=). На сайтах-каталогах такие URL могут размножиться до тысяч единиц, съедая лимит обхода. Правило Disallow: /*?s= (поиск) и /*?orderby= (сортировка) — база, которая экономит до 25% ресурсов сервера при обходе ботами.
Экспертный вывод: закрывайте всё, что не ведет к конверсии. Страница автора или тег-дубль статьи — это балласт, который замедляет индексацию новых материалов.
Виртуальный vs Физический файл: что выбрать
Большинство SEO-плагинов (Yoast, Rank Math) создают виртуальный robots.txt. Это удобно: правки вносятся через админку за 10 секунд. Однако физический файл в корне сервера (через FTP/SSH) имеет приоритет и работает быстрее, так как не требует обработки PHP-скриптом WordPress. Разница в скорости ответа сервера составляет 50-150 мс, что критично для сайтов с огромным количеством страниц.
Пример: при переезде сайта на другой хостинг виртуальный файл часто «слетает» или кешируется некорректно, что приводит к случайному закрытию всего сайта от индексации (Disallow: /). Физический файл исключает этот риск.
Экспертный вывод: для блогов до 1000 страниц достаточно плагинов, для крупных e-commerce проектов — только физический файл в корне.
Sitemap и управление краулинговым бюджетом
Директива Sitemap: должна указывать на полный абсолютный URL. Ошибка в одну букву или использование относительного пути делает карту сайта бесполезной. В связке с SEO оптимизация сайтов на WordPress важно настроить Sitemap так, чтобы в нее попадали только 200-е ответы сервера. Индексация 404-х или 301-х страниц через Sitemap увеличивает процент ошибок в панели вебмастера до 10-12%.
Важный нюанс: не путайте robots.txt и тег noindex. Robots.txt запрещает *обход* страницы, но не удаляет её из индекса, если на неё есть внешние ссылки. Чтобы страница гарантированно исчезла из выдачи, используйте мета-тег noindex, оставив страницу открытой в robots.txt.
Экспертный вывод: robots.txt — это фильтр для бота, а не инструмент управления индексацией. Для удаления страниц из выдачи используйте HTTP-заголовки или мета-теги.
Вывод
Оптимальный robots.txt для WordPress сегодня — это минималистичный файл, который закрывает /wp-admin/ (кроме admin-ajax.php), отсекает внутренний поиск и технические дубли, а также четко указывает путь к Sitemap. Избегайте перегруженных файлов с 50+ директивами Disallow — это только путает бота. Начните с проверки текущего файла через Google Search Console: если там более 10% страниц в статусе «Заблокировано в robots.txt», но при этом они есть в поиске — срочно переходите на связку robots.txt + noindex.