Технический SEO-аудит

Дубли страниц: как оставить поиску один понятный основной URL

Дубли появляются из-за параметров, фильтров, сортировок, протоколов, слешей, пагинации и шаблонов CMS. Задача SEO-аудита - не спрятать все подряд, а явно показать, какие URL важны и какую версию считать основной.

Что проверить в первую очередь

Проверка	Нормальное состояние	Тревожный признак
Canonical	Важная страница указывает на себя или на действительно основную версию.	Много страниц канонизируются на главную или на несуществующий URL.
Robots.txt	Файл управляет обходом служебных зон и не блокирует важный HTML.	Раздел закрыт от обхода, но должен попадать в поиск.
Noindex	Используется для страниц, которые не должны появляться в поиске.	На шаблоне случайно закрыты категории, статьи или карточки.
Sitemap	Содержит только канонические, доступные и важные URL.	В sitemap попали параметры, 404, редиректы или закрытые страницы.
Фильтры и сортировки	Индексируются только страницы с самостоятельным спросом и полезным контентом.	Каждая комбинация фильтров создает отдельную пустую страницу.

Простые правила

Не используйте robots.txt для скрытия приватной информации. Он управляет обходом, но не является защитой доступа.
Не закрывайте важную страницу в robots.txt, если хотите, чтобы поисковик увидел ее canonical. Заблокированную страницу сложнее корректно оценить.
Не отправляйте в sitemap все подряд. Sitemap - список важных URL, а не выгрузка всей базы.
Не канонизируйте разные интенты на одну страницу. Если страницы реально отвечают на разные вопросы, им нужен разный контент.

Мини-примеры

Canonical на основной адрес

<link rel="canonical" href="/catalog/gazobeton/">

Sitemap в robots.txt

User-agent: *
Allow: /
Sitemap: /sitemap.xml

Официальные справки

Google: canonical Google: robots.txt Google: sitemap Yandex: robots.txt