Технический SEO-аудит
Дубли страниц: как оставить поиску один понятный основной URL
Дубли появляются из-за параметров, фильтров, сортировок, протоколов, слешей, пагинации и шаблонов CMS. Задача SEO-аудита - не спрятать все подряд, а явно показать, какие URL важны и какую версию считать основной.
Что проверить в первую очередь
| Проверка | Нормальное состояние | Тревожный признак |
|---|---|---|
| Canonical | Важная страница указывает на себя или на действительно основную версию. | Много страниц канонизируются на главную или на несуществующий URL. |
| Robots.txt | Файл управляет обходом служебных зон и не блокирует важный HTML. | Раздел закрыт от обхода, но должен попадать в поиск. |
| Noindex | Используется для страниц, которые не должны появляться в поиске. | На шаблоне случайно закрыты категории, статьи или карточки. |
| Sitemap | Содержит только канонические, доступные и важные URL. | В sitemap попали параметры, 404, редиректы или закрытые страницы. |
| Фильтры и сортировки | Индексируются только страницы с самостоятельным спросом и полезным контентом. | Каждая комбинация фильтров создает отдельную пустую страницу. |
Простые правила
- Не используйте robots.txt для скрытия приватной информации. Он управляет обходом, но не является защитой доступа.
- Не закрывайте важную страницу в robots.txt, если хотите, чтобы поисковик увидел ее canonical. Заблокированную страницу сложнее корректно оценить.
- Не отправляйте в sitemap все подряд. Sitemap - список важных URL, а не выгрузка всей базы.
- Не канонизируйте разные интенты на одну страницу. Если страницы реально отвечают на разные вопросы, им нужен разный контент.
Мини-примеры
Canonical на основной адрес
<link rel="canonical" href="/catalog/gazobeton/">
Sitemap в robots.txt
User-agent: *
Allow: /
Sitemap: /sitemap.xml
Официальные справки
Google: canonical Google: robots.txt Google: sitemap Yandex: robots.txt