#148 · Рендеринг и crawl budget

Crawl budget (большой сайт)

Что это, почему влияет на SEO, как проверить и исправить. Параметр #148из 150 в нашем чек-листе аудита.

4 мин чтенияРендеринг и crawl budgetПараметр #148

Что это

Crawl budget — это количество страниц сайта, которое поисковый робот готов обойти за определённый период времени. Для Яндекса это «краулинговый бюджет», для Google — комбинация crawl rate limit (скорость, с которой бот не перегружает сервер) и crawl demand (насколько страница «интересна» роботу). На больших сайтах от 10 000 страниц управление этим ресурсом становится критичным: робот физически не успевает обойти всё, и выбирает, что индексировать в первую очередь.

Почему это важно для SEO

На сайте с 50 000+ страниц Googlebot может обходить в день 3 000–10 000 URL в зависимости от авторитетности домена и скорости ответа сервера. Если в этот лимит попадают технические страницы — фильтры, сортировки, параметрические URL, дубли — полезные страницы индексируются с задержкой в недели или вообще выпадают из индекса. По данным Google, время ожидания переиндексации изменённого контента напрямую зависит от того, насколько эффективно робот тратит бюджет.

Для Яндекса ситуация аналогична, но важнее роль ИКС (Индекс качества сайта): сайты с низким ИКС получают меньше краулингового внимания. Если робот раз за разом натыкается на медленные страницы (TTFB > 500 мс), Яндекс сокращает частоту обходов. Это особенно больно для интернет-магазинов с ежедневным обновлением цен: товар появляется на сайте, но в поиске его нет ещё 3–5 дней из-за низкого приоритета краулинга.

Как проверить вручную

Google Search Console → Настройки → Статистика сканирования. Смотри графики: количество запросов в день, среднее время ответа, коды ответов. Если доля ответов 4xx/5xx превышает 5% — робот тратит бюджет впустую.

Яндекс.Вебмастер → Сканирование → Статистика сканирования. Здесь видно, сколько страниц Яндексбот обошёл за 30 дней, и динамику. Падение активности робота — сигнал проблемы.

Screaming Frog → crawl сайта + фильтр по параметрам URL. Экспортируй все найденные URL, отфильтруй по шаблонам вроде ?sort=, ?page=, ?color=, &utm_. Если таких URL > 20% от общего числа — бюджет утекает.

Лог-файлы сервера (через BI-инструменты или Screaming Frog Log Analyzer): выгрузи все обращения Googlebot и Яндексбот за 30 дней. Посмотри, какие URL краулятся чаще всего — они должны совпадать с приоритетными страницами, а не с фасетной навигацией.

Как исправить

Шаг 1. Закрой мусорные URL от сканирования через robots.txt

User-agent: *
Disallow: /catalog/?sort=
Disallow: /catalog/?filter=
Disallow: /search/
Disallow: /*?utm_

Шаг 2. Настрой canonical для дублей. Все параметрические URL должны ссылаться на основную страницу:

<link rel="canonical" href="https://example.ru/catalog/obuv/" />

Шаг 3. Оптимизируй sitemap. Включай только индексируемые, не заблокированные, отвечающие 200 страницы. Валидируй через Я.Вебмастер → «Sitemap-файлы» и GSC → «Файлы Sitemap».

Шаг 4. Ускорь TTFB. Цель: < 200 мс. Проверяй через PageSpeed Insights. Медленный сервер — главная причина сокращения бюджета.

Решение по CMS:

WordPress: плагины Rank Math или Yoast закрывают archives, tags, author pages от индексации в 2 клика. WP Rocket снижает TTFB через кеширование.
Tilda: вручную добавляй <meta name="robots" content="noindex"> на технические страницы через настройки страницы → «Дополнительный код».
1C-Bitrix: в «Управление структурой» → настройки компонента «Умный фильтр» выбери режим ЧПУ с canonical, отключи генерацию параметрических URL для роботов.
Webflow: настраивай noindex через Page Settings → SEO для каждой технической коллекции; Sitemap генерируется автоматически, но исключай вспомогательные страницы вручную.

Типичные ошибки

Закрывать в robots.txt страницы, на которые ведут внешние ссылки. Робот не передаёт вес закрытых страниц, теряется link equity.
Бесконечная пагинация без rel="next/prev" или canonical. Робот обходит тысячи страниц /page/1, /page/2... тратя весь бюджет.
Sitemap с битыми URL и редиректами. GSC показывает их в отчёте «Файлы Sitemap» — игнорировать нельзя.
Не учитывать Турбо-страницы Яндекса. Турбо-страницы краулятся отдельным роботом и имеют собственный бюджет; дублирование контента без canonical между Турбо и основными страницами размывает сигналы.
Ждать, пока Google сам «разберётся». При выходе новых категорий или после редизайна нужно принудительно запрашивать переобход через GSC → «Проверка URL» → «Запросить индексирование» для ключевых страниц.

Влияние на разные типы сайтов

Для интернет-магазинов с большим каталогом crawl budget — приоритет номер один. Фасетная навигация может генерировать миллионы комбинаций URL: /catalog/krossovki/?color=chёrnyy&size=42&brand=nike. Каждая такая страница съедает бюджет, при этом не несёт уникальной ценности. Решение: ЧПУ только для коммерчески значимых фильтров (топовые бренды, популярные размеры), остальное — noindex или disallow.

Для контентных сайтов и медиа проблема иная: тысячи тегов, архивы по датам, страницы авторов. Приоритет — настроить canonical или noindex для всех агрегационных страниц без уникального контента, и сосредоточить бюджет на статьях. SaaS-продукты и лендинги с crawl budget обычно не сталкиваются — у них просто мало страниц. Но если SaaS генерирует посадочные страницы под каждый город или интеграцию (10 000+ URL), логика та же: закрывай шаблонные дубли, оставляй уникальные.

Проверить этот параметр на вашем сайте

Бесплатно. Без регистрации. Проверим этот и ещё 49 параметров за 60 секунд.

Получить SEO-аудит →