Время чтения: 5 минут

Представитель Google объяснил понятие «краулинговый бюджет»

Что такое crawl budget с точки зрения Google

В официальном блоге Google появилась статья, в которой небезызвестный Гэри Илш объяснил, что такое краулинговый бюджет (Crawl Budget) для поискового робота и как правильно настроить сайт для лучшей индексации.

Первым делом Гэри пояснил, что владельцам абсолютного большинства сайтов просто не стоит задумываться о данном термине, потому что возможностей робота Google вполне достаточно для оперативного сканирования страниц стандартных интернет-ресурсов. И только на больших сайтах и порталах (десятки тысяч страниц в индексе) нужна дополнительная настройка краулингового бюджета.

Немного теории

Googlebot – это специально разработанный инструмент для обхода интернета. Он буквально живет во всемирной паутине и старается найти все имеющиеся документы.

Цель робота Google – просканировать все страницы сайта. Причем он должен сделать это так, чтобы не доставлять неудобства пользователям, повышая нагрузку на сервер.

Как правило, проблем с этим не возникает. Googlebot в состоянии проиндексировать пару тысяч страниц незаметно для всех.

Однако, если на сайте несколько тысяч url’ов, эффективность робота снижается, и некоторая информация так и остается не проиндексированной. Кроме того, проверяя огромное количество страниц за короткий промежуток времени, бот нагружает сервер, создавая проблемы пользователям сайта.

Теперь рассмотрим несколько терминов:

  • Crawl rate limit
    Ограничение скорости обхода – параметр который задает максимальное количество одновременных соединений и частоту сканирования сайта. Рассчитывается для каждого ресурса индивидуально на основе быстроты реакции сервера и лимита скорости, установленного владельцем в консоли вебмастера. Подробнее о настройке здесь.
  • Crawl demand
    Краулинговый спрос – количество документов на сайте, которые Googlebot хочет обойти при очередном посещении ресурса. Примечательно, что спрос чаще всего ниже лимита и поэтому владельцам небольших интернет-ресурсов беспокоиться не о чем. На данный показатель влияют два фактора: устаревшие документы сканируются реже; популярные страницы индексируются чаще.
  • Crawl budget
    Краулинговый бюджет – это производное значение от лимита и спроса. Определяет количество страниц сайта, которые робот хочет и может обойти за одно посещение.

Что влияет на значение краулингового бюджета?

Отрицательное влияние на скорость и качество сканирования оказывают разные факторы:

  • плохо реализованная фасетная навигация, которая приводит к огромному количеству дублей страницы;
  • дубли, возникающие из-за идентификатора сессий;
  • ошибки soft 404;
  • взломанные страницы;
  • бесконечное пространство (в качестве примера здесь служит «календарь» на сайте);
  • информация низкого качества.

Факторы перечислены в порядке убывания значимости. Все их объединяет одно – индексируя такие, по сути, бесполезные страницы, Googlebot растрачивает краулинговый бюджет, не успевая просканировать действительно полезную информацию.

Вопросы – ответы

1. Влияет ли скорость сайта и наличие ошибок на crawl budget?

Делая сайт быстрее, владелец улучшает опыт пользователей (users’ experience), а также повышает скорость обхода. Робот видит, что сервер здоров и повышает бюджет, посещая за один обход большее количество страниц. И напротив, ошибки вида 5ХХ сигнализируют о проблемах сайта, что дает обратный эффект.

2. Crawling относится к факторам ранжирования Google?

Место сайта в результатах поиска определяется на основе сотен сигналов. Однако, несмотря на то, что индексирование необходимо каждому сайту для присутствия в выдаче, crawling не относится к сигналам.

3. Бюджет бота расходуется на альтернативный и расширенный контент?

Да, Googlebot сканирует всю представленную на сайте информацию, включая страницы AMP, CSS, JavaScript и прочее. Кроме того, негативно на crawl budget влияют длинные цепочки редиректов.

4. Какое влияние на робота оказывает директива «crawl delay»?

Никакого. Робот Google не обрабатывает ее.

5. А что насчет nofollow?

Тут все неоднозначно. Если на данную страницу стоит хоть одна ссылка (внутренняя или внешняя) без данного атрибута, то робот обойдет документ, затратив свой бюджет.

Тем, кто желает оптимизировать индексацию сайта в соответствии с требованиями Google, Гэри Илш советует внимательно прочитать статью optimize your crawling & indexing, которая была размещена еще в 2009 году, но до сих пор является актуальной.

Оцените статью:
Понравилась 0
Не понравилась 0
Автор: Артём Шаманский / Создатель проекта

Не бояться, уверенно идти вперед, если нужно, то напролом или даже, ломая кости и вгрызаясь в эту жизнь зубами, если это единственный шанс, чтобы жить и чувствовать себя человеком, чтобы испытывать уважение к самому себе и знать, что сделано все, что можно и даже более того ради достижения поставленной цели.

Нам интересно ваше мнение, напишите комментарий:

Нажимая на кнопку «Отправить», я даю согласие на обработку персональных данных в соответствии с «Политикой конфиденциальности».

Обмен мнениями и отзывы о публикации
Подпишитесь на рассылку блог-оптимизатора.рф

Уже подписались 12 человек