Время чтения: 4 минуты

«Палех» — новый алгоритм Яндекса, созданный на основе нейронных сетей

Программисты Яндекса создали поисковый алгоритм на основе нейросетей

Официальный блог российской компании Яндекс сообщает, что на просторах Рунета начал работать новый поисковый алгоритм, которому дали название «Палех». В его основе лежат передовые разработки в программировании нейронных сетей. Предполагается, что благодаря данному алгоритму, Яндекс будет значительно лучше понимать самые нестандартные запросы пользователей.

«Хвост жар-птицы» или о чем собственно речь?

Попробуем объяснить кратко, зачем же Яндексу понадобился новый поисковый алгоритм?

Согласно представленным данным, ежедневно поисковому гиганту приходится обрабатывать почти 300 миллионов запросов. Все они условно могут быть разделены на три категории:

  1. Простые – «одноклассники», «музыка», «доллар».
    Их вводят в браузеры ежесекундно и алгоритмы Яндекса научились давать на них точные ответы без проблем.
  2. Редкие – «погода в Новоорске».
    Они специфические, встречаются редко, но ответить на них Яндекс в состоянии.
  3. Крайне редкие, уникальные – «фильм про кудрявого блондина российский».
    Такие запросы весьма неконкретны, иногда вообще больше никогда не встречаются. Поэтому стандартному поиску Яндекса сложно найти ответ.

В статье указывается, что график распределения количества запросов по трем категориям нередко представляют в виде «Жар-птицы» (которая классическая, из русских народных сказок).

Выглядит это так:

Как распределяются запросы к Яндексу.

Сказочная «Жар-птица» лучше всего иллюстрирует распределение запросов в Яндексе.

Схожее символическое изображение «жар-птицы» используется в палехской миниатюре – отсюда и название нового алгоритма «Палех».

Наибольшего внимания здесь заслуживает именно хвост птицы. Он символизирует третий вид запросов – уникально редкие. Несмотря на то, что по отдельности такие запросы единичны, совокупно их порядка 30% от общего количества.

Задают их дети и малоопытные пользователи, которые общаются с поисковой строкой, как с живым человеком, не конкретизируя запросы:

  • «яндекс расскажи когда появится новый сезон черепашек нинзя»
  • «фильм по комиксам с джокером и актрисой марго роби»
  • «при какой погоде одевать под штаны теплые подштанники»

Для поисковой системы такие запросы непонятны, потому что нет никакой статистики полезности ответов. Если по высокочастотному запросу «вконтакте» алгоритм накопил знания, когда пользователей удовлетворил ответ, и безошибочно выдает нужный сайт. То ответы из «хвоста жар-птицы» не могут быть получены на основе поведенческих факторов.

Нейронные сети на службе Яндекса

На помощь приходят искусственные нейронные сети, которые постепенно набирают популярность во всем мире.

Их обучают распознавать отличительные черты определенных классов объектов и в результате, они с достаточно высокой степенью точности находят похожие образцы среди новой информации. Подробнее об этом написано здесь и на странице посвященной анонсу алгоритма «Палех».

В случае с поисковыми запросами, о которых идет речь выше, программисты Яндекса научили нейронную сеть переводить заголовки веб-страниц в группы из 300 чисел. Получилось виртуальное трехсотмерное пространство, в котором каждому документу соответствует одна точка. (В анонсе нового алгоритма тоже отметили, что выглядит это сюрреалистически 🙂 ).

Если упростить объяснение и показать, как это выглядит в двухмерном пространстве, то получится примерно так:

Принципы работы алгоритма «Палех»

Как работает алгоритм «Палех» на примере двумерного пространства.

Теперь алгоритму «Палех» остается переводить любой запрос пользователя в такой же набор из 300 цифр и находить для него ближайшую «точку» в виртуальном пространстве искусственной нейронной сети.

Согласно информации из анонса, сотрудники Яндекса обучали, развивали и улучшали «Палех» несколько месяцев. И теперь новый алгоритм поможет улучшить поисковую выдачу.

Оцените статью:
Понравилась 0
Не понравилась 0
Автор: Ольга Фомина

Постоянно совершенствоваться в профессии, расти и развиваться. Расти в первую очередь над собой, ибо ни люди, ни обстоятельства не могут нанести автору столько вреда, сколько его самомнение и нежелание учится. Любая остановка — падение вниз. Поэтому только вперед, наперекор всему, что мешает двигаться и покорять новые вершины.

Нам интересно ваше мнение, напишите комментарий:

Нажимая на кнопку «Отправить», я даю согласие на обработку персональных данных в соответствии с «Политикой конфиденциальности».

Обмен мнениями и отзывы о публикации
Подпишитесь на рассылку блог-оптимизатора.рф

Уже подписались 12 человек