Время чтения: 3 минуты

Механизм работы алгоритма Палех Яндекса

О принципах работы алгоритма Палех

В рамках конференции Optimization 2016, прошедшей 1-2 декабря в многофункциональном центре Digital October (Москва), прозвучал доклад руководителя поисковых сервисов компании Яндекс Александра Садовского.

Выступление ведущего специалиста поискового гиганта было полностью посвящено принципам работы нового алгоритма Палех, который был представлен в начале ноября 2016 года. Александр постарался объяснить, как работает Палех и почему он справляется с длинными запросами пользователей лучше, чем основной алгоритм Яндекса.

Для начала, докладчик обратил особое внимание на то, что в основе алгоритма лежат нейросети, способные обучаться на пройденных примерах.

Однако все далеко не так просто, как представляется рядовым пользователям интернета. Не всегда объект или страница, по которой кликнули, является релевантной запросу и служит положительным примером. Впрочем, обратная связь тоже заметна – отсутствие клика не означает, что документ не подходит в реальности.

Эксперт привел интересный пример:

Запрос «РНО» в Я.Картинках выдает такие результаты

А. Садовский утверждает, что пользователь искал расшифровку РНО — «Работа над ошибками».

В целом алгоритм Яндекса научился подбирать страницы, лучшим образом отвечающие на запрос. В результате пользователи находят нужную информацию и надолго задерживаются на сайтах.

Для этого пришлось ввести много различных метрик, анализировать каждое действие пользователя и изменить стратегию выбора отрицательных примеров. Сейчас нейросеть для лучшего понимания, какой документ семантически близок запросу, использует «свои знания» о гарантированно нерелавантных страницах. Это дает алгоритму возможность разобраться в смысле слов запроса пользователя.

Эффективность Палеха в сложных информационных запросах заметно выше результатов стандартной функции Okapi bm 25, что видно на следующих примерах:

  1. Запрос: «Фильм про дяденьку, который родился старым».
    Заголовок: «Загадочная история Бенджамина Баттона (2009)».
    Результат функции bm = 0.00.
    Результат нейронной сети «Палеха» = 0.80.
  2. Запрос: «штука на двух колесах, на которой стоишь и едешь».
    Заголовок: «Электроскутер Segway, цены и модификации segway – Колеса.ру».
    Результат функции bm = 0.19.
    Результат нейронной сети «Палеха» = 0.79.

Нетрудно заметить, что для функции bm25 подобные запросы абсолютно непонятны – она не видит связи между словами пользователя и заголовком страницы. В тоже время нейросеть не теряется и замечает соответствие.

Александр Садовский уверил слушателей, что Палех используется повсеместно в поиске – во всех странах, регионах, на всех языках. Однако цель разработчиков не в том, чтобы тягаться с функцией BM25 – они просто хотят сделать поиск Яндекса лучше.

В настоящий момент новый алгоритм поисковика показал свою эффективность на большинстве «длинных» запросов пользователей. Он ошибается только при поиске цитат, потому что «думает» об их смысле.

Александр Садовский закончил выступление емкой фразой – «Палех умный. Будь как Палех!».

Оцените статью:
Понравилась 0
Не понравилась 0
Автор: Ольга Фомина

Постоянно совершенствоваться в профессии, расти и развиваться. Расти в первую очередь над собой, ибо ни люди, ни обстоятельства не могут нанести автору столько вреда, сколько его самомнение и нежелание учится. Любая остановка — падение вниз. Поэтому только вперед, наперекор всему, что мешает двигаться и покорять новые вершины.

Нам интересно ваше мнение, напишите комментарий:

Нажимая на кнопку «Отправить», я даю согласие на обработку персональных данных в соответствии с «Политикой конфиденциальности».

Обмен мнениями и отзывы о публикации
Подпишитесь на рассылку блог-оптимизатора.рф

Уже подписались 12 человек