Время чтения: 8 минут

«Королёв» — новая технология и поисковый алгоритм Яндекса

Яндекс представил новый поисковый алгоритм Королёв.

Яндекс существенно обновил собственную поисковую систему, добавив в нее новый алгоритм Королёв. Сообщение об этом появилось в официальном блоге Яндекса для вебмастеров, а затем было растиражировано центральными средствами массовой информации. Новая версия использует в своей работе нейронные сети и является логичным продолжением алгоритма Палех.

В офисе российской поисковой системы посчитали запуск алгоритма Королёв важным этапом в развитии отечественных технологий. Для вебмастеров подготовили полноценную презентацию обновления. Техническим специалистам рассказали о принципах работы нейросети. О запуске нового алгоритма узнали даже простые обыватели, надумавшие вечером 22 августа 2017 года посмотреть вечерний выпуск новостей на центральных ТВ-каналах.

Коротко о новом алгоритме Королёв

Программисты Яндекса доработали технологии нейронных сетей так, что поисковые роботы научились понимать смысл конкретного документа. То есть, алгоритм Королёв рассматривает любую страницу в интернете не с точки зрения совокупности ключевых слов и фраз, а пытается разобраться в смысловой нагрузке.

Вообще подобные технологии были применены еще в алгоритме Палех, запуск которого состоялся осенью 2016 года. Однако нейросеть предыдущего поколения оценивала смысл только у заголовков страниц.

Королёв рассматривает содержимое всей страницы. Благодаря этому поисковая система научилась отвечать с высокой точностью даже на самые необычные и редкие запросы.

При этом использование нейросети позволяет организовать дальнейшее самообучение искусственного интеллекта алгоритмов Яндекса. Апгрейд системы будет происходить за счет данных поисковой статистики, на основе миллионов оценок пользователей и благодаря работе разветвленной сети асессоров.

Главный конструктор космических кораблей Королёв С.П.

Академик Королёв С.П. отправил человека в космос. Новый алгоритм Яндекса отправит людей в будущее поисковых систем.

Как появился новый алгоритм Королёв

Для того чтобы пользователи интернета поняли, какую огромную работу проделали программисты и почему о новом алгоритме рассказывают с таким восторгом, представители Яндекса разместили на сайте ХабраХабр серьезную статью, в которой рассказали много интересного.

Выяснилось, что Королёв – это не просто серьезный апгрейд алгоритма Палех. Это новая технология, потребовавшая изменения архитектуры основного поиска.

Зачем это нужно?

Для начала авторы постарались ответить на вопрос – а зачем и кому это нужно? Почему Яндекс постоянно меняет технологии и алгоритмы поиска?

С момента начала массового распространения интернета прошло достаточно много времени. В прошлом веке большинство вебмастеров не понимали, что интернет сам по себе может быть бизнесом. Поэтому манипулировать выдачей никто не пытался. Ну, или почти никто. Соответственно, чтобы ответить на запрос пользователя, алгоритмам поисковой системы достаточно было вывести все страницы, где искомое слово встречается с определенной плотностью. Роботы просто считали количество употреблений ключевого слова на странице и показывали людям определенные веб-документы.

Потом владельцы сайтов «прозрели» и стали сознательно наполнять страницы ключевиками. Оптимизаторы попытались манипулировать результатами выдачи. Поисковым системам пришлось пересмотреть подход к своей работе – появилась необходимость выбирать лучшие документы из тысяч страниц. Однако технологии были далеки от совершенства, поскольку понимать смысл текста роботы не могли. Поэтому поисковики пошли по простому пути – стали учитывать входящие ссылки как некий показатель авторитетности статьи и сайта.

Со временем к ссылкам добавились другие факторы, которые также стали оказывать влияние на ранжирование сайтов. После этого люди больше не смогли справляться с программированием формулы ранжирования. Так в 2009 году появился Матрикснет.

Но интернет развивается дальше, сайтов и страниц становится все больше, их структура усложняется. Сегодня подсчет плотности ключевых слов на странице – пожалуй, самый примитивный способ определения релевантности. К тому же, на страницах все чаще встречается другой контент – изображения, звук, видео.

Одновременно с этим изменилось поведение пользователей. В прошлом веке за компьютером сидели люди, которые чтобы найти нужную информацию, правильно составляли запрос к поиску. Сегодня среднестатистический пользователь ничего не понимает в операторах, а свой вопрос к поисковой системе формирует максимально просто, то есть по-человечески.

Как следствие, возникла необходимость в новых алгоритмах – поисковые системы должны были идти в ногу со временем, чтобы отвечать на сложные и нестандартные вопросы людей. И тут на помощь пришли нейронные сети, которые, как выяснилось, неплохо справляются с анализом естественной информации.

Сегодня технологии достигли того уровня, когда нейросети научились понимать смысловую нагрузку контента. А значит, программисты получили возможность организовать поиск не по словам, а по смыслу. Так появился Палех.

Немного про алгоритм Палех

Он далеко не новый – про него написано немало статей, и принципы его работы известны. Тем не менее, в свете выхода алгоритма Королёв, некоторые моменты стоит повторить.

Как работает Палех?

  1. Пользователь вводит нестандартный запрос.
  2. Алгоритм поисковой системы оценивает заголовки разных страниц и пытается найти похожие по смыслу.
  3. Если текст заголовка и запроса максимально соответствуют друг другу, страницу показывают пользователю.

Так как в данном случае работает нейросеть, которая не оперирует буквами и словами, а работает с цифрами – по факту все это выглядит как одна большая формула. Тексты запроса и заголовка представлены в виде векторов. Для определения релевантности вычисляется скалярное произведение.

Самообучение системы происходит за счет накопления статистики. Программисты обучили нейронную сеть формировать похожие вектора для текстов и запросов с похожим смыслом. И, напротив, там, где связь между запросами слабая – вектора направлены в разные стороны.

Нетрудно догадаться, что у алгоритма Палех есть слабое место – динамические вычисления скалярного произведения векторов подразумевают использование значительных процессорных мощностей и времени.

Стадии ранжирования в поиске Яндекса

Чтобы лучше понять, зачем понадобилось дорабатывать Палех и внедрять Королёв, нужно разобраться в том, как происходит ранжирование сайтов в поисковой системе Яндекс.

Сегодня в интернете такое количество интернет-ресурсов и страниц, что на каждый поисковый запрос претендуют миллионы документов. Поэтому алгоритмы поисковиков используют принцип каскада, выделяя наиболее релевантные документы в несколько этапов.

Современные поисковые системы используют каскады.

Сложность применяемых алгоритмов растет на каждом этапе.

На каждой следующей стадии применяются все более сложные алгоритмы ранжирования, которые способны продвинуть дальше по цепочке наиболее подходящие страницы.

Палех – очень «тяжелый» алгоритм. Его применение требует серьезных ресурсов. Поэтому перемножение векторов производится только для сравнительно небольшого числа документов. Если говорить точнее, то алгоритм Палех включается только на стадии L3, когда нужно выбрать топ-10 страниц из примерно 150 претендентов.

Проблема в том, что огромное количество страниц отсеивается заранее. Хороший контент не попадает в 150 претендентов, не подвергается анализу нейронных сетей, ускользает от внимания пользователя. И чем сложнее и необычнее запрос, тем очевиднее проблема.

Принцип работы нового алгоритма Королёв

Ограниченность возможностей алгоритма не давала покоя программистам. Однако они понимали, что дальнейшее усложнение Палеха, или его применение к большему числу претендентов, приведет к временным задержкам. А пользователь сегодня не готов ждать, пока поисковые роботы выберут подходящий документ – он хочет получить ответ максимально быстро.

Но если дополнительные ресурсы нельзя использовать в режиме реального времени, то, что мешает задействовать их заранее?! Ведь семантические вектора для каждой страницы можно рассчитать заранее и хранить в памяти. Тогда при появлении запроса, нейросети останется только сравнить вектора и выдать наиболее подходящий результат.

Конечно, для хранения векторов, вычисленных заранее, потребуются огромные банки данных, но зато это не повлияет на скорость поиска.

Такой подход позволил кардинально увеличить общую глубину обработки интернет-ресурсов нейросетями.

Новый алгоритм Королёв способен «смотреть» на глубину порядка 200 000 документов на любой запрос!

Более того, изменение подхода позволило работать дальше, и сделать поисковые алгоритмы еще лучше.

Почему понадобилось дорабатывать поисковые алгоритмы.

Для чего нужен новый поисковый алгоритм Королёв.

Алгоритм Королёв – искусственный интеллект, который понимает смысл документов

Уже несколько раз указывалось, что в алгоритме Палех семантический вектор вычислялся только для заголовка документа. На изучение всего содержимого, в динамике реального поиска, просто не хватало мощности и ресурса.

Королёв не ограничен такими рамками, потому что составляет векторы на стадии индексирования. Соответственно новый алгоритм получил возможность сопоставлять пары запрос-документ.

Кроме того, авторы изменили архитектуру поиска. Новый подход основан на такой гипотезе:

«если к запросу из нескольких слов взять не очень большой список из самых релевантных документов по каждому слову или словосочетанию, то среди них найдутся документы, релевантные одновременно всем словам»

В реальности это означает, что для популярных словосочетаний и ключей, можно сформировать дополнительный индекс релевантных документов. И при появлении схожего по смыслу запроса останется только пройти по данному списку, чтобы найти подходящую страницу. То есть, часть работы с этапа L0 теперь выполняется на стадии индексирования. Алгоритм смог просматривать большее количество документов, и поиск стал полнее.

А еще команда разработчиков придумала сравнивать схожие по смыслу запросы, подставляя наиболее подходящие ответы от одного к другому.

Например, есть пользовательский запрос «вконтакте» и нейросети известно, что наиболее релевантной ссылкой является vk.com. Далее поступает запрос «вконтакте вход». Алгоритму Королёв не нужно перетряхивать миллионы страниц, чтобы найти подходящий ответ. При новом подходе программа сравнивает запросы «вконтакте» и «вконтакте вход», понимает, что смысл у них идентичен, подставляет уже известный релевантный ответ от первого в результаты выдачи для второго.

Таким образом, разработчики компании Яндекс не просто проапгрейдили Палех, а создали совершенно новую архитектуру поиска.

Итог

Представители Яндекса настаивают: Королёв – это совершенно новая технология, свежее слово в применении нейронных сетей. Это буквально шаг в будущее, где поисковые системы вообще перестанут оперировать ключевыми словами, и начнут разбираться в смысле документа.

Пока изменения основной выдачи не слишком заметны, но стоит помнить, что нейросеть имеет огромный потенциал для самообучения. И кто знает, может быть, уже через год мы увидим совершенно другие результаты в основной выдаче Яндекса.

А еще не стоит забывать – новые алгоритмы усложняют манипулирование выдачей. И на первый план выходят те, кто старается давать действительно полезную и качественную информацию.

Оцените статью:
Понравилась 0
Не понравилась 0
Автор: Ольга Фомина

Постоянно совершенствоваться в профессии, расти и развиваться. Расти в первую очередь над собой, ибо ни люди, ни обстоятельства не могут нанести автору столько вреда, сколько его самомнение и нежелание учится. Любая остановка — падение вниз. Поэтому только вперед, наперекор всему, что мешает двигаться и покорять новые вершины.

Нам интересно ваше мнение, напишите комментарий:

Нажимая на кнопку «Отправить», я даю согласие на обработку персональных данных в соответствии с «Политикой конфиденциальности».

Обмен мнениями и отзывы о публикации
Подпишитесь на рассылку блог-оптимизатора.рф

Уже подписались 803 человек