Время чтения: 7 минут

Сотрудники Яндекса зачитали доклад: безопасность поисковой системы и пользователей

Сотрудница Яндекса прочитала доклад «Как мы обеспечиваем безопасность поиска».

В рамках серии встреч «Как устроен поиск Яндекса», представительница отдела безопасности Екатерина Гладких зачитала доклад «Как мы обеспечиваем безопасность поиска». Аналитик российской поисковой системы рассказала слушателям много интересного о том, как в компании борются с дорвеями, клоакингом, фишингом, парсингом и мобильным мошенничеством.

Полная версия доклада доступна по ссылке. А основные и интересные моменты ниже.

Общие сведения

Отдел безопасного поиска в компании Яндекс сформировали в 2004 году, когда дорвейщики стали создавать настолько много сайтов, что усилия поисковой системы по формированию адекватной выдачи были практически уничтожены. Тогда, программисты отдела первым делом написали фильтр «антиспам», который и стал основным барьером на пути дорвеев.

С тех пор безопасностью стали заниматься всерьез. Как следствие, сейчас обойти защиту Яндекса достаточно сложно.

Для того чтобы алгоритмы поисковой системы были в безопасности, сотрудники отдела постоянно совершенствуют инструменты и обновляют программный код. Работа идет по трем направлениям:

  1. Антиспам.
    Работает против дорвеев, сеток псевдосайтов, клоакинга.
  2. Антиробот.
    Мешает автоматизированному парсингу контента и защищает от DDOS атак.
  3. Злоупотребления SEO.
    Алгоритмы научились выявлять и пессимизировать сайты, которые злоупотребляют портянками текста, покупными ссылками, накруткой поведенческих факторов.

Это что касается безопасности самой поисковой системы.

Другая группа специалистов занята проектами, которые отвечают за безопасность пользователей Яндекса. Для многих людей поисковая строка – это отправная точка, с которой начинается путешествие в огромный мир интернета. В российской компании считают, что серфинг должен быть безопасным и прилагают все усилия, чтобы обеспечить пользователям лучшие условия.

Основные угрозы безопасности в поиске Яндекса.

Екатерина Гладких объясняет, что угрожает безопасности пользователей в Яндексе.

Для обеспечения безопасности пользователей, разработан собственный антивирусный продукт, который в режиме реального времени определяет зараженные интернет-ресурсы и предупреждает о существовании угрозы.

Кроме того, Яндекс борется с любыми видами мошенничества и старается оградить граждан от недостоверной информации.

В отдельную категорию Екатерина Гладких выделила контент типа «порно» и «жесть» (вызывающий острые негативные эмоции). Они относятся к неуместной информации, выдача которой должна быть под строгим контролем. При этом докладчик просит разделять понятия «нежелательный» и «неуместный» контент. Последний должен быть доступен пользователю Яндекса по запросу, но только в случае, если точно известно – человек сознательно и специально ищет данный тип информации.

Подробнее про технологии фильтрации на некоторых примерах

Для того чтобы слушатели лучше понимали, как работает отдел безопасности компании Яндекс, Екатерина Гладких показала функционирование системы на примерах GSM-подписки, неуместного контента и антиробота. Темы специально выбраны из разных категорий, чтобы слушатели могли оценить, насколько широкий круг вопросов находится в ведении безопасников.

Борьба с GSM-подписками

Проблема встала особенно остро с развитием и ростом мобильного трафика. В интернет попало огромное количество людей, морально неготовых к мошенничеству. Люди не понимают, что нажимая кнопки «смотреть» или «скачать» они автоматически подписываются на услуги и ежедневно теряют баланс.

Далеко не все сайты заранее предупреждают о подписке. Большинство старается сделать это незаметно, так чтобы пользователь не обратил внимания. Учитывая, что российские граждане даже юридические документы  просматривают далеко не всегда, информацию с предупреждением на экране мобильника вообще мало кто читает.

По оценке отдела безопасности компании Яндекс, ежедневно жертвами GSM-мошенников становится до 80 000 пользователей. Денежный оборот в данной индустрии исчисляется десятками миллионов рублей.

Как Яндекс борется с подобными сайтами?

  1. Определяет характерные черты редиректов и находит цепочки навигации, ведущие к подписке.
  2. К подозрительным сайтам применяют активное детектирование и краудсорсинг. Специально обученный робот приходит на сайт, имитирует действия человека и определяет, куда приводят редиректы, и попадает ли пользователь на лендинг.
  3. Происходит бан сайта – инициатора цепочки. К настоящему моменту в черном списке Яндекса уже 400 000 сайтов. Каждый день под фильтры попадает еще несколько сотен.
  4. Пользователям показывают предупреждения в Браузере. По данным отдела безопасности, ежемесячно подобные предупреждения видит порядка 6% владельцев мобильных устройств.

Неуместный контент

Многие знают, что в поиске Яндекса есть разные режимы:

  • семейный (контент типа «порно» не показывается даже при откровенных запросах);
  • умеренный (взрослый контент доступен, только если алгоритмы поисковой системы понимают, что именно это ищет пользователь);
  • без ограничений.

Соответственно, формируя выдачу для конкретного пользователя по его вопросу, основной алгоритм Яндекса принимает во внимание три фактора: режим поиска, класс запроса, класс документа.

Казалось бы, все просто – сопоставить второй и третий факторы, учесть влияние первого. Но на самом деле, сложности возникают даже на этапе классификации запросов. В дело вступает так называемое правило интернета №34. Соответственно, алгоритмам Яндекса нужно правильно интерпретировать намерения пользователя и точно знать, когда человек ожидает увидеть безобидную информацию, а когда ищет взрослый контент.

Кроме того, нужно грамотно оценить полное содержание страницы, включая текст, изображения, видео, рекламные блоки и контент, подгружаемый скриптами. Чтобы ни в одном углу документа не появилась неуместная информация.

К слову, проверяя тезис правила №34, сотрудники отдела безопасности поиска провели эксперимент. Теперь они точно знают, что по 91,3% запросов уже есть порно. Например, взрослое содержание нашлось даже по таким, казалось бы безобидным, запросам как «птеродактиль», «красивый русский дом фото», «Лунтик».

В общем, задача фильтрации неуместной информации достаточно сложная. А для ее решения отдел активно пользуется следующими технологиями и инструментами:

  • Vowpalwabbit
  • Svmlight
  • Wor2vec
  • MatrixNet
  • DaNet
  • Ethos
  • Scikit-learn
  • Crowd soucing
  • Whitehill
  • Activelearning

Антиробот в поиске Яндекса

Многие задаются вопросом, зачем он нужен? Ответ прост — сегодня до 30% запросов к поисковой системе выполняют роботы. И если их вовремя не остановить, то возникает неконтролируемая нагрузка, наблюдаются попытки reverseengineering’a поисковых алгоритмов, происходит парсинг контента.

У Яндекса очень мощный и быстрый антиробот – в кластере находятся десятки машин, а 98% всех запросов обрабатывается менее чем за 1 мс.

Для определения роботов используются:

  • более 4000 факторов;
  • автоматический сбор и разметка выборок;
  • MatrixNet формула.

При этом поддерживается мультиформульность, то есть в различных разделах действия обрабатываются разными формулами. Пользователь, которого на поиске классифицируют как робота, в Я.Маркете может быть определен как реальный человек.

Тут нужно отметить, что весь проект «Антиробот» находится под контролем отдела безопасности поиска. Специалисты самостоятельно проводят аналитику, выполняют разработку и тестирование, администрируют кластеры, занимаются мониторингом и работают в саппорте.

В завершении доклада Екатерина Гладких заметила, что все перечисленные проекты объединяет присутствие незримого соперника — противник сидит и придумывает, как обойти систему безопасности Яндекса. Сотрудники отдела, напротив, решают задачу, как не допустить прорыва. И это очень круто, потому что мотивирует на качественную работу.

Некоторые вопросы слушателей

  1. В поиске есть кнопка «пожаловаться». Наверняка многие владельцы сайтов таким образом пытаются бороться с конкурентами. Как эту проблему решает Яндекс?

Дело в том, что нажатие на кнопку не приводит к мгновенному результату — документ не пропадет из поиска, на него не налагают фильтры пессимизации. Прежде чем будут предприняты какие-то меры (после нажатия «пожаловаться») пройдет немало времени и несколько дополнительных проверок. Поэтому такой способ борьбы с конкурентами не работает.

  1. Как антиробот реагирует на человеческий всплеск запросов при наступлении какого-то значимого события?

Антиробот построен на принципах машинного обучения и учитывает множество факторов. Поэтому даже если происходит всплеск однотипных запросов, он все равно детектирует поведение пользователей как «человечное» и не будет предлагать ввести капчу через каждые N запросов.

  1. Почему Яндекс практически полностью убрал из выдачи тематики «warez» и «crack»? Многие люди сознательно ищут «кряки», но поисковая система отфильтровала подобный контент.

Специального правила, по которому сайты с «кряками» попадают в бан или пессимизируются, нет. Надо полагать, что абсолютное большинство таких интернет-ресурсов одновременно злоупотребляют черными способами продвижения, представляют собой дорвеи, занимаются клоакингом. Как следствие, они попадают под другие классификаторы и поэтому отсутствуют в выдаче.

  1. Расскажите подробнее, как вы технически боретесь с GSM-мошенничеством? Ведь подобные сайты умеют определять наличие сим-карты и даже девайс. При заходе и проверке с обычного браузера, роботу Яндекса покажут другой, «хороший» контент.

У нас есть ботнет тестовых сим-карт, от группы операторов из разных регионов. Мы понимаем, что в данном вопросе это критически важный момент. Поэтому делаем тестовые стенды, притворяемся разными мобильными устройствами. И надо сказать, это огромные масштабы — десятки миллионов подобных запросов в день.

Оцените статью:
Понравилась 0
Не понравилась 0
Автор: Ольга Фомина

Постоянно совершенствоваться в профессии, расти и развиваться. Расти в первую очередь над собой, ибо ни люди, ни обстоятельства не могут нанести автору столько вреда, сколько его самомнение и нежелание учится. Любая остановка — падение вниз. Поэтому только вперед, наперекор всему, что мешает двигаться и покорять новые вершины.

Нам интересно ваше мнение, напишите комментарий:

Нажимая на кнопку «Отправить», я даю согласие на обработку персональных данных в соответствии с «Политикой конфиденциальности».

Обмен мнениями и отзывы о публикации
Подпишитесь на рассылку блог-оптимизатора.рф

Уже подписались 801 человек