59
Поисковые технологии Яндекса

1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

  • Upload
    others

  • View
    18

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

Т Е Х Н О Л О Г И И Я Н Д Е К С А С О Д Е Р Ж А Н И Е

1 Поисковые технологии Яндекса

Page 2: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

Т Е Х Н О Л О Г И И Я Н Д Е К С А С О Д Е Р Ж А Н И Е

2

4Как ищет Яндекс

9 Архитектура

12 Лингвистическая обработка запроса

17 Ранжирование и машинное обучение

21 Матрикснет

24Технология «Спектр»

27 Результаты поиска

31 Колдунщики

36 Поиск с учётом региона

41 Машинный перевод

45 Антиспам и антивирус

53 Яндекс.Картинки и дубликаты изображений

ОБЩАЯ СХЕМА ПОИСКА

Нажмите, чтобы посмотреть в большом размере

ИСПОЛЬЗОВАНЫ ФОТОГРАФИИ АВТОРСТВА ПОЛЬЗОВАТЕЛЕЙ СЕРВИСА YANDEX.FOTKI.RU

Page 3: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

3

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А

Каждый день поиском Яндекса пользуются миллионы людей. Они печатают запрос в строке поиска и сразу же получают ответ.

При этом мало кто задумывается, как же это всё работает. Да и задумываться особо некогда: весь процесс поиска занимает не-сколько мгновений. Шестерёнки не скре-жещут, карточки не шелестят, женщина в окошке не говорит: «За этим надо обра-щаться в архив, заполните заявку и воз-вращайтесь через три рабочих дня».

Всё просто — вопрос-ответ.Но на самом деле между вопросом и от-

ветом находится очень много всего. Над тем, чтобы пользователи получали пра-вильные ответы на свои вопросы — быстро

и в удобном виде, работают десятки слож-ных алгоритмов на тысячах серверов. А сот-ни сотрудников Яндекса постоянно разраба-тывают новые технологии и алгоритмы, улучшают существующие, следят за беспе-ребойной работой серверов и программ.

В этом журнале рассказывается о по-исковых технологиях Яндекса. Любой же-лающий может узнать, как поисковая ма-шина успевает просматривать весь интер-нет за доли секунды, как борется с вируса-ми и спамом, что такое Матрикснет и кол-дунщики и многое-многое другое. –

Page 4: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

4

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А

Конечно же, Яндекс не обходит весь интернет каждый раз, когда ему задают вопрос. Поисковая си-стема, так сказать, делает домаш-нее задание.

Яндекс ищет по поисковому индексу — базе данных, где для всех слов, которые есть на извест-ных поиску сайтах, указано их ме-стонахождение — адрес страницы

и место на ней. Индекс можно срав-нить с предметным указателем в книге или адресным справочни-ком. В отличие от обычного пред-метного указателя, индекс содер-жит не только термины, а вообще все слова. А в отличие от адресного справочника, у каждого слова-адресата есть не одно, а очень мно-го «мест прописки».

ПОДГОТОВК А К ОТВЕ ТА М Под-готовка данных, по которым ищет поисковая машина, называется индексированием. Специальная компьютерная система — поиско-вый робот — регулярно обходит интернет, выкачивает документы и обрабатывает их.

>

Как ищет Яндекс

Поисковая машина Яндекса отвечает на вопросы пользователей, находя нужные документы в интернете. А размеры современного интернета исчисляются в экзабайтах, то есть в миллиардах миллиардов байтов.

Page 5: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

5

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А К А К И Щ Е Т Я Н Д Е К С

Создается своего рода слепок ин-тернета, который хранится на сер-верах поисковика и обновляется при каждом новом обходе.

У Яндекса два поисковых робо-та — основной и быстрый (он назы-вается Orange). Основной робот ин-дексирует интернет в целом, а Orange отвечает за то, чтобы в по-иске можно было найти самые све-жие документы, которые появи-лись минуты или даже секунды на-зад. У каждого робота есть список адресов документов, которые нуж-но проиндексировать. Когда при обходе робот видит на уже извест-ных сайтах новые ссылки, он до-бавляет их в свой список, увеличи-вая количество индексируемых страниц. Впрочем, владелец сайта

сам может помочь основному робо-ту Яндекса найти свой ресурс и подсказать, например, как часто обновляются его страницы — че-рез сервис Яндекс.Вебмастер.

Сначала программа-планиров-щик выстраивает маршрут — оче-редность обхода документов. При этом планировщик учитывает важные для поисковой системы ха-рактеристики сайтов, такие как, например, цитируемость или ча-стота обновления документов. По-сле создания маршрута планиров-щик отдаёт его другой части поис-кового робота — «пауку». Паук ре-гулярно обходит документы по за-данному маршруту. Если сайт на месте, то есть работает и доступен, паук выкачивает запланирован-

ные в маршруте документы. Он определяет тип скаченного доку-мента (html, pdf, swf и т.п.), коди-ровку и язык, а затем отправляет данные в хранилище.

Там программа разбирает до-кумент по кирпичикам: очищает от картинок и html-разметки, оставляет чистый текст, выделяет данные о местоположении каждого слова и добавляет их в индекс. Сам документ в исходном виде также остается в хранилище до следую-щего обхода. Благодаря этому пользователи могут найти в Яндек-се и посмотреть документы, даже если сайт временно недоступен.

>

В хранилище поисковой системы оказываются все проиндексированные документы с указанием их кодировки, языка и типа.

Page 6: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

6

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А К А К И Щ Е Т Я Н Д Е К С

ПРИМЕРНО ТАК УСТРОЕНА РАБОТА ПОИСКОВЫХ РОБОТОВ

ОСНОВНОЙ РОБОТ ХРАНИЛИЩЕ

РОБОТ ОRANGE

ПЛАНИРОВЩИК«ПАУК»

ПЛАНИРОВЩИК«ПАУК»

ЧАСТО ОБНОВЛЯЮЩИЕСЯ САЙТЫ

САЙТЫ

Page 7: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

7

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А К А К И Щ Е Т Я Н Д Е К С

Если сайт закрылся или документ был удалён или обновлён, Яндекс удалит копию со своих серверов или заменит её на новую.

Поисковый индекс, данные о типе документов, кодировке, языке и сохраненные копии документов вместе составляют поисковую базу.Поисковая база обновляется посто-янно, но, чтобы это обновление ста-ло доступно пользователям, её нужно перенести на «базовый по-иск». Базовый поиск — сервера, ко-торые отвечают пользователям на запросы. Туда переносится не вся поисковая база, а только её полез-ная часть — без спама, дубликатов сайтов (зеркал) и других ненужных документов.

>

СОЗДАНИЕ ПОИСКОВОЙ БАЗЫ

ДОКУМЕНТ ПОИСКОВАЯ БАЗА

ОЧИСТКА

В лесу родилась ёлочка, В лесу она росла

Поисковая база постоянно обновляется. В поиск обновления выкладываются раз в несколько дней.

В лесу родилась ёлочка, В лесу она росла

СОХРАНЁННЫЕ КОПИИ

Индекслес .................. док.1, стр. 1, поз. 1, 4рождаться ... док.1, стр. 1, поз. 2ель................... док.1, стр. 1, поз.3она .................. док.1, стр. 1, поз. 5расти .............. док.1, стр. 1, поз. 6

Page 8: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

8

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А К А К И Щ Е Т Я Н Д Е К С

Обновление поисковой базы из хранилища основного робота попа-дает в поиск «пакетами» — раз в не-сколько дней. Этот процесс создаёт дополнительную нагрузку на сер-вера, поэтому производится ночью, когда к Яндексу обращаются на по-рядок меньше пользователей.

Сначала новые части базы по-мещаются рядом с такими же ча-стями из прошлого обхода. Затем они проверяются по целому ряду факторов, чтобы обновление не ухудшило качество поиска. Если проверка прошла успешно, новая часть базы заменяет собой старую.

Робот Orange предназначен для поиска в реальном времени. Его пла-нировщик и паук настроены так, чтобы находить новые документы и

выбирать из огромного их количе-ства все, хоть сколько-нибудь инте-ресные. Каждый такой документ Orange сразу обрабатывает и выкла-дывает на базовый поиск. Срочных документов не очень много по срав-нению с общим объемом интернета, поэтому обновление базы в реальном времени можно делать и при днев-ных нагрузках на сервера.

Можно сказать, что поиск в ин-тернете состоит из двух больших частей. Первая — когда Яндекс ищет различные документы в ин-тернете и составляет поисковый индекс. Вторая — когда система ищет ответ на конкретный запрос пользователя в уже подготовлен-ной поисковой базе.

Документы, найденные быстрым роботом Orange, могут появиться в поиске уже через несколько минут после их создания.

Page 9: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

9

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А

Для этого Яндекс использует зара-нее подготовленные данные — ин-декс. Безусловно, поиск с помощью индекса ускоряет процесс ответа пользователю, как, например, предметный указатель в книге по-могает быстрее найти нужное сло-во. Но размеры самого «предметно-го указателя» в поиске — огромны. Чтобы обрабатывать такие объемы

данных и делать это быстро, Ян-декс использует тысячи серверов. Сервера объединены в кластеры и даже в кластеры кластеров.

Все пользовательские запросы сначала попадают в компьютер-ную систему «метапоиск». Метапо-иск обрабатывает каждый запрос в реальном времени — выясняет все необходимые данные про запрос

(например, из какого региона он был задан и т.п.), проводит лингви-стическую обработку. Затем мета-поиск проверяет, формировались ли в последнее время результаты поиска для этого запроса.

>

Архитектура

Каждый день пользователи задают Яндексу более 100 миллионов запросов, и поисковая система должна не только точно отвечать, но и быстро обрабатывать весь этот поток.

Page 10: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

10

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

БАЗОВЫЙ ПОИСК

МЕТАПОИСК

Т Е Х Н О Л О Г И И Я Н Д Е К С А А Р Х И Т Е К Т У Р А

АРХИТЕКТУРА ПОИСКА

Запрос

Пример популярного запроса

Пример непопулярного запроса

Да

Нет

ПРОВЕРКА НА ПОПУЛЯРНОСТЬ

МАТРИКСНЕТ

ОБРАБОТКА ЗАПРОСА

Сохраненные результаты поиска

Результаты поиска

Page 11: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

11

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А А Р Х И Т Е К Т У Р А

Результаты поиска по часто задава-емым запросам некоторое время хранятся в памяти метапоиска, а не формируются каждый раз зано-во. И если вновь пришедший за-прос оказался популярным, мета-поиск покажет пользователю зара-нее сохраненные результаты. Если же ответа в памяти нет, то метапо-иск передаёт запрос на сервера дру-гой компьютерной системы — «ба-зового поиска».

На базовом поиске хранится слепок интернета, по которому ищет Яндекс, — поисковая база. Она разбита на части, которые хра-нятся на разных серверах — искать ответ одновременно по нескольким частям базы данных быстрее, чем по всей базе целиком. Кроме того, у

каждого сервера есть несколько ко-пий. Это позволяет распределять нагрузку и не терять данные — ес-ли один из серверов не сможет сво-евременно ответить, информация всё равно найдется на дублирую-щих серверах. Из тысяч серверов базового поиска метапоиск выбира-ет наименее загруженные — таким образом, чтобы вместе они содержа-ли целую поисковую базу.

Каждый из серверов отдаёт список документов, в которых есть слова из запроса, обратно в метапо-иск. Там они объединяются, ран-жируются с помощью технологии Матрикснет и попадают на страни-цу результатов поиска.

Архитектура поисковой систе-мы устроена так, что к уже суще-

ствующим серверам можно легко добавлять новые — для новых дан-ных из постоянно растущего интер-нета. Благодаря такой организации поиск Яндекса может отвечать пользователю за доли секунды.

Архитектура поиска Яндекса позволяет отвечать пользователю за доли секунды.

Page 12: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

12

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А

Именно при анализе запроса систе-ма решает, по каким словам и сло-воформами нужно искать. Напри-мер, по запросу [гостиницы в ир-кутске] недостаточно найти доку-менты с таким сочетанием слов. Хо-рошие ответы могут оказаться в до-кументах со словами «отели в ир-кутске», «иркутские гостиницы», «иркутск гостиница» и т.д. Анали-

зируя вопрос пользователя, система определяет язык запроса, проводит морфологический разбор каждого слова, выбирает нужные для поис-ка словоформы и отсекает лишние.

ОПРЕ ДЕ ЛЕНИЕ ЯЗЫК А ЗАПРОС А Анализ запроса начинается с опре-деления языка. Например, слово «дружина» в русском языке озна-

чает «военная рать», а в украин-ском — и «военная рать», и «жена». Чтобы понять, что имеет в виду пользователь, нужно выяснить, на каком языке он общается с поиско-вой системой.

>

Лингвистическая обработка запросаЧтобы вникнуть в суть вопроса, человеку нужно подумать, а поисковой системе — провести лингвистический анализ запроса. Только потом можно приступать к поиску.

Page 13: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

13

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А Л И Н Г В И С Т И Ч Е С К А Я О Б Р А Б О Т К А З А П Р О С А

Для этого Яндекс смотрит, какой алфавит использует человек, ка-кие в запросе есть характерные со-четания букв и слова. Так, по за-просу [дружина князя игоря] Яндекс будет искать информацию о войске, а по запросу [дружина князя iгоря] — еще и о жене полко-водца, княгине Ольге.

Кроме того, при определении языка поисковая система обраща-ет внимание на регион пользова-теля и язык интерфейса. Напри-мер, если человек задает вопрос из Украины и использует интерфейс на украинском языке, это будет дополнительным фактором, что-бы посчитать запрос украиноя-зычным.

МОРФ ОЛОГИЧЕСКИЙ РА ЗБ ОР Определив язык запроса, Яндекс переходит к морфологии. Знание морфологии позволяет находить документы, содержащие разные формы одних и тех же слов. На-пример, по запросу [стали для но-жей] Яндекс будет искать доку-менты, в которых есть не только сочетание «стали для ножей», но и «сталь для ножа», «ножи сталь» и т.д. Анализируя запрос, Яндекс составляет список возможных сло-воформ для каждого слова.

ОМОНИМИЯ И К А К С НЕЙ Б О-РОТЬС Я По словоформе, которая есть в запросе, не всегда можно точно сказать, какое слово имел в виду человек. Например, в запро-

се [стали для ножей] «стали» — это не только существительное «сталь», но и глагол «стать». И в одном случае ([стали для ножей]) нужно искать формы существи-тельного, а в другом ([стали выпа-дать волосы что делать]) — формы глагола. В такой ситуации нужно избавиться от неоднозначности, то есть снять омонимию. Омони-мия — это совпадение слов (слово-форм) с разным лексическим зна-чением.

>

Знание морфологии позволяет находить документы с разными формами одних и тех же слов.

Page 14: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

Т Е Х Н О Л О Г И И Я Н Д Е К С А

14

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Л И Н Г В И С Т И Ч Е С К А Я О Б Р А Б О Т К А З А П Р О С А

Чтобы выбрать для поиска наиболее вероятный список форм, система обращается к статистике совместной встречаемости слов и грамматических признаков. На-пример, в морфологическом раз-боре по запросу [стали для ножей] система выберет для поиска слово «сталь». Во-первых, потому что по статистике слово «нож» чаще встречается со словом «сталь», чем «стать». А во-вторых, потому что существительное в именитель-ном падеже (в данном случае, «сталь») часто сочетается с суще-ствительным в родительном паде-же («ножей»).

Для сбора статистики Яндекс использует Национальный кор-пус русского языка и свои соб-

ственные корпуса, где собрано огромное количество текстов в электронном виде.

РАСШИРЕНИЕ ЗА ПРО С А После снятия омонимии поисковая систе-ма уже не будет искать слова, кото-рые пользователь точно не имел в виду. В то же время, если ограни-чить поиск только словами из за-проса, в поле зрения поисковой си-стемы не попадут многие нужные документы. Ведь для одного и того же понятия в разных текстах могут использоваться разные слова, на-пример на одном сайте может сто-ять аббревиатура, а на другом — полное наименование.

Для того чтобы учесть все воз-можные варианты, Яндекс расши-

ряет запрос, добавляя другие фор-мулировки с тем же смыслом. На-пример, вместе со сложносокра-щенным «физтех» Яндекс будет ис-кать и официальное «Московский физико-технический институт », а по запросу «установка скайп» — еще и английское «skype». Точно так же Яндекс добавляет в запрос разные написания чисел («Петр I» и «Петр Первый»), близкие по смыслу однокоренные слова, вари-анты написания и синонимы. Так, если в запросе есть «воронежский», система может добавить к нему од-нокоренное «воронеж», к «авто-сервис мицубиши» — «автосервис мицубиси», а к «гостиница» — по-хожее «отель».

>

Чтобы найти все документы, в которых может быть хороший ответ, Яндекс расширяет запрос, добавляя другие формулировки с тем же смыслом.

Page 15: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

Т Е Х Н О Л О Г И И Я Н Д Е К С А

15

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Л И Н Г В И С Т И Ч Е С К А Я О Б Р А Б О Т К А З А П Р О С А

Выбирая, какое слово добавить, а какое нет, Яндекс смотрит, как ча-сто это слово встречается с други-ми словами запроса — и в вопро-сах пользователей, и вообще в тек-стах. Поэтому по запросу [отель в Воронеже] Яндекс ищет и воро-нежские гостиницы, а по [отель Калифорния] находит песню Hotel California. Однокоренные слова и синонимы система берет из соот-ветствующих справочников и сло-варей, часть из которых Яндекс сам составляет специально для таких случаев.

ВЫ ДЕ ЛЕНИЕ ОБЪЕК ТОВ Анали-зируя запрос, поисковая система выделяет в нём различные объек-ты — географические названия,

имена людей, названия организа-ций и т.д. Например, если поиско-вая система поймет, что [Сергей Зубов] — это человек, она не будет расширять фамилию «зубов» «зубным» или искать стоматоло-гические клиники. А если в запро-се [аптеки на парке культуры] си-стема обнаружит, что «Парк куль-туры» — это место, она учтет это при ранжировании. Для выделе-ния устойчивых фраз и объектов Яндекс тоже составляет различ-ные справочники – например, сло-варь топонимов (географических названий), словарь имен и фами-лий, справочник организаций, словарь устойчивых словосочета-ний. Получив запрос, система каждый раз проверяет по справоч-

никам, есть ли в нём устойчивые словосочетания и объекты.

РА Б ОТА Н А Д ОШИБК А МИ При анализе запроса поисковая систе-ма всегда проверяет его грамот-ность. По статистике Яндекса, около 15% запросов содержат ошибки. Это могут быть опечатки, орфографические ошибки или абракадабра, которая получается при неправильной раскладке кла-виатуры. Если искать ровно то, что указано в поисковой строке, человек так и не получит нужный ему ответ — ведь на большинстве сайтов слова все-таки написаны грамотно.

>

Поисковая система использует различные справочники – например, словарь топонимов. Это позволяет выявлять в запросах устойчивые объекты.

Page 16: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

Т Е Х Н О Л О Г И И Я Н Д Е К С А

16

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Л И Н Г В И С Т И Ч Е С К А Я О Б Р А Б О Т К А З А П Р О С А

Поэтому те слова, в которых часто допускают ошибки («агентство», «винегрет») или по которым нет хо-рошего ответа на вопрос, Яндекс сразу же исправляет и показывает ответ уже на исправленный за-прос. Разумеется, предупреждая пользователя, что запрос был ис-правлен.

В некоторых случаях сложно определить, ошибся пользователь или нет. Например, ресторан «фуджияма» очень похож на вул-кан «фудзияма», а фамилия фут-болиста «Массад» на «Моссад» (а также на «массаж» и крепость «Масада»). В таких случаях, пока-зывая ответ на исходный вопрос, Яндекс спрашивает, не ошибся ли человек и не хочет ли он увидеть

ответ на исправленный запрос. Ес-ли есть несколько вариантов ис-правлений, Яндекс выбирает тот, который встречается чаще всего. Например, между «моссад», «мас-саж» и «массад» поиск выберет первый вариант:

На работу с ошибками и весь лингвистический анализ уходят доли секунды. За это время систе-ма успевает определить язык за-проса, разобрать каждое слово, найти синонимы и устойчивые со-четания и в конечном счете ре-шить, документы с какими слова-ми нужно искать.

массад

Быть может, вы искали: «моссад»

винегрет

В запросе «венегред» была исправлена опечатка.

Page 17: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

17

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А

Поэтому поисковой системе уже не-достаточно просто показать все стра-ницы со словами из запроса — что-бы найти подходящий ответ, челове-ку придется листать десятки стра-ниц с результатами поиска. Поиско-вая система должна расположить найденные страницы в нужном по-рядке — так, чтобы сверху оказа-лись наиболее подходящие пользо-

вателю (наиболее релевантные). Этот процесс — упорядочивание ре-зультатов поиска в соответствии с запросом пользователя — называет-ся ранжированием. Именно ранжи-рование определяет качество поиска — то есть качество ответа на вопрос, заданный в поисковой строке.

Каждый день Яндекс отвечает больше, чем на сто миллионов за-

просов. Около четверти из них — неповторяющиеся. Поэтому невоз-можно написать для поисковой си-стемы такую программу, в которой предусмотрен каждый запрос, и для каждого запроса известен луч-ший ответ.

>

Ранжирование и машинное обучениеСейчас уже сложно придумать такой запрос, по которому находится меньше десятка страниц. А по многим запросам результатов поиска — миллионы. И со временем их становится все больше — интернет очень быстро растет.

Page 18: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

18

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А Р А Н Ж И Р О В А Н И Е И М А Ш И Н Н О Е О Б У Ч Е Н И Е

Поисковая система должна уметь принимать решения самостоятельно, то есть — сама выбирать из миллио-нов документов тот, который лучше всего отвечает пользователю. Для этого нужно научить ее обучаться.

М А ШИННОЕ ОБУ ЧЕНИЕ Задача научить машину обучаться суще-ствует не только в поисковых техно-логиях. Без машинного обучения не-возможно, например, распознавать рукописный текст или речь. Термин «машинное обучение» появился еще в 50-х годах. Этот термин обозначает попытку научить компьютер решать задачи, которые легко даются челове-ку, но формализовать путь их реше-ния сложно. В результате машинного обучения компьютер может демон-

стрировать поведение, которое в него не было явно заложено.

Поисковая система должна нау-читься строить правило, которое определяет для каждого запроса, какая страница является хорошим ответом на него, а какая — нет. Для этого поисковая машина анализи-рует свойства веб-страниц и поиско-вых запросов. У всех страниц есть какие-то признаки. Некоторые из них — статические — связаны с са-мой страницей, например, количе-ство ссылок на эту страницу в ин-тернете. Некоторые признаки — ди-намические — связаны одновре-менно с запросом и страницей — например, присутствие в тексте страницы слов запроса, их количе-ство и расположение. >

Для точного поиска важно учитывать очень много разных факторов.

РАЗНЫЕ ТИПЫ ФАКТОРОВ РАНЖИРОВАНИЯ

Формула ранжирования

Статистические факторыДинамические факторыЗапросные факторы

Page 19: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

19

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А Р А Н Ж И Р О В А Н И Е И М А Ш И Н Н О Е О Б У Ч Е Н И Е

У поискового запроса тоже есть свойства, например, геозависи-мость — это означает, что для хоро-шего ответа на этот запрос нужно учитывать регион, из которого он был задан. Свойства запроса и страницы, которые важны для ранжирования и которые можно измерить числами, называются факторами ранжирования. Для точного поиска важно учитывать очень много разных факторов.

АСЕССОРЫ Кроме факторов ран-жирования поисковой системе необ-ходимы образцы — запросы и стра-ницы, которые люди считают подхо-дящими ответами на эти запросы. Оценкой того, насколько та или иная страница подходит для ответа

на тот или иной запрос, занимаются специалисты — асессоры. Они берут поисковые запросы и документы, которые поиск находит по этим за-просам, и оценивают, насколько хо-рошо найденный документ отвечает на заданный запрос. Из запросов и хороших ответов составляется обу-чающая выборка. Она должна содер-жать самые разные запросы, причем в тех же пропорциях, в которых их задают пользователи. На обучаю-щей выборке поисковая система устанавливает зависимость между страницами, которые асессоры по-считали релевантными запросам, и свойствами этих страниц. После это-го она может подобрать оптималь-ную формулу ранжирования — ко-торая показывает релевантные за-

просу сайты среди первых результа-тов поиска.

На примере это выглядит так. Допустим, мы хотим научить маши-ну выбирать самые вкусные яблоки. Асессоры в этом случае получают ящик яблок, пробуют их все и рас-кладывают на две кучи, вкусные — в одну, невкусные — в другую. Из раз-ных яблок составляется обучающая выборка. Машина пробовать яблоки не может, но она может проанализи-ровать их свойства. Например — ка-кого они размера, какого цвета, сколько сахара содержат, твердые или мягкие, с листиком или без. На обучающей выборке машина учится выбирать самые вкусные яблоки — с оптимальным сочетанием размера, цвета, кислоты и твердости. >

Поисковая система должна научиться самостоятельно отличать хорошие ответы на заданный запрос от плохих.

Page 20: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

20

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А Р А Н Ж И Р О В А Н И Е И М А Ш И Н Н О Е О Б У Ч Е Н И Е

При этом могут возникать какие-то ошибки. Например, поскольку ма-шина ничего не знает про червя-ков, среди выбранных яблок могут оказаться червивые. Чтобы ошибок было меньше, нужно учитывать больше признаков яблок.

ПЕРЕОБУ ЧЕНИЕ В поисковых тех-нологиях машинное обучение при-меняется с начала 2000-х годов. Разные поисковые системы исполь-зуют разные модели. Одна из про-блем, которые возникают при ма-шинном обучении — переобучение. Переобучившаяся машина похожа на студента, который перезанимал-ся — например, прочитал очень много книжек перед экзаменом по психологии. Он мало общается с

живыми людьми и пытается объяс-нить простые поступки слишком сложными моделями поведения. И из-за этого поведение друзей для него всегда неожиданно.

Как это выглядит: когда компьютер оперирует большим ко-личеством факторов (в нашем слу-чае это — признаки страниц и за-просов), а размер обучающей вы-борки (оценок асессоров) не очень велик, компьютер начинает искать и находить несуществующие зако-номерности. Например, среди всех оцененных страниц могут оказать-ся две с какой-то сложной комби-нацией факторов, например, с раз-мером 2 кб, фоном фиолетового цвета и текстом, который начина-ется на букву «я». И обе эти стра-

ницы окажутся релевантными за-просу [яблоко]. Компьютер начнет считать эту случайную комбина-цию факторов важным признаком релевантности запросу [яблоко]. При этом все важные документы про яблоки, которые такой комби-нацией факторов не обладают, по-кажутся ему менее релевантными.

Для построения формулы ран-жирования Яндекс использует соб-ственный метод машинного обуче-ния — Матрикснет. Он устойчив к переобучению.

Одна из проблем, которые возникают при машинном обучении – переобучение.

Page 21: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

21

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

С помощью Матрикснета можно построить очень длинную и слож-ную формулу ранжирования, кото-рая учитывает множество различ-ных факторов и их комбинаций. Другие методы машинного обуче-ния позволяют либо строить более простые формулы с меньшим ко-личеством факторов, либо нужда-ются в большей обучающей выбор-

ке. Матрикснет строит формулу с десятками тысяч коэффициентов. Это позволяет сделать существенно более точный поиск.

Еще одна важная особенность Матрикснета — в том, что формулу ранжирования можно настраивать отдельно для достаточно узких клас-сов запросов. Например, улучшить качество поиска только по запросам

про музыку. При этом ранжирова-ние по остальным классам запросов не ухудшится. Для примера можно представить себе формулу ранжиро-вания в виде сложного механизма с большим количеством ручек. На ме-ханизмах, построенных по другим технологиям, каждая ручка влияет на все запросы.

>

В 2009 году Яндекс внедрил новый метод машинного обучения — Матрикснет. Важная особенность этого метода — в том, что он устойчив к переобучению. Это позволяет учитывать очень много факторов ранжирования — и при этом не увеличивать количество оценок асессоров и не опасаться, что машина найдет несуществующие закономерности.

МатрикснетТ Е Х Н О Л О Г И И Я Н Д Е К С А

Page 22: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

22

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А М АТ Р И К С Н Е Т

Матрикснет дает возможность на-строить каждую ручку отдельно для своего класса запросов.

Кроме того, матрикснет авто-матически выбирает разную чув-ствительность для разных диапа-зонов значений факторов ранжиро-вания. Это в чем-то похоже на рабо-ту на аэродроме — когда среди по-стоянного шума самолетов нужно слышать и голоса людей. Если зат-кнуть уши, то самолеты будут слышны, а голоса — нет. Сотруд-ники аэропорта работают в специ-альных наушниках, слабо чувстви-тельных к громкому шуму. Так можно услышать и самолеты, и го-лоса людей.

Поскольку поисковая система работает с очень большими объема-

ми информации, по каждому запро-су ей нужно проверить признаки миллионов страниц, определить их релевантность и соответственно упорядочить. Так, чтобы сверху оказались более подходящие стра-ницы. Чтобы проверить свойства всех страниц по очереди, нужно либо очень много серверов, которые могут быстро обработать информа-цию обо всех страницах, либо очень много времени — а поиск должен работать быстро, иначе пользовате-ли не дождутся результатов. Матрикснет позволяет проверить очень много факторов за короткое время и без существенного увеличе-ния вычислительных мощностей.

Поиск ведется одновременно на тысячах серверов. Каждый сервер

ищет по своей части индекса и фор-мирует список самых лучших ре-зультатов. В него гарантированно попадают все самые релевантные запросу страницы. Дальше из этих списков составляется один общий, и страницы, попавшие туда, упо-рядочиваются по формуле ранжи-рования — той самой длинной и сложной формуле, построенной с помощью Матрикснета, с учетом всех факторов и их комбинаций. Таким образом, наверху поисковой выдачи оказываются все самые ре-левантные сайты — и пользова-тель почти мгновенно получает от-вет на свой вопрос.

>

Матрикснет позволяет проверить очень много факторов за короткое время и без существенного увеличения вычислительных мощностей.

Page 23: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

23

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А М АТ Р И К С Н Е Т

ПРИМЕРНО ТАК УСТРОЕНО РАНЖИРОВАНИЕ

Cтраницы Релевантность

1Яблоки.ru

2Cтатья про яблоки

3Купить яблоки

МАГАЗИН МАГАЗИН4,2

САЙТ ПРО ЯБЛОКИ САЙТ5,8

ЭНЦИКЛОПЕДИЯПОПУЛЯРНОСТЬ

ФАКТОРЫ СТРАНИЦЫ

ФАКТОРЫ ЗАПРОСА

ДИНАМИЧЕСКИЕ ФАКТОРЫ

ИНФО

СООТВЕТСТВИЕ ТЕКСТА И ЗАГОЛОВКА ЗАПРОСУ

ТИЦ

ССЫЛКИ

ИНФО

РЕГИОН

ПОПУЛЯРНОСТЬ СООТВЕТСТВИЕ ТЕКСТА И ЗАГОЛОВКА ЗАПРОСУ

ЭНЦИКЛОПЕДИЯ4,8

яблоко

Page 24: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

24

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А

Например, по запросу [наполеон] кто-то хочет найти полководца, а кто-то — рецепт торта. А задавая запрос [суши], человек может ис-кать и ресторан с доставкой на дом, и рецепт блюда. Спектр возможных целей может быть очень широк — так же, как и спектр возможных от-ветов. И если пользователь не ука-зал в поисковом запросе, что он

ищет, то понять это крайне трудно. Технология «Спектр» умеет учиты-вать множество неявных целей пользователей и показывать соот-ветствующие ответы.

В основе работы «Спектра» ле-жит статистика поисковых запро-сов. Система исследует запросы всех пользователей Яндекса и вы-деляет в них различные объекты

— это могут быть имена людей, названия фильмов и книг, модели автомобилей и тому подобное. Каждый объект относится к одной или нескольким категориям.

>

Когда пользователи задают запросы к Яндексу, примерно в 20% случаев они формулируют запрос неоднозначно.

Технология «Спектр»

Page 25: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

25

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А Т Е Х Н О Л О Г И Я « С П Е К Т Р »

Например, в запросе [колдрекс инструкция] название лекарства «Колдрекс» — объект, который по-падает в категорию «лекарства». А объект «Пушкин» относится к двум категориям — «поэты» и «города».

На данный момент «Спектр» выделяет около 60 категорий, и это количество будет еще расти. Зна-ние категорий позволяет поиско-вой системе понимать разные зна-чения слов в поисковых запросах.

Кроме того, «Спектр» умеет учитывать при поиске различные потребности пользователей. У каж-дой категории есть список возмож-ных потребностей — тех намере-ний, с которыми пользователи ищут тот или иной объект. Напри-мер, когда люди ищут какой-ни-

будь товар, они, как правило, хотят купить его или почитать отзывы и обзоры. То есть для категории «то-вары» среди потребностей будут «купить», «отзывы» и «обзоры». Всего у категории может быть от двух-трех до нескольких десятков потребностей.

С учетом того, в какие категории попал объект, что люди обычно про него спрашивают, что пишут в ин-тернете и т.д. «Спектр» оценивает процент людей, которые ищут этот объект с каждой из возможных це-лей. Эти данные используются при ранжировании результатов поиска по многозначным запросам. Исполь-зуя их, «Спектр» вычисляет пропор-ции, в которых ответы на ту или иную тему должны быть представ-

лены в результатах поиска. Найден-ные сайты упорядочиваются таким образом, чтобы спектр ответов соот-ветствовал спектру вопросов. Таким образом, поиск Яндекса максимизи-рует вероятность того, что человек найдет именно то, что искал. Даже если он не указал это явно в своем за-просе, а просто подумал.

>

РАСПРЕДЕЛЕНИЕ ЗАПРОСОВ ПО КАТЕГОРИЯМ

ГОРОДАПИСАТЕЛИ

Пушкин

«Спектр» умеет учитывать при поиске различные потребности пользователей.

Page 26: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

Т Е Х Н О Л О Г И И Я Н Д Е К С А

26

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И Я « С П Е К Т Р »

«Спектр» анализирует поиско-вые запросы полностью автомати-чески — каждый раз рассматрива-ется очень большой массив запро-сов, более пяти миллиардов. Их об-работка происходит одновременно на нескольких сотнях машин. Что-бы данные не теряли актуаль-ность, «Спектр» запускает процесс анализа несколько раз в неделю.

Кроме статистики запросов, «Спектр» умеет использовать дан-ные из справочников и энциклопе-дий — в том числе из Википедии. Это помогает распознавать недавно появившиеся объекты, узнавать, какие значения объектов не укла-дываются ни в одну из существую-щих категорий, и добавлять новые.

СПЕКТР ВЫЧИСЛЯЕТ ПРОПОРЦИИ ОТВЕТОВ ИЗ КАЖДОЙ ТЕМЫ

Братья Гримм

КАТЕГОРИИ:ТЕХНОЛОГИЯ «СПЕКТР»

Сказки

Музыкальные группы

Художественные фильмы

Другое

Page 27: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

27

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А

Яндекс находит и показывает все подходящие ответы: колдунщики своих сервисов, контекстные объ-явления Яндекс.Директа, и, конеч-но, сами результаты поиска по ин-тернету.

Результаты поиска по интерне-ту — это ссылки на найденные до-кументы с краткой информацией о них. Информация подбирается

так, чтобы помочь пользователю понять — какой из ответов подхо-дит ему лучше всего. Яндексу важ-но не просто показать релевантный ответ, но и описать его максималь-но информативно.

Ф ОРМИРОВА НИЕ РЕ ЗУЛЬТАТОВ ПОИСК А Для заголовка результата поиска Яндекс чаще всего использу-

ет заголовок самого документа. Если он слишком длинный, Яндекс выби-рает фрагмент, который больше все-го подходит по смыслу к заданному запросу. Бывает, что у документа нет заголовка или заголовок не соот-ветствует содержанию. Например, названия файлов в формате doc или pdf часто короткие и малоинформа-тивные. >

Страница результатов поиска — это ответ Яндекса на вопрос, который пользователь задал в поисковой строке.

Результаты поиска

Page 28: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

Т Е Х Н О Л О Г И И Я Н Д Е К С А

28

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Р Е З УЛ ЬТАТ Ы П О И С К А

В таких случаях Яндекс создаёт за-головок самостоятельно, основыва-ясь на текстах ссылок на документ или его содержании. Для формиро-вания описания страницы, которое помещается в сниппете, программа выбирает все фрагменты текста до-кумента со словами из запроса.

Каждый из таких фрагментов разбивается ещё на несколько ча-стей — например, со словами из за-проса в начале, в конце и в середи-не. Затем программа сравнивает их все между собой и выбирает лучшие — они и попадают в сниппет.

При выборе программа учиты-вает несколько десятков факторов. Некоторые из них повышают шансы попадания фрагмента в сниппет, а некоторые — наоборот. Например,

если слово содержится в длинном предложении, больше вероятность, что это часть повествования, а не на-вигационная ссылка. Это хороший фрагмент для сниппета. Также в сниппет скорее попадут фрагменты из разных частей текста — так мож-но полнее описать содержание стра-ницы. А вот фрагмент, схожий с за-головком текста страницы, вряд ли попадёт в сниппет — чтобы не ду-блировать информацию.

Для каждого фактора компью-терная система рассчитывает коэф-фициент. С помощью машинного об-учения система учится сама пони-мать значимость факторов, основы-ваясь на данных от специалистов-асессоров (они просматривают неко-торые наборы сниппетов, вручную

разделяют их на хорошие и плохие и сообщают эти оценки системе). За-тем компьютерная система уже без помощи людей строит формулу, по которой создает сниппеты.

О Ф ОРМ ЛЕНИЕ РЕ ЗУЛЬТАТОВ ПОИСК А Результат поиска оформ-ляется так, чтобы пользователю бы-ло легче его воспринимать. Заголов-ки выделены синим цветом и под-черкнуты — так на веб-страницах традиционно выделяются ссылки. Узнать знакомый ресурс помогает фавиконка — небольшой значок-ло-готип сайта — слева от заголовка ре-зультата поиска. А чтобы было легче «зацепиться глазом», все слова из за-проса в результатах поиска выделе-ны жирным шрифтом. >

ОФОРМЛЕНИЕ РЕЗУЛЬТАТАРезультат поиска оформляется так, чтобы пользователю было легче его воспринимать.

Запрос

Page 29: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

Т Е Х Н О Л О Г И И Я Н Д Е К С А

29

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Р Е З УЛ ЬТАТ Ы П О И С К А

При этом Яндекс умеет сопостав-лять аббревиатуры и их расшифров-ки, полные имена, сокращения и инициалы, числа и их текстовое на-писание. Например, по запросу [па-вел 1] Яндекс найдет документы, ко-торые содержат и «Павел I», и «Па-вел первый», и выделит в сниппетах разные варианты написания имени.

Чтобы помочь пользователю бы-стрее понять содержание документа, Яндекс может выделить некоторые слова, которых нет в запросе. Это происходит при ответе на общие, многозначные запросы. Например, для запроса [снежная королева] в разных сниппетах будут дополни-тельно выделены слова «муль-тфильм», «сказка», «магазин». До-полнительные слова Яндекс узнаёт,

анализируя переформулировки за-просов. Специальная программа следит за тем, как пользователи уточняют свои запросы, и рассчиты-вает значимость таких уточнений. Затем эти знания используются при формировании сниппета.

ДОПОЛНИТЕ ЛЬН А Я ИНФ ОРМ А-ЦИЯ В СНИППЕ ТЕ Яндекс старает-ся сделать так, чтобы пользователи могли быстро найти ответ — иногда даже сразу на странице результатов поиска. Для разных ответов нужна разная дополнительная информа-ция. Например, если человек задаёт в запросе название организации, возможно, ему нужно узнать, где она находится или как с ней связаться. Чтобы не пришлось тратить время

на поиски страницы с контактами на сайте организации, Яндекс добавля-ет её телефон и физический адрес с ссылкой на карту в сниппет.

Если Яндексу известна структу-ра сайта, он показывает её пользова-телю. Над текстом сниппета сайта появляются ссылки на его наиболее посещаемые страницы — чтобы при желании пользователь мог перейти в нужный раздел, тратя меньше кликов и трафика. А адрес докумен-та Яндекс преобразует в навигаци-онную цепочку — названия разде-лов и подразделов сайта, из которых состоит путь до документа.

Для некоторых предметных об-ластей Яндекс создаёт специаль-ные сниппеты.

>

Помимо текста со страницы в сниппетах может использоваться дополнительная информация. Например, фрагмент карты, контакты организации, превью видеоролика и т.п.

Page 30: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

Т Е Х Н О Л О Г И И Я Н Д Е К С А

30

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Р Е З УЛ ЬТАТ Ы П О И С К А

Например, для страниц с описани-ями товаров или для сайтов гости-ниц, ресторанов, кинотеатров. Ос-новная информация появляется в сниппете — цена товара, «звёзд-ность» гостиницы, кухня рестора-на, количество залов кинотеатра. Благодаря таким специальным сниппетам пользователь экономит время и трафик, а организация по-лучает посетителя сайта, заинте-ресованного именно в её услугах.

Владельцы сайтов могут улучшить представление своих ресурсов в результатах поиска Яндекса. Множество инструмен-тов для этого есть на сервисе Яндекс.Вебмастер.

РАЗНЫЕ ВИДЫ РЕЗУЛЬТАТОВ ПОИСКА

Запрос

Page 31: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

31

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А

Яндекс ищет ответы на своих сер-висах вместе с поиском по вебу и те из них, что хорошо отвечают на за-прос, показывает прямо в резуль-татах поиска. Такой поиск называ-ется параллельным, а его результа-ты, которые появляются, как по волшебству, вместе с результатами веб-поиска — колдунщики. Искать дополнительные ответы на своих

сервисах Яндекс впервые стал в 2000 году, подключив к поиску ленту новостей и базу товаров ин-тернет-магазинов.

Сейчас у Яндекса уже много сервисов, у которых могут быть ответы на один и тот же запрос. Например, по запросу [Стинг] помимо ссылок на веб-страницы о музыканте и его творчестве

Яндекс также может предложить послушать его песни, которые есть на Яндекс.Музыке, посмотреть фото, найденные Яндекс.Картин-ками или видеоклипы, найденные Яндекс.Видео.

>

На вопросы пользователей отвечает не только поиск по вебу, но и другие сервисы Яндекса. Например, Яндекс.Новости рассказывают, что сейчас происходит в мире, а Яндекс.Погода — при какой температуре и атмосферном давлении

Колдунщики

Page 32: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

Т Е Х Н О Л О Г И И Я Н Д Е К С А

32

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

К О Л Д У Н Щ И К И

Соответственно, на некоторые из запросов в результатах поиска может появляться несколько кол-дунщиков. Какие колдунщики и в каком порядке показывать — реша-ет специальная система. Она состо-ит из пяти частей. Четыре из них выясняют, у какого из сервисов Ян-декса может быть ответ на запрос. Они называются «кубики», по ана-логии с детскими кубиками, где букве алфавита соответствует кар-тинка. Пятая называется «реша-тель». Решатель «составляет слово» из кубиков — выбирает подходя-щие колдунщики и ранжирует их.

К УБИК ЗА ПРО СОВ У кубика за-просов есть список слов-маркеров — если запрос содержит одно из та-

ких слов, скорее всего, будет поле-зен ответ от одного из сервисов («послушать» — Яндекс.Музыка, «фото» — Яндек.Картинки, «квар-тира» — Яндекс.Недвижимость и т.д.). Кубик срабатывает только на запросы с этими словами, напри-мер, [послушать sting — russians]. Он отправляет в параллельный по-иск по сервису остальную часть за-проса (уже без самого слова) и сооб-щает решателю, что это за сервис. К УБИК ПЕРЕФ ОРМУЛИРОВОК Кубик переформулировок сравни-вает приходящие запросы со спис-ком запросов, уже разделённых по темам. В этот список попадают за-просы, которые разные пользова-тели часто и одинаково переформу-

лируют, то есть сначала задают до-вольно общий запрос, а потом до-бавляют к нему уточняющие сло-ва. Например, пишут сначала [телевизор], а потом уточняют — [купить телевизор] или пишут на-звание фильма, а потом добавляют «смотреть онлайн».

Яндекс знает, к каким темам от-носятся наиболее популярные уточ-няющие слова и, если у запроса мно-го одинаковых переформулировок, относит сам запрос к той же теме. Бывает, что один и тот же запрос пользователи уточняют по-разному. В этом случае для каждой темы за-проса определяется её «вес» — коэф-фициент, рассчитанный исходя из количества переформулировок.

>

Какие колдунщики показывать на странице результатов поиска, определяет специальная система. Она состоит из пяти частей – четырех кубиков и решателя.

Page 33: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

33

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А К О Л Д У Н Щ И К И

То есть для каждого запроса в списке указаны темы, к которым он относится, и вес этих тем. Спи-сок постоянно обновляется и до-полняется.

Например, пользователь задал запрос [cranberries]. Допустим, что его чаще всего переформулируют в [cranberries песни], чуть реже в [cranberries фото] и совсем редко в [cranberries перевод]. В списке бу-дет указано, что «музыкальный» вес запроса — 0.5, «картиночный» — 0.4, а «словарный» — 0.1. Кубик сообщит об этом решателю, тем са-мым советуя: ответ от Яндекс.Му-зыки будет чуть более востребован, чем от Яндекс.Картинок, а колдун-щик Яндекс.Словарей, скорее все-го, не нужен.

К УБИК РЕ ЗУЛЬТАТОВ ПОИСК А Яндекс знает не только темы за-просов, но и тематики популярных сайтов. Это знание помогает систе-ме понимать тему запроса, про ко-торый ничего заранее не известно.

Кубик включается, когда для за-проса уже сформированы результа-ты поиска, но ещё не показаны поль-зователю. Он смотрит, есть ли среди наиболее релевантных ресурсов, на которые поисковая система предло-жит перейти пользователю, извест-ные ему сайты и к какой тематике они относятся. Например, если сре-ди них есть несколько сайтов про не-движимость, кубик сообщит об этом решателю — тот будет знать, что мо-жет пригодиться ответ от Яндекс.Не-движимости. Когда в результатах по-

иска в достаточном количестве при-сутствуют ресурсы на разные темы, кубик рассчитывает вес каждой, ос-новываясь на количестве сайтов, и передаёт данные в решатель.

К УБИК К АЧЕС ТВА Некоторые за-просы пользователи задают редко, и ответы на них есть лишь на не-скольких сайтах. Например, на-звание модели какой-нибудь непо-пулярной стиральной машины, ко-торая уже снята с производства, но несколько штук ещё осталось в па-ре магазинов. В таком случае у по-исковой системы недостаточно данных, чтобы отнести запрос или сайт к определённой тематике.

>

Яндекс знает не только темы запросов, но и тематики популярных сайтов. Это знание помогает системе понимать тему запроса, про который ничего заранее не известно.

Page 34: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

Т Е Х Н О Л О Г И И Я Н Д Е К С А

34

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

К О Л Д У Н Щ И К И

КУБИК РЕЗУЛЬТАТОВ ПОИСКА

КУБИК ПЕРЕФОРМУЛИ-РОВОК

КУБИК КАЧЕСТВА РЕШАТЕЛЬ

КУБИК ЗАПРОСОВ СЕРВИСЫ ЯНДЕКСА

Запрос

СИСТЕМА РАНЖИРОВАНИЯ КОЛДУНЩИКОВ

Результаты поиска

СФОРМИРОВАН-НЫЕ РЕЗУЛЬТАТЫ ПОИСКА

СПИСОК СЛОВ-МАРКЕРОВ

СПИСОК ПЕРЕФОРМУЛИРОВОК

Page 35: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

Т Е Х Н О Л О Г И И Я Н Д Е К С А

35

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

К О Л Д У Н Щ И К И

Кубик качества следит за результа-тами поисков по сервисам и сооб-щает решателю, есть ли на одном из них ответ и насколько он точен. Если у параллельного поиска есть хороший ответ (например, предло-жение о продаже именно этой мо-дели на Яндекс.Маркете), решате-лю этого будет достаточно, чтобы показать соответствующий кол-дунщик, даже если остальные ку-бики ничего не сообщили.

РЕШ АТЕ ЛЬ Каждый из кубиков об-рабатывает запрос независимо от ответов остальных кубиков, а затем передаёт данные в решатель (если они есть). На основании этих дан-ных решатель подставляет соот- ветствующие коэффициенты в фор-

мулу ранжирования колдунщиков. В формуле учитывается, какие из кубиков дали ненулевой ответ (на-пример, если сработал кубик запро-сов, решатель, скорее всего, не бу-дет добавлять в формулу данные от остальных) и к каким темам с ка-ким весом относится запрос.

Система, которая ранжирует колдунщики, — самообучаемая, и ранжирование, основанное на дан-ных от кубиков, не окончательное. Допустим, на запрос [бритни спирс] кубик переформулировок передал решателю, что это запрос с «музы-кальным» весом — 0.6, «картиноч-ным» — 0.3, а к теме «видео» отно-сится с весом 0.1. Примерно то же самое передал кубик результатов поиска, а кубики запросов и каче-

ства ничего про этот запрос не вы-яснили. Основываясь на этих дан-ных, решатель поставил колдун-щик Яндекс.Музыки выше колдун-щика Яндекс.Картинок, а колдун-щик Яндекс.Видео решил не пока-зывать. Затем система отслеживает — насколько популярны показан-ные колдунщики у пользователей. И если более популярный изна-чально оказался ниже, система пе-ренесёт его на верхнюю позицию. А если колдунщик вовсе не пользу-ется спросом — может вообще не показывать его по этому запросу.

Система, которая ранжирует колдунщики, — самообучаемая.

Page 36: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

36

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А

На такие запросы поиск Яндекса от-вечает в разных регионах по-разному. Например, по запросу [ус-луги адвоката] жители Самары най-дут профессиональные юридические услуги в Самаре, а нижегородцы — адвокатов Нижнего Новгорода. По-иск с учётом региона работает во всех городах России, где есть достаточное количество местных ресурсов. Для

Украины, Казахстана и Белоруссии работают отдельные региональные формулы ранжирования.

ГЕОЗА ВИСИМЫЕ И ГЕОНЕ ЗА ВИ-СИМЫЕ ЗА ПРО СЫ Ответ на мно-гие запросы не зависит от региона, в котором находится пользователь. Например, при поиске художест-венного произведения, рецепта или

физического закона учитывать ре-гион не нужно — законы физики везде одинаковы. Но если человека интересует [тренажёрный зал] или [заказ такси], очевидно, он хочет найти тренажёрный зал или такси не вообще, а именно в своём городе.

>

Среди всех запросов к поиску Яндекса от 15 до 30%, в зависимости от региона, составляют те, в ответ на которые пользователь ожидает получить местную, региональную информацию — например, об услугах или событиях в своём городе.

Поиск с учётом региона

Page 37: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

37

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А П О И С К С У Ч Ё Т О М Р Е Г И О Н А

Кроме того, бывают запросы, зада-вая которые, жители разных реги-онов имеют в виду разные вещи. Чаще всего это фамилии местных знаменитостей или названия орга-низаций. Например, по запросу [орбита] москвичи чаще всего ищут кинотеатр, жители Ростова-на-Дону — автосалон, а израильтяне — интернет-портал. Умение разли-чать геозависимые и геонезависи-мые запросы помогает поисковой системе лучше понимать запрос пользователя и давать подходящий ответ.

>

ГЕОЗАВИСИМЫЕ И ГЕОНЕЗАВИСИМЫЕ ЗАПРОСЫ

[доставка пиццы] [рецепт пиццы]

геозависимые запросы

30% 70%

геоНЕзависимые запросы

Умея различать геозависимые и геонезависимые запросы и зная регион пользователя, поисковая система может лучше понять заданный запрос и дать на него наиболее подходящий ответ.

ЗАКАЗ ПИЦЦЫ В МУРМАНСКЕ

ДОСТАВКА ПИЦЦЫ В АСТРАХАНИ

ПИЦЦА В ЯРОСЛАВЛЕ

Page 38: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

38

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А П О И С К С У Ч Ё Т О М Р Е Г И О Н А

Геозависимые запросы опреде-ляются статистически — это за-просы без указания географиче-ских названий, но с такими слова-ми, к которым часто географиче-ское название добавляют. То есть запрос [перевозка грузов] — геоза-висимый, потому что сочетание «перевозка грузов» часто спраши-вают вместе с названиями городов.

К А К ОПРЕ ДЕ ЛЯЕ ТС Я РЕГИОН ПОЛЬЗОВАТЕ ЛЯ Регион пользо-вателя определяется, прежде все-го, по ip-адресу. На эти данные не всегда можно опираться — напри-мер, потому что ip-адрес может присваиваться провайдером, рабо-тающим в нескольких регионах. Яндекс постоянно уточняет клас-

сификатор региона пользователя, получая данные от своих клиентов, партнёров и напрямую от самих пользователей — любой может по-менять свой регион в настройках.

Регион пользователя всегда указан в правом верхнем углу на странице результатов поиска. Из-менить его можно на странице http://tune.yandex.ru/region/.

РЕ ЗУЛЬТАТЫ РЕГИОН А ЛЬНОГО ПОИСК А В ответ на геозависимые запросы Яндекс показывает раз-ные результаты поиска для разных регионов. Наиболее релевантные ответы находятся, как правило, на местных, региональных сайтах. Но это не значит, что по геозависи-мому запросу нельзя найти авто-

ритетный общероссийский сайт или сайт, расположенный в дру-гом регионе. Речь только о приори-тете для локальных результатов при прочих равных. Яндекс может искать и исключительно по мест-ным ресурсам — для этого нужно отметить под поисковой строкой галочку «Искать в моем городе». Когда город указан в запросе, сай-ты этого города получают приори-тет в результатах поиска. То есть по запросу [гостиницы Перми] Ян-декс покажет сайты пермских го-стиниц независимо от того, где на-ходится пользователь, задавший этот запрос.

>

Когда город указан в запросе, сайты этого города получают приоритет в результатах поиска.

Page 39: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

39

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А П О И С К С У Ч Ё Т О М Р Е Г И О Н А

УЧЁТ РЕГИОНА ПРИ ПОИСКЕ

Запрос

регион пользователя (по IP)

ОБЩАЯ ФОРМУЛА РАНЖИРОВАНИЯ РАНЖИРОВАНИЕ С УЧЁТОМ РЕГИОНА ПОЛЬЗОВАТЕЛЯ

ГЕОЗАВИСИМЫЙ ЗАПРОС?

В ДАННОМ РЕГИОНЕ ЕСТЬ ЛОКАЛЬНЫЕ

САЙТЫ?

Да

Нет ДаНет

Результаты поиска для данного региона

Результаты поиска без учёта региона пользователя

Page 40: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

40

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А П О И С К С У Ч Ё Т О М Р Е Г И О Н А

Параметры, позволяющие поиску узнать, для какого региона нужно сформировать страницу результатов поиска, передаются в адресе страни-цы. Так что можно послать ссылку на нее другу из другого региона — он увидит ту же самую страницу.

Чтобы отключить локальные результаты поиска по геозависимо-му запросу, нужно нажать на ссыл-ку «Поискать без учета региона» под результатами поиска. Регион пользователя также учитывается в поисковом колдунщике и подсказ-ках. Так, поисковый колдунщик показывает актуальные для регио-на пользователя погоду, афишу, ва-кансии, адреса организаций и т.д. — например, улица Ленина будет в каждом регионе своя.

К А К ОПРЕ ДЕ ЛЯЕ ТС Я РЕГИОН С А ЙТА Принадлежность сайта к тому или иному региону определя-ется по многим признакам — в том числе по указанным на нём контак-там, ip-адресу сайта, региону, кото-рому посвящена большая часть ин-формации на ресурсе, и т.д.

Сайты организаций, у которых есть офисы в разных регионах, считаются местными для каждого из них. Однако если отделений очень много, как у Почты России, то сайт может считаться общерос-сийским, а не региональным. То же самое с сайтами, которые созданы в одном из регионов, но рассчита-ны на всю аудиторию рунета — на-пример, электронные библиотеки или почтовые службы в сети. Если

поиск неправильно определил ре-гион того или иного сайта, то веб-мастер может исправить его на сер-висе Яндекс.Вебмастер.

Принадлежность сайта к тому или иному региону опреде-ляется по многим признакам — в том числе по указанным на нём контактам, ip-адресу сайта, региону, которому посвящена большая часть информации на ресурсе, и т.д.

Page 41: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

41

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А

Чтобы все пользователи, даже те, кто не знает иностранных языков, могли получить нужный ответ, в 2009 году Яндекс начал перево-дить тексты с основных европей-ских языков с помощью техноло-гии компании PROMT (ссылки «Перевод» в результатах поиска).

В начале 2011 года Яндекс вне-дрил собственную систему машин-

ного перевода. Сейчас она умеет пе-реводить любые тексты с англий-ского и украинского на русский и обратно. Машинный перевод Ян-декса — статистический. Такой пе-ревод основывается не на правилах языка (системе эти правила даже не известны), а на статистике. Что-бы выучить язык, система сравни-вает сотни тысяч параллельных

текстов — содержащих одну и ту же информацию, но на разных языках. Это могут быть, например, большие тексты с разноязычных версий сайтов организаций.

>

В интернете множество документов на иностранных языках. Иногда у пользователей Яндекса возникает необходимость найти и прочитать как раз один из них, например, какую-нибудь техническую документацию или статью в зарубежной газете.

Машинный перевод Яндекса

Page 42: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

42

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А М А Ш И Н Н Ы Й П Е Р Е В О Д Я Н Д Е К С А

Изначально система находит парал-лельные тексты по адресам доку-ментов — чаще всего такие адреса различаются только пометками, на-пример, «en» или «us» для англий-ской версии и «ru» для русской.

Для каждого изученного текста система строит список уникальных признаков. Это могут быть редко используемые слова, числа, специ-альные знаки, находящиеся в текс-те в определённой последовательно-сти. Когда система набирает доста-точное количество текстов с при-знаками, она начинает искать па-раллельные тексты ещё и с их помощью — сравнивая признаки новых текстов и уже изученных.

Чтобы переводчик соответство-вал современным стандартам каче-

ства, система должна изучить сот-ни миллионов фраз на разных язы-ках. Это требует очень серьёзных ресурсов: много места на жёстких дисках, много оперативной памяти и так далее. Именно поэтому суще-ствующие сейчас системы машин-ных переводов можно пересчитать по пальцам.

ИЗУ ЧЕНИЕ ЯЗЫК А В системе ма-шинного перевода Яндекса три ос-новные части: модель перевода, мо-дель языка и декодер.

Модель перевода — это табли-ца, в которой для всех известных системе слов и фраз на одном языке перечислены все возможные их пе-реводы на другой язык и указана вероятность этих переводов (для

каждой пары языков есть своя та-блица). Модель перевода создаётся в три этапа: сначала подбираются параллельные документы, потом в них — пары предложений, а затем уже пары слов или словосочетаний.

Для наглядности представим, как система обрабатывала две са-мые первые пары предложений на русском и английском. Допустим, они были из текста про столицу Ве-ликобритании:

«London stands on the river Thames» — «Лондон стоит на берегу реки Темзы» «Crossing the river by the Tower Bridge you can see the Tower of London» — «Пересекая реку по Тауэрскому мо-сту, можно увидеть Тауэр»

>

Чтобы переводчик соответствовал современным стандартам качества, система должна изучить сотни миллионов фраз на разных языках.

Page 43: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

43

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А М А Ш И Н Н Ы Й П Е Р Е В О Д Я Н Д Е К С А

Когда системе кроме первой па-ры предложений ничего не извест-но, она считает, что «London», «stands» и каждое другое слово это-го английского предложения — равновероятный перевод слов «Лон-дон», «стоит», «на» и так далее. Во второй паре предложений снова встречаются слова «river» и «река». Соответственно, после обработки второй пары предложений и пере-счёта вероятности, система начнёт считать эту пару слов более вероят-ным переводом друг друга. И так да-лее сравниваются миллионы пред-ложений в сотнях тысяч текстов.

Система сравнивает не только от-дельные слова, но и словосочетания из двух, трёх, четырёх или пяти слов, идущих подряд. В переводчике Ян-

декса модель перевода для каждой пары языков содержит более милли-арда пар слов и словосочетаний.

Другая составляющая системы машинного перевода — модель языка. Для её создания система из-учает сотни тысяч различных тек-стов на нужном языке и составляет список всех употребленных в них слов и словосочетаний с указанием частоты их использования. Это знание системы о языке, на кото-рый нужно перевести текст.

ПРОЦЕСС ПЕРЕВОД А Непосред-ственно переводом занимается деко-дер. Для каждого предложения ис-ходного текста он подбирает все вари-анты перевода, сочетая между собой фразы из модели перевода, и сорти-

рует их по убыванию вероятности. Например, пользователь захотел

перевести фразу «to be or not to be». Допустим, из всех вариантов в моде-ли перевода максимальная вероят-ность получилась у сочетания «быть или не бывает», сочетание «быть или не быть» оказалось с небольшим от-рывом на втором месте и так далее.

Все получившиеся варианты со-четаний декодер оценивает с помо-щью модели языка. В данном приме-ре модель языка подскажет декодеру, что «быть или не быть» употребляет-ся чаще, чем «быть или не бывает». В итоге декодер выбирает предложение с наилучшим сочетанием вероятно-сти (с точки зрения модели перевода) и частоты употребления (с точки зре-ния модели языка). >

Переводчик Яндекса знает более миллиарда пар слов и словосочетаний для каждой языковой пары.

Page 44: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

44

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А М А Ш И Н Н Ы Й П Е Р Е В О Д Я Н Д Е К С А

Система машинного перевода Ян-декса переводит не только произ-вольные тексты, но и веб-страницы.

Когда пользователь вводит на сервисе translate.yandex.ru нужный адрес, сначала у него открывается страница с оригинальным текстом. Затем браузер пользователя сам раз-бирает html-код страницы и отправ-ляет текст на сервер перевода по аб-зацам. То есть текст из, например, английского, на глазах у пользова-теля превращается в русский. В от-личие от систем, которые загружа-ют страницу сразу на сервер перево-да, сервер системы Яндекса всегда получает тот же текст, что и пользо-ватель (страница может формиро-ваться по-разному для пользователя

и для сервера перевода, например, если это страница социальной сети — сервер перевода в ней не автори-зован и ничего не сможет увидеть). К тому же не нужно ждать полного перевода текста — можно начинать читать первые абзацы, пока осталь-ные ещё не готовы.

РА ЗВИТИЕ С ТАТИС ТИЧЕСКОГО ПЕРЕВОД А Одно из достоинств статистического машинного пере-вода в том, что он живёт вместе с языком. То есть, если что-то в язы-ке меняется, например, люди на-чинают писать какое-нибудь слово по-другому, система видит это, как только к ней попадают новые тек-сты. И чем быстрее нововведение распространится в языке, тем бы-

стрее оно появится в моделях пере-вода и языка.

Чтобы улучшать качество пере-вода, систему регулярно обновляют. Каждое обновление сначала прохо-дит проверку (используется метрика для статистических машинных пе-реводов — Bilingual Evaluation Understudy). Перевод специально подобранных текстов, полученный системой, сравнивается с эталон-ным. Если данные от вновь изучен-ных документов ухудшили качество перевода, то они отбраковываются.

Одно из достоинств статистического машинного перевода в том, что он живёт вместе с языком.

Page 45: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

45

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А

Иногда они пытаются продвинуть свой сайт в результатах поиска об-манным путем — с помощью поис-кового спама.

Что же такое спам? Это сайты, веб-страницы или элементы стра-ниц, которые создают для обмана поисковых систем и манипулиро-вания результатами поиска. На-пример, чтобы сайт появлялся в

результатах поиска как можно ча-ще, на странице ресурса размеща-ют мелкий, нечитаемый текст с по-пулярными запросами. Посетите-ли его не замечают, зато поисковая система видит и индексирует. К распространенным видам спама можно отнести текстовый спам (не-видимый, нечитаемый или бес-смысленный текст), а также дорвеи

(от англ. doorway, «дверной про-ем», «вход») — промежуточные странички, которые перенаправ-ляют посетителей на целевой сайт, который нужно раскрутить. Как действует спам, можно рассмо-треть на примере дорвеев.

>

Ежедневно пользователи совершают более 50 миллионов переходов с поиска Яндекса на другие ресурсы. Неудивительно, что многие владельцы сайтов стараются привлечь аудиторию поисковой системы, чтобы увеличить свой доход.

Антиспам

Page 46: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

46

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А А Н Т И С П А М И А Н Т И В И Р У С

Сначала спамеры создают про-межуточную страницу, которую накачивают ключевыми словами — например, [скачать mp3]. Чтобы поисковой системе было сложнее обнаружить спам, ключевые слова чаще всего размещают внутри ка-кого-либо текста. В зависимости от этих ключевых слов, дорвей будет появляться в результатах поиска в ответ на определенную группу за-просов.

Когда ссылка на дорвей появ-ляется в результатах поиска, пользователь переходит по ней, надеясь получить нужную ему ин-формацию.

С дорвея посетителя перена-правляют на целевой сайт — ради этого, собственно, и создавали дор-

вей. Иногда переход происходит ав-томатически, и тогда человек даже не замечает промежуточной стра-нички. Иногда посетитель сам кли-кает по ссылке или кнопке «Войти».

В итоге, пользователь попадает на ресурс, где может не быть нуж-ной информации или за нее при-дется заплатить. С помощью дорве-ев спамеры часто приводят пользо-вателей поиска на мошеннические сайты, где можно заразить свой компьютер вирусом и, например, незаметно для себя передать лич-ные данные (скажем, пароли) в чу-жие руки. Каждый месяц Яндекс обнаруживает десятки тысяч новых дорвеев и исключает их из результа-тов поиска.

>

ПРИМЕР СТРАНИЦЫ С КЛЮЧЕВЫМИ СЛОВАМИ

http://doorway.ru

КАПИТАНСКАЯ ДОЧКА Глава I СЕРЖАНТ ...

Глава I

СЕРЖАНТ ГВАРДИИ

Отец мой скачать mp3 Андрей Петрович Гринев скачать mp3 в молодости своей служил при графе Минихе скачать mp3 и вышел в отставку

скачать mp3 премьер-майором в 17.. году. скачать mp3 С тех пор жил он в своей Симбирской деревне, где и женился на девице Авдотье

Васильевне Ю., дочери бедного тамошнего дворянина. Нас было девять человек детей. Все мои братья и сестры умерли во младенчестве.

Матушка скачать mp3 была еще мною брюхата, как уже я был записан в Семеновский полк сержантом, по милости майора гвардии князя В.,

близкого нашего родственника. Если бы паче всякого чаяния матушка скачать mp3 родила дочь, то батюшка объявил бы куда следовало о

смерти неявившегося сержанта, и дело тем бы и кончилось. Я считался в отпуску до окончания наук. В то время воспитывались мы не

по-нонешнему. скачать mp3 С пятилетнего возраста отдан я был на руки стремянному Савельичу, за трезвое поведение пожалованному мне в

дядьки. Под его надзором на двенадцатом году выучился я русской грамоте и мог очень здраво судить о свойствах борзого кобеля. В это

время батюшка нанял для меня француза, мосье Бопре, которого выписали из Москвы вместе с годовым запасом вина и прованского масла.

Приезд его сильно не понравился Савельичу. «Слава богу, — ворчал он про себя, — кажется, дитя умыт, причесан, накормлен. Куда как

нужно тратить лишние деньги и нанимать мусье, как будто и своих людей не стало!»

Спамеры размещают мелкий, нечитаемый текст с популярными запросами, который посетители не замечают, зато поисковая система видит и индексирует.

Page 47: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

47

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А А Н Т И С П А М И А Н Т И В И Р У С

СИС ТЕМ А ПОИСКОВОГО А НТИ-СП А М А Спам мешает и пользова-телю, и поисковой системе. Из-за спама в результаты поиска попада-ют страницы, где нет ответа на во-прос. В итоге, качество поиска снижается, пользователь тратит больше времени на поиск нужной информации, а поисковая система — ресурсы на индексирование и хранение бесполезных данных.

Чтобы такого не происходило, Яндекс старается не допускать по-падания спама в результаты поис-ка. Для этого используется система поискового антиспама — набор ал-горитмов, позволяющих отделить спам от качественных веб-страниц. С помощью алгоритмов антиспама Яндекс проверяет все сайты, кото-

рые индексирует. А уже проиндек-сированные страницы регулярно перепроверяет, чтобы убедиться, что на них не появился спам. Стра-ницы, содержащие спам, могут быть понижены при ранжирова-нии или исключены из поиска. Об этом говорится в Лицензии на ис-пользование поисковой системы Яндекса.

ОБНОВЛЕНИЕ СИС ТЕМЫ А НТИ-СП А М А Система поискового анти-спама постоянно обновляется. В нее добавляются новые алгорит-мы, которые создаются с помощью машинного обучения, в том числе технологии Матрикснет.

>

Яндекс использует систему поискового антиспама — набор алгоритмов, позволяющих отделить спам от качественных веб-страниц.

ССЫЛКА НА ДОРВЕЙ В РЕЗУЛЬТАТАХ ПОИСКА

http://yandex.ru/yandsearch?text=скачать+mp3&lr=213

скачать mp3 — Яндекс: Нашлось 69 млн...

скачать mp3

MP3 музыка - скачать MP3 бесплатно, Free MP3

Поиск музыки Новинки Жанры музыкиНавигация. «Скачать mp3 бесплатно.» Добавить в избранноеEMINEM&RIANNA - LOVE THE WAY YOU LIE (PART 1)

url документа

1.

Капитанская дочка скачать mp3

Отец мой скачать mp3 Андрей Петрович Гринев скачать mp3в молодости своей служил при графе Минихе скачать mp3и вышел в отставку скачать mp3 премьер-майором в 17.. году

doorway.ru

2.

Page 48: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

48

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А А Н Т И С П А М И А Н Т И В И Р У С

Разработка алгоритмов начи-нается с работы асессоров — спе-циалистов по оценке качества по-иска. Асессоры смотрят, насколько результаты поиска соответствуют запросу, находят среди найденных веб-страниц спам и классифициру-ют его.

Затем для каждого типа спама выделяются признаки, по которым можно отличить спам-страницу от качественного документа. Важно, чтобы признак был измеримым — например, таким признаком может быть процент содержания в доку-менте какого-то определенного слова или сочетания слов.

Дальше для каждого типа спама составляется обучающая выборка. В нее входят две группы документов:

страницы или сайты с данным ви-дом спама и страницы или сайты, не содержащие спам. На обучающей выборке и выделенных признаках машина учится находить спам, вы-числяя, при каком значении каждо-го из признаков можно отделить cпам от нормальных веб-страниц.

Например, машина берет при-знак «доля на странице слова «ска-чать», определяет значение этого признака для всех страниц из вы-борки и рассчитывает, при каком значении признака можно прове-сти границу между страницами из выборки, содержащими спам, и нормальными веб-страницами.

Поскольку выделять спам только на основании одного при-знака нельзя (может быть много

ошибок), машина учится сразу на множестве признаков. В результа-те, на основе набора признаков и их значений машина составляет алгоритм, позволяющий находить определенный вид спама. Перед внедрением алгоритм проверяется еще на одной выборке документов.

С ЛУ ЖБА ПОД ДЕРЖКИ К сожале-нию, бывает так, что система оши-бается и определяет хорошую веб-страницу как спам. В таких случа-ях можно (и нужно) обращаться в службу поддержки. Сотрудники Яндекса проверят, действительно ли на сайте содержится спам. Если ресурс исчез из результатов поиска по ошибке, он появится уже через несколько дней. >

В систему поискового антиспама постоянно добавляются новые алгоритмы.

Page 49: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

49

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А А Н Т И С П А М И А Н Т И В И Р У С

Но только в том случае, если алго-ритм действительно ошибся. Ино-гда люди не хотят признавать себя спамерами — многие жалобы при-ходят от владельцев сайтов, где на самом деле содержится спам.

Все случаи, когда сайты отнес-ли к категории спама по ошибке, Яндекс тщательно анализирует и, если нужно, корректирует работу алгоритма.

ВЛ А ДЕ ЛЬЦ А М С А ЙТОВ Исклю-чая спам из результатов поиска, Яндекс прежде всего защищает интересы своих пользователей. Чтобы релевантно отвечать на запросы, Яндекс вынужден препятствовать любым попыткам манипулировать поисковой систе-

мой. Это касается не только спама, но и некоторых способов поисковой оптимизации, когда владельцы сайтов стараются искусственно по-высить позицию своего ресурса в результатах поиска. Подробнее об отношении Яндекса к поисковой оптимизации можно прочитать в документе «Яндекс и поисковая оптимизация».

Яндекс старается не индекси-ровать или не ранжировать высоко сайты, которые используют сомни-тельные приемы продвижения в поиске Яндекса. Чтобы веб-мастера могли избежать ошибок при опти-мизации сайтов, на сервисе Ян-декс.Вебмастер размещен пример-ный список таких приемов. К со-жалению, этот список не может

быть исчерпывающим, поскольку невозможно предугадать, какие способы обмана поисковых систем появятся завтра.

С точки зрения Яндекса, един-ственно правильная стратегия про-движения ресурса в поисковой си-стеме — это сделать свой сайт мак-симально удобным и содержатель-ным. Сайты, где пользователи мо-гут легко найти качественный от-вет на свой вопрос, естественным образом занимают высокое место в результатах поиска. Только таким образом можно добиться устойчи-вого, а не разового результата, как в случае со спамом. А как сделать свой сайт удобным, можно узнать в разделе «Помощь вебмастеру».

Многие жалобы на исключение сайта из результатов поиска приходят от владельцев сайтов, где на самом деле содержится спам.

Page 50: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

50

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А

Посещение зараженного сайта мо-жет привести к краже личной ин-формации пользователя, уничто-жению данных или использова-нию компьютера без ведома его владельца.

С мая 2009 года Яндекс прове-ряет индексируемые веб-страницы и предупреждает поль-зователей об опасных сайтах. В ре-

зультатах поиска рядом с такими веб-страницами появляется по-метка «Этот сайт может угрожать безопасности вашего компьюте-ра». В феврале 2011 года такая по-метка появлялась в результатах поиска около 18 миллионов раз.

По оценкам Яндекса, общее число зараженных сайтов не пре-вышает 1%. Но среди них часто

оказываются популярные ресур-сы, поскольку именно там злоу-мышленникам выгоднее всего раз-мещать вредоносный код.

>

Некоторые сайты, ссылки на которые Яндекс показывает на страницах результатов поиска, могут содержать вредоносный код. Он способен причинить вред компьютеру пользователя.

АнтивирусА Н Т И С П А М И А Н Т И В И Р У С

Page 51: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

51

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А А Н Т И С П А М И А Н Т И В И Р У С

Ежедневно в список зараженных сайтов попадают 5-10 популярных ресурсов с индексом цитирования более 1000, несколько раз в месяц вирус обнаруживается на высоко-рейтинговых сайтах — с индексом цитирования более 10000.

А НТИВИРУСНЫЕ ТЕ ХНОЛОГИИ Для обнаружения зараженных страниц Яндекс использует две технологии — антивирусную тех-нологию компании Sophos и анти-вирусный комплекс собственной разработки.

Технология Sophos построена на сигнатурном подходе и преиму-щественно опирается на базу уже известных вредоносных кодов (сиг-натур). При проверке сайта анти-

вирус сравнивает код веб-страницы с известными сигнату-рами и, если находит соответствие, то определяет эту страницу как за-раженную. Технология обнаруже-ния вирусов на основе сигнатур прекрасно выявляет уже извест-ные угрозы, но, к сожалению, зача-стую бессильна против новых ви-русов — до тех пор, пока они не по-падут в антивирусные базы.

Антивирусный комплекс Ян-декса построен на ином подходе — поведенческом. Его суть в том, что программа имитирует поведение пользователя — робот заходит на проверяемую страницу и анализи-рует, что происходит в системе. Ес-ли без ведома пользователя начи-нает исполняться или скачиваться

какая-либо программа, скорее все-го, страница заражена. При этом неважно, где размещен вредонос-ный код — в собственном коде веб-страницы, в стороннем коде (на-пример, баннерной системы) или где-то еще. Основное преимуще-ство поведенческого подхода — способность выявлять новые виру-сы, которые еще не успели попасть в антивирусные базы.

Благодаря различию подходов — поведенческого и сигнатурного, антивирусы Яндекса и Sophos на-ходят разные вирусы — пересече-ние составляет 34%.

>

Яндекс использует две антивирусные технологии. Одна из них построена на сигнатурном подходе, другая — на поведенческом.

Page 52: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

52

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А А Н Т И С П А М И А Н Т И В И Р У С

По договоренности с компанией Sophos Яндекс передает ей инфор-мацию об обнаруженных вирусах для добавления их в антивирусные базы.

Eжедневно с помощью антиви-руса компании Sophos и своего соб-ственного Яндекс проверяет около 5,7 миллиона страниц и преду-преждает пользователей о зара-женных сайтах. В марте 2011 года число зараженных страниц в анти-вирусной базе данных Яндекса превысило 2 миллиона.

Владельцы сайтов часто даже не подозревают о том, что их сайт содержит вредоносный код — зара-жение может произойти в резуль-тате взлома или из-за ошибок в ад-министрировании. Следить за со-

стоянием своего ресурса можно с помощью сервиса Яндекс.Вебма-стер — в случае обнаружения вре-доносного кода владелец сайта по-лучит уведомление и сможет бы-стро привести сайт в порядок. Если при повторной проверке ресурса опасные элементы не обнаружатся, предупреждающая пометка в ре-зультатах поиска будет снята.

Владельцы сайтов часто даже и не подозревают о том, что их сайт содержит вредоносный код.

Page 53: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

53

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А

Иногда картинка — это хороший вспомогательный материал к ос-новному ответу. Например, в ответ на запрос к Яндексу [Айвазов-ский] в результатах поиска будут присутствовать и репродукции его картин.

Яндекс ищет картинки через так или иначе связанный с ними текст, например, расположенное рядом с

картинкой описание, её заголовок в html-коде страницы (и alt, и title), за-головок самой страницы или ссылка на картинку с другого сайта. Яндек-су известны миллиарды изображе-ний. Половина из них — уникаль-ные, а остальные — так называемые дубликаты, то есть картинки, кото-рые не отличаются вообще или отли-чаются незначительно.

У каждого изображения в ин-тернете есть в среднем три дубли-ката. Чтобы результаты поиска Ян-декс.Картинок не состояли из оди-наковых изображений, сервис группирует дубликаты и показы-вает их в результатах поиска «стоп-ками».

>

Поиск по картинкам нужен в тех случаях, когда лучше увидеть, чем прочитать. Например, если надо узнать, как выглядит лиса [фенек], фотография зверька будет полезнее длинного текста про строение его ушей и длину хвоста.

Яндекс.Картинки и дубликаты изображений

Page 54: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

54

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А Я Н Д Е К С . К А Р Т И Н К И И Д У Б Л И К АТ Ы И З О Б Р А Ж Е Н И Й

ЯНДЕКС.КАРТИНКИ РАЗЛИЧАЮТ ЧЕТЫРЕ ВИДА ДУБЛИКАТОВ

1

2

3

4

Точные дубликаты — абсолютно одинаковые изображения, которые не отличаются ни одним битом.

Тумбнейлерные дубликаты (от англ. «thumbnail» — миниатюра) — изображения, которые различаются только размером, например, репродукция на сайте картинной галереи и маленькая картинка, которая на неё ссылается.

Полудубликаты — картинки c полупрозрачными надписями поверх изображения, незначительной цветокоррекцией, обрезкой или рамкой.

Расширенные полудубликаты — картинки с сильно измененными цветами или пропорциями, а также фрагменты исходных изображений.

Page 55: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

55

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А

ПОИСК И ГРУППИРОВК А ДУ-Б ЛИК АТОВ Чтобы компьютер мог понять, что изображено на картин-ках, и распознать дубликаты, изо-бражения нужно «перевести» на понятный ему язык — язык чисел. В Яндекс.Картинках этим занима-ется специальная компьютерная си-стема, программы которой обходят интернет, находят изображения и обрабатывают их — узнают необхо-димые данные о картинке, напри-мер, размер, цвет, формат (JPG, PNG и т.п.) и создают числовую характе-ристику изображения — сигнатуру.

На каждом изображении про-грамма выделяет ключевые фраг-менты. Затем уменьшает их до раз-мера 16х16 пикселей, и каждому из 256 пикселей присваивает число,

соответствующее яркости этого пикселя. Полученные комбинации чисел и есть сигнатуры.

Программа объединяет в груп-пы изображения, у которых есть похожие ключевые фрагменты (то есть схожи их сигнатуры). Внутри этих групп выделяются еще более близкие изображения — у которых совпадают минимум два фрагмен-та. Изображения с похожими фраг-ментами становятся кандидатами в дубликаты. В них программа вы-деляет области, объединяющие все совпавшие фрагменты. Следую-щим шагом эти области уменьша-ются до размера примерно 60х60 пикселей, переводятся в числовую характеристику и сравниваются между собой. Дубликатами при-

знаются изображения, у которых области совпадают.

Такая организация поиска и группировки дубликатов позволя-ет быстро обрабатывать более двух миллиардов изображений.

ИСПОЛЬЗОВА НИЕ ДУБ ЛИК АТОВ У большинства изображений в ин-тернете есть текстовые описания — их и используют Яндекс.Кар-тинки при поиске. Если дубликаты размещены на нескольких разных сайтах, то, скорее всего, у них су-ществует несколько разных описа-ний. При группировке дубликатов изображения Яндекс.Картинки объединяют их описания.

>

Я Н Д Е К С . К А Р Т И Н К И И Д У Б Л И К АТ Ы И З О Б Р А Ж Е Н И Й

Яндекс.Картинки работают с числовыми характеристиками изображений – сигнатурами.

Page 56: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

56

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А Я Н Д Е К С . К А Р Т И Н К И И Д У Б Л И К АТ Ы И З О Б Р А Ж Е Н И Й

ПОИСК И ГРУППИРОВКА ДУБЛИКАТОВ На каждом изображении программа выделяет ключевые фрагменты. Затем уменьшает их до размера 16х16 пикселей, и каждому из 256 пикселей присваивает число, соответствующее яркости этого пикселя.

ИЗОБРАЖЕНИЯ 16X16 CИГНАТУРЫ КАНДИДАТЫ

<2 СОВПАДЕНИЙ

0 СОВПАДЕНИЙ

СРАВНЕНИЕ КАНДИДАТОВ РЕЗУЛЬТАТ

Page 57: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

57

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Т Е Х Н О Л О Г И И Я Н Д Е К С А

Это позволяет определять наибо-лее частые фрагменты описания, тем самым улучшая точность поис-ка. Допустим, у фотографии длин-ного синего запорожца есть сорок дубликатов. Пятнадцать из них подписаны «запорожец», десять — «синий запорожец», пять — «зелё-ный запорожец» и ещё десять — «лимузин». Поделив количество

упоминаний каждого слова в под-писях на общее число картинок, получится, что степень правдопо-добия описаний следующая:

[запорожец] 0.75 (30 картинок из 40)[синий] 0.25 (10 картинок из 40)[лимузин] 0.25 (10 картинок из 40)[зеленый] 0.125 (5 картинок из 40)

Соответственно, эта фотогра-фия будет релевантным ответом на запросы [синий запорожец] или [запорожец лимузин], хотя послед-него словосочетания изначально в описаниях не было. Если у дубли-катов встречаются противореча-щие друг другу описания, как «си-ний» и «зелёный» в этом примере, то выбирается наиболее частое. >

Я Н Д Е К С . К А Р Т И Н К И И Д У Б Л И К АТ Ы И З О Б Р А Ж Е Н И Й

Группировка дубликатов позволяет объединить их описания – и, соответственно, сделать поиск по картинкам более точным.

Page 58: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

Т Е Х Н О Л О Г И И Я Н Д Е К С А

58

В Е Р Н У Т Ь С Я К О ГЛ А В Л Е Н И Ю

Я Н Д Е К С . К А Р Т И Н К И И Д У Б Л И К АТ Ы И З О Б Р А Ж Е Н И Й

Все дубликаты найденной кар-тинки пользователи могут увидеть на странице просмотра изображе-ния. Там есть список «Копии кар-тинки» и ссылка на страницу со всеми известными Яндексу дубли-катами. С помощью этого списка, например, пользователь может вы-брать подходящий размер искомой картинки, автор изображения най-ти поклонников своего творчества, а веб-мастер — узнать, в каком фо-тобанке можно приобрести нужное изображение.

Распознавание дубликатов ис-пользуется не только на сервисе Яндекс.Картинки. Например, оно помогает лучше определять сайты, содержащие материалы для взрос-лых, и учитывать их при включе-

нии семейного и умеренного филь-тра. В базе сигнатур есть числовые характеристики изображений с порносайтов, известных Яндексу. Если сигнатуры новых картинок совпадают с ними, то ресурс, на ко-тором они были найдены, подвер-гнется дополнительной проверке. Специальная программа изучит подозрительный сайт и подтвердит или опровергнет наличие на нём материалов для взрослых. Такие сайты и изображения с них пользо-ватель может убрать из результа-тов поиска, включив фильтр «Се-мейный поиск».

С А МЫЕ ПОПУЛЯРНЫЕ ДУБ ЛИ-К АТЫ Чаще всего пользователи ко-пируют изображения знаменито-

стей и товаров. Количество дубли-катов одного изображения — это может быть, например, фотогра-фия популярного сотового телефо-на — порой достигает нескольких десятков тысяч. Примерно на каж-дый сайт приходится 460 изобра-жений. Средний размер одной кар-тинки — 300х500 пикселей.

Распознавание дубликатов используется не только на сервисе Яндекс.Картинки.

Page 59: 1 технологии Яндексаcache-mskstoredata07.cdn.yandex.net/download... · и машинное обучение 21 ... Каждый день поиском Яндекса

© 2011 ЯНДЕКС