Обзор алгоритмов машинного обучения

Воронов Александр

Video GroupCS MSU Graphics & Media Lab

CS MSU Graphics & Media Lab (Video Group)

Only for Maxus

Содержание

Введение

Дерево решений

Статистические алгоритмы

Метрические алгоритмы

AdaBoost

Only for Maxus

Постановка задачиТерминология

Множество объектов: X

Конечное множество классов: Y

Любой объект x ∈ X соответствует хотя бы одному классу yi ∈ Y

Only for Maxus

Постановка задачи

По конечной выборке прецедентовXl :(xi, yi)i=1l

построить отображение a: X→Y,

удовлетворяющее следующим условиям:

Эффективная программная реализация Воспроизведение заданных ответов на

обучающей выборке Обобщающая способность для всего

множества X Априорные ограничения (соответствие

модели)

Only for Maxus

Постановка задачиОценка обобщающей способности

Функционал качества:

- тестируемый алгоритм

- функция, определяющая величину ошибки алгоритма

),(minarg)( l

l XaQX

Only for Maxus

Постановка задачиОценка обобщающей способности

Дана выборка

Разобьѐм еѐ N способами на обучающую и контрольную подвыборки (k = L – l)

Оценка скользящего контроля(cross-validation):

CV совпадает с матожиданием потерь

L yxX 1),(

L XXQN

)),((1

Only for Maxus Примеры прикладных

задач

Медицинская диагностика

Распознавание спама

Рубрикация текста

Распознавание рукописных символов

Оценивание заѐмщиков

Прогнозирование потребительского спроса

и т.д.7

Only for Maxus Эвристические принципы

обучения по прецедентам

сходства минимизации эмпирического риска регуляризации (штраф на сложность

алгоритма) разделимости (можно описать некоторую

поверхность, разделяющую классы) отделимости и закономерности (можно описать

область, которая включает объекты только одного класса)

самоорганизации моделей (структура модели алгоритма заранее не известна)

композиции8

Only for Maxus

Введение

AdaBoost

Only for Maxus

Дерево решенийПример

Only for Maxus

Дерево решенийАвтоматическое построение

X = {x1, …, xn}, pi – вероятность события xi

- энтропия множества X

C = {c1, …, cm} – множество классовF – признак с возможными значениями {f1, …, fd}

Количество информации класса C относительно признака F:

ii ppXH1

2log)(

fFPcCP

fFcCPfFcCPFCI

),(log),(),(

Only for Maxus

Дерево решенийАвтоматическое построение

1. Признак с наибольшим количеством информации выбирается в качестве корневого узла

2. Если подмножество событий ветви не совпадает с одним из классов, то алгоритм запускается рекурсивно для этой ветви

Only for Maxus

Введение

AdaBoost

Only for Maxus

Статистические алгоритмыОбозначения

Py = P(y) – априорная вероятность класса y

py(x) = p(x|y) – функция правдоподобия класса y

p(x,y) – плотность распределения

λys – величина потери при отнесении объекта класса y к классу s

Ay = {x ∈ X | a(x) = y}, y ∈ Y

Only for Maxus

Функционал среднего риска:

Формула Байеса

syys yAPaR )|()(

yxpxyP

),()|(

Only for Maxus

Статистические алгоритмыСхема работы

1. Задаются штрафы ошибочной классификации λys.

2. По обучающей выборке вычисляются функции, характеризующие классы.

3. На основе этих функций строится алгоритм, который минимизирует функционал среднего риска.

Only for Maxus

Оптимальный алгоритм классификации

При условии, что

Разделяющая поверхность:

)()( xpPxpP sssttt

yyysYs

xpPxa )(minarg)(

)|P(maxarg)(maxarg)( xyxpPxa yYy

Only for Maxus

Статистические алгоритмыВосстановление плотности

Оценка априорной вероятности класса y:

Чтобы восстановить функции правдоподобия py(x), рассмотрим общую

задачу:

Для выборки Xm = {x1, …, xm} построить

эмпирическую оценку плотности, приближающую p(x) на всѐм X.

y ,,ˆ

Only for Maxus

Предположим, что p(x) = φ(x,θ)

φ – фиксированная функция

θ – параметр, значение которого выбирается

из принципа максимума правдоподобия:

Gm = (g1,…,gm)

mm xgGXL1

max),(ln),,(

Only for Maxus

Предположим, что

то есть n-мерное нормальное распределение с матожиданием μ ∈ R

Σ ∈ Rnxn

))()(2

1exp()2(),,(),( 1

xxxNxn

Only for Maxus

Вычисление:

Можно положить

Несмещѐнная оценка ков.матрицы:

ii xxgxg11

)ˆ)(ˆ(ˆ;ˆ

ii xxm 1

)ˆ)(ˆ(1

Only for Maxus

Статистические алгоритмыКвадратичный дискриминант

Если классы имеют нормальные функции правдоподобия, то решающее правило задает квадратичную разделяющую поверхность. Поверхность вырождается в линейную, если ков.матрицы классов равны.

Only for Maxus

Статистические алгоритмыЛинейный дискриминант Фишера

Фишер предложил считать ковариационные матрицы равными, даже если они на самом деле не равны.

)(maxarg

)ˆˆˆˆˆ2

1)(ln(maxarg

))((maxarg)(

yyyyyYy

Only for Maxus

Статистические алгоритмыЛинейный дискриминант Фишера

Обучение сводится к оцениванию матожидания и общей ковариационной матрицы для всей выборки.

Only for Maxus

Статистические алгоритмыНаивный байесовский классификатор

Если предположить , что признаки объекта независимы и нормально распределены, то общая плотность вычисляется как произведение плотностей характеристик

Плотность каждой характеристики внутри класса вычисляется значительно проще

В реальности такая ситуация встречается редко, на большинстве задач качество классификации будет относительно низким

Only for Maxus

Статистические алгоритмыНаивный байесовский классификатор

- признаки

Итоговый алгоритм:

)(ˆlnlnmaxarg)(

)()...()(

)(),...,(

Only for Maxus

Статистические алгоритмыВыводы

Преимущества: Байесовское решающее правило оптимально,

имеет простую формулу, легко реализуется программно

Имеет широкую область применения, часто используется в качестве эталона при тестировании других алгоритмов

Недостатки: При неправильном подходе к восстановлению

функций правдоподобия качество работы алгоритма может быть очень низким

Only for Maxus

Введение

AdaBoost

Only for Maxus

Метрические алгоритмы:

основанные на анализе сходства объектов.

Гипотеза компактности:

Классы образуют компактно локализованные множества в пространстве объектов.

Вводится метрика ρ(x, x´) в пространстве объектов X

Only for Maxus

u – рассматриваемый объект

Xl – обучающая выборка

w(i, u) – оценка степени важности i-го соседа

- суммарный вес

ближайших обучающих объектов

Метрический алгоритм:

y uiwyyXu1

)( ),(][),(

),(maxarg),( l

l XuXua

Only for Maxus

Метрические алгоритмыСхема работы

Обучение:

1. Выбор метрики сходства между объектами

2. Удаление из обучающей выборки неинформативных и шумовых объектов

Классификация:

Объект относится к тому классу, для которого максимален вес ближайших объектов из обучающей выборки.

Only for Maxus

Метрические алгоритмыВесовые функции

Метод ближайшего соседа (1NN):

w(i, u) = [i = 1]

Метод k ближайших соседей (kNN):

w(i, u) = [i ≤ k]

Метод взвешенных ближайших соседей:

w(i, u) = [i ≤ k]qi

Only for Maxus

Метрические алгоритмыМетод парзеновского окна

K(z) – функция ядра, невозрастающая на [0, ∞)

При неравномерном распределении объектов можно использовать окно переменной ширины:

Доп.ограничение на K: z > 1, K(z)=0

xuKuiw

u ),(),(

),()( )1( k

Only for Maxus

Метрические алгоритмыОтбор эталонных объектов

Эталоны – типичные представители классов

При исключении из выборки шумовые и неинформативные объекты повышается качество классификации и уменьшается объѐм хранимых данных

Only for Maxus

Метрические алгоритмыОтбор эталонных объектов

Отступ объекта xi относительно алгоритма a(u)

Объекты:

Эталонные (большой положительный отступ) Неинформативные (положительный отступ) Пограничные (отступ, близкий к нулю) Ошибочные объекты (отрицательный отступ) Шумовые объекты или выбросы (большой

отрицательный отступ)

Из выборки удаляются неинформативные и шумовые объекты

)(max)()(\

iyi xxxMi

Only for Maxus

Метрические алгоритмыВыводы

Преимущества: Нет необходимости выделять признаки

(прецедентная логика) Простота реализации

Недостатки: Необходимость хранить обучающую

выборку Поиск ближайших соседей

предполагает большой число сравнений36

Only for Maxus

Введение

AdaBoost

Only for Maxus

X = Rn, Y = {-1, +1}

w, w0 – параметры алгоритма

- разделяющая гиперплоскость

,sgnsgn)( wxwwxwxan

0, wxw

Only for Maxus

SVMСхема работы

Обучение:

1. Для поиска максимальной ширины разделяющей полосы при минимальной ошибке составляется функция Лагранжа

2. Ищется седловая точка функции Лагранжа.

3. Находятся опорные точки, на их основе вычисляются параметры алгоритма

Only for Maxus

SVMШирина разделяющей полосы

x+ и x- - произвольные точки классов,

лежащие на границе полосы

Тогда ширина полосы:

Для линейно разделимой выборки требуется найти параметры w, w0, такие, что при

выполнении условия норма w будет минимальна.

2)1()1(,,),( 00

1, 0 wxwy ii

Only for Maxus

SVMЗадача поиска седловой точки

Необходимые условия седловой точки:

liywxwлибо

wxwywwwwL

,...,1,,,0

,...,1,0

maxmin1,,2

xywxyww

Only for Maxus

SVMЗадача поиска седловой точки

Из необходимых условий седловой точки следует :

jijijii

,...,1,0

Only for Maxus

После решения задачи вычисляем:

Итоговый алгоритм:

liyxwmedw

,...,1,0:,0

0,sgn)( wxwxa

Only for Maxus

SVMЛинейно неразделимая выборка

Добавим в исходную задачу минимизации нормы w штраф за суммарную ошибку:

liwxwy

,...,1,0

,...,1,1,

Only for Maxus

Введѐм понятие отступа:

Рассмотрим функционал числа ошибок:

Заменим пороговую функциюна еѐ верхнюю оценку:

Добавим к Q штрафное слагаемое , учитывающее норму w

0, wxwym iii

l mXaQ1

]0[),(

)1(]0[ ii mm2

Only for Maxus

Задача минимизации полученного функционала

эквивалентна исходной задаче

при

min)1(),(ww

l wmXaQ

liwxwy

,...,1,0

,...,1,1,

Only for Maxus

Соответствующая функция Лагранжа:

maxmin)(

1),,,,(

wxwywwwwL

Only for Maxus

Задача поиска седловой точки:

liлибо

liwxwyлибо

,...,1,0,0

,...,1,1,,0

,...,1,0,0,0

maxmin),,,,(

Only for Maxus

SVMСпрямляющие пространства

Ещѐ один способ решения проблемы линейной неразделимости:переход из пространства объектов X в пространство H с помощью преобразования ψ: X → H

Пространство H называется спрямляющим

SVM строится так же, только на основе объектов ψ(xi) вместо xi.

- ядровая функция

)(),(),( xxxxK

Only for Maxus

SVMВыводы

Преимущества: Решение задачи хорошо оптимизируется:

сводится к задаче квадратичного программирования

Более уверенная классификация за счѐт максимизации ширины разделяющей полосы

Недостатки: Неустойчивость к шуму, выбросы существенно

учитываются Нет общих методов построения ядер или

спрямляющих пространств

Only for Maxus

Введение

AdaBoost

Only for Maxus

AdaBoostПостановка задачи

Классификация на два класса: Y = {-1,+1}

bt(x) – некоторые базовые алгоритмы

Искомый алгоритм – взвешенная сумма базовых:

Функционал качества композиции:

tt Xxxbxa1

)),(sgn()(

ittiT xbyQ1 1

Only for Maxus

AdaBoost

Упрощение задачи минимизации функционала Qt:

Эвристика 1: при добавлении в композицию нового слагаемого оптимизировать только его, не трогая предыдущих

Эвристика 2: аппроксимировать пороговую функцию потерь в Qt непрерывно

дифференцируемой оценкой сверху.

Only for Maxus

AdaBoost

Аппроксимация экспонентой:

Введѐм нормированный вектор весов объектов:

ittitt

xbyxby

))(exp()(exp

)(exp~

1~),~,...,~(

Only for Maxus

AdaBoost

Теорема 1:

Тогда:

1:,2/1),(min

1],0)([),(

uxbyuUbQ

,(minarg

Only for Maxus

AdaBoost

Теорема 2:

Если существует такое, что на

каждом шаге , то AdaBoost гарантирует построение корректного алгоритма a(x) за конечное

число шагов.

t WbQ0

Only for Maxus

AdaBoostАлгоритм обучения

1. инициализация весов объектов: wi := 1/l, i = 1, …,l

2. для всех l = 1,…,T, пока не выполнен критерий

останова

5. пересчѐт весов объектов: wi := wiexp(-αtyibt(xi)),

i = 1, …,l

6. нормировка весов объектов:

),(minarg: l

bt WbQb

),(1ln

,...,1,/:

Only for Maxus

AdaBoostВыводы

Достоинства:

Хорошая обобщающая способность

Простота реализации

Возможность идентификации выбросов по высокому значению wi

Недостатки:

Переобучение при значительном уровне шума

Требует длинных выборок

Может привести к построению громоздких композиций

Only for Maxus

Литература

1. Курс лекций К.В. Воронцова по машинному обучений (2007-2008)http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение_(курс_лекций%2C_К.В.Воронцов)

2. Л.Шапиро, Дж.Стокман «Компьютерное зрение», глава 4, С.126-167

Обзор алгоритмов машинного обучения

Technology

1-ый год обучения (дети 5 6 лет)сад16.рф/attachments/article/411/pm.pdf · 1-ый год обучения (дети 5-6 лет) Месяц Неделя №

ОБРАБОТКА БОЛЬШИХ ДАННЫХ С APACHE SPARKbooks.ifmo.ru/file/pdf/2496.pdf · 2019. 4. 26. · алгоритмов машинного обучения. На рис

"Быстрое обнаружение вредоносного ПО для Android с помощью машинного обучения". Юрий Леонычев, Яндекс

Основы программирования в среде Lazarus€¦ · 2.2. Реализация некоторых алгоритмов главы 1. ... способы записи

Обучения с Ясен Николов, Global LightWorks (семинари, работни групи, лекции)

Лекция 6dima.pkims.ru/courses/2_ta/docs/ta_lec06.pdf · 2019. 11. 19. · Лекция №6. Основы алгоритмов компрессии данных Потоковые

ПРОГРАММА ОБУЧЕНИЯ - itstep.dn.ua · Cisco ITE1 + Hardware „ ˆ‘ „˚ˇ ‘ ... И CISCO ACADEMY, ВХОДЯЩИЕ В ПРОГРАРММУ ОБУЧЕНИЯ:

Предпринимательство в области технологий : эффективные методы обучения

Отчет Департамента образования США по исследованиям онлайн обучения 2010

§ 54. Алгоритм и его свойстваучитель27.рф/media/filer_public/8b/bc/8bbc855b-7768-4704-b0ed... · Способы записи алгоритмов Алгоритмы

Форма обучения Очная Основа Бюджетнаяskags.ru/doc/abit_poim20120725.pdf · Форма обучения Очная Основа Бюджетная

Психология обучения . Как обучаются взрослые люди

3613 - fundamental-research.ru · ся организационно-педагогические условия использования интерактивных форм обучения

Безопасность электронного обучения

8..общие положения концепции проектного обучения в рэу

Intel добавит в CPU инструкции для глубинного обучения

Опыт прохождения подготовки инструкторов для дистанционного обучения в KIT eLearning

NetCamp - MikroTik и Ubiquiti обучения и

рефлексия по современным средствам оценивания результатов обучения

No Slide Title · «Инфраструктура ТК» более 15 лет назад с реализации алгоритмов расширенного управления