SAS ENTERPRISE MINER...• Человеческий мозг • Более 10^6 клеток(нейронов) • Каждый нейрон соединен через 10^6 синапсов

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS ENTERPRISE MINER

ПРЕДОБРАБОТКА ДАННЫХ


Sample Explore Modify Model Assess

КОНЦЕПЦИЯ SEMMA


ПОДКЛЮЧЕНИЕ ИСТОЧНИКА ДАННЫХ

SAS

Foundation

Server

Libraries

Выбрать источник.

Определить роли

переменных.

Определеить типы

переменных.

Определить роль источника.





ФИЛЬТРАЦИЯ И ЗАМЕНА ДАННЫХ

• Цель – поиск и удаление из выборки артефактов и выбросов

Правила фильтрации задаются для отдельных переменных:

• Ручные – задаются недопустимые значения переменных (диапазоны для

числовых, список для категориальных)

• Редкие значения для категориальных

• Нетипичные значения для числовых (задается допустимое отклонение от

мат. ожидания или допустимое отклонение от медианы или

экстремальные процентили и другое).





СОКРАЩЕНИЕ ОБУЧАЮЩЕЙ ВЫБОРКИ –

СЛУЧАЙНАЯ ВЫБОРКА (SAMPLING)

• Цель – выбрать «представительное» подмножество примеров:

• В идеале с тем же распределением

• Просто случайная выборка работает плохо – не удается сохранить

характеристики всего набора

• Адаптивные методы случайной выборки:

• В соответствии с «грубой» моделью, например, кластерной

• Случайная выборка в рамках «срезов», построенных по классу, высоко

селективному атрибуту или их комбинации

• Основная особенность – выборка в рамках среза или кластера пропорциональна

размеру среза или кластера


СОКРАЩЕНИЕ ОБУЧАЮЩЕЙ ВЫБОРКИ

(SAMPLING) – МЕТОД ГИСТОГРАММ

• Задается процент исходной

выборки

• Для выбранной

категориальной переменной

(переменная стратификации)

строится частотная диаграмма

(для числовой необходима

предварительная

дискретизация)

• Наблюдения случайным

образом выбрасываются так,

чтобы сохранить

распределение переменной

стратификации 0

5

10

15

20

25

30

35

40

10000 30000 50000 70000 90000


СОКРАЩЕНИЕ ОБУЧАЮЩЕЙ ВЫБОРКИ

(SAMPLING) – КЛАСТЕРИЗАЦИЯ

«Сырые» данные Кластерная/стратифицированная

случайная выборка

• Кластеризуем данные

• Каждому наблюдению присваивем номер его кластера

• Далее переменная с номером кластера рассматривается как переменная

стратификации


«БАЛАНСИРОВКА» КЛАССОВ

• Обычная ситуация – число примеров одного класса может на

порядки отличаться от числа примеров другого

• Если решать напрямую – ничего не получится

• Три варианта:

• Разный «штраф» за ошибку наиболее популярный метод

• Under sampling – «искусственно» увеличивать число примеров

«маленького» класса – можно испортить распределение и

закономерности

• Oversampling – «искусственно» уменьшить число примеров

«большого» класса - можно потерять важную информацию, но тоже

популярный метод


ПРИМЕР «БАЛАНСИРОВКИ» КЛАССОВ

• Пусть “-” в 1000 раз больше чем

«+», тогда точность «константного

классификатора (всегда «–»)

99.9%

• Если «штраф» на «+» за ошибку

увеличить в 1000

• Over sampling и under sampling:

_

+_

+

_ __

_

_

+

__ __

_

_

_

_

_

___

_

_

_

+_

+

_ __

_

_

__ _

_

_

_

_

_

_

___

_

_+

_

+_

+

_ _

_

_

+_

_

+_

+

_ __

_

_

+

__ _

_

_

_

_

_

_

___

_

_+

+ +++ +

++ +

++ ++

+ ++

+ +





ФОРМИРОВАНИЕ ОБУЧАЮЩИХБ

ВАЛИДАЦИОННЫХ И ТЕСТОВЫХ ВЫБОРОК

• Переобучение:• нельзя строить и проверять модель на одних и тех же данных

• Обычный подход в DM – случайное разбиение на 3 набора• Тренировочный - для построения семейства моделей – кандидатов на

финальную модель

• Валидационный – для выбора из кандидатов финальной модели

• Тестовый – для оценки качества финальной модели на «новых» данных

• Иногда валидационный=тестовый

• Замечания:• Необходимо сохранить «пропорцию» значений отклика – это просто для

задач классификации, сложнее для регрессии, еще сложнее для

ранжирования и других

• Необходимо учитывать специфические атрибуты, например, время,

место и другие …


ДРУГИЕ ПОДХОДЫ К ФОРМИРОВАНИЮ

ВЫБОРОК

• Cross валидация – перекрестная проверка:

• Если недостаточно данных, разбиваем на равные блоки с сохранением

«пропорции» отклика

• Строим модели для всех

комбинаций

• Результат усредняем

• Bootstrapping:

• Из набора размера N формируем с помощью случайной выборки с возвратом M

наборов, каждый размера N

• В каждый из M какие-то элементы не попадают, какие-то входят по несколько раз

• Строим модели для всех наборов, считаем оценки для всех моделей, но на

исходном наборе

• Результат оценки усредняем

1 2 3 4 5

Train Train Valid Test Train





«ПРОКЛЯТИЕ» РАЗМЕРНОСТИ

• Ep(r)=r1/p

• E10(0.01)=0.63

• E10(0.1)=0.8

1–D

2–D

3–D


x1

x20.70

0.60

0.50

0.40

x4

x3

ПРОБЛЕМЫ ВХОДНЫХ ПЕРЕМЕННЫХ

x1

x2

Input x2 has the

same information as

input x1.

0.70

0.60

0.50

0.40

x4

x3

Не релевантностьЗависимость

...

Выхода два: либо преобразование либо исключение


СОРАЩЕНИЕ РАЗМЕРНОСТИ

Дано: входные переменные {x1,…,xn} и

выходная (числовая или бинарная) y

Задача: оставить только значимые и

независимые xi

Работает в два этапа:

1. Уделяет все xi, где R2(xi)<T1

удаление незначимых

2. Forward stepwise регрессия

f(xi1,…xik) пока

R2 (f(xi1,…xiik))-R2 (f(xi1,…xik-1))>T2

удаление зависимых

Преобразования переменных:

• Дискретизация непрерывных

• Группировка категориальных





ПРОПУЩЕННЫЕ ЗНАЧЕНИЯ

• Не все значения атрибутов известны или достоверны• Наиболее важная задача, так как многие к ней сводятся (удаление

шума, не консистентностей и т.д.)

• Причины появления пропущенных значений• Ошибки «оборудования» и/или ПО при получении данных от датчиков и

из экспериментов• Удаление несогласованных значений атрибутов• Просто не введены в систему из-за халатности или ошибки• Часть данных может быть опциональна с точки зрения бизнес

процессов организации, но важна для анализа• Не хранится правильная история изменений – невозможно правильно

определить значение на момент анализа

• Пропущенные данные:• Ведут к неточным результатам анализа• Допускаются не всеми алгоритмами анализа


МЕТОДЫ ОБРАБОТКИ ПРОПУЩЕННЫХ

ЗНАЧЕНИЙ

• Игнорировать объект или запись:• Можем потерять важные объекты (например, опорные вектора)• Можем «испортить» выборочное распределение• В некоторых задачах процент пропущенных значений велик (>50%)

• Заполнение пропущенных значений «вручную»:• Нужен очень грамотный эксперт• Полностью «вручную» невозможно для больших объемов• Правила заполнения (импутации) трудно формулировать – проблема

полноты, противоречивости, достоверности

• Использование глобальной спец. константы типа “unknown”• Не всеми алгоритмами анализа реализуемо

• Импутация «среднего» или «наиболее ожидаемого» значения • По всей выборке, по страту (срезу), по классу, по кластеру и т.д.• Наиболее популярный метод• но можем «испортить» выборочное распределение

• Методы импутации на основе DM• Будем рассматривать


ВОЗМОЖНОСТИ ИНСТРУМЕНТАРИЯ IMPUTE

• Импутация константным значением - все пропуски для

переменной заменяются на:

• Моду (для категориальных) или мат. ожидание,

или пользовательскую константу

или робастные оценки

• Импутация псевдослучайным значением:

• В соответсвии с распределением

• Импутация прогнозом (оценкой)

• Только деревья решений (но можно делать свои модели)

Для неслучайных пропусков – индикаторные переменные

• Одна на все наблюдение

• Своя для каждой переменной

Распределения

Оценки

xi = f(x1, … ,xp)





ПРЕОБРАЗОВАНИЕ НЕПРЕРЫВНЫХ

ПЕРЕМЕННЫХ

• Простые преобразования:• Функции от исходной (log, exp, …)

• Нормализация (z-score, центрирование, сведение на [0,1])

• Дискретизация (ранве интервалы, равные группы и т.д.)

• Адаптивные преобразования – перебор простых и выбор лучшего

по некоторому криетрию:• Нормальность распределения результата

• Корреляция с откликом

• Оптимальная дискретизация

A

A

devstand

meanvv

_'

AA

A

minmax

minvv

'

standard regression

true association standard regression


ОБЪЕДИНЕНИЕ РЕДКИХ ЗНАЧЕНИЙ

КАТЕГОРИАЛЬНОЙ ПЕРЕМЕННОЙ

A

B

C

D

E

F

G

H

I

J

NiLevel

1562

970

223

111

85

50

23

17

12

5

ΣYi

430

432

45

36

23

20

8

5

6

5

pi

0.28

0.45

0.20

0.32

0.27

0.40

0.35

0.29

0.50

1.00


DI

0

0

0

0

0

0

0

0

1

DI

0

0

0

0

0

0

0

0

1

БИНАРНОЕ КОДИРОВАНИЕ КАТЕГОРИАЛЬНЫХ

ПЕРЕМЕННЫХ

Level

1 0 0 0 0 0 0 0

DA DB DC DD DE DF DG DH

0 0 0 1 0 0 0 0

0 1 0 0 0 0 0 0

0 0 1 0 0 0 0 0

0 0 0 0 1 0 0 0

0 0 0 0 0 1 0 0

0 0 0 0 0 0 1 0

0 0 0 0 0 0 0 1

0 0 0 0 0 0 0 0

A

B

C

D

E

F

G

H

I

...





DI

0

0

0

0

0

0

0

0

1

ГРУППИРОВКА ЗНАЧЕНИЙ КАТЕГОРАЛЬНОЙ

ПЕРЕМЕННОЙ (ПО ОТКЛИКУ ИЛИ ЭКСПЕРТНО)

Level

1 0 0 0 0 0 0 0

DABCD DB DC DD DEF DF DGH DH

1 0 0 1 0 0 0 0

1 1 0 0 0 0 0 0

1 0 1 0 0 0 0 0

0 0 0 0 1 0 0 0

0 0 0 0 1 1 0 0

0 0 0 0 0 0 1 0

0 0 0 0 0 0 1 1

0 0 0 0 0 0 0 0

A

B

C

D

E

F

G

H

I

это делать умеет компонента


SAS ENTERPRISE MINER

НЕЙРОННЫЕ СЕТИ


БИОЛОГИЧЕСКАЯ МОТИВАЦИЯ

• Человеческий мозг• Более 10^6 клеток (нейронов)• Каждый нейрон соединен через 10^6 синапсов с другими нейронами• Мозг может: обучаться, адаптироваться, распознавать образы,

осознавать «себя», устойчив к шуму, травмам и ошибкам• Нейрон

• «Входные» отростки (дендриты)• «Выходные» отростки (аксоны)

• Информация (сигнал, «нервный импульс»):• идет от дендритов к аксону через тело (ядро) клетки

• Аксоны соединяются с дендритами (других клеток) через синапсы• Синапсы разные по силе могут быть возбуждены или подавлены

axon

cell body

synapse

nucleus

dendrites


ИСКУССТВЕННЫЙ НЕЙРОН

• Определение:

• Нелинейная, параметризованная функция с ограниченным

диапазоном значений

• Функции активации:

1

1

0

n

i

ii xwwfy

x1 x2 x3

w0

y

-10 -8 -6 -4 -2 0 2 4 6 8 10-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

-10 -8 -6 -4 -2 0 2 4 6 8 10-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

логистическая

Гиперболический тангенс

)exp(1

1

xy

)exp()exp(

)exp()exp(

xx

xxy


НЕЙРОННАЯ СЕТЬ (ИСКУССТВЕННАЯ)

• Математическая модель для решения задач машинного

обучения• Реализуется группой соединенных нейронов для моделирования

нелинейных зависимостей

• Задачи:• Классификации, дискриминации, оценки плотности, регрессии,

группировки и кластеризации, выявления зависимостей, главных

и независимых компонент

• Два типа нейронных сетей:• Сети прямого распространения (Feed forward Neural Networks)

• Рекуррентные нейронные сети (Recurrent Neural Networks )


СЕТИ ПРЯМОГО РАСПРОСТРАНЕНИЯ

• Сигнал передается от

входного уровня нейронов к

выходному по «слоям»

• Расчет нелинейных выходных

функций, от входных

переменных каждая, как

композиции алгебраических

функций активации

• Нет задержек, времени, т.к.

нет циклов

x1 x2 xn…..

1 слой

2 слой

Выходной слой


РЕКУРРЕНТНЫЕ СЕТИ

• Произвольные топологии с

циклами

• Моделирует системы с

состояниями (динамические

системы)

• Есть понятие «задержки» у

некоторых весов

• Процесс обучения - тяжелый

• Результат не всегда

предсказуемый• Нестабильный (неустойчивый)

сигнал на выходе

• Неожиданное поведение

(осцилляции, хаос, …)

x1 x2


ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ (С

УЧИТЕЛЕМ)

• Цель –найти параметры нейронов (веса)

• Процедура:• Дан тренировочный набор – множество пар (объект, отклик)

• Оценить, насколько хорошо сеть аппроксимирует этот набор

• Модифицировать параметры для улучшения аппроксимации

• Нейросети (для обучения с учителем)• универсальные аппроксиматоры (для нерекуррентных сетей)

• Достоинства:• Адаптивность

• Обобщающая способность (сложность определяется в том числе архитектурой

сети)

• Устойчивость к ошибкам – не катастрофическая потеря точности при «порче»

отдельных нейронов и весов, так как информация «распределена» по сети


ПРАВИЛА ОБУЧЕНИЯ

• Правило Хэбба: сила связи (вес связи) между нейронами i и j должна

модифицироваться согласно формуле::

• Параметр скорости обучения,, контролирует размер шага изменения.

• Чем меньше скорость обучения тем медленней процесс сходится.

• Большой размер шага обучения может привести к расходимости.

• Правило Хэбба не стабильно.

• Более стабильный вариант:

• Называется дельта правио.

• Иногда правило наименьших квадратов, т.к. минимизирует квадратичную

ошибку.

jiij xyw ˆ

jiiij xyyw )ˆ(


ОБОБЩЕННОЕ ДЕЛЬТА ПРАВИЛО

• Два этапа (для каждого примера):

1. Прямой ход: прогон примера через сеть и расчет ошибки (отклонения

отклика от прогноза).

2. Обратный ход: прогон ошибки обратно – модификация весов по дельта

правилу

3. Пока не сойдется (веса перестанут существенно меняться).

...

x1

xk

Входной слой Скрытый слой Выходной слой

ОткликОшибка


УНИВЕРСАЛЬНЫЙ АПРОКСИМАТОР

• Любая ограниченная функция может быть сколь угодно точно приближена

некоторой нейронной сетью с конечным числом нейронов


НЕ НУЖНА ЯВНАЯ ФОРМУЛИРОВКА ИСКОМОЙ

ЗАВИСИМТИ

• Не нужно задавать форму зависимости априори (как в регрессиях и опоных

векторах), даже приблизительно «понимать» ее не нужно

• сложнее сеть => сложнее зависимость, быстрее переобучение


СКОРОСТЬ

• Нейронные сети - один из самых «быстрых» моделей на этапе

прогнозирования.

• Могут применяться для Больших данных (но мало кто этим пока пользуется).


НЕДОСТАТОЧНАЯ ИТЕРПРЕТИРУЕМОСТЬ

• Известная проблема черного ящик.

• Вариант решения - Суррогатные модели

• интерпретируемые модели типа деревьев решений для «приближения» результата

нейросети.

neural network

decision boundary

surrogate

decision boundary


ВЛИЯНИЕ ШУМА

neural network

regression

neural network

regression

high noise

signal low

noise

signal


КРИТИКА

• “It is shown that, at least for the data used in this study, the fit achieved [by

regression] is approximately the same, but the process of configuring and

setting up a neural network for a database marketing application

is not straightforward, and may require extensive experimentation and

computer resources.”

• Zahavi and Levin. 1997. “Applying Neural Computing to Target

• Marketing.” Journal of Direct Marketing.

• А по сути – для задачи, в которой нейронная сеть дает хороший

результат, почти всегда можно найти достаточно точное решение на

основе более простых регрессионных моделей.





ПЕРСЕПТРОН РОЗЕНБЛАТТА

• Rosenblatt (1962)

• Линейное разделение:

• вход :вещественный вектор

• выход :1 или -1

• Решающее правило:

022110 xcxcc

++

+

+

+

+

+

+

+

++ +

+

++

+

+

+++

+

+

++

++

+ ++

+

++

+

+

+

+

1y

1y

0c1c 2c

1x

2x1

22110 xcxccv

)(vsigny


ЛИНЕЙНЫЙ ПЕРСЕПТРОН

d

i

ii xwwyg1

0

1 )ˆ(

yg ˆ1

x1

xd

w0

wd

w1

...

x2

w2

• Доступные функции комбинации:

• Linear взвешенная сумма(default).

• Additive не взвешенная сумма

• Equal Slopes сумма с одинаковыми

весами (но сдвиг разный)


ФУНКЦИИ АКТИВАЦИИ

Elliott

arctan

logistic

tanh

0

1

10 Net Input

Activation


МНОГОСЛОЙНЫЙ ПЕРСЕПТРОН

• Один или более скрытых уровней

• Функции активации сигмоидального

типа1 слой

2 слой

Выходной слой

Input data


МНОГОСЛОЙНЫЙ ПЕРСЕПТРОН

h

i

d

j

jijiii xwwgwwyg1 1

00

1 )ˆ(

Скрытый слой

yg ˆ1

x1

xd

w0

w01

w0nwdn

w1n

wd1

w11

w1

wn

......


ПЕРСЕПТРОН С ПРЯМЫМИ СОЕДИНЕНИЯМИ

Прямые соединения

d

k

kk

h

i

d

j

jijiii xwxwwgwwyg1

11

1 1

00

1 )ˆ(


yg ˆ1

x1

xd

w0

w01

w0nwdn

w1n

wd1

w11

w1

wn

......


ДВА И БОЛЕЕ СКРЫТЫХ СЛОЯ

yg ˆ1

x1

xd

w0

w011

w01d

wdmn

w11m

wdm1

w111

w1

wm

......

w01

w0n

...

w11

wdm

wd1

w1n

m

k

n

j

d

i

iijkjkjjkkkk xwwgwwgwwyg1 1 1

000

1 )( )ˆ(

Вложенные скрытые слои


ФОРМА СИГМОИДА


РАЗЛОЖЕНИЕ ПО БАЗИСУ СИГМОИДАЛЬНЫХ

ФУНКЦИЙ

• Сумма правильного числа правильно вложенных взвешенных сигмоидов

с подобранными коэфициентами может приблизить любую

зависисимость

• Оптимальная архитектура для каждой задачи своя, подбирается

эмпирически


Архитектура

сети

Тип разделяющего

правила

XOR задача Получаемые

области

Самый общий

возможный вид

Только выход

однослойный

двухслойный

Линейная

гиперплоскость

Выпуклые

открытые

области

Произвольные

области

(сложность

ограничена

числом нейронов )

A

AB

B

A

AB

B

A

AB

B

BA

BA

BA

ТИПЫ РЕШАЕМЫХ ЗАДАЧ


РАДИАЛЬНО-БАЗИСНЫЕ СЕТИ

• Свойства:• Один скрытый слой нейронов

• Функция активации типа потенциальной (ядерной)

• Зависит от расстояния между входным сигналом и прототипом

RBF слой

выходы

входы


• Скрытый слой:• Каждый нейрон связан с прототипом – центр «зоны влияния»

• Обычно гауссова ядерная функция, значение зависит от расстояния, но не

от конкретных значений:

• Выходной слой линейный, реализуемая функция:

• Похоже на SVM, но разница принципиальная:• Прототипы - не опорные вектора на и за границей (как в svm), а центры

областей влияния – центры регионов классов с высокой плотностью

• Обучение – две фазы:• Прототипы и их число, в отличие от svm, обычно выбираются отдельно и

заранее (обычно с помощью EM кластеризации)

• Поиск весов с фиксированными прототипами (алгоритм типа MLP)

K

j jj cxWxs1

)(

2

exp /j j jx c x c



• Ordinary Radial Basis Functions (ORBFs)

• Normalized Radial Basis Functions (NRBFs)



ФОРМА ФУНКЦИИ ГАУССА

2

11

2

0110 exp wxwww

w0+w1

w0-w1

w0

w1 > 0

w1 < 0

w11

x


yg ˆ1

x1

xd

w0

w01

w0h

wdn

w1n

wd1

w11

w1

wh

......

h

i j

jijii xwwwwyg1

2

00

1 )( exp)ˆ(


ОБЫЧНЫЕ РАДИАЛЬНО-БАЗИСНЫЕ СЕТИ

• Типы параметров обычной RBF сети:

• XRADIAL - высота и ширина ядра

различные у всех нейронов

• EQRADIAL - высота и ширина ядра

одинаковые

• EWRADIAL - одинаковая ширина

• EHRADIAL - одинаковая высота


ПРОБЛЕМА ЛОКАЛЬНОГО ЭФФЕКТА

• Локальный эффект:

• сложнее функция – больше прототипов

• Проклятие размерности


НОРМАЛИЗОВАННЫЕ РАДИАЛЬНО-БАЗИСНЫЕ СЕТИ

yg ˆ1

x1

xd

w0

w01

w0nwdn

w1n

wd1

w11

w1

wn

......

+ …

+ …

h

1i

22

00

1 )()ln( . softmax )ˆ(j

jijiii xwwafwwyg



ПРОБЛЕМА ЛОКАЛЬНЫХ МИНИМУМОВ

))w(xw(ww 2

11

2

0110 exp


ИНИЦИАЛИЗАЦИЯ

y

x1

xd

tanh

0

0

small random values

tanh


ПРЕДВАРИТЕЛЬНОЕ ОБУЧЕНИЕ


КРИТЕРИИ СХОИМОСТИ


РЕГУЛЯРИЗАЦИЯ

2Objective Function Error Function w

= 0 > 0

0

0

w11

w1

w11

w1

0

0


РАННЯЯ ОСТАНОВКА – БОРЬБА С

ПЕРЕОБУЧЕНИЕМ


ОЦЕНКИ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ

)ln()2ln()(

5.0)(

2

ww

yQ


ОТКЛОНЕНИЕ

•

))(ln(ln2)( ww llQ staturated

Распределение Отклонение

ошибки

Normal

Poisson

Gamma

Bernoulli

2))(( )( ww yQ

))(())(/ln( 2 )( www yyyQ

)(/))(())(/ln( 2 )( wwww yyQ

))(1ln()1())(ln( 2)( www yyQ


РОБАСТНЫЕ ОЦЕНКИ

n

i

i

n

i y

ii zy

Q11

)()(

)(

ww

Normal

Laplace

Huber’s

25.0)( zz

zz )(

25.0)( zz 1zif

50.- )( zz 1zif


КОМБИНАЦИИ ФУНКЦИЙ АКТИВАЦИИ И РАСПРЕДЕЛЕНИЯ ОШИБОК

Отклик Функция связи Функуция

активации

Распределение

ошибок

Числа Identity Identity Normal

Identity Identity Huber

Log Exponential Poisson

Log Exponential Gamma

Категории

и порядки

Logit Logistic Bernoulli

Generalized Logit Softmax MBernoulli

Cumulative Logit Logistic (See note.) MBernoulli

Пропорции Logit Logistic Entropy

Generalized Logit Softmax MEntropy

Обратная кумулятивная logit называется Logistic.


ПОСТАНОВКА ЗАДАЧИ ОПТИМИЗАЦИИ

• Методы первого порядка – градиентные (используют шаг «вдоль»

направления градиента – вектора первых производных)

• выбор шага (константа, дробный выбор, адаптивный, наискорейший)

• выбор напраления (с учетом предыдущих шагов, например сопряженные

градиенты)

• Методы второго порядка – ньютоновские (используют матрицу вторых

производных Гессе для «выбора шага»)

• проблема – вычисление обратной матрицы Гессе на каждом шаге


ИТЕРАЦИОННЫЕ МЕТОДЫ

)()()1( δww ttt

Градиентный: Ньютона:)()( gδ tt )(-1)()( g]H[δ ttt


ОБРАТНОЕ РАСПРОСТРАНЕНИЕ ОШИБКИ

(ГРАДИЕНТНЫЙ МЕТОД)

87 iterations

( = 0.5, = 0.9)285 iterations

( = 0.1, = 0.9)

)1()()( δgδ ttt

Недостатки: долго, тяжело «угадать» параметры


БЫСТРОЕ ОБРАТНОЕ РАСПРОСТРАНЕНИЕ

ОШИБКИ

38 iterations 57 iterations

)(-11)-()( g)]H~

([δ ttt diag

Приближаем функцию ошибки «параболой», вычисляем

диагональ Гессиана «приближенной» функции


ЛЕВЕНБЕРГА — МАРКВАРДТА

)()(1)()()()( r'J)IJ'J(δ tttttt

Комбинация градиентного (лямбда велико) и Ньютона (лямбда=0),

Применим для небольшого количества переменных <100


КВАЗИ НЬЮТОНОВСКИЕ МЕТОДЫ


)(1)1()1()()( ]EB[δ ttttt g

Приближаем H как сумму B и E, обычно E – единичная

Применим для среднего размера задач <500 переменных


МЕТОД СОПРЯЖЕННЫХ ГРАДИЕНТОВ


]δβg[δ )1()1()()()( ttttt

Выбор следующего направления как сопряженного (относительно

матрицы Гессе) к предыдущим направлениям шага. Позволяет не

рассчитывать H на каждом шаге и работает с большими задачами.


МЕТОД ДОВЕРИТЕЛЬНЫХ ОБЛАСТЕЙ

(TRUSTED REGIONS)

)(1)()()( g)IH(δ tttt

Работает для небольших задач <40, но зато с сильно «не

квадратичными» целевыми функциями


КОМБИНИРОВАННЫЙ (ГРАДИЕНТ+НЬЮТОН)

DOUBLE-DOGLEG

)(

2

)(

1

)(δ t

NewtonQuasi

t

DescentSteepest

t ss





МЕТОД AUTONEURAL

• Одновременное обучение и подбор архитектуры:

• Train: Тренеровка в рамках найденной арх итектуры.

• Increment: Нейроны добавляются по одному (и не удаляются).

• Search: Нейроны добавляются в оотвесвии с выбранной стратегией.

(default)

• Предварительное обучение (tolerance).

• Low – отключено.

• Medium включено (default).

• High включено «глубокое» (ABSCONV=0.001) предобучение.

• Распределение ошибки:

• Normal (default для числовых откликов), Cauchy, Logistic, Huber, Biweight,

Wave, Gamma, Poisson, Bernoulli, Entropy, MBernoulli (default для

категориальных откликов), Multinomial, Mentropy


МЕТОД AUTONEURAL

• Остановка поиска:

• Overfitting переобучение (default).

• Превышено максимальное training time.

• Сходимость training error is < 0.001.

• Архитектуры и стратегии поиска:

• Single Layer

• Block Layers

• Funnel Layers

• Cascade


ОДНОСЛОЙНАЯ АРИТЕКТУРА

• Нейроны добавляются и удаляются «параллеьно» в один слой.

• Допустимы прямые соединения.

• Автоматически подбирается число нейронов и типы функций активации для

каждого нейрона своя.

)(1 yEg ......


БЛОЧНАЯ АРХИТЕКТУРА

• Скрытые нейроны добавляются в новые слои (целым слоем).

• Одиноковое число нейронов в каждом слое.

• Могут быть прямые соединения.

• Автоматически подбирается число слоеви типы функций активации для каждого

слоя своя.

)(1 yEg ...... ...


АРХИТЕКТУРА «ВОРОНКА»

• Добавляется по одному нейрону в каждый слой и плюс новый слой из одного

нейрона.

• Могут быть прямые соединения.


слоя своя.

)(1 yEg ...


КАСКАДНАЯ АРХИТЕКТУРА

• Новые нейроны добавляются какадом.

• Все уже найденные веса не меняются (замороженное обучение).


слоя своя.

)(1 yEg

...





SELF-ORGANIZING MAPS (SOM)

• Общая идея нейросетевого подхода (сети Кохонена):

• Базируется на моделировании процесса обучения/запоминания в мозге

• Каждый кластер (нейрон) определяется своим «прототипом» (число

кластеров задается априори)

• Прототипы (нейроны) объединены в виде 2D решетки (сети) с

квадратными (или шестигранными) ячейками

• Структура решетки определяет понятие «окрестности» каждого прототипа

(дискретное расстояние по решетке)

• У прототипа кластера (нейрона) есть векторный «вес» – соответствует

точке в исходном пространстве

• Процесс активации – реакция на образ входного пространства,

определяется мерой сходства между «весом» нейрона и входным

образом (или расстоянием между прототипом кластера и объектом)

• Конкурентное обучение: нейроны соревнуются за право активации

(winner-takes-all, всегда один ближайший - победитель)


ОСНОВНАЯ ЗАДАЧА SOM

Задача:

формирование топографической карты входных образов, в которой

пространственное расположение нейронов решетки (прототипов

кластеров) в некотором смысле отражает статистические

закономерности во входных параметрах.

Или:

построение отображения многомерного исходного пространства на 2х

мерную решетку с сохранением топологических зависимостей

(близкие объекты исходного пространства будут рядом и на решетке).


ПРОЦЕДУРА РАБОТЫ SOM (ФОРМАЛЬНО)

• Шаг 0. Инициализация:

• структура решетки и число кластеров (нейронов)

• инициализация «весов» прототипов wj(0) (полностью случайно или случайной

выборкой из данных)

• начальные параметры (скорость обучения и размер окрестности)

• Шаг 1. Выборка (итерация t):

• Выбираем случайный x(t) из исходного пространства

• Шаг 2. Конкуренция:

• Находим «лучший» нейрон для активации:

• Шаг 3. Коррекция весов с учетом кооперации:

• Для победителя и соседей по решетке пересчитываем их «вес» – двигаем их

центры к точке x в исходном пространстве

• Уменьшаем скорость обучения и размер окрестности

• Шаг 4. Проверка условий остановки и переход на Шаг 1.

• Стабилизация структуры либо превышение числа выполненных итерации

установленного значения

)()(minarg)( twtxxi jj


КОРРЕКЦИЯ ВЕСОВ С УЧЕТОМ КООПЕРАЦИИ

• Перерасчет весов победителя и соседей:

• Стохастический градиентный спуск:

))()(()()()1( )( twxthttwtw jxijjj

скорость обучения размер топологической

окрестности (на решетке!!!!)

)(2

),(exp)(

2

2

)(t

jidth

grid

xij

tt

tt

exp)1(

exp)1(

0

0


ВИЗУАЛИЗАЦИЯ И ИНТЕРПРЕТАЦИЯ SOM

• Два принципиально разных подхода (много вариантов):

• «Гибкая» сеть

• Когерентные области

• «Гибкая» сеть (компонента не умеет, но «нарисовать» кодом

можно):

• Нейроны – центры кластеров в исходном пространстве.

• Чем они там ближе, тем

короче звено решетки

• Простой пример –

изображения

• В общем случае

спроецировать

тяжело


ВИЗУАЛИЗАЦИЯ И ИНТЕРПРЕТАЦИЯ SOM

• Когерентные области:

• Близкие кластеры в исходном пространстве – рядом на решетке

(свойство SOM) и одним (или спектрально близким) цветом

• Группы кластеров – категории, области

• Задача группировки и раскраски - отдельная


ПРИМЕР (КОГЕРЕНТНЫЕ ОБЛАСТИ)

• Входные данные:продукт белки углеводы жиры

Apples 0.4 11.8 0.1

Avocado 1.9 1.9 19.5

Bananas 1.2 23.2 0.3

Beef Steak 20.9 0.0 7.9

Big Mac 13.0 19.0 11.0

Brazil Nuts 15.5 2.9 68.3

Bread 10.5 37.0 3.2

Butter 1.0 0.0 81.0

Cheese 25.0 0.1 34.4

Cheesecake 6.4 28.2 22.7

Cookies 5.7 58.7 29.3

Cornflakes 7.0 84.0 0.9

Eggs 12.5 0.0 10.8

Fried Chicken 17.0 7.0 20.0

Fries 3.0 36.0 13.0

Hot Chocolate 3.8 19.4 10.2

Pepperoni 20.9 5.1 38.3

Pizza 12.5 30.0 11.0

Pork Pie 10.1 27.3 24.2

Potatoes 1.7 16.1 0.3

Rice 6.9 74.0 2.8

Roast Chicken 26.1 0.3 5.8

Sugar 0.0 95.1 0.0

Tuna Steak 25.6 0.0 0.5

SOM(10Х10):


СВОЙСТВА SOM

• Аппроксимация входного пространства• «Сжатие» информации, связь с методом LVQ (кластеризация на

основе теории информации, задача - выбрать кодовые слова-кластеры так, чтобы минимизировать возможное искажение)

• Топологический порядок• Рядом в исходном пространстве => рядом на решетке и наоборот

• Соответствие плотности• Области исходного пространства с высокой плотностью отображаются

в большие области на решетке и наоборот

• Выбор признаков:• осуществляет нелинейную дискретную аппроксимацию главных

компонент (точнее главных кривых и плоскостей)

• Недостатки:• Алгоритм простой, но мат. анализу поддается плохо, в общем случае

не доказана ни сходимость, ни даже устойчивость• Много неочевидных, но важных параметров, задаваемых априори,

включая структуру решетки

Documents

SAS ENTERPRISE MINER...• Человеческий мозг • Более 10^6 клеток(нейронов) • Каждый нейрон соединен через 10^6 синапсов