Upload
others
View
12
Download
0
Embed Size (px)
Citation preview
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS ENTERPRISE MINER
ПРЕДОБРАБОТКА ДАННЫХ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Sample Explore Modify Model Assess
КОНЦЕПЦИЯ SEMMA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ПОДКЛЮЧЕНИЕ ИСТОЧНИКА ДАННЫХ
SAS
Foundation
Server
Libraries
Выбрать источник.
Определить роли
переменных.
Определеить типы
переменных.
Определить роль источника.
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Sample Explore Modify Model Assess
КОНЦЕПЦИЯ SEMMA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ФИЛЬТРАЦИЯ И ЗАМЕНА ДАННЫХ
• Цель – поиск и удаление из выборки артефактов и выбросов
Правила фильтрации задаются для отдельных переменных:
• Ручные – задаются недопустимые значения переменных (диапазоны для
числовых, список для категориальных)
• Редкие значения для категориальных
• Нетипичные значения для числовых (задается допустимое отклонение от
мат. ожидания или допустимое отклонение от медианы или
экстремальные процентили и другое).
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Sample Explore Modify Model Assess
КОНЦЕПЦИЯ SEMMA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
СОКРАЩЕНИЕ ОБУЧАЮЩЕЙ ВЫБОРКИ –
СЛУЧАЙНАЯ ВЫБОРКА (SAMPLING)
• Цель – выбрать «представительное» подмножество примеров:
• В идеале с тем же распределением
• Просто случайная выборка работает плохо – не удается сохранить
характеристики всего набора
• Адаптивные методы случайной выборки:
• В соответствии с «грубой» моделью, например, кластерной
• Случайная выборка в рамках «срезов», построенных по классу, высоко
селективному атрибуту или их комбинации
• Основная особенность – выборка в рамках среза или кластера пропорциональна
размеру среза или кластера
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
СОКРАЩЕНИЕ ОБУЧАЮЩЕЙ ВЫБОРКИ
(SAMPLING) – МЕТОД ГИСТОГРАММ
• Задается процент исходной
выборки
• Для выбранной
категориальной переменной
(переменная стратификации)
строится частотная диаграмма
(для числовой необходима
предварительная
дискретизация)
• Наблюдения случайным
образом выбрасываются так,
чтобы сохранить
распределение переменной
стратификации 0
5
10
15
20
25
30
35
40
10000 30000 50000 70000 90000
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
СОКРАЩЕНИЕ ОБУЧАЮЩЕЙ ВЫБОРКИ
(SAMPLING) – КЛАСТЕРИЗАЦИЯ
«Сырые» данные Кластерная/стратифицированная
случайная выборка
• Кластеризуем данные
• Каждому наблюдению присваивем номер его кластера
• Далее переменная с номером кластера рассматривается как переменная
стратификации
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
«БАЛАНСИРОВКА» КЛАССОВ
• Обычная ситуация – число примеров одного класса может на
порядки отличаться от числа примеров другого
• Если решать напрямую – ничего не получится
• Три варианта:
• Разный «штраф» за ошибку наиболее популярный метод
• Under sampling – «искусственно» увеличивать число примеров
«маленького» класса – можно испортить распределение и
закономерности
• Oversampling – «искусственно» уменьшить число примеров
«большого» класса - можно потерять важную информацию, но тоже
популярный метод
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ПРИМЕР «БАЛАНСИРОВКИ» КЛАССОВ
• Пусть “-” в 1000 раз больше чем
«+», тогда точность «константного
классификатора (всегда «–»)
99.9%
• Если «штраф» на «+» за ошибку
увеличить в 1000
• Over sampling и under sampling:
_
+_
+
_ __
_
_
+
__ __
_
_
_
_
_
___
_
_
_
+_
+
_ __
_
_
__ _
_
_
_
_
_
_
___
_
_+
_
+_
+
_ _
_
_
+_
_
+_
+
_ __
_
_
+
__ _
_
_
_
_
_
_
___
_
_+
+ +++ +
++ +
++ ++
+ ++
+ +
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Sample Explore Modify Model Assess
КОНЦЕПЦИЯ SEMMA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ФОРМИРОВАНИЕ ОБУЧАЮЩИХБ
ВАЛИДАЦИОННЫХ И ТЕСТОВЫХ ВЫБОРОК
• Переобучение:• нельзя строить и проверять модель на одних и тех же данных
• Обычный подход в DM – случайное разбиение на 3 набора• Тренировочный - для построения семейства моделей – кандидатов на
финальную модель
• Валидационный – для выбора из кандидатов финальной модели
• Тестовый – для оценки качества финальной модели на «новых» данных
• Иногда валидационный=тестовый
• Замечания:• Необходимо сохранить «пропорцию» значений отклика – это просто для
задач классификации, сложнее для регрессии, еще сложнее для
ранжирования и других
• Необходимо учитывать специфические атрибуты, например, время,
место и другие …
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ДРУГИЕ ПОДХОДЫ К ФОРМИРОВАНИЮ
ВЫБОРОК
• Cross валидация – перекрестная проверка:
• Если недостаточно данных, разбиваем на равные блоки с сохранением
«пропорции» отклика
• Строим модели для всех
комбинаций
• Результат усредняем
• Bootstrapping:
• Из набора размера N формируем с помощью случайной выборки с возвратом M
наборов, каждый размера N
• В каждый из M какие-то элементы не попадают, какие-то входят по несколько раз
• Строим модели для всех наборов, считаем оценки для всех моделей, но на
исходном наборе
• Результат оценки усредняем
1 2 3 4 5
Train Train Valid Test Train
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Sample Explore Modify Model Assess
КОНЦЕПЦИЯ SEMMA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
«ПРОКЛЯТИЕ» РАЗМЕРНОСТИ
• Ep(r)=r1/p
• E10(0.01)=0.63
• E10(0.1)=0.8
1–D
2–D
3–D
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
x1
x20.70
0.60
0.50
0.40
x4
x3
ПРОБЛЕМЫ ВХОДНЫХ ПЕРЕМЕННЫХ
x1
x2
Input x2 has the
same information as
input x1.
0.70
0.60
0.50
0.40
x4
x3
Не релевантностьЗависимость
...
Выхода два: либо преобразование либо исключение
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
СОРАЩЕНИЕ РАЗМЕРНОСТИ
Дано: входные переменные {x1,…,xn} и
выходная (числовая или бинарная) y
Задача: оставить только значимые и
независимые xi
Работает в два этапа:
1. Уделяет все xi, где R2(xi)<T1
удаление незначимых
2. Forward stepwise регрессия
f(xi1,…xik) пока
R2 (f(xi1,…xiik))-R2 (f(xi1,…xik-1))>T2
удаление зависимых
Преобразования переменных:
• Дискретизация непрерывных
• Группировка категориальных
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Sample Explore Modify Model Assess
КОНЦЕПЦИЯ SEMMA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ПРОПУЩЕННЫЕ ЗНАЧЕНИЯ
• Не все значения атрибутов известны или достоверны• Наиболее важная задача, так как многие к ней сводятся (удаление
шума, не консистентностей и т.д.)
• Причины появления пропущенных значений• Ошибки «оборудования» и/или ПО при получении данных от датчиков и
из экспериментов• Удаление несогласованных значений атрибутов• Просто не введены в систему из-за халатности или ошибки• Часть данных может быть опциональна с точки зрения бизнес
процессов организации, но важна для анализа• Не хранится правильная история изменений – невозможно правильно
определить значение на момент анализа
• Пропущенные данные:• Ведут к неточным результатам анализа• Допускаются не всеми алгоритмами анализа
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
МЕТОДЫ ОБРАБОТКИ ПРОПУЩЕННЫХ
ЗНАЧЕНИЙ
• Игнорировать объект или запись:• Можем потерять важные объекты (например, опорные вектора)• Можем «испортить» выборочное распределение• В некоторых задачах процент пропущенных значений велик (>50%)
• Заполнение пропущенных значений «вручную»:• Нужен очень грамотный эксперт• Полностью «вручную» невозможно для больших объемов• Правила заполнения (импутации) трудно формулировать – проблема
полноты, противоречивости, достоверности
• Использование глобальной спец. константы типа “unknown”• Не всеми алгоритмами анализа реализуемо
• Импутация «среднего» или «наиболее ожидаемого» значения • По всей выборке, по страту (срезу), по классу, по кластеру и т.д.• Наиболее популярный метод• но можем «испортить» выборочное распределение
• Методы импутации на основе DM• Будем рассматривать
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ВОЗМОЖНОСТИ ИНСТРУМЕНТАРИЯ IMPUTE
• Импутация константным значением - все пропуски для
переменной заменяются на:
• Моду (для категориальных) или мат. ожидание,
или пользовательскую константу
или робастные оценки
• Импутация псевдослучайным значением:
• В соответсвии с распределением
• Импутация прогнозом (оценкой)
• Только деревья решений (но можно делать свои модели)
Для неслучайных пропусков – индикаторные переменные
• Одна на все наблюдение
• Своя для каждой переменной
Распределения
Оценки
xi = f(x1, … ,xp)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Sample Explore Modify Model Assess
КОНЦЕПЦИЯ SEMMA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ПРЕОБРАЗОВАНИЕ НЕПРЕРЫВНЫХ
ПЕРЕМЕННЫХ
• Простые преобразования:• Функции от исходной (log, exp, …)
• Нормализация (z-score, центрирование, сведение на [0,1])
• Дискретизация (ранве интервалы, равные группы и т.д.)
• Адаптивные преобразования – перебор простых и выбор лучшего
по некоторому криетрию:• Нормальность распределения результата
• Корреляция с откликом
• Оптимальная дискретизация
A
A
devstand
meanvv
_'
AA
A
minmax
minvv
'
standard regression
true association standard regression
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ОБЪЕДИНЕНИЕ РЕДКИХ ЗНАЧЕНИЙ
КАТЕГОРИАЛЬНОЙ ПЕРЕМЕННОЙ
A
B
C
D
E
F
G
H
I
J
NiLevel
1562
970
223
111
85
50
23
17
12
5
ΣYi
430
432
45
36
23
20
8
5
6
5
pi
0.28
0.45
0.20
0.32
0.27
0.40
0.35
0.29
0.50
1.00
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
DI
0
0
0
0
0
0
0
0
1
DI
0
0
0
0
0
0
0
0
1
БИНАРНОЕ КОДИРОВАНИЕ КАТЕГОРИАЛЬНЫХ
ПЕРЕМЕННЫХ
Level
1 0 0 0 0 0 0 0
DA DB DC DD DE DF DG DH
0 0 0 1 0 0 0 0
0 1 0 0 0 0 0 0
0 0 1 0 0 0 0 0
0 0 0 0 1 0 0 0
0 0 0 0 0 1 0 0
0 0 0 0 0 0 1 0
0 0 0 0 0 0 0 1
0 0 0 0 0 0 0 0
A
B
C
D
E
F
G
H
I
...
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Sample Explore Modify Model Assess
КОНЦЕПЦИЯ SEMMA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
DI
0
0
0
0
0
0
0
0
1
ГРУППИРОВКА ЗНАЧЕНИЙ КАТЕГОРАЛЬНОЙ
ПЕРЕМЕННОЙ (ПО ОТКЛИКУ ИЛИ ЭКСПЕРТНО)
Level
1 0 0 0 0 0 0 0
DABCD DB DC DD DEF DF DGH DH
1 0 0 1 0 0 0 0
1 1 0 0 0 0 0 0
1 0 1 0 0 0 0 0
0 0 0 0 1 0 0 0
0 0 0 0 1 1 0 0
0 0 0 0 0 0 1 0
0 0 0 0 0 0 1 1
0 0 0 0 0 0 0 0
A
B
C
D
E
F
G
H
I
это делать умеет компонента
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS ENTERPRISE MINER
НЕЙРОННЫЕ СЕТИ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
БИОЛОГИЧЕСКАЯ МОТИВАЦИЯ
• Человеческий мозг• Более 10^6 клеток (нейронов)• Каждый нейрон соединен через 10^6 синапсов с другими нейронами• Мозг может: обучаться, адаптироваться, распознавать образы,
осознавать «себя», устойчив к шуму, травмам и ошибкам• Нейрон
• «Входные» отростки (дендриты)• «Выходные» отростки (аксоны)
• Информация (сигнал, «нервный импульс»):• идет от дендритов к аксону через тело (ядро) клетки
• Аксоны соединяются с дендритами (других клеток) через синапсы• Синапсы разные по силе могут быть возбуждены или подавлены
axon
cell body
synapse
nucleus
dendrites
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ИСКУССТВЕННЫЙ НЕЙРОН
• Определение:
• Нелинейная, параметризованная функция с ограниченным
диапазоном значений
• Функции активации:
1
1
0
n
i
ii xwwfy
x1 x2 x3
w0
y
-10 -8 -6 -4 -2 0 2 4 6 8 10-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
-10 -8 -6 -4 -2 0 2 4 6 8 10-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
логистическая
Гиперболический тангенс
)exp(1
1
xy
)exp()exp(
)exp()exp(
xx
xxy
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
НЕЙРОННАЯ СЕТЬ (ИСКУССТВЕННАЯ)
• Математическая модель для решения задач машинного
обучения• Реализуется группой соединенных нейронов для моделирования
нелинейных зависимостей
• Задачи:• Классификации, дискриминации, оценки плотности, регрессии,
группировки и кластеризации, выявления зависимостей, главных
и независимых компонент
• Два типа нейронных сетей:• Сети прямого распространения (Feed forward Neural Networks)
• Рекуррентные нейронные сети (Recurrent Neural Networks )
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
СЕТИ ПРЯМОГО РАСПРОСТРАНЕНИЯ
• Сигнал передается от
входного уровня нейронов к
выходному по «слоям»
• Расчет нелинейных выходных
функций, от входных
переменных каждая, как
композиции алгебраических
функций активации
• Нет задержек, времени, т.к.
нет циклов
x1 x2 xn…..
1 слой
2 слой
Выходной слой
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
РЕКУРРЕНТНЫЕ СЕТИ
• Произвольные топологии с
циклами
• Моделирует системы с
состояниями (динамические
системы)
• Есть понятие «задержки» у
некоторых весов
• Процесс обучения - тяжелый
• Результат не всегда
предсказуемый• Нестабильный (неустойчивый)
сигнал на выходе
• Неожиданное поведение
(осцилляции, хаос, …)
x1 x2
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ (С
УЧИТЕЛЕМ)
• Цель –найти параметры нейронов (веса)
• Процедура:• Дан тренировочный набор – множество пар (объект, отклик)
• Оценить, насколько хорошо сеть аппроксимирует этот набор
• Модифицировать параметры для улучшения аппроксимации
• Нейросети (для обучения с учителем)• универсальные аппроксиматоры (для нерекуррентных сетей)
• Достоинства:• Адаптивность
• Обобщающая способность (сложность определяется в том числе архитектурой
сети)
• Устойчивость к ошибкам – не катастрофическая потеря точности при «порче»
отдельных нейронов и весов, так как информация «распределена» по сети
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ПРАВИЛА ОБУЧЕНИЯ
• Правило Хэбба: сила связи (вес связи) между нейронами i и j должна
модифицироваться согласно формуле::
• Параметр скорости обучения,, контролирует размер шага изменения.
• Чем меньше скорость обучения тем медленней процесс сходится.
• Большой размер шага обучения может привести к расходимости.
• Правило Хэбба не стабильно.
• Более стабильный вариант:
• Называется дельта правио.
• Иногда правило наименьших квадратов, т.к. минимизирует квадратичную
ошибку.
jiij xyw ˆ
jiiij xyyw )ˆ(
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ОБОБЩЕННОЕ ДЕЛЬТА ПРАВИЛО
• Два этапа (для каждого примера):
1. Прямой ход: прогон примера через сеть и расчет ошибки (отклонения
отклика от прогноза).
2. Обратный ход: прогон ошибки обратно – модификация весов по дельта
правилу
3. Пока не сойдется (веса перестанут существенно меняться).
...
x1
xk
Входной слой Скрытый слой Выходной слой
ОткликОшибка
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
УНИВЕРСАЛЬНЫЙ АПРОКСИМАТОР
• Любая ограниченная функция может быть сколь угодно точно приближена
некоторой нейронной сетью с конечным числом нейронов
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
НЕ НУЖНА ЯВНАЯ ФОРМУЛИРОВКА ИСКОМОЙ
ЗАВИСИМТИ
• Не нужно задавать форму зависимости априори (как в регрессиях и опоных
векторах), даже приблизительно «понимать» ее не нужно
• сложнее сеть => сложнее зависимость, быстрее переобучение
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
СКОРОСТЬ
• Нейронные сети - один из самых «быстрых» моделей на этапе
прогнозирования.
• Могут применяться для Больших данных (но мало кто этим пока пользуется).
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
НЕДОСТАТОЧНАЯ ИТЕРПРЕТИРУЕМОСТЬ
• Известная проблема черного ящик.
• Вариант решения - Суррогатные модели
• интерпретируемые модели типа деревьев решений для «приближения» результата
нейросети.
neural network
decision boundary
surrogate
decision boundary
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ВЛИЯНИЕ ШУМА
neural network
regression
neural network
regression
high noise
signal low
noise
signal
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
КРИТИКА
• “It is shown that, at least for the data used in this study, the fit achieved [by
regression] is approximately the same, but the process of configuring and
setting up a neural network for a database marketing application
is not straightforward, and may require extensive experimentation and
computer resources.”
• Zahavi and Levin. 1997. “Applying Neural Computing to Target
• Marketing.” Journal of Direct Marketing.
• А по сути – для задачи, в которой нейронная сеть дает хороший
результат, почти всегда можно найти достаточно точное решение на
основе более простых регрессионных моделей.
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Sample Explore Modify Model Assess
КОНЦЕПЦИЯ SEMMA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ПЕРСЕПТРОН РОЗЕНБЛАТТА
• Rosenblatt (1962)
• Линейное разделение:
• вход :вещественный вектор
• выход :1 или -1
• Решающее правило:
022110 xcxcc
++
+
+
+
+
+
+
+
++ +
+
++
+
+
+++
+
+
++
++
+ ++
+
++
+
+
+
+
1y
1y
0c1c 2c
1x
2x1
22110 xcxccv
)(vsigny
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ЛИНЕЙНЫЙ ПЕРСЕПТРОН
d
i
ii xwwyg1
0
1 )ˆ(
yg ˆ1
x1
xd
w0
wd
w1
...
x2
w2
• Доступные функции комбинации:
• Linear взвешенная сумма(default).
• Additive не взвешенная сумма
• Equal Slopes сумма с одинаковыми
весами (но сдвиг разный)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ФУНКЦИИ АКТИВАЦИИ
Elliott
arctan
logistic
tanh
0
1
10 Net Input
Activation
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
МНОГОСЛОЙНЫЙ ПЕРСЕПТРОН
• Один или более скрытых уровней
• Функции активации сигмоидального
типа1 слой
2 слой
Выходной слой
Input data
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
МНОГОСЛОЙНЫЙ ПЕРСЕПТРОН
h
i
d
j
jijiii xwwgwwyg1 1
00
1 )ˆ(
Скрытый слой
yg ˆ1
x1
xd
w0
w01
w0nwdn
w1n
wd1
w11
w1
wn
......
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ПЕРСЕПТРОН С ПРЯМЫМИ СОЕДИНЕНИЯМИ
Прямые соединения
d
k
kk
h
i
d
j
jijiii xwxwwgwwyg1
11
1 1
00
1 )ˆ(
Скрытый слой
yg ˆ1
x1
xd
w0
w01
w0nwdn
w1n
wd1
w11
w1
wn
......
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ДВА И БОЛЕЕ СКРЫТЫХ СЛОЯ
yg ˆ1
x1
xd
w0
w011
w01d
wdmn
w11m
wdm1
w111
w1
wm
......
w01
w0n
...
w11
wdm
wd1
w1n
m
k
n
j
d
i
iijkjkjjkkkk xwwgwwgwwyg1 1 1
000
1 )( )ˆ(
Вложенные скрытые слои
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ФОРМА СИГМОИДА
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
РАЗЛОЖЕНИЕ ПО БАЗИСУ СИГМОИДАЛЬНЫХ
ФУНКЦИЙ
• Сумма правильного числа правильно вложенных взвешенных сигмоидов
с подобранными коэфициентами может приблизить любую
зависисимость
• Оптимальная архитектура для каждой задачи своя, подбирается
эмпирически
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Архитектура
сети
Тип разделяющего
правила
XOR задача Получаемые
области
Самый общий
возможный вид
Только выход
однослойный
двухслойный
Линейная
гиперплоскость
Выпуклые
открытые
области
Произвольные
области
(сложность
ограничена
числом нейронов )
A
AB
B
A
AB
B
A
AB
B
BA
BA
BA
ТИПЫ РЕШАЕМЫХ ЗАДАЧ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
РАДИАЛЬНО-БАЗИСНЫЕ СЕТИ
• Свойства:• Один скрытый слой нейронов
• Функция активации типа потенциальной (ядерной)
• Зависит от расстояния между входным сигналом и прототипом
RBF слой
выходы
входы
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
• Скрытый слой:• Каждый нейрон связан с прототипом – центр «зоны влияния»
• Обычно гауссова ядерная функция, значение зависит от расстояния, но не
от конкретных значений:
• Выходной слой линейный, реализуемая функция:
• Похоже на SVM, но разница принципиальная:• Прототипы - не опорные вектора на и за границей (как в svm), а центры
областей влияния – центры регионов классов с высокой плотностью
• Обучение – две фазы:• Прототипы и их число, в отличие от svm, обычно выбираются отдельно и
заранее (обычно с помощью EM кластеризации)
• Поиск весов с фиксированными прототипами (алгоритм типа MLP)
K
j jj cxWxs1
)(
2
exp /j j jx c x c
РАДИАЛЬНО-БАЗИСНЫЕ СЕТИ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
• Ordinary Radial Basis Functions (ORBFs)
• Normalized Radial Basis Functions (NRBFs)
РАДИАЛЬНО-БАЗИСНЫЕ СЕТИ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ФОРМА ФУНКЦИИ ГАУССА
2
11
2
0110 exp wxwww
w0+w1
w0-w1
w0
w1 > 0
w1 < 0
w11
x
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
yg ˆ1
x1
xd
w0
w01
w0h
wdn
w1n
wd1
w11
w1
wh
......
h
i j
jijii xwwwwyg1
2
00
1 )( exp)ˆ(
Скрытый слой
ОБЫЧНЫЕ РАДИАЛЬНО-БАЗИСНЫЕ СЕТИ
• Типы параметров обычной RBF сети:
• XRADIAL - высота и ширина ядра
различные у всех нейронов
• EQRADIAL - высота и ширина ядра
одинаковые
• EWRADIAL - одинаковая ширина
• EHRADIAL - одинаковая высота
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ПРОБЛЕМА ЛОКАЛЬНОГО ЭФФЕКТА
• Локальный эффект:
• сложнее функция – больше прототипов
• Проклятие размерности
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
НОРМАЛИЗОВАННЫЕ РАДИАЛЬНО-БАЗИСНЫЕ СЕТИ
yg ˆ1
x1
xd
w0
w01
w0nwdn
w1n
wd1
w11
w1
wn
......
+ …
+ …
h
1i
22
00
1 )()ln( . softmax )ˆ(j
jijiii xwwafwwyg
Скрытый слой
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ПРОБЛЕМА ЛОКАЛЬНЫХ МИНИМУМОВ
))w(xw(ww 2
11
2
0110 exp
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ИНИЦИАЛИЗАЦИЯ
y
x1
xd
tanh
0
0
small random values
tanh
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ПРЕДВАРИТЕЛЬНОЕ ОБУЧЕНИЕ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
КРИТЕРИИ СХОИМОСТИ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
РЕГУЛЯРИЗАЦИЯ
2Objective Function Error Function w
= 0 > 0
0
0
w11
w1
w11
w1
0
0
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
РАННЯЯ ОСТАНОВКА – БОРЬБА С
ПЕРЕОБУЧЕНИЕМ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ОЦЕНКИ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ
)ln()2ln()(
5.0)(
2
ww
yQ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ОТКЛОНЕНИЕ
•
))(ln(ln2)( ww llQ staturated
Распределение Отклонение
ошибки
Normal
Poisson
Gamma
Bernoulli
2))(( )( ww yQ
))(())(/ln( 2 )( www yyyQ
)(/))(())(/ln( 2 )( wwww yyQ
))(1ln()1())(ln( 2)( www yyQ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
РОБАСТНЫЕ ОЦЕНКИ
n
i
i
n
i y
ii zy
Q11
)()(
)(
ww
Normal
Laplace
Huber’s
25.0)( zz
zz )(
25.0)( zz 1zif
50.- )( zz 1zif
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
КОМБИНАЦИИ ФУНКЦИЙ АКТИВАЦИИ И РАСПРЕДЕЛЕНИЯ ОШИБОК
Отклик Функция связи Функуция
активации
Распределение
ошибок
Числа Identity Identity Normal
Identity Identity Huber
Log Exponential Poisson
Log Exponential Gamma
Категории
и порядки
Logit Logistic Bernoulli
Generalized Logit Softmax MBernoulli
Cumulative Logit Logistic (See note.) MBernoulli
Пропорции Logit Logistic Entropy
Generalized Logit Softmax MEntropy
Обратная кумулятивная logit называется Logistic.
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ПОСТАНОВКА ЗАДАЧИ ОПТИМИЗАЦИИ
• Методы первого порядка – градиентные (используют шаг «вдоль»
направления градиента – вектора первых производных)
• выбор шага (константа, дробный выбор, адаптивный, наискорейший)
• выбор напраления (с учетом предыдущих шагов, например сопряженные
градиенты)
• Методы второго порядка – ньютоновские (используют матрицу вторых
производных Гессе для «выбора шага»)
• проблема – вычисление обратной матрицы Гессе на каждом шаге
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ИТЕРАЦИОННЫЕ МЕТОДЫ
)()()1( δww ttt
Градиентный: Ньютона:)()( gδ tt )(-1)()( g]H[δ ttt
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ОБРАТНОЕ РАСПРОСТРАНЕНИЕ ОШИБКИ
(ГРАДИЕНТНЫЙ МЕТОД)
87 iterations
( = 0.5, = 0.9)285 iterations
( = 0.1, = 0.9)
)1()()( δgδ ttt
Недостатки: долго, тяжело «угадать» параметры
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
БЫСТРОЕ ОБРАТНОЕ РАСПРОСТРАНЕНИЕ
ОШИБКИ
38 iterations 57 iterations
)(-11)-()( g)]H~
([δ ttt diag
Приближаем функцию ошибки «параболой», вычисляем
диагональ Гессиана «приближенной» функции
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ЛЕВЕНБЕРГА — МАРКВАРДТА
)()(1)()()()( r'J)IJ'J(δ tttttt
Комбинация градиентного (лямбда велико) и Ньютона (лямбда=0),
Применим для небольшого количества переменных <100
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
КВАЗИ НЬЮТОНОВСКИЕ МЕТОДЫ
11 iterations 8 iterations
)(1)1()1()()( ]EB[δ ttttt g
Приближаем H как сумму B и E, обычно E – единичная
Применим для среднего размера задач <500 переменных
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
МЕТОД СОПРЯЖЕННЫХ ГРАДИЕНТОВ
66 iterations 45 iterations
]δβg[δ )1()1()()()( ttttt
Выбор следующего направления как сопряженного (относительно
матрицы Гессе) к предыдущим направлениям шага. Позволяет не
рассчитывать H на каждом шаге и работает с большими задачами.
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
МЕТОД ДОВЕРИТЕЛЬНЫХ ОБЛАСТЕЙ
(TRUSTED REGIONS)
)(1)()()( g)IH(δ tttt
Работает для небольших задач <40, но зато с сильно «не
квадратичными» целевыми функциями
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
КОМБИНИРОВАННЫЙ (ГРАДИЕНТ+НЬЮТОН)
DOUBLE-DOGLEG
)(
2
)(
1
)(δ t
NewtonQuasi
t
DescentSteepest
t ss
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Sample Explore Modify Model Assess
КОНЦЕПЦИЯ SEMMA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
МЕТОД AUTONEURAL
• Одновременное обучение и подбор архитектуры:
• Train: Тренеровка в рамках найденной арх итектуры.
• Increment: Нейроны добавляются по одному (и не удаляются).
• Search: Нейроны добавляются в оотвесвии с выбранной стратегией.
(default)
• Предварительное обучение (tolerance).
• Low – отключено.
• Medium включено (default).
• High включено «глубокое» (ABSCONV=0.001) предобучение.
• Распределение ошибки:
• Normal (default для числовых откликов), Cauchy, Logistic, Huber, Biweight,
Wave, Gamma, Poisson, Bernoulli, Entropy, MBernoulli (default для
категориальных откликов), Multinomial, Mentropy
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
МЕТОД AUTONEURAL
• Остановка поиска:
• Overfitting переобучение (default).
• Превышено максимальное training time.
• Сходимость training error is < 0.001.
• Архитектуры и стратегии поиска:
• Single Layer
• Block Layers
• Funnel Layers
• Cascade
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ОДНОСЛОЙНАЯ АРИТЕКТУРА
• Нейроны добавляются и удаляются «параллеьно» в один слой.
• Допустимы прямые соединения.
• Автоматически подбирается число нейронов и типы функций активации для
каждого нейрона своя.
)(1 yEg ......
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
БЛОЧНАЯ АРХИТЕКТУРА
• Скрытые нейроны добавляются в новые слои (целым слоем).
• Одиноковое число нейронов в каждом слое.
• Могут быть прямые соединения.
• Автоматически подбирается число слоеви типы функций активации для каждого
слоя своя.
)(1 yEg ...... ...
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
АРХИТЕКТУРА «ВОРОНКА»
• Добавляется по одному нейрону в каждый слой и плюс новый слой из одного
нейрона.
• Могут быть прямые соединения.
• Автоматически подбирается число слоеви типы функций активации для каждого
слоя своя.
)(1 yEg ...
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
КАСКАДНАЯ АРХИТЕКТУРА
• Новые нейроны добавляются какадом.
• Все уже найденные веса не меняются (замороженное обучение).
• Автоматически подбирается число слоеви типы функций активации для каждого
слоя своя.
)(1 yEg
...
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Sample Explore Modify Model Assess
КОНЦЕПЦИЯ SEMMA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SELF-ORGANIZING MAPS (SOM)
• Общая идея нейросетевого подхода (сети Кохонена):
• Базируется на моделировании процесса обучения/запоминания в мозге
• Каждый кластер (нейрон) определяется своим «прототипом» (число
кластеров задается априори)
• Прототипы (нейроны) объединены в виде 2D решетки (сети) с
квадратными (или шестигранными) ячейками
• Структура решетки определяет понятие «окрестности» каждого прототипа
(дискретное расстояние по решетке)
• У прототипа кластера (нейрона) есть векторный «вес» – соответствует
точке в исходном пространстве
• Процесс активации – реакция на образ входного пространства,
определяется мерой сходства между «весом» нейрона и входным
образом (или расстоянием между прототипом кластера и объектом)
• Конкурентное обучение: нейроны соревнуются за право активации
(winner-takes-all, всегда один ближайший - победитель)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ОСНОВНАЯ ЗАДАЧА SOM
Задача:
формирование топографической карты входных образов, в которой
пространственное расположение нейронов решетки (прототипов
кластеров) в некотором смысле отражает статистические
закономерности во входных параметрах.
Или:
построение отображения многомерного исходного пространства на 2х
мерную решетку с сохранением топологических зависимостей
(близкие объекты исходного пространства будут рядом и на решетке).
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ПРОЦЕДУРА РАБОТЫ SOM (ФОРМАЛЬНО)
• Шаг 0. Инициализация:
• структура решетки и число кластеров (нейронов)
• инициализация «весов» прототипов wj(0) (полностью случайно или случайной
выборкой из данных)
• начальные параметры (скорость обучения и размер окрестности)
• Шаг 1. Выборка (итерация t):
• Выбираем случайный x(t) из исходного пространства
• Шаг 2. Конкуренция:
• Находим «лучший» нейрон для активации:
• Шаг 3. Коррекция весов с учетом кооперации:
• Для победителя и соседей по решетке пересчитываем их «вес» – двигаем их
центры к точке x в исходном пространстве
• Уменьшаем скорость обучения и размер окрестности
• Шаг 4. Проверка условий остановки и переход на Шаг 1.
• Стабилизация структуры либо превышение числа выполненных итерации
установленного значения
)()(minarg)( twtxxi jj
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
КОРРЕКЦИЯ ВЕСОВ С УЧЕТОМ КООПЕРАЦИИ
• Перерасчет весов победителя и соседей:
• Стохастический градиентный спуск:
))()(()()()1( )( twxthttwtw jxijjj
скорость обучения размер топологической
окрестности (на решетке!!!!)
)(2
),(exp)(
2
2
)(t
jidth
grid
xij
tt
tt
exp)1(
exp)1(
0
0
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ВИЗУАЛИЗАЦИЯ И ИНТЕРПРЕТАЦИЯ SOM
• Два принципиально разных подхода (много вариантов):
• «Гибкая» сеть
• Когерентные области
• «Гибкая» сеть (компонента не умеет, но «нарисовать» кодом
можно):
• Нейроны – центры кластеров в исходном пространстве.
• Чем они там ближе, тем
короче звено решетки
• Простой пример –
изображения
• В общем случае
спроецировать
тяжело
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ВИЗУАЛИЗАЦИЯ И ИНТЕРПРЕТАЦИЯ SOM
• Когерентные области:
• Близкие кластеры в исходном пространстве – рядом на решетке
(свойство SOM) и одним (или спектрально близким) цветом
• Группы кластеров – категории, области
• Задача группировки и раскраски - отдельная
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ПРИМЕР (КОГЕРЕНТНЫЕ ОБЛАСТИ)
• Входные данные:продукт белки углеводы жиры
Apples 0.4 11.8 0.1
Avocado 1.9 1.9 19.5
Bananas 1.2 23.2 0.3
Beef Steak 20.9 0.0 7.9
Big Mac 13.0 19.0 11.0
Brazil Nuts 15.5 2.9 68.3
Bread 10.5 37.0 3.2
Butter 1.0 0.0 81.0
Cheese 25.0 0.1 34.4
Cheesecake 6.4 28.2 22.7
Cookies 5.7 58.7 29.3
Cornflakes 7.0 84.0 0.9
Eggs 12.5 0.0 10.8
Fried Chicken 17.0 7.0 20.0
Fries 3.0 36.0 13.0
Hot Chocolate 3.8 19.4 10.2
Pepperoni 20.9 5.1 38.3
Pizza 12.5 30.0 11.0
Pork Pie 10.1 27.3 24.2
Potatoes 1.7 16.1 0.3
Rice 6.9 74.0 2.8
Roast Chicken 26.1 0.3 5.8
Sugar 0.0 95.1 0.0
Tuna Steak 25.6 0.0 0.5
SOM(10Х10):
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
СВОЙСТВА SOM
• Аппроксимация входного пространства• «Сжатие» информации, связь с методом LVQ (кластеризация на
основе теории информации, задача - выбрать кодовые слова-кластеры так, чтобы минимизировать возможное искажение)
• Топологический порядок• Рядом в исходном пространстве => рядом на решетке и наоборот
• Соответствие плотности• Области исходного пространства с высокой плотностью отображаются
в большие области на решетке и наоборот
• Выбор признаков:• осуществляет нелинейную дискретную аппроксимацию главных
компонент (точнее главных кривых и плоскостей)
• Недостатки:• Алгоритм простой, но мат. анализу поддается плохо, в общем случае
не доказана ни сходимость, ни даже устойчивость• Много неочевидных, но важных параметров, задаваемых априори,
включая структуру решетки