Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
スケジュール1. 情報理論の概要・情報の表現 4/14 done2. 確率の基礎 4/21 一部持ち越し3. 情報量(エントロピー、ダイバージェンス、相互情報量) 4/284. 情報量の性質 5/2 (5/4祝日)5. 演習 5/11 (羽石不在)6. 情報源のモデルとエントロピーレート 5/197. 情報源の符号化 5/268. 中間テスト 6/2 (羽石不在)9. 相互情報量(1)基礎 6/910.相互情報量(2)応用 6/1611.演習 6/23 (羽石不在?)12.情報量統計学(1)最尤法 6/3013.情報量統計学(2)AIC 7/714.情報理論の応用(1)ベイズ推定 7/1415.情報理論の応用(2)パターン認識 7/2116.期末テスト 7/28
1
情報量情報量の定義:
pf 2log−=
⇔確率が低ければ、情報量は大きい。
4log161
3log81
2log41
1log21
2
2
2
2
=−⇒=
=−⇒=
=−⇒=
=−⇒=
pp
pp
pp
pp
確率 情報量
p
f
確率
情報量
10
2
エントロピー:平均情報量エントロピー(平均情報量):
∑∑∑===
−=⋅−==n
kkkk
n
kk
n
kkk pppppfH
12
12
1log)log(
41,
41,
41,
41
4321 ==== pppp
次の2つの確率分布についてそれぞれエントロピーを求めよ。
単位:ビット(bit)
81,
81,
41,
21
4321 ==== pppp1) 2)
演習3-1
3
の導出00log0 2 =
)1( loglim0
xxvx +→
= が0になることを以下のように導く(logの底は2)
ux
xu 11: =⇔= とおく。このとき ∞→⇔+→ ux 0
uuu
uuuv
uuu
loglim)log(1
lim1log1
lim∞→∞→∞→
−=−==
ここで uuy y =⇔= 2log とおくと ∞→⇔∞→ yu
02lim
loglim =−=−=
∞→∞→y
uu
yu
uv
02lim
loglimloglim
0=−=−==
∞→∞→+→y
uux
yu
uxxv
したがって
となる。このとき式(1)は
𝑓𝑓 𝑦𝑦 = 𝑦𝑦と𝑓𝑓 𝑦𝑦 = 2𝑦𝑦とを比べると後者の方が増加が速いから。
4
エントロピーの非負性
0)log()(1
2 ≥−==∑=
n
kkk ppXH
nkpk ,...,2,1,10 =≤≤ より 0log2 ≥− kk pp が成り立つ。よって、ただちに
が成り立つ。
5
2元エントロピー関数
標本空間𝐴𝐴 = {0,1}において、値0の生起確率:𝑝𝑝値1の生起確率:1 − 𝑝𝑝
このときエントロピーは
)1log()1(log)( ppppph −−−−=
と書ける。これを2元エントロピーという。
p
)( ph
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.2 0.4 0.6 0.8 1
6
同時確率
確率変数が2つある場合を考える。例1)サイコロを2回振る。1回めの目を𝑥𝑥,2回めの目を𝑦𝑦とする。このとき、(𝑥𝑥, 𝑦𝑦)が発生する確率𝑝𝑝(𝑥𝑥, 𝑦𝑦)を同時確率という。この場合の同時確率は以下のように行列で表すことができる。
36/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/136/1
x
y
654321
1 2 3 4 5 6
7
同時確率例2)サイコロを2回振る。1回めに出る目を確率変数𝑥𝑥とする。一方2つめの確率変数は以下のように与える。すなわち1回めの目が奇数だった場合は2回めの目をそのまま確率変数𝑦𝑦とする1回めの目が偶数𝑚𝑚だった場合は、2回めの目が3以下のとき 𝑦𝑦 = 𝑚𝑚 − 12回めの目が3を超えるとき 𝑦𝑦 = 𝑚𝑚
x
y
654321
1 2 3 4 5 6
6×6の同時確率の配列を埋めよ
演習3-2
8
同時確率と周辺確率の関係
663161
3151
3141
3131
262524232221
161514131211
ppppppppp
pppppppppppp
x
y
654321
1 2 3 4 5 6
AxyxPxPBy
X ∈−= ∑∈
,),()(
∑∑==
=====6
11
6
1),1()1(
jj
yX pyYXPXP
∑∑==
=====6
11
6
1),1()1(
jj
yX pyYXPXP
∑∑==
=====6
12
6
1)2,()2(
ii
xY pYxXPYP
周辺確率
同時確率
行内の和をとる
列内の和をとる
周辺確率同時確率
9
周辺確率:演習
先の演習3-2の周辺確率を求めよ。
演習3-3
10
条件付確率
∑==
yyxp
yxPxPyxPxyP
),(),(
)(),()|(条件付き確率
同時確率
周辺確率
666261
5251
4241
3231
262524232221
161514131211
ppppppppp
pppppppppppp
x
y
654321
1 2 3 4 5 6周辺確率
同時確率
666261
5251
4241
3231
262524232221
161514131211
pCppCpppppp
pppppppppppp
C
CC
CC
CC
CCCCCC
CCCCCC
x
y
654321
1 2 3 4 5 6条件
∑=
==6
11)1(
jjpXP
)|( xyP
)1(12
12 ==
XPppC
条件付き確率
11
条件付き確率:演習
x
y
654321
1 2 3 4 5 6
先の演習3-2の条件付き確率𝑃𝑃(𝑥𝑥|𝑦𝑦)を求めよ
6×6の条件付き確率の配列を埋めよ
演習3-4
12
同時エントロピー直積𝐴𝐴 × 𝐵𝐵を標本空間とする確率変数(𝑋𝑋,𝑌𝑌)が同時確率𝑃𝑃(𝑥𝑥,𝑦𝑦)を有するとき、この確率変数の同時エントロピーを以下の式で定義する。
∑∑∈ ∈
−=Ax By
yxPyxPYXH ),(log),(),(
演習3-5
直積演習3-2の同時確率について、同時エントロピーを計算せよ。計算手段は何でもよい。たとえばExcelでもよい。
13
条件付エントロピー直積𝐴𝐴 × 𝐵𝐵を標本空間とする確率変数(𝑋𝑋,𝑌𝑌)が同時確率𝑃𝑃(𝑥𝑥,𝑦𝑦)を有するとき、𝑋𝑋に対する𝑌𝑌の条件付エントロピー𝐻𝐻(𝑌𝑌|𝑋𝑋)を以下の式で定義する。
∑∑∈ ∈
−=Ax By
xyPyxPXYH )|(log),()|(
演習3-6
直積演習3-2の同時確率について、条件付きエントロピーを計算せよ。計算手段は何でもよい。たとえばExcelでもよい。
・・・
・・・
)|( xyP),( yxP
・・・
・・・
対応する2つの確率の積和演算
x
y
x
y
Xを知ったときのYのあいまいさを表す
計算方法
14
条件付エントロピー
∑
∑ ∑
∑∑
∑∑
∈
∈ ∈
∈ ∈
∈ ∈
==
−=
−=
−=
Ax
Ax By
Ax By
Ax By
xXYHxP
xyPxyPxP
xyPxyPxP
xyPyxPXYH
)|()(
))|(log)|()((
)|(log)|()(
)|(log),()|(
𝑋𝑋 = 𝑥𝑥が与えられたときの条件付き確率𝑃𝑃(𝑦𝑦|𝑥𝑥)のエントロピーを𝐻𝐻(𝑌𝑌|𝑋𝑋 = 𝑥𝑥)と書けば、
∑∈
−==By
xyPxyPxXYH )|(log)|()|(
と書ける。一方、前ページに定義された条件付きエントロピーは以下のように式変形できる。
すなわち、 𝑋𝑋に対する𝑌𝑌の条件付エントロピー𝐻𝐻(𝑌𝑌|𝑋𝑋)は、 𝑋𝑋 = 𝑥𝑥を知ったときのYの条件付きエントロピー𝐻𝐻(𝑌𝑌|𝑋𝑋 = 𝑥𝑥)の𝑋𝑋に関する平均とも考えられる。
)|( xyP
・・・
・・・
x
y)1|( =XYH
654321
・・・
)2|( =XYH)3|( =XYH
15
条件付エントロピー
∑∑∈ ∈
−=Ax By
xyPyxPXYH )|(log),()|(
∑∑∈ ∈
−=Ax By
yxPyxPYXH )|(log),()|(
𝑋𝑋と𝑌𝑌を入れ替えれば以下も表現もできる。
𝑋𝑋に対する𝑌𝑌の条件付エントロピー𝐻𝐻(𝑌𝑌|𝑋𝑋)
𝑌𝑌に対する𝑋𝑋の条件付エントロピー𝐻𝐻(𝑋𝑋|𝑌𝑌)
16
Kullback-Leibler(KL)ダイバージェンス標本空間A上に値をとる2つの確率分布P、Qに対して、KLダイバージェンス(またはKL情報量、または相対エントロピー)𝐷𝐷(𝑃𝑃 ∥ 𝑄𝑄)を以下の式で定義する。
∑∈
−=Ax xQ
pPxPQPD)()(log)()||(
∑∈
−−=Ax
xQxPxPQPD ))(log)()(log()||(
これより、2つの情報量の差の平均値と解釈できる。
KL情報量は以下のように書くこともできる。
17
相互情報量同時確率𝑃𝑃(𝑥𝑥,𝑦𝑦)を有する2つの確率変数X,Yを考える。このとき相互情報量𝐼𝐼(𝑋𝑋;𝑌𝑌)を以下の式で定義する。
∑∑∈ ∈
−=Ax By YX yPxP
yxPyxPYXI)()(
),(log),();(
∑∈
−−=Ax
xQxPxPQPD ))(log)()(log()||(
ただし、𝑃𝑃𝑋𝑋(𝑥𝑥)と𝑃𝑃𝑌𝑌(𝑦𝑦)は周辺確率を表す。
18