ベイズ統計 - 九州工業大学lab.cntl.kyutech.ac.jp/~nishida/lecture/psc/no4.pdf観測データ = 1, 2,⋯, が与えられたとき，これに対応する統計モデル（statistical

5. ベイズ統計

第4回確率システム制御特論

1

同時確率（joint probability） (記号：𝑝 𝐴, 𝐵 , 𝑝(𝐴 ∩ 𝐵))𝐴と𝐵が同時に起こる確率．結合確率とも呼ばれる．

周辺確率（marginal probability）(記号：𝑝 𝐴 , 𝑝(𝐵))他の事象に関わりない一つの事象だけの確率．普通の確率．

条件付確率（conditional probability） (記号：𝑝 𝐴|𝐵 )𝐵が起こったという条件のもとで𝐴が起こる確率．

ある標本空間で定義される二つの事象𝐴, 𝐵の確率の定義

定義された確率がもつ性質

独立（independent）𝑝 𝐴, 𝐵 = 𝑝 𝐴 𝑝(𝐵)が成り立つとき，事象𝐴と事象𝐵は独立であると言われる．独立であれば𝑝 𝐴 𝐵 = 𝑝 𝐴 , 𝑝 𝐵 𝐴 = 𝑝(𝐵)が成り立つ．

排反(exclusive)

𝑝 𝐴, 𝐵 = 0が成り立つとき，事象𝐴と事象𝐵は排反であると言われる．排反であれば，𝑝 𝐴 𝐵 = 𝑝(𝐵|𝐴) = 0が成り立つ．

ベイズの定理を導出するために必要な最小限の確率の知識

2

0. ねらい5.1 信号とシステム


事象𝐵1 事象𝐵2 事象𝐵𝑛 周辺確率

事象𝐴1 𝑝(𝐴1, 𝐵1) 𝑝(𝐴1, 𝐵2) ⋯ 𝑝(𝐴1, 𝐵𝑛) 𝑝(𝐴1)

事象𝐴2 𝑝(𝐴2, 𝐵1) 𝑝(𝐴2, 𝐵2) ⋯ 𝑝(𝐴2, 𝐵𝑛) 𝑝(𝐴2)

⋮ ⋮ ⋮ ⋱ ⋮ ⋮

事象𝐴𝑚 𝑝(𝐴𝑚, 𝐵1) 𝑝(𝐴𝑚, 𝐵2) ⋯ 𝑝(𝐴𝑚, 𝐵𝑛) 𝑝(𝐴𝑚)

周辺確率 𝑝(𝐵1) 𝑝(𝐵2) ⋯ 𝑝(𝐵𝑛) = 1

同時確率と周辺確率の関係

同時確率と周辺確率，条件付き確率の関係

𝑝 𝐴1 𝐵1 =𝑝 𝐴1, 𝐵1

𝑝 𝐵1=

1/9

4/9=

1

4

𝑝 𝐴𝑖 𝐵𝑗 =𝑝 𝐴𝑖 , 𝐵𝑗

𝑝 𝐵𝑗

e.g.

3


5.1 確率の初歩

条件付確率の定義式より

𝑝 𝐴 𝐵 =𝑝 𝐴, 𝐵

𝑝 𝐵(1)

𝑝 𝐵 𝐴 =𝑝 𝐴, 𝐵

𝑝 𝐴(2)

ここで，𝑝 𝐴 ≠ 0，𝑝 𝐵 ≠ 0である．式(1)(2)の𝑝 𝐴, 𝐵 について以下のように変形でき，これを乗法定理という．

𝑝 𝐴, 𝐵 = 𝑝 𝐴 𝐵 𝑝 𝐵 = 𝑝 𝐵 𝐴 𝑝 𝐴 (3)

この関係を𝑝 𝐴 𝐵 について変形すると

𝑝 𝐴 𝐵 =𝑝 𝐴 𝑝 𝐵 𝐴

𝑝 𝐵(4)

となり，ベイズの定理が導出できる．

4


5.2 ベイズの定理

𝑝 𝐴 𝐵 = 𝑝 𝐴 ∙𝑝 𝐵 𝐴

𝑝 𝐵

新しい情報である事象𝐵による修正項

𝑝 𝐴「事前確率」もしくは「事前分布」

𝑝 𝐴 𝐵 「事後確率」もしくは「事後分布」

𝐴が原因で発生する事象の確率

𝑝 𝐵 𝐴

𝑝 𝐵

5


5.2 ベイズの定理

観測データ𝒚 = 𝑦 1 , 𝑦 2 ,⋯ , 𝑦 𝑛 が与えられたとき，これに対応する統計モデル（statistical model）

を求める問題を考える．

ベイズ統計とは

与えられた事前分布を観測データによって

𝒮 = 𝑝 𝒚, 𝜽𝒮:観測データを生成したシステムの候補集合

𝜽:未知パラメータ（状態量やシステムパラメータ）

𝑝 𝒚, 𝜽 :観測データの確率分布

𝑝 𝜽 𝒚 = 𝑝 𝜽 ∙𝑝 𝒚 𝜽

𝑝 𝒚

と修正することで事後分布𝑝 𝜽 𝒚 を求め，

これに基づいてより精度の高いシステムモデルの統計的推定を行う方法

6


5.3 ベイズ統計

𝑝 𝜽 𝒚 = 𝑝 𝜽 ∙𝑝 𝒚 𝜽

𝑝 𝒚

𝑝 𝒚 𝜽

𝑝 𝒚観測データによる修正項

𝑝 𝒚 𝜽 観測値の尤度 likelihood

𝑝 𝜽 事前分布 𝑎 𝑝𝑟𝑖𝑜𝑟𝑖 distribution

𝑝 𝜽 𝒚 事後分布(𝑎 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑖 distribution)

通常は分母の𝑝 𝒚 を計算せずに 𝑝 𝜽 𝒚 ∝ 𝑝 𝜽 𝑝 𝒚 𝜽 とする．

ベイズ統計におけるベイズの定理の解釈

7


5.3 ベイズ統計

𝑝 𝜽 𝒚 ∝ 𝑝 𝜽 𝑝 𝒚 𝜽事後分布事前分布尤度（観測データ情報）

ベイズ統計の視点ある問題について，観測データに基づいて事前情報を修正し，より良い事後情報を得ようとしている．

モデリングの視点事前情報は対象の第一原理モデルに相当する．

ベイズ統計は，観測データの収集によってモデリングの精度を向上させるという，グレーボックスモデリングの考え方に対応する．

ベイズ統計の解釈

8


5.3 ベイズ統計

9

離散系の場合

連続系の場合

離散系の場合

連続系の場合

𝑝 𝑥 = 𝑝 𝑥 𝑦 𝑝 𝑦 d𝑦

𝑝 𝑥 =

𝑦

𝑝 𝑥 𝑦 𝑝(𝑦)

𝑝 𝑥 𝑦 =𝑝 𝑦 𝑥 𝑝 𝑥

𝑝 𝑦=

𝑝 𝑥 𝑦 𝑝 𝑥

𝑝 𝑦 𝑥′ 𝑝 𝑥′ d𝑥

𝑝 𝑥 𝑦 =𝑝 𝑦 𝑥 𝑝 𝑥

𝑝 𝑦=

𝑝 𝑥 𝑦 𝑝 𝑥

𝑥′𝑝 𝑦 𝑥′ 𝑝(𝑥′)

全確率の定理

ベイズの定理（連続と離散）


5.3 ベイズ統計

𝜽 = 𝑔 𝒚

推定誤差ベクトル𝒆 ≜ 𝜽 − 𝜽

ノルムにより定義された評価関数𝐿𝑑 𝒆 ≜ 𝒆 𝑑

𝑑 = 1,2,… ,∞

データ取得後の推定誤差の期待値（ベイズリスク）𝑅𝑑 𝜃

パラメータ推定値を与える推定則 𝑔(∙)は非線形関数

ベイズ統計の統計的推測

：ベイズ推定値 𝜽∗ = argmin 𝜃

𝑅𝑑 𝜃

≜ E 𝐿𝑑 𝒆 |𝒚 = −∞

∞

𝐿𝑑 𝒆 𝑝 𝜽 𝒚 d𝜽

𝑥 ≜ E 𝑥 ≜ −∞

∞

𝑥𝑝 𝑥 d𝑥

確率変数𝑥の期待値の定義

10


5.4 推定理論

ベイズリスクの計算には以下の積分が必要．

𝑅𝑑 𝜃 = E 𝑔 𝜽 |𝒚 =

−∞

∞

𝑔 𝜽 𝑝 𝑔 𝜽 |𝒚 d𝜽

= −∞

∞

𝑔 𝜽𝑝 𝑔 𝜽 𝑝 𝒚|𝑔 𝜽

𝑝 𝒚d𝜽

この計算を解析的に行うことは難しいため，確率変数の正規分布を仮定する手法がよく用いられる．

実際には正規性が仮定できない場合が多く，モンテカルロ積分を計算機で行う．（UKFやパーティクルフィルタ）

11


5.4 推定理論

評価関数は様々な形が考えられ，推定問題では重要である．

二乗誤差評価

𝐿2 𝒆 = 𝒆 2

最小二乗推定法およびカルマンフィルタに対応．

絶対誤差評価

𝐿1 𝒆 = 𝒆

ロバスト推定の枠組みで用いられる．

一様誤差評価

𝐿Δ 𝒆 = 0 𝒆 ≤ Δ 21 𝒆 > Δ 2

0-1損失関数とも呼ばれる．

0 𝑒

𝐿2 𝒆

𝑒0

𝐿1 𝒆

0 𝑒

𝐿Δ 𝒆

− Δ 2 Δ 2

1

𝜽∗ = E 𝜽|𝒚 𝜽∗ = 𝜽median 𝜽∗ = 𝜽modemax

𝜃𝑝 𝜽 𝒚

評価関数

ベイズ推定値

12


5.4 推定理論

仮定：期待値演算の線形性と信号と雑音は無相関


5.5 正規分布の場合の最尤推定法（スカラの場合）

𝑦 = 𝑐𝑥 + 𝑤

確率変数𝑥の推定問題について考える．

信号と雑音は無相関と仮定

E[𝑥] = 𝑥

E 𝑥 − 𝑥 2 = 𝜎𝑥2

E 𝑤 = 𝑤

E 𝑤 − 𝑤 2 = 𝜎𝑤2

観測値𝑦も確率変数

𝑦 = E 𝑦 = 𝑐 𝑥 + 𝑤

= 𝑐2𝜎𝑥2 + 𝜎𝑤

2

𝜎𝑦2 = E 𝑦 − 𝑦 2

= E 𝑐 𝑥 − 𝑥 + 𝑤 − 𝑤 2

定義

13

14



𝑝1 𝜉 =d

d𝜉𝑃 𝑥 ≤ 𝜉 𝑝2 𝜂 =

d

d𝜂𝑃 𝑤 ≤ 𝜂

𝑃 𝑥 ≤ 𝜉 ，𝑃 𝑤 ≤ 𝜂 はそれぞれ𝑥と𝑤の累計分布関数

𝑥1の確率密度関数を𝑝1 𝑥1

𝑥2の確率密度関数を𝑝2 𝑥2

𝑧 = 𝑥1 + 𝑥2

𝑥1と𝑥2は独立

確率変数𝑧の確率密度関数

𝑝3 𝑧 = −∞

∞

𝑝1 𝑥1 𝑝2 𝑧 − 𝑥1 d 𝑥1

確率密度関数の定義

例えば）

15



観測値𝑦の確率密度関数

𝑝3 𝜃 =d

d𝜃𝑃 𝑦 ≤ 𝜃 =

−∞

∞𝑝1 𝑐𝜉 𝑝2 𝜃 − 𝑐𝜉 d 𝜉 (5.31)

↪ 𝑝3 𝑦 = −∞

∞𝑝1 𝑐𝑥 𝑝2 𝑦 − 𝑐𝑥 d 𝑥 (5.32)

この積分はどのように行う？

信号𝑥と雑音𝑤がともに正規性であると仮定すると，それらの確率密度関数は

𝑝1 𝑥 =1

2𝜋𝜎𝑥2exp −

𝑐𝑥−𝑐𝑥 2

2𝜎𝑥2(5.33)

𝑝2 𝑤 =1

2𝜋𝜎𝑤2exp −

𝑤−𝑤 2

2𝜎𝑤2 (5.34)

となり，式(5.32)の積分を計算することが可能

信号と雑音の線形変形である観測値も正規性になるので出力𝑦の確率密度関数は，



𝑝3 𝑤 =1

2𝜋𝜎𝑦2exp −

𝑦 − 𝑦 2

2𝜎𝑦2

=1

2𝜋 𝑐2𝜎𝑥2+𝜎𝑤2exp −

𝑦− 𝑐𝑥+𝑤 2

2 𝑐2𝜎𝑥2+𝜎𝑤2 (5.35)

で与えられる．

16

多変数確率変数𝒙 = 𝑥1，𝑥2，⋯𝑥𝑛𝑇の確率密度関数は

𝑝 𝒙 =1

2𝜋 𝑛det𝑷𝑥exp −

1

2𝒙 − 𝒙 𝑇𝑷𝑥

−1 𝒙 − 𝒙 (5.36)

で与えられる．このベクトル値確率変数𝒙を

𝒚 = 𝑨𝒙 + 𝒃 (5.37)

のように線形変換(厳密にはアフィン変換)して𝑦 = 𝑦1，𝑦2，⋯𝑦𝑛𝑇を得る．

このとき，𝒚も正規分布に従い，その平均値ベクトル𝒚と共分散行列𝑷𝒚は，

それぞれ次のように与えられる．

𝒚 = 𝑨𝒙 + 𝒃，𝑷𝑦 = 𝑨𝑷𝑥𝑨𝑇 (5.38)

このように，線形変換によって確率密度関数

𝑝 𝒚 =1

2𝜋 𝑛det𝑷𝑦

exp −1

2𝒚 − 𝒚 𝑇𝑷𝑦

−1 𝒚 − 𝒚 (5.39)

の形は正規分布のままで保存される．



Point5.3 正規性は線形変換で保存される

17



𝜎𝑥−2 𝑥 − 𝑥 2 + 𝜎𝑤

−2 𝑦 − 𝑐𝑥 − 𝑤 2

が得られる．ただし，−1/2の部分は省略した．

= 𝜎𝑥−2 𝑥 − 𝑥 2 + 𝜎𝑤

−2 𝑦 − 𝑦 − 𝑐 𝑥 − 𝑥 2

= 𝜎𝑥−2 + 𝑐2𝜎𝑤

−2 𝑥 − 𝑥 2 − 2𝑐𝜎𝑤−2 𝑥 − 𝑥 𝑦 − 𝑦 + 𝜎𝑤

−2 𝑦 − 𝑦 2 (5.42)

𝑝 𝑥 𝑦 =𝑝1 𝑥 𝑝2 𝑦 𝑥

𝑝3 𝑦(5.40)ベイズの定理

を利用するために，信号𝑥が与えられたときの観測値𝑦の条件付確率密度関数を計算すると，

𝑝2 𝑦 𝑥 =1

2𝜋𝜎𝑤2exp −

𝑦−𝑐𝑥−𝑤 2

2𝜎𝑤2 (5.41)

となる．式(5.40)に式(5.33)，(5.35)，(5.41)を代入し計算する．まず，式(5.40)右辺の分子の指数部の計算を行う．

18

第4章の式(4.10)より，

𝜎𝑥−2 + 𝑐2𝜎𝑤

−2 = 𝜎−2 (5.43)

なので，式(5.42)は

𝜎−2 𝑥 − 𝑥 2 − 2𝑐𝜎𝑤−2 𝑥 − 𝑥 𝑦 − 𝑦 + 𝜎𝑤

−2 𝑦 − 𝑦 2 (5.44)

となる．この式を平方完成すると，

𝜎−2 𝑥 − 𝑥 − 𝑐𝜎2𝜎𝑤−2 𝑦 − 𝑦 2 + 𝜎𝑤

−2 − 𝑐2𝜎2𝜎𝑤−4 𝑦 − 𝑦 2 (5.45)

第4章の式(4.14)で与えた最小二乗推定法

𝑥 = 𝑥 + 𝑐𝜎2𝜎𝑤−2 𝑦 − 𝑦 (5.46)

を用いると，式(5.45)は，

𝜎−2 𝑥 − 𝑥 2 + 𝜎𝑤−2 − 𝑐2𝜎2𝜎𝑤

−4 𝑦 − 𝑦 2 (5.47)となる．



19

式(5.47)の第2項に含まれる𝜎𝑤−2 − 𝑐2𝜎2𝜎𝑤

−4の逆数を逆行列補題を用いて計算すると，

𝜎𝑤−2 − 𝑐2𝜎2𝜎𝑤

−4 −1 = 𝜎𝑤2 + 𝑐2 𝜎−2 − 𝑐2𝜎𝑤

−2 −1

= 𝜎𝑤2 + 𝑐2𝜎𝑥

2 (5.48)

となる．式(5.48)を式(5.47)に代入すると，

𝜎−2 𝑥 − 𝑥 2 + 𝑐2𝜎𝑥2 + 𝜎𝑤

2 −1 𝑦 − 𝑦 2 (5.49)

となる．これがベイズの定理右辺の分子の指数部である．次に，分母の𝑝3 𝑦 の指数部

𝜎𝑦−2 𝑦 − 𝑦 2 = 𝑐2𝜎𝑥

2 + 𝜎𝑤2 𝑦 − 𝑦 2 (5.50)

を考慮すると，式(5.40)右辺全体の指数部は，

−𝑥− 𝑥 2

2𝜎2 (5.51)

となる.



20

式(5.40)右辺の係数部を計算すると

1

2𝜋𝜎𝑥2

1

2𝜋𝜎𝑤2

1

2𝜋𝜎𝑦2

=1

2𝜋

𝜎𝑦2

𝜎𝑥2𝜎𝑤

2 =1

2𝜋𝜎2(5.52)

となり，式(5.51)，(5.52)より，


𝑝3 𝑦=

1

2𝜋𝜎2exp −

𝑥− 𝑥 2

2𝜎2 (5.53)

が得られる．



21

事後確率密度関数


𝑝3 𝑦

を最大にする𝑥 = 𝑥を推定値とする方法を，最尤推定法という．

Point5.5 最尤推定法(ガウス＝マルコフの定理)

信号𝑥と雑音𝑤がともに正規性であれば，観測値𝑦が与えられた時の𝑥の事後確率密度関数は，

𝑝 𝑥 𝑦 =1

2𝜋𝜎2exp −

𝑥− 𝑥 2

2𝜎2 (5.54)

となり，最小二乗推定値

𝑥 = 𝑥 +𝑐𝜎2

𝜎𝑤2𝑦 − 𝑐𝑥 + 𝑤


22

は最尤値に一致する．ただし，

𝜎2 =1

𝜎𝑥−2 + 𝑐2𝜎𝑤−2


Documents

ベイズ統計 - 九州工業大学lab.cntl.kyutech.ac.jp/~nishida/lecture/psc/no4.pdf観測データ = 1, 2,⋯, が与えられたとき，これに対応する統計モデル（statistical