Uvod v Bayesovsko statistiko in MCMC metode

Uvod v Bayesovo statistiko in MCMC metode, Rodica junij 2005 - p. 1/62

Uvod v Bayesovo statistiko inMCMC metode

Gregor [email protected]

Tina [email protected]

UL, Biotehniška fakulteta, Oddelek za zootehniko


Pregledn Pristopi k statisticnem sklepanju

n Bayesov izrek

n Prikaz na primeruu frekvencisticen pristopu Bayesov pristopu MCMC algoritmiu apriorna porazdelitev

n Programska oprema


Madrid


Opozorilon zgolj uvod s prikazom

n kaj je boljše?

n problem s terminologijo


Pristopi k statisticnem sklepanjun “pojav” p(θ, y): parametri θ, podatki yn klasicna oz. frekvencisticna statistika

u podatki: nakljucniu parametri: sistematskiu sklep: ce bomo poskus ponovili velikokrat, bodo ocene

parametrov porazdeljene okoli prave vrednostin verjetje (ang. likelihood)

u zbrani podatki so najverjetneje posledica nakljucnegaprocesa s parametri, ki jih ocenimo po tej metodi

n Bayesova statistika

u podatki: sistematskiu parametri: nakljucniu sklep: verjetnost (porazdelitev) parametrov glede na

zbrane podatke




parametrov porazdeljene okoli prave vrednosti

n verjetje (ang. likelihood)u zbrani podatki so najverjetneje posledica nakljucnega

procesa s parametri, ki jih ocenimo po tej metodi

n Bayesova statistika

u podatki: sistematskiu parametri: nakljucniu sklep: verjetnost (porazdelitev) parametrov glede na

zbrane podatke




parametrov porazdeljene okoli prave vrednosti

n verjetje (ang. likelihood)u zbrani podatki so najverjetneje posledica nakljucnega

procesa s parametri, ki jih ocenimo po tej metodi

n Bayesova statistikau podatki: sistematskiu parametri: nakljucniu sklep: verjetnost (porazdelitev) parametrov glede na

zbrane podatke




parametrov porazdeljene okoli prave vrednostin verjetje (ang. likelihood)

u zbrani podatki so najverjetneje posledica nakljucnegaprocesa s parametri, ki jih ocenimo po tej metodi

n Bayesova statistikau podatki: sistematskiu parametri: nakljucniu sklep: verjetnost (porazdelitev) parametrov glede na

zbrane podatke


Bayesova statistikan pred ∼25 leti prakticno “neuporabna”n reinkarnacija z MCMC metodamin vse vecji pomen

u prilagodljiva in uporabna na vec podrocjihu omogoca uporabo “kompleksnih” modelovu veliko število parametrov


Bayesova statistikan pred ∼25 leti prakticno “neuporabna”n reinkarnacija z MCMC metodamin vse vecji pomen

u prilagodljiva in uporabna na vec podrocjihu omogoca uporabo “kompleksnih” modelovu veliko število parametrov

Uporabno za biološke vede!


“Bayes” v zadnjih ∼25 letih v PubMed

1980 1985 1990 1995 2000 2005

5020

050

020

0010

000

Leto

Stev

ilo za

detko

v v P

ubMe

d (log

)

BayesVerjetjeANOVA


Thomas Bayes


Bayesov izrekn Thomas Bayes definiral pogojno verjetnost kot

P (A|B) =P (A ∩B)

P (B)

n skupna verjetnost

P (A ∩B) = P (A|B)P (B)

= P (B|A)P (A)

n Bayesov izrek

P (A|B) =P (B|A)P (A)

P (B)

n velja tudi za vec izidov (k) za dogodek

P (Aj |Bi) =P (Bi|Aj)P (Aj)

∑kj=1 P (Bi|Aj)P (Aj)


PrimerPogostost bolezni v populaciji znaša 0.008. Obstaja test z:n lažnim pozitivnim rezultatom v 10 % inn lažnim negativnim rezultatom v 5 %.

Kolikšna je verjetnost, da ima nakljucni posameznik tobolezen, ce je test pozitiven?

Dogodki:T - rezultat testa (-, +)B - prisotnost bolezni (ne, da)

“Veljavnost” testa:

P (T = +|B = ne) = 0.10, P (T = −|B = ne) = 0.90

P (T = −|B = da) = 0.05, P (T = +|B = da) = 0.95


Primer II.Predhodno, brez testa:

P (B = da) = 0.008

Bayesov izrek združi predhodno znanje in rezultate testa -Bayesovo ucenje:

P (B = da|T = +) =

=P (T = +|B = da)P (B = da)

P (T = +|B = da)P (B = da) + P (T = +|B = ne)P (B = ne)

=(0.95)(0.008)

(0.95)(0.008) + (0.1)(0.992)= 0.0712

Še en test:

P (B = da|T2 = +) = 0.4212 P (B = da|T2 = −) = 0.0084


Bayesov izrek in statistikan “parametri” θj, podatki yi



p(θj |yi) =p(yi|θj)p(θj)

∫

p(yi|θk)p(θk)dθkk ≥ j

=p(yi|θj)p(θj)

p(yi),

n p(yi) ni odvisen od θj - konstanta za normalizacijo

p(θj |yi) ∝ p(yi|θj)p(θj)∝ L(θj |yi)p(θj)

posteriorna verjetnost ∝ verjetje× apriorna verjetnost


Bayesov izrek in statistikan “parametri” θj, podatki yi



p(θj |yi) =p(yi|θj)p(θj)

∫

p(yi|θk)p(θk)dθkk ≥ j

=p(yi|θj)p(θj)

p(yi),

n p(yi) ni odvisen od θj - konstanta za normalizacijo

p(θj |yi) ∝ p(yi|θj)p(θj)∝ L(θj |yi)p(θj)

posteriorna verjetnost ∝ verjetje× apriorna verjetnost


Prikaz na primeru


Frekvencisticen pristopn vzorec podatkov

yi ∼ N(

µ, σ2)

µ = 10, σ2 = 9, i = 1, 2, . . . , 10

n povprecje in varianca

µ =

∑ni=1 yin

= 10.22

µ ∼ Stn−1

(

µ, σ2)

8.18 ≤ µ ≤ 12.27

σ2 =

∑ni=1

(

yi − µ)2

n− 1= 8.19

σ2 ∼n∑

i=1

(yi − µ)2/χ2n−1

3.87 ≤ σ2 ≤ 27.29


"Konceptualne" ponovitve

6 8 10 12 14

010

2030

4050

Parameter µ

Pono

vitev

[ [[[[[[[

[ [[ [[ [[ [[ [ [[[[ [[

[ [[[ [[[[

[ [[[ [[[[[ [[[ [[

[ [[[

] ] ]]]]]] ]] ]]

] ]]]] ] ]] ]] ] ]] ]]] ] ]]] ] ]]]

]] ] ]]]] ]]

]] ]] ]

0 20 40 60

010

2030

4050

Parameter σ2

Pono

vitev

[[[[[[[[

[[ [[[[[[

[[[[[

[[[[[

[[[[

[[[[[[[[

[[[[[

[[[[[[ [

] ] ] ]]] ]] ]] ]]]] ] ]] ] ]]] ] ] ]]]] ]] ] ]] ] ] ] ]]] ]]

]]] ]] ]] ]] ]


Bayesov pristopn vzorec podatkov

yi ∼ N(

µ, σ2)

µ = 10, σ2 = 9, i = 1, 2, . . . , 10

n Bayesov izrekp(θj |yi) ∝ p(yi|θj)p(θj)θ1 = µ, θ2 = σ2

n enakomerna porazdelitev za p(θj) - “neinformativno”apriorno znanje

p(θj) = konst.

p(θj |yi) ∝ p(yi|θj)∝ L(θj |yi)∝ L(µ, σ2|yi)


Algebran verjetje

L(µ, σ2|yi) =n∏

i=1

1√2πσ2

exp

{

−(yi − µ)2

2σ2

}

n odstranimo konstanto 1/√2π, preuredimo in dobimo

skupno (ang. joint) posteriorno porazdelitev

L(µ, σ2|yi) ∝ (σ2)−n

2 exp

{

−∑n

i=1(yi − µ)2

2σ2

}


Skupna porazdelitev

mu

sigma^2

Porazdelitev (%)


Skupna porazdelitev II.

7 8 9 10 11 12 13

510

1520

2530

Parameter µ

Param

eter σ

2


Robna porazdelitevn zanima nas robna (ang. marginal) porazdelitev parametrovn integriramo cez ostale parametre

p(µ|yi) =∫

σ2

p(µ, σ2|yi)dσ2

µ|yi ∼ Stn−3

(

y,

∑ni=1(yi − y)2

n(n− 5)

)

p(σ2|yi) =∫

µp(µ, σ2|yi)dµ

σ2|yi ∼n∑

i=1

(yi − y)2/χ2n−3


Robna porazdelitevn zanima nas robna (ang. marginal) porazdelitev parametrovn integriramo cez ostale parametre

p(µ|yi) =∫

σ2

p(µ, σ2|yi)dσ2

µ|yi ∼ Stn−3

(

y,

∑ni=1(yi − y)2

n(n− 5)

)

p(σ2|yi) =∫

µp(µ, σ2|yi)dµ

σ2|yi ∼n∑

i=1

(yi − y)2/χ2n−3


Robna porazdelitev II.

7 8 9 10 11 12 13

0.00.1

0.20.3

0.4

Parameter µ

Poraz

delite

v (%)

0 5 10 15 20 25 30

0.00

0.04

0.08

Parameter σ2

Poraz

delite

v (%)


Realnost1. ne moremo izvrednotiti skupne porazdelitve v vsaki tocki2. vec parametrov ⇒ vecdimenzionalni integrali za robne

porazdelitve :(

3. apriorna porazdelitev lahko še poveca kompleksnost

n takšnih problemov ne moremo reševati analiticnon pomagamo si lahko z MCMC metodami - stohasticen nacin


Monte Carlon z vzorcenjem iz gostote porazdelitvene funkcije p(y) lahko

izvemo “vse” o nakljucni spremenljivki yn napaka je odvisna od števila vzorcevn razvoj racunalniške opremen Monte Carlo + markovske verige = MCMC

n MCMC algoritmiu Metropolis: Metropolis in sod. (1953)u Metropolis-Hastings: Hastings (1970)u Gibbs: Geman in Geman (1984)u . . .

n MCMC 6= Bayesova statistika


Monte Carlon z vzorcenjem iz gostote porazdelitvene funkcije p(y) lahko

izvemo “vse” o nakljucni spremenljivki yn napaka je odvisna od števila vzorcevn razvoj racunalniške opremen Monte Carlo + markovske verige = MCMC

n MCMC algoritmiu Metropolis: Metropolis in sod. (1953)u Metropolis-Hastings: Hastings (1970)u Gibbs: Geman in Geman (1984)u . . .

n MCMC 6= Bayesova statistika


Metropolisov algoritemVzorcenje iz dolocene funkcije/porazdelitve:n 0. zacetno stanjen 1. izvrednoti vrednost f0

n 2. premakni se drugam na osnovi nakljucne vrednosti izporazdelitve predlogova

n 3. izvrednoti vrednost f1

n 4. f1/fo vecje ali enako U(0, 1)?

u DA: sprejmi f1, f0 = f1 in nadaljuj z 2.

u NE: sprejmi f0, f0 = f0 in nadaljuj z 2.

auniformna, normalna, ... porazdelitev


“Metropolis na delu”

−4 −2 0 2 4

0.00.1

0.20.3

0.4

Vrednost Z

Poraz

delite

v (%)



−4 −2 0 2 4

0.00.1

0.20.3

0.4

Vrednost Z

Poraz

delite

v (%)

f0

f0 = 0.352



−4 −2 0 2 4

0.00.1

0.20.3

0.4

Vrednost Z

Poraz

delite

v (%)

f0

f0 = 0.352

f1

f1 = 0.055



−4 −2 0 2 4

0.00.1

0.20.3

0.4

Vrednost Z

Poraz

delite

v (%)

f0

f0 = 0.352

f1

f1 = 0.055

f1 ÷ f0 = 0.156



−4 −2 0 2 4

0.00.1

0.20.3

0.4

Vrednost Z

Poraz

delite

v (%)

f0

f0 = 0.352

f1

f1 = 0.055

f1 ÷ f0 = 0.156

U = 0.438



−4 −2 0 2 4

0.00.1

0.20.3

0.4

Vrednost Z

Poraz

delite

v (%)

f0

f0 = 0.352

f1

f1 = 0.055

f1 ÷ f0 = 0.156

U = 0.438

f1 ÷ f0 < U

Ne sprejmemo!



−0.5 0.5 1.0 1.5

0.00.2

0.40.6

0.8N = 10

Vrednost Z

Poraz

delite

v (%)

−3 −1 1 2 3

0.00

0.10

0.20

0.30

N = 100

Vrednost Z

Poraz

delite

v (%)

−3 −1 1 2 3

0.00.1

0.20.3

N = 1000

Vrednost Z

Poraz

delite

v (%)

−4 −2 0 2

0.00.2

0.4

N = 10000

Vrednost Z

Poraz

delite

v (%)


Metropolis za primer1. ne moremo izvrednotiti skupne porazdelitve v vsaki tocki

p(µ, σ2|yi)n poizkusimo z “Metropolisom”

u funkcija je p(µ, σ2|yi)u uniformna porazdelitev predlogov za µ in σ2





µ1, σ21 = (8.80, 24.04)





µ1, σ21 = (8.80, 24.04)

µ2, σ22 = (8.87, 24.04)





µ1, σ21 = (8.80, 24.04)

µ2, σ22 = (8.87, 24.04)

µ3, σ23 = (8.67, 24.37)

µ4, σ24 = (8.73, 24.37)

µ5, σ25 = (8.80, 24.37)

. . .


Metropolis za primer - potek

7 8 9 10 11 12 13

05

1015

2025

30

Parameter µ

Param

eter σ

2


Metropolis za primer - potek

7 8 9 11 13

05

1525

Parameter µ

Param

eter σ

2

7 8 9 11 13

05

1525

Parameter µ

Param

eter σ

2

7 8 9 11 13

05

1525

Parameter µ

Param

eter σ

2


Metropolis za primer N = 106

mu

sigma^2

Porazdelitev (%)


Robna porazdelitev

7 8 9 11 13

0.00.1

0.20.3

0.4

Parameter µ

Poraz

delite

v (%)

FunkcijaMetropolis

0 5 15 25

0.00

0.04

0.08

Parameter σ2

Poraz

delite

v (%)

FunkcijaMetropolis

7 8 9 11 13

−0.03

0.00

0.02

Parameter µ

Poraz

delite

v (%)

Razlika

0 5 15 25

−0.00

20.0

02

Parameter σ2

Poraz

delite

v (%)

Razlika


Pogojna porazdelitev1. ne moremo izvrednotiti skupne porazdelitve v vsaki tocki

p(µ, σ2|yi)

n vzorcenje iz vecrazsežnih p. možno, a neucinkovito :(

N = 106!

n uporabimo pogojno (ang. conditional) p. parametra gledena ostale parametre in podatke

p(µ|σ2, yi)

p(σ2|µ, yi)

n vzorcenje iz enorazsežne p. je bolj enostavno in ucinkovito



p(µ, σ2|yi)


N = 106!


p(µ|σ2, yi)

p(σ2|µ, yi)




p(µ, σ2|yi)


N = 106!


p(µ|σ2, yi)

p(σ2|µ, yi)


2. vec parametrov ⇒ vecdimenzionalni integrali za robneporazdelitve :(


Pogojna porazdelitev II.Algebra . . .n pogojna p. za µ

µ|σ2, yi ∼ N(

y, σ2/n)

n pogojna p. za σ2

σ2|µ, yi ∼n∑

i=1

(yi − y)2/χ2(n−2)/2


p(µ|σ2, yi)

7 8 9 10 12

510

2030

Parameter µ

Param

eter σ

2

7 8 9 10 12

0.00.1

0.20.3

0.40.5

Parameter µ

Poraz

delite

v (%)

σ2 = 7.5

7 8 9 10 12

0.00.1

0.20.3

0.40.5

Parameter µ

Poraz

delite

v (%)

σ2 = 14.0

7 8 9 10 12

0.00.1

0.20.3

0.40.5

Parameter µ

Poraz

delite

v (%)

σ2 = 30.0


Pogojna porazdelitev III.n pogojno p. za µ lahko dobimo, ce poznamo robno p. za σ2

p(µ|σ2, y)⇐⇒ p(σ2)

n robno p. za σ2 lahko dobimo iz pogojne p. za σ2, cepoznamo robno p. za µ

p(σ2|y) =∫

µp(µ, σ2|y)dµ =

∫

µp(σ2|µ, y)p(µ)dµ

n robno p. za µ lahko dobimo iz pogojne p. za µ, ce poznamorobno p. za σ2

p(µ|y) =∫

σ2

p(µ, σ2|y)dσ2 =

∫

σ2

p(µ|σ2, y)p(σ2)dσ2



p(µ|σ2, y)⇐⇒ p(σ2)


p(σ2|y) =∫

µp(µ, σ2|y)dµ =

∫



p(µ|y) =∫

σ2

p(µ, σ2|y)dσ2 =

∫

σ2




p(µ|σ2, y)⇐⇒ p(σ2)


p(σ2|y) =∫

µp(µ, σ2|y)dµ =

∫



p(µ|y) =∫

σ2

p(µ, σ2|y)dσ2 =

∫

σ2




p(µ|σ2, y)⇐⇒ p(σ2)


p(σ2|y) =∫

µp(µ, σ2|y)dµ =

∫



p(µ|y) =∫

σ2

p(µ, σ2|y)dσ2 =

∫

σ2


Problem “kokoš - jajce”


Pogojna porazdelitev IV.n problem kokoš - jajce oz. pogojna - robna porazdelitev

“obidemo” z MCMCn ko vzorcimo iz pogojne p. za µ, predvidevamo, da

poznamo robno p. za σ2 (na podlagi vzorcenja)u p(µ1|σ2

0, yi)

u p(σ21|µ1, yi)

u p(µ2|σ21, yi)

u p(σ22|µ2, yi)

u p(µ3|σ22, yi)

u . . .n neznane porazdelitve –> Metropolisov algoritemn standardne porazdelitve –> Gibbsov algoritem





0, yi)u p(σ2

1|µ1, yi)

u p(µ2|σ21, yi)

u p(σ22|µ2, yi)

u p(µ3|σ22, yi)






0, yi)u p(σ2

1|µ1, yi)u p(µ2|σ2

1, yi)

u p(σ22|µ2, yi)

u p(µ3|σ22, yi)






0, yi)u p(σ2

1|µ1, yi)u p(µ2|σ2

1, yi)u p(σ2

2|µ2, yi)

u p(µ3|σ22, yi)






0, yi)u p(σ2

1|µ1, yi)u p(µ2|σ2

1, yi)u p(σ2

2|µ2, yi)u p(µ3|σ2

2, yi)u . . .

n neznane porazdelitve –> Metropolisov algoritemn standardne porazdelitve –> Gibbsov algoritem





0, yi)u p(σ2

1|µ1, yi)u p(µ2|σ2

1, yi)u p(σ2

2|µ2, yi)u p(µ3|σ2

2, yi)u . . .

n neznane porazdelitve –> Metropolisov algoritem

n standardne porazdelitve –> Gibbsov algoritem





0, yi)u p(σ2

1|µ1, yi)u p(µ2|σ2

1, yi)u p(σ2

2|µ2, yi)u p(µ3|σ2

2, yi)u . . .

n neznane porazdelitve –> Metropolisov algoritemn standardne porazdelitve –> Gibbsov algoritem


MCMC algoritmin veliko algoritmov

u Metropolis-Hastings, Gibbs, Reversible Jump MCMC,Rejection sampling, Adaptive Rejection sampling,Inversion sampling, Slice sampling, SimulatedAnnealing, . . .

n veliko “variacij na isto temo”u Metropolis-Hastings znotraj Gibbsovega algoritmau sistematski ali nakljucni red posodabljanja parametrovu vec parametrov hkrati (ang. blocking)u . . .


Gibbsov algoritemn vzorcenje vecrazsežnih porazdelitev iz pogojnih

enorazsežnih porazdelitev

µ|σ2, yi ∼ N(

y, σ2/n)

µ0 = 5.00

µ1|σ20 = 0.50, yi = 10.22

µ2|σ21 = 18.85, yi = 9.50

µ3|σ22 = 24.21, yi = 13.50

µ4|σ23 = 14.73, yi = 11.66

µ5|σ24 = 11.46, yi = 9.63

µ6|σ25 = 11.13, yi = 10.19

. . .

σ2|µ, yi ∼∑n

i=1(yi − y)2/χ2n−2

σ20 = 0.50

σ21|µ1 = 10.22, yi = 18.85

σ22|µ2 = 9.50, yi = 24.21

σ23|µ3 = 13.50, yi = 14.73

σ24|µ4 = 11.66, yi = 11.46

σ25|µ5 = 9.63, yi = 11.13

σ26|µ6 = 10.19, yi = 7.28

. . .




µ|σ2, yi ∼ N(

y, σ2/n)

µ0 = 5.00

µ1|σ20 = 0.50, yi = 10.22

µ2|σ21 = 18.85, yi = 9.50

µ3|σ22 = 24.21, yi = 13.50

µ4|σ23 = 14.73, yi = 11.66

µ5|σ24 = 11.46, yi = 9.63

µ6|σ25 = 11.13, yi = 10.19

. . .

σ2|µ, yi ∼∑n

i=1(yi − y)2/χ2n−2

σ20 = 0.50

σ21|µ1 = 10.22, yi = 18.85

σ22|µ2 = 9.50, yi = 24.21

σ23|µ3 = 13.50, yi = 14.73

σ24|µ4 = 11.66, yi = 11.46

σ25|µ5 = 9.63, yi = 11.13

σ26|µ6 = 10.19, yi = 7.28

. . .




µ|σ2, yi ∼ N(

y, σ2/n)

µ0 = 5.00

µ1|σ20 = 0.50, yi = 10.22

µ2|σ21 = 18.85, yi = 9.50

µ3|σ22 = 24.21, yi = 13.50

µ4|σ23 = 14.73, yi = 11.66

µ5|σ24 = 11.46, yi = 9.63

µ6|σ25 = 11.13, yi = 10.19

. . .

σ2|µ, yi ∼∑n

i=1(yi − y)2/χ2n−2

σ20 = 0.50

σ21|µ1 = 10.22, yi = 18.85

σ22|µ2 = 9.50, yi = 24.21

σ23|µ3 = 13.50, yi = 14.73

σ24|µ4 = 11.66, yi = 11.46

σ25|µ5 = 9.63, yi = 11.13

σ26|µ6 = 10.19, yi = 7.28

. . .




µ|σ2, yi ∼ N(

y, σ2/n)

µ0 = 5.00

µ1|σ20 = 0.50, yi = 10.22

µ2|σ21 = 18.85, yi = 9.50

µ3|σ22 = 24.21, yi = 13.50

µ4|σ23 = 14.73, yi = 11.66

µ5|σ24 = 11.46, yi = 9.63

µ6|σ25 = 11.13, yi = 10.19

. . .

σ2|µ, yi ∼∑n

i=1(yi − y)2/χ2n−2

σ20 = 0.50

σ21|µ1 = 10.22, yi = 18.85

σ22|µ2 = 9.50, yi = 24.21

σ23|µ3 = 13.50, yi = 14.73

σ24|µ4 = 11.66, yi = 11.46

σ25|µ5 = 9.63, yi = 11.13

σ26|µ6 = 10.19, yi = 7.28

. . .




µ|σ2, yi ∼ N(

y, σ2/n)

µ0 = 5.00

µ1|σ20 = 0.50, yi = 10.22

µ2|σ21 = 18.85, yi = 9.50

µ3|σ22 = 24.21, yi = 13.50

µ4|σ23 = 14.73, yi = 11.66

µ5|σ24 = 11.46, yi = 9.63

µ6|σ25 = 11.13, yi = 10.19

. . .

σ2|µ, yi ∼∑n

i=1(yi − y)2/χ2n−2

σ20 = 0.50

σ21|µ1 = 10.22, yi = 18.85

σ22|µ2 = 9.50, yi = 24.21

σ23|µ3 = 13.50, yi = 14.73

σ24|µ4 = 11.66, yi = 11.46

σ25|µ5 = 9.63, yi = 11.13

σ26|µ6 = 10.19, yi = 7.28

. . .




µ|σ2, yi ∼ N(

y, σ2/n)

µ0 = 5.00

µ1|σ20 = 0.50, yi = 10.22

µ2|σ21 = 18.85, yi = 9.50

µ3|σ22 = 24.21, yi = 13.50

µ4|σ23 = 14.73, yi = 11.66

µ5|σ24 = 11.46, yi = 9.63

µ6|σ25 = 11.13, yi = 10.19

. . .

σ2|µ, yi ∼∑n

i=1(yi − y)2/χ2n−2

σ20 = 0.50

σ21|µ1 = 10.22, yi = 18.85

σ22|µ2 = 9.50, yi = 24.21

σ23|µ3 = 13.50, yi = 14.73

σ24|µ4 = 11.66, yi = 11.46

σ25|µ5 = 9.63, yi = 11.13

σ26|µ6 = 10.19, yi = 7.28

. . .




µ|σ2, yi ∼ N(

y, σ2/n)

µ0 = 5.00

µ1|σ20 = 0.50, yi = 10.22

µ2|σ21 = 18.85, yi = 9.50

µ3|σ22 = 24.21, yi = 13.50

µ4|σ23 = 14.73, yi = 11.66

µ5|σ24 = 11.46, yi = 9.63

µ6|σ25 = 11.13, yi = 10.19

. . .

σ2|µ, yi ∼∑n

i=1(yi − y)2/χ2n−2

σ20 = 0.50

σ21|µ1 = 10.22, yi = 18.85

σ22|µ2 = 9.50, yi = 24.21

σ23|µ3 = 13.50, yi = 14.73

σ24|µ4 = 11.66, yi = 11.46

σ25|µ5 = 9.63, yi = 11.13

σ26|µ6 = 10.19, yi = 7.28

. . .




µ|σ2, yi ∼ N(

y, σ2/n)

µ0 = 5.00

µ1|σ20 = 0.50, yi = 10.22

µ2|σ21 = 18.85, yi = 9.50

µ3|σ22 = 24.21, yi = 13.50

µ4|σ23 = 14.73, yi = 11.66

µ5|σ24 = 11.46, yi = 9.63

µ6|σ25 = 11.13, yi = 10.19

. . .

σ2|µ, yi ∼∑n

i=1(yi − y)2/χ2n−2

σ20 = 0.50

σ21|µ1 = 10.22, yi = 18.85

σ22|µ2 = 9.50, yi = 24.21

σ23|µ3 = 13.50, yi = 14.73

σ24|µ4 = 11.66, yi = 11.46

σ25|µ5 = 9.63, yi = 11.13

σ26|µ6 = 10.19, yi = 7.28

. . .µ - robna posteriorna porazdelitev - σ2




µ|σ2, yi ∼ N(

y, σ2/n)

µ0 = 5.00

µ1|σ20 = 0.50, yi = 10.22

µ2|σ21 = 18.85, yi = 9.50

µ3|σ22 = 24.21, yi = 13.50

µ4|σ23 = 14.73, yi = 11.66

µ5|σ24 = 11.46, yi = 9.63

µ6|σ25 = 11.13, yi = 10.19

. . .

σ2|µ, yi ∼∑n

i=1(yi − y)2/χ2n−2

σ20 = 0.50

σ21|µ1 = 10.22, yi = 18.85

σ22|µ2 = 9.50, yi = 24.21

σ23|µ3 = 13.50, yi = 14.73

σ24|µ4 = 11.66, yi = 11.46

σ25|µ5 = 9.63, yi = 11.13

σ26|µ6 = 10.19, yi = 7.28

. . .µ - robna posteriorna porazdelitev - σ2

� �

skupna posteriorna porazdelitev


Gibbsov algoritem II.

6 8 10 12 14

020

4060

8010

0

Parameter µ

Param

eter σ

2

N = 10


Gibbsov algoritem II.

6 8 10 12 14

020

4060

8010

0

Parameter µ

Param

eter σ

2

N = 10

6 8 10 12 14

020

4060

8010

0

Parameter µ

Param

eter σ

2

N = 50

6 8 10 12 14

020

4060

8010

0

Parameter µ

Param

eter σ

2

N = 500

7 8 9 10 11 12 13

510

1520

2530

Parameter µ

Param

eter σ

2


Markovska veriga za σ2

Iteracija

Param

eter σ

2

0 2000 4000 6000 8000 10000

050

100

150

200


Markovska veriga za σ2 - povprecje

Iteracija

Param

eter σ

2

0 2000 4000 6000 8000 10000

05

1015


Markovska veriga za σ2 - povprecje

Iteracija

Param

eter σ

2

0 2000 4000 6000 8000 10000

13.0

13.5

14.0

14.5

15.0

Konvergenca?


Konvergencan ogrevalna faza (ang. burn-in)

u ko pridemo v podrocje stacionarne (ang. stationary ) p.u vpliv zacetnih vrednostiu vpliv mešanja - avtokorelacijeu vec metod za ugotavljanje

n konvergenca porazdelitve

u ko dovolj dobro opišemo (povzorcimo) stacionarno p.u asimptoticnost ⇒ ∞ število iteraciju vpliv mešanja - avtokorelacijeu v resnici nikoli ne vemo




n konvergenca porazdelitve

u ko dovolj dobro opišemo (povzorcimo) stacionarno p.u asimptoticnost ⇒ ∞ število iteraciju vpliv mešanja - avtokorelacijeu v resnici nikoli ne vemo




n konvergenca porazdelitveu ko dovolj dobro opišemo (povzorcimo) stacionarno p.u asimptoticnost ⇒ ∞ število iteraciju vpliv mešanja - avtokorelacijeu v resnici nikoli ne vemo


Ogrevalna fazaMetoda sklapljanja (ang. coupling) - le ena od metod!n sklapljanje verig z uporabo istih vrednosti za nakljucno

seme med verigamin pocenin razmeroma enostavnan enako nakljucno seme med verigami!


Ogrevalna faza II.

Iteracija

Param

eter σ

2

0 1000 2000 3000 4000 5000

13.5

14.5

15.5

16.5

Veriga 1Veriga 2

Iteracija

Param

eter σ

2

0 1000 2000 3000 4000 5000

13.5

14.5

15.5

16.5

Veriga 1Veriga 2

Sklapljanje


Ogrevalna faza III.

Iteracija

Param

eter σ

2

0 1000 2000 3000 4000 5000

13.5

14.5

15.5

16.5

Veriga 1Veriga 2

Sklapljanje

Iteracija

log( P

arame

ter σ 22 −σ

12 )

0 5 10 15 201e−0

91e

−03 Razlika


Gibbs za primer N = 104

7 8 9 11 13

0.00.1

0.20.3

0.4

Parameter µ

Poraz

delite

v (%)

FunkcijaGibbs

0 5 15 25

0.00

0.04

0.08

Parameter σ2

Poraz

delite

v (%)

FunkcijaGibbs

7 8 9 11 13

−0.06

−0.02

0.02

Parameter µ

Poraz

delite

v (%)

Razlika

0 5 15 25

−0.01

00.0

000.0

10

Parameter σ2

Poraz

delite

v (%)

Razlika


Gibbs za primer N = 105

7 8 9 11 13

0.00.1

0.20.3

0.4

Parameter µ

Poraz

delite

v (%)

FunkcijaGibbs

0 5 15 25

0.00

0.04

0.08

Parameter σ2

Poraz

delite

v (%)

FunkcijaGibbs

7 8 9 11 13

−0.03

−0.01

0.01

Parameter µ

Poraz

delite

v (%)

Razlika

0 5 15 25−0.00

40.0

000.0

04

Parameter σ2

Poraz

delite

v (%)

Razlika


Rezultat Bayesove analizen narišemo porazdelitev

u potrebno veliko vzorcev za “gladke” krivuljeu ocenjevanje gostote porazdelitve “smoothing”

n opišemo porazdelitevu povprecje, mediana in modusu variancau Bayesov interval zaupanja (ang. credible intervals)u interval najvecje posteriorne gostote (ang. HPD, HDI)u verjetnost, da je vrednost parametra vecja/manjša od

dolocene vrednostin ocena Monte Carlo variancen neposredna povezava s teorijo odlocanja


Primerjava rezultatovn sklepi na podalgi rezultatov razlicnih pristopov so na

takšnem enostavnem primeru “enaki”

n število podatkov, asimptoticnost

n vpliv apriorne porazdelitve

n MCMC metode pridejo do pravega izraza pri:u “kompleksnih” modelihu velikem številu parametrovu funkcijah parametrov npr. h2, obeti, . . .


Apriorna porazdelitev3. apriorna porazdelitev lahko še poveca kompleksnost

“Tisti, ki uporablja Bayesovo statistiko, na podlaginejasnega/meglenega pricakovanja konja in bežnegapogleda na osla, trdno sklepa, da je videl mulo.” Senn

(1997).

Neinformativna apriorna p. ne obstaja. Celo enakomernaapriorna porazdelitev pravi, da so vse vrednosti enako

verjetne.


Apriorna porazdelitev - splošnon “subjektivnost”, predhodno znanje, predpostavke, . . .n Bayesov izrek

p(θj |yi) ∝ p(yi|θj)p(θj)posteriorna porazdelitev ∝ verjetje× apriorna porazdelitev

n konjugirana ⇒ numericno “enostavna” analizan ocene verjetja ⇒ empiricna Bayesova analizan “neinformativna” (ang. flat, vague) ⇒ objektivna Bayesova

analizap(θj) = konst.

p(θj |yi) ∝ L(θj |yi)

u enakomernau Jeffrey-evau referencna




n konjugirana ⇒ numericno “enostavna” analiza

n ocene verjetja ⇒ empiricna Bayesova analizan “neinformativna” (ang. flat, vague) ⇒ objektivna Bayesova







n konjugirana ⇒ numericno “enostavna” analizan ocene verjetja ⇒ empiricna Bayesova analiza

n “neinformativna” (ang. flat, vague) ⇒ objektivna Bayesovaanaliza

p(θj) = konst.






n konjugirana ⇒ numericno “enostavna” analizan ocene verjetja ⇒ empiricna Bayesova analizan “neinformativna” (ang. flat, vague) ⇒ objektivna Bayesova





Apriorna porazdelitev - podrobnon izbor apriorne porazdelitve ⇒ analiza obcutljivostin vec “podatkov” ⇒ manjši vpliv apriorne porazdelitve

n porazdelitev mora biti primerna (ang. proper ) - aksiomiKolmogorovau 3. aksiom: integral mora biti koncen

∫

p(x)dx = 1

n “neinformativne” p. so obicajno neprimernen neprimerna apriorna p. (enakomerna) lahko privede do:

u primerne inu neprimerne posteriorne p.!


Apriorna porazdelitev - podrobnon izbor apriorne porazdelitve ⇒ analiza obcutljivostin vec “podatkov” ⇒ manjši vpliv apriorne porazdelitven porazdelitev mora biti primerna (ang. proper ) - aksiomi

Kolmogorovau 3. aksiom: integral mora biti koncen

∫

p(x)dx = 1




Apriorna porazdelitev - podrobnon izbor apriorne porazdelitve ⇒ analiza obcutljivostin vec “podatkov” ⇒ manjši vpliv apriorne porazdelitven porazdelitev mora biti primerna (ang. proper ) - aksiomi

Kolmogorovau 3. aksiom: integral mora biti koncen

∫

p(x)dx = 1




Apriorna porazdelitev - primerin Bayesov izrek

p(θj |yi) ∝ p(yi|θj)p(θj)θ1 = µ, θ2 = σ2

n A: enakomerna p.

µ ∼ U(−1000, 1000)σ2 ∼ U(0, 1000)

n C: konjugirana p.

µ ∼ N(0, 1000)

σ2 ∼ 1/Ga(0.001, 0.001)

n B: A + omejimo µ in σ2

µ ∼ U(8, 11.4)

σ2 ∼ U(0, 20)

n D: C + predhodno znanje

µ ∼ N(9, 0.25)

σ2 ∼ 1/Ga(2, 5)


Apriorna porazdelitev - primeri za µ

7 8 9 10 11 12 13

0.00.4

0.8

Parameter µ

Poraz

delite

v (%)

y|µ,σ2 ~ N(µ, σ2)µ ~ U(−1000, 1000)

A

7 8 9 10 11 12 13

0.00.4

0.8

Parameter µ

Poraz

delite

v (%)

y|µ,σ2 ~ N(µ, σ2)µ ~ U(8, 11.5)

B


Apriorna porazdelitev - primeri za µ

7 8 9 10 11 12 13

0.00.4

0.8

Parameter µ

Poraz

delite

v (%)

y|µ,σ2 ~ N(µ, σ2)µ ~ N(0, 1000)

C

7 8 9 10 11 12 13

0.00.4

0.8

Parameter µ

Poraz

delite

v (%)

y|µ,σ2 ~ N(µ, σ2)µ ~ N(9, 0.25)

D


Apriorna porazdelitev - primeri za σ2

0 5 10 15 20 25 30

0.00

0.05

0.10

0.15

Parameter σ2

Poraz

delite

v (%)

y|µ,σ2 ~ N(µ, σ2)σ2 ~ U(0, 1000)

A

0 5 10 15 20 25 30

0.00

0.05

0.10

0.15

Parameter σ2

Poraz

delite

v (%)

y|µ,σ2 ~ N(µ, σ2)σ2 ~ U(0, 20)

B


Apriorna porazdelitev - primeri za σ2

0 5 10 15 20 25 30

0.00

0.05

0.10

0.15

Parameter σ2

Poraz

delite

v (%)

y|µ,σ2 ~ N(µ, σ2)σ2 ~ 1 Ga(0.001, 0.001)

C

0 5 10 15 20 25 30

0.00

0.05

0.10

0.15

Parameter σ2

Poraz

delite

v (%)

y|µ,σ2 ~ N(µ, σ2)σ2 ~ 1 Ga(2, 5)

D


Programska opreman BUGS

u BUGS 1990-1996u WinBUGS 1996-2003http://www.mrc-bsu.cam.ac.uk/bugs/welcome.shtmln DoodleBUGSn GeoBUGSn PKBUGS

u OpenBUGS 2003-. . .http://mathstat.helsinki.fi/openbugs/

http://www.mrc-bsu.cam.ac.uk/bugs/welcome.shtml

http://mathstat.helsinki.fi/openbugs/


Programska oprema - BUGS primern en primer kode za BUGS – podobno prog. jeziku S# Podatki

list(y = c(529.6, 531.2, 531.1, ...), N = 10)

# Model

model

{

for (i in 1:N) {

y[i] ~ dnorm(mu, tau)

}

mu ~ dnorm(0, 0.001)

tau ~ dgamma(0.001, 0.001)

sigma <- sqrt(1 / tau)

}

# Zacetne vrednosti

list(mu = 539, tau = 1)

verjetje

apriorne porazdelitve



list(y = c(529.6, 531.2, 531.1, ...), N = 10)

# Model

model

{

for (i in 1:N) {


}

mu ~ dnorm(0, 0.001)

tau ~ dgamma(0.001, 0.001)


}

# Zacetne vrednosti

list(mu = 539, tau = 1)

verjetje




list(y = c(529.6, 531.2, 531.1, ...), N = 10)

# Model

model

{

for (i in 1:N) {


}

mu ~ dnorm(0, 0.001)

tau ~ dgamma(0.001, 0.001)


}

# Zacetne vrednosti

list(mu = 539, tau = 1)

verjetje



Programska oprema - splošno II.n R paketihttp://www.r-project.org/u bayesm, bayesmix , bayesSurv , bim, BMA, boa, BRugs,

bqtl , coda, EbayesThresh, eco, mcgibbsit , mcmc,MCMCpack , MNP, R2WinBUGS, rbugs, rv , UMACS,. . .

n JAGS

http://www-fis.iarc.fr/~martyn/software/jags/

n Hydra

http://research.warnes.net/projects/mcmc/hydra/

n FBM

http://www.cs.utoronto.ca/~radford/fbm.software.html

http://www.r-project.org/

http://www-fis.iarc.fr/~martyn/software/jags/

http://research.warnes.net/projects/mcmc/hydra/

http://www.cs.utoronto.ca/~radford/fbm.software.html


Sklep - priporocilo

n Preglej / predelaj:u porazdelitveu Bayesov izrek

p(θj |yi) ∝ p(yi|θj)p(θj)u vzorcenje

n Preizkusi BUGS


Seznam uporabljenih prevodovn posterior distribution - posteriorna porazdelitevn prior d. - apriorna p.n likelihood - verjetjen joint d. - skupna p.n marginal d. - robna p.n conditional d. - pogojna p.n burn-in - ogrevalna faza/doban coupling - sklapljanjen stationary d. - stacionarna p.n credible intervals - Bayesov interval zaupanjan highest posterior density - najvecja posteriorna gostotan (im)proper d. - (ne)primerna p.


Priporocena literaturan Bayesova statistika - splošno

Gelman A., Carlin J.B., Stern H.S., Rubin D.B. 2004.Bayesian data analysis. Texts in statistical science.Chapman & Hall / CRC, 2nd edition

n uporaba MCMCGilks W.R., Richardson S., Spiegelhalter D.J. (ur.) 1998.Markov Chain Monte Carlo in practice. Chapman & Hall /CRC

n nazoren primer uporabe apriorne porazdelitveGelman A. 2002. Prior distribution. V: Encyclopedia ofEnvironmetrics, John Wiley & Sons, Vol. 3, 1634–1637

Documents

Uvod v Bayesovsko statistiko in MCMC metode