26
Mainz, 25. Juni 2013 Statistics, Data Analysis, and Simulation – SS 2013 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler <[email protected]>

Statistics, Data Analysis, and Simulation – SS 2013 · Mainz, 25. Juni 2013 Statistics, Data Analysis, and Simulation – SS 2013 08.128.730 Statistik, Datenanalyse und Simulation

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Mainz, 25. Juni 2013

Statistics, Data Analysis, andSimulation – SS 2013

08.128.730 Statistik, Datenanalyse undSimulation

Dr. Michael O. Distler<[email protected]>

8. Einführung in die Bayes-Statistik

Wiederholung von: 1.1 Theory of probability

Probability theory, mathematics:

−→ Kolmogorov axioms

Classical interpretation, frequentist probability:Pragmatical definition of probability:

p(E) = limN→∞

nN

n(E) = number of events EN = number of trials (experiments)Experiments have to be repeatable (in principle).Disadvantage: Strictly speaking one cannot makestatements on the probability of any true value. Only upperand lower limits are possible given a certain confidencelevel.

1.1 Theory of probability

Probability theory, mathematicsClassical interpretation, frequentist probabilityBayesian statistics, subjective probability:Prior subjective assumptions enter into the calculation ofprobabilities of a hypotheses H.

p(H) = degree of belief that H is true

Metaphorically speaking: Probabilities are the ratio of the(maximum) wager and the anticipated prize in a bet.

Disadvantage: Prior hypotheses influence the probability.Advantages for rare and one-time events, like noisy signalsor catastrophe modeling.

In this lecture we will focus on the classicalstatistics, e.g. error estimates have to beunderstood as confidence regions.

1.1 Theory of probability

Probability theory, mathematicsClassical interpretation, frequentist probabilityBayesian statistics, subjective probability:

Prior subjective assumptions enter into the calculation ofprobabilities of a hypotheses H.

Disadvantage: Prior hypotheses influence the probability.Advantages for rare and one-time events, like noisy signalsor catastrophe modeling.

In this lecture we will focus on the classicalstatistics, e.g. error estimates have to beunderstood as confidence regions.

1.1 Theory of probability

Probability theory, mathematicsClassical interpretation, frequentist probabilityBayesian statistics, subjective probability:

Prior subjective assumptions enter into the calculation ofprobabilities of a hypotheses H.

Disadvantage: Prior hypotheses influence the probability.Advantages for rare and one-time events, like noisy signalsor catastrophe modeling.

In this lecture we will focus on the classicalstatistics, e.g. error estimates have to beunderstood as confidence regions.

Bayes–Theorem

Aus der Gleichung

p(AundB) = p(A) · p(B|A) = p(B) · p(A|B)

erhält man das Bayes-Theorem:

p(A|B) = p(B|A) · p(A)

p(B)

Bayes–Theorem für diskrete Ereignisse

p(A|B) = p(B|A) · p(A)

p(B)

Beispiel: In einem Experiment soll der leptonische Zerfall derK0-Mesonen studiert werden. Es ist geplant, einen Cerenkov-Detektor zu verwenden, um die Leptonen nachzuweisen. Dazu mussuntersucht werden, ob ein Detektor ausreicht, um die leptonischenEreignisse von dem kleinen Untergrund abzutrennen, der ebenfallsden Detektor auslösen kann.

p(B) ≡ Wahrscheinlichkeit, dass ein Ereignis denCerenkov-Detektor auslöst.

p(A) ≡ Wahrscheinlichkeit, dass sich ein echterleptonischer Zerfall ereignet.

p(B|A) ≡ Wahrscheinlichkeit, dass ein echtes leptonischesEreignis den Cerenkov-Detektor auslöst

p(A|B) ≡ Wahrscheinlichkeit, dass es sich bei einem Ereignisum einen echten leptonischen Zerfall handelt, unter derVoraussetzung, dass der Cerenkov-Detektor auslöst.

Bayes–Theorem für diskrete Ereignisse

p(A|B) = p(B|A) · p(A)

p(B)

p(B) ≡ Wahrscheinlichkeit, dass ein Ereignis denCerenkov-Detektor auslöst.

p(A) ≡ Wahrscheinlichkeit, dass sich ein echterleptonischer Zerfall ereignet.

p(B|A) ≡ Wahrscheinlichkeit, dass ein echtes leptonischesEreignis den Cerenkov-Detektor auslöst

p(A|B) ≡ Wahrscheinlichkeit, dass es sich bei einem Ereignisum einen echten leptonischen Zerfall handelt, unter derVoraussetzung, dass der Cerenkov-Detektor auslöst.

p(B) kann gemessen werden. p(A) ergibt sich aus früherenMessungen bzw. Theorie. p(B|A) wird aus einer Simulation bestimmt.↪→ p(A|B)

Bayes-Theorem für Bayesianer

Wenn es sich bei A und B nicht um Ereignisklassen sondernum Hypothesen handelt, dann wird der Unterschied zwischenden beiden Statistik-Schulen offensichtlich. Als frequentist kannman einer Hypothese keine Wahrscheinlichkeit zuweisen. Derbayesian interpretiert p(H) als Grad des Vertrauens in dieHypothese.

p(H|E) =p(H) · p(E|H)

p(E)

p(H) ≡ prior WahrscheinlichkeitWissen (Grad des Vertrauens) vor der Datennahme

p(H|E) ≡ posterior Wahrscheinlichkeitp(E|H) ≡ likelihood

p(E) ≡ Normalisierungsfaktor

Das Ergebnis (Erwartungswert, Varianz, . . . ) einerBayes-Analyse wird allein dem posterior entnommen.

Cookie-Problem

Stellen Sie sich 2 gefüllte Keksdosen vor. Dose 1 enthält 10Chocolate Chip Cookies und 30 Plain Cookies. Bei Dose 2 istdes Verhältnis 20/20. Unser Freund Fred wählt zunächstzufällig eine Keksdose aus und entnimmt dann zufällig einenCookie. Es ist ein Plain Cookie. Mit welcher Wahrscheinlichkeitstammt er aus Dose 1?

Hypothesen: H1: der Keks stammt aus Dose 1.H2: der Keks stammt aus Dose 2.

Prior: p(H1) = p(H2) = 1/2Ereignis: E : der Keks ist ein Plain Cookie.Likelihood: p(E|H1) = 3/4

p(E|H2) = 1/2Bayes-Theorem:

p(H1|E) =p(H1)× p(E|H1)

p(H1) · p(E|H1) + p(H2) · p(E|H2)=

35

Betaverteilung

Wahrscheinlichkeitsdichte der Betaverteilung

f (x) =1

B(p,q)xp−1 (1− x)q−1 x ∈ [0,1]

mit der Eulerschen Betafunktion

B(p,q) =Γ(p)Γ(q)

Γ(p + q)=

∫ 1

0up−1(1− u)q−1 du

Extremum:

xextrem =

(1 +

q − 1p − 1

)−1

=p − 1

p + q − 2

Erwartungswert und Varianz:

E(X ) =p

p + qVar(X ) =

pq(p + q + 1)(p + q)2

Betaverteilung

0 0.5 1

beta(.5,.5)

0 0.5 1

beta(.5,1.)

0 0.5 1

beta(.5,2.)

0 0.5 1

beta(.5,3.)

0 0.5 1

beta(1.,.5)

0 0.5 1

beta(1.,1.)

0 0.5 1

beta(1.,2.)

0 0.5 1

beta(1.,3.)

0 0.5 1

beta(2.,.5)

0 0.5 1

beta(2.,1.)

0 0.5 1

beta(2.,2.)

0 0.5 1

beta(2.,3.)

0 0.5 1

beta(3.,.5)

0 0.5 1

beta(3.,1.)

0 0.5 1

beta(3.,2.)

0 0.5 1

beta(3.,3.)

Referendum

Beispiel: Es steht ein Referendum wegen eines Bauvorhabensin Ihrer Stadt aus. Da Sie im Bekanntenkreis das Themabereits diskutiert haben, gehen Sie von einer knappenEntscheidung aus, wobei Sie sich sicher sind (C.L.: 95%), dassweder Befürworter noch Gegner mehr als 60% der Stimmenerreichen werden.Aus Ihrem Vorwissen konstruieren Sie Prior (Betaverteilung):

E(X ) =p

p + q= 0.5 ⇒ p = q

Var(X ) =pq

(p + q)2(p + q + 1)=

14(2p + 1)

= (0.05)2

Nähert man also die Betaverteilung mit der Normalverteilungund setzt 95%C.L. ' 2σ ' ±10% so ergibt sich

p = q ' 50

(die exakte Rechnung ergibt p = q = 47.3).

Referendum (Teil 2)

In einer repräsentativen Umfrage haben sich von N = 1500Betroffenen nur k = 720 Personen für das Bauvorhabenausgesprochen. Ermitteln Sie die Wahrscheinlichkeit, dass imReferendum die Gegner eine Mehrheit erzielen.

Die posterior Dichte g(x) ergibt sich aus:

prior × likelihoodBetaverteilung(x ; p,q) × Binomialverteilung(x ; N, k )

Γ(p)Γ(q)Γ(p+q) xp−1 (1− x)q−1 × N!

k! (N−k)! xk (1− x)N−k

Im Falle eines Beta-Priors ergibt sich einfach:

g(x) = Beta(x ; p + k ,q + N − k) = Beta(x ; 770,830)

Referendum (Teil 3)

0

2

4

6

8

10

12

0 0.2 0.4 0.6 0.8 1

prior

Beta(x,50,50)Beta(x,30,70)

Beta(x,0.5,0.5)Beta(x,1.,1.)

0

5

10

15

20

25

30

35

40

45

0.42 0.44 0.46 0.48 0.5 0.52 0.54

posterior

Beta(x,770,830)Beta(x,750,850)

Beta(x,720.5,780.5)Beta(x,721,781)

Aus der roten Kurve (rechts) ermitteln wir unser Ergebis:∫ 0.5

0Beta(x ; 770,830)dx = 0.933

Das Referendum wird also mit einer Wahrscheinlichkeit von93.3% abgelehnt.

Referendum (Teil 4)

0

5

10

15

20

25

30

35

0.2 0.3 0.4 0.5 0.6 0.7

Beta(x,50,50)Beta(x,30,70)

Beta(x,0.5,0.5)Beta(x,1.,1.)

Beta(x,770,830)Beta(x,750,850)

Beta(x,720.5,780.5)Beta(x,721,781)

Das Bild zeigt noch einmal deutlich, dass das Ergebnis nurschwach von der Wahl des Priors abhängt.

Vorsichtsmaßnahmen bei Verwendung eineskonjugierten Priors

z.B. Beta-Prior bei Binomialverteilungen1 Plotten Sie Ihren Beta(p,q)-Prior. Passen Sie notfalls

Mittelwert π0 und Varianz σ20 an, bis diese Ihren

Vorstellungen entsprechen.2 Berechnen Sie die äquivalente Stichprobengröße. Für

den Fall, dass diese unrealistisch groß ist, vergrößern Siedie Varianz Ihres Priors und berechnen diesen neu.

Für eine Binomialverteilung mit Trefferwahrscheinlichkeit π undVersuchsanzahl n ist die Varianz π(1− π)/n. Dies setzen wirder Prior-Varianz gleich:

π0(1− π0)

neq=

pq(p + q + 1)(p + q)2

Mit π0 = pp+q und (1− π0) = q

p+q ergibt sich

neq = p + q + 1

Nichtinformative Priori-DichtenEin nichtinformativer (engl. uninformative or objective) Priordrückt eine vage bzw. unbestimmte Kenntnis der gesuchtenGröße aus. Die einfachste und älteste Methode einennichtinformativen Prior zu konstruieren stellt dasIndifferenzprinzip dar. Demnach wird allen Möglichkeiten diegleiche Wahrscheinlichkeit zugewiesen.

Dabei kann leicht ein uneigentlicher (engl. improper) Priorentstehen, d.h. der Prior ist nicht normiert und damit auch keineWahrscheinlichkeitsdichte. Das stellt jedoch im allgemeinen keinProblem dar, da sich die Posterior-Dichte meist normieren lässt.

Der “flache” Prior ist jedoch nicht wirklich “objektiv”, wovon mansich leicht überzeugen kann, wenn man eine (nicht-lineare)Variablentransformation durchführt. Nach der Transformation istder flache Prior nicht mehr flach.

Bessere Eigenschaften besitzt der Jeffreys Prior, der ebenfallsals nichtinformativer Prior bezeichnet wird.

Eine Bayes-Analyse mit einem nichtinformativen Prior liefertmeist ähnliche oder identische Ergebnisse wie die klassischeMaximum Likelihood Methode.

Die Gammaverteilung

Wahrscheinlichkeitsdichte der Gammaverteilung

f (x) =

bp

Γ(p)xp−1e−bx x > 0

0 x ≤ 0

Maximum (für p > 1):

xmax =p − 1

b

Erwartungswert:E(X ) =

pb

Varianz:Var(X ) =

pb2

Gammaverteilung

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

x

Ɣ(p

,b)

p = 0.5, b = 2p = 0.5, b = 1p = 1, b = 2p = 1, b = 1p = 2, b = 2p = 2, b = 1

Bayes-Theorem für Poisson Parameter

Wir betrachten eine Stichprobe y1, . . . , yn aus einer Poisson(µ)Verteilung. Die Proportionalitätsform des Bayes-Theoremslautet:

posterior ∝ prior× likelihoodg(µ|y1, . . . , yn) ∝ g(µ)× f (y1, . . . , yn|µ)

Durch Normierung erhalten wir die tatsächliche PosteriorDichte:

g(µ|y1, . . . , yn) =g(µ)× f (y1, . . . , yn|µ)∫∞

0 g(µ)× f (y1, . . . , yn|µ) dµ

Likelihood für Poisson Parameter

Die Likelihood für eine einmalige Ziehung von einerPoisson-Verteilung ist bekannt:

f (y |µ) =µy e−µ

y !

Die Form wird dabei festgelegt durch

f (y |µ) ∝ µy e−µ

Für eine größere Stichprobe werden die ursprünglichenLikelihoods multipliziert:

f (y1, . . . , yn|µ) =n∏

i=1

f (yi |µ)

∝ µ∑

yi e−nµ

Gleichverteilte Prior Dichte

Wenn wir keine Information über µ haben, bevor wir die Datenbetrachten, dann wäre ein gleichverteilter Prior eine möglicheWahl:

g(µ) = 1 fürµ > 0

Dies ist ein uneigentlicher (improper) Prior!

g(µ|y1, . . . , yn) ∝ g(µ)× f (y1, . . . , yn|µ)

∝ 1× µ∑

yi e−nµ

Dies entspricht einer gamma(p,b) Verteilung mit p =∑

y + 1und b = n. Somit erhalten wir einen normierten Posterior,obwohl wir mit einem improper Prior gestartet waren.

Jeffreys Prior für Poisson

Ein Jeffreys Prior ist objektiv in dem Sinne, dass er invariant istunter bestimmten Transformationen des Parameters. DerJeffreys Prior für Poisson lautet:

g(µ) ∝ 1√µ

fürµ > 0

Dies ist ebenfalls ein uneigentlicher (improper) Prior!

g(µ|y1, . . . , yn) ∝ g(µ)× f (y1, . . . , yn|µ)

∝ 1√µ× µ

∑yi e−nµ

∝ µ∑

yi−1/2 e−nµ

Dies entspricht einer gamma(p,b) Verteilung mit p =∑

y + 12

und b = n. Wiederum erhalten wir einen normierten Posterior,obwohl wir mit einem improper Prior gestartet waren.

Konjugierte Priors für Poisson

Die Gammaverteilung bildet die Familie von konjugierten Priorsfür Poisson, d.h. sowohl Prior als auch Posterior stammen ausder gleichen Familie. Für eine Stichprobe y1, . . . , yn aus einerPoissonverteilung und einer Prior gamma(p,b) ergibt sich derPosterior:

gamma(p′,b′) mit p′ = p +∑

y , b′ = b + n

Der Prior lässt sich leicht aus einer Kenntnis von Mittelwert µund Varianz s2 konstruieren. Aus

µ =pb

und s2 =pb2

folgt

p =µ2

s2 und b =µ

s2

press any key