38
15.01.2008 Varianzanalyse/Pfeiffer 1 Varianzanalyse = ANOVA = Analysis of Variance Univ.-Prof.DI.Dr.Karl P. Pfeiffer Dept.f. Med. Statistik, Informatik und Gesundheitsökonomie (MSIG) Medizinische Universität Innsbruck E-mail: [email protected] www.i-med.ac.at/msig/ v.20070310

varianzanalyse

Embed Size (px)

Citation preview

Page 1: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 1

Varianzanalyse= ANOVA= Analysis of Variance

Univ.-Prof.DI.Dr.Karl P. PfeifferDept.f. Med. Statistik, Informatik und

Gesundheitsökonomie (MSIG)Medizinische Universität Innsbruck

E-mail: [email protected]/msig/

v.20070310

Page 2: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 2

ANOVA:LiteraturKleinbaum et. Al: Applied regression and othermultivariable methods. Duxbury Press. Albany, 1998Büning, Trenkler: Nichtparametrische statistische Methoden. De Gruyter Verlag, Berlin, 1978Fisher L.D., van Belle G.: Biostatistics. John Wiley, New York, 1993Hartung J., Elpelt B.: Multivariate Statistik. R.Oldenburg Verlag, München, 1992

Page 3: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 3

ANOVA - ProblemstellungANOVA – Analysis of Variance -StreuungszerlegungEinfache Varianzanalyse

Ein Einflussfaktor mit k>2 AusprägungenBspl.: 4 verschiedene Therapieformen

Vergleicht die Mittelwerte durch Zerlegung der Varianz in:

Streuung zwischen (between) den GruppenInnerhalb (within) der Gruppen (=Residuen)

Page 4: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 4

ANOVA - BeispieleVergleich des Einkommens in 5 verschiedenen RegionenVergleich der Verkaufszahlen in 10 gleich grossen Filialen eines UnternehmensVergleich der Wirksamkeit der Kombination von zwei Medikamenten mit 3 bzw. 4 verschiedenen DosierungenVergleich der Zufriedenheit von Studierenden aus verschiedenen Studienrichtungen

Page 5: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 5

ANOVA: StudiendesignEin oder mehrere Einflussfaktoren

mit k≥2 Ausprägungen

Unterscheide ANOVA mit Messwiederholungen

Repeated MeasurementsAufeinanderfolgende Beobachtungen sind abhängig

Wird hier nicht behandelt

Page 6: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 6

ANOVA - ÜberblickEinfache Varianzanalyse (ANOVA)

Ein Einflussfaktor mit k≥2 AusprägungenMehrweg-ANOVA

Mehrere (≥ 2) Einflussfaktoren mit jeweils ≥ 2 Ausprägungen

KovarianzanalyseStetige und diskrete Einflussfaktoren

MANOVAMehrere abhängige Variable

Page 7: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 7

Einweg-ANOVA: DatenGesamt

1 2 ... ky11 y21 ... yk1

y12 y22 yk2

.. . ..

.. .. ..

.. .. ..y1N1 y2N2 ... ykNk

Stichproben-umfang N1 N2 ... Nk N

Mittelwert ...Standard-abweichung s1 s2 ... sk sSumme pro Gruppe T1 T2 ... Tk G

Beo

bach

tung

en

Gruppen / Faktor

1y y2y

Page 8: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 8

Feste oder zufällige EffekteFeste Effekte

In der Studienplanung vorgegeben

Zufällige EffekteDurch die Auswahl einer Zufallsstichprobe entstanden

Unterschiedliche Hypothesenformulierung und Interpretation beachten

Page 9: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 9

Zufällige Effekte

Effekte. festefür Modell dem analogist test Hypothesen0:0

,....2,1),,0(2

2

=

=≈

++=

A

Ai

ijiij

H

iNA

EAY

σσ

μ

Page 10: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 10

ANOVA: Hypothesen

Feste EffekteKeine Aussage darüber, welche der einzelnen Gruppen unterschiedliche Mittelwerte haben

Globaler Test

j)(i,Paar ein mindestensfür ,:1gleich sind eMittelwertk alle d.h.

...:0 21

ji

k

H

H

μμ

μμμ

===

Page 11: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 11

ANOVA-Modell

Das ANOVA-Modell (zufällige Effekte):

Die Nullhypothese:H0:α1 = α2 = ... = αk = 0

Die Alternativhypothese:Mindestens ein αi ist ungleich 0

ijiijy εαμ ++=

),0(:Annahme

2ασα Ni ≈

Page 12: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 12

ANOVA - StreuungszerlegungSST = SSB + SSE

SST...Sum Squared TotalSSB...Sum Squared Between groupsSSE...Sum Squared Error (Within)

( ) ( )

( )

∑∑∑

∑∑

∑∑∑∑

=

== =

= =

=

= == =

=

==

−=

−=

+=

−+−=−=

i

i

i

ii

n

jij

ii

k

iii

k

i

n

jij

k

i

n

jiij

k

iii

k

i

n

jiiij

k

i

n

jij

yn

y

ynN

yN

y

yySSE

yynSSB

SSESSB

yyyyyySST

1

11 1

2

1 1

1

2

2

1 1

2

1 1

1

11

)(

Page 13: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 13

Streuungszerlegung - Beweis( ) ( )

( ) ( )

∑∑∑

∑∑ ∑∑∑∑∑

∑∑

∑ ∑∑ ∑

∑∑∑∑

=

== =

= = == == =

==

= == =

= == =

=

==

−=+−=−=

−==

+−=+−=−=

+=

−+−=−=

i

i

iii

ii

n

jij

ii

k

iii

k

i

n

jij

k

i

n

j

k

iiiij

k

i

n

jiiijij

k

i

n

jiij

k

iii

k

iii

k

i

k

iiiiii

k

i

k

iiiii

k

i

n

jiiij

k

i

n

jij

yn

y

ynN

yN

y

ynyyyyyyySSE

ynynSSBynyn

ynynyynyyyynyynSSB

SSESSBSST

yyyyyySST

1

11 1

1 1 1

22

1 1

222

1 1

2

1

2

1

2

1 1

22

1 1

22

2

1 1

2

1 1

1

11

2

:gilt :da

2)2()(

:Zeige

Page 14: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 14

ANOVA: TeststatistikVarianz zwischen den Gruppen:

Varianz innerhalb der Gruppen:

F=MSB/MSE...F-verteilt mit (k-1),(n-k) Freiheitsgrade

1

/)/(

11

22

−=

−=

∑=

k

nGnT

kSSBMSB

k

iii

kn

nTy

knSSEMSE

k

i

k

iii

n

jij

i

−=

∑ ∑∑= ==1 1

2

1

2 )/(

Page 15: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 15

ANOVA Tabelle

Einfache VarianzanalyseZerlegung der Gesamtsstreuung SST in SSB + SSE

UrsacheFreiheits-grade

Quadrat-summe

Mittlere Quadrat-summe Testgrösse

Zwischen den k-1 SSB MSB=SSB/(k-1) F=MSB/MSEResiduen n-k SSE MSE=SSE/(n-k)Gesamt n-1

Page 16: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 16

ANOVA: Voraussetzungen

Unabhängige BeobachtungenNormalverteilungGleiche Varianzen in allen Gruppen

Alternative bei nicht-Normalverteilung:Kruskal-Wallis-H-Test

Rangsummentest

Page 17: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 17

Multiples Testen Gesamtniveau α bei allen Tests auf die gleichen Daten einhaltenKorrektur des α-WertesBonferroni Korrektur der Irrtumswahrscheinlichkeit bei c Tests

α* = α/c

Weniger konservative VerfahrenBonferroni-Holm

Hochberg-BonferroniHochberg-Benjamini

Page 18: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 18

Multiple TestsTukey TestLSD – Least significant differenceScheffe Test

Lineare KontrasteDunnettSidakGabriel...

Bei Gleichheit der Varianzen

Page 19: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 19

LSD-ApproachLSD...Least Significant DifferenceNutze die globale Signifikanz α ausBilde die Differenzen:

Sortiere diese absteigendBerechne die paarweisen Konfidenzintervalle

Wenn 0 nicht im Konfidenzintervall enthalten, dann besteht ein signifikanter Unterschied

ji YY −

⎟⎟⎠

⎞⎜⎜⎝

⎛+±− −−

jiknji nn

MSEtYY 11)( 2/1, α

Page 20: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 20

Tukey´s Verfahren

Für gleiche Stichprobenumfänge

qk,n-k,1-α...studentisierte SpannweiteModifikation für ungleiche n(i)

α−−=

±−

1,,*

1)(

knk

ji

qn

T

MSETYY

jiji nnMSETYY /1/1(*)2/()( +±−

Page 21: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 21

Studentisierte Spannweite

{ }

radenFreiheitsgk k,-Nmit gnverteilunSpannweite entisierteR/s...studGruppenk bei

radenFreiheitsgk -Nmit von Schätzwertein ist und mit erteilt ...normalv

)(min)(max2

σσμ

sy

yyR

i

iiii −=

Page 22: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 22

Student-Newman-Keuls

Ersetze k durch k* im Tukey-Testk*...Anzahl der Mittelwerte in der Spannweite der Mittelwerte, die getestet werden

Z.B.: k*=3 beim Vergleich des zweitgrösstenmit dem kleinsten MW bei vier Gruppen

Page 23: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 23

Scheffe-TestLineare Kontraste:

Beispiel: k=4 Gruppen

Allgemein:22

4321 μμμμ +−+

=L

01

1

=

=

=

=

k

ii

k

iii

c

cL μ

Page 24: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 24

Scheffe´s Verfahren

Scheffe-Konfidenzintervalle

Mit S2=(k-1)F(k-1),(n-k),1-α

∑ ∑ ⎟⎟⎠

⎞⎜⎜⎝

⎛±

=i

k

i i

iii n

cMSESYc1

2

Page 25: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 25

Kruskal-Wallis-H-TestAlternative zur Einweg-ANOVA

Wenn die Daten nicht normalverteilt sindBasiert auf der Rangstatistik

Ähnlich dem Wilcoxon-Man-Whitney U-TestGlobaler TestVoraussetzung:

Gleiche Verteilungsform F(z) in den Gruppen

Page 26: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 26

Kruskal-Wallis-H-Test: Teststatistik

[ ]

[ ]

[ ][ ][ ]

=−

=

−=

−+=

−+

=

+=

k

iki

i

iii

iii

i

k

ii

i

ii

i

Z

RVARRERZ

nNNnRVAR

RERnNN

H

NnRE

R

1

21

2

2

1

12))(1(

)(1)1(

122

)1(i Gruppeder Rangsumme...

zu N bis 1 Ränge dieElementen Nden Ordne

χ

Page 27: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 27

H-Test:Korrektur bei Bindungen

H,H*: für k>3, ni>5 ... Approximation an Chi**2-Verteilung mit k-1 Freiheitsgraden

Bindungender Anzahl...

))/()(1/(1

33*

j

r

jjj

b

NNbbHH ∑=

−−−=

Page 28: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 28

Zwei- und Mehrweg ANOVAGrundprinzip: Kombination von zwei oder mehreren FaktorenRandomisiertes Block-Design

Stratifizierung nach einem Faktor (=Block)Randomisierung nach einem zweiten Faktor

Zwei-Weg-ANOVAZwei Einflussfaktoren mit k≥2 Ausprägungen

N(i,j)=1: keine Interaktionsprüfung möglichN(i,j)=const ≥2 ... Interaktionsprüfung möglich, einfache StreuungszerlegungN(i,j) ≥2 ... Lösung über Regressionsmodell

Page 29: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 29

Zweiweg ANOVAStudiendesigns

Page 30: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 30

Randomisierte Blöcke /1Allgemein: Zwei Einflussfaktoren A und B

Bspl: Kombination von 2 Medikamenten A und B

Einfachster FallN(i,j)=1 oder N(i,j)=const.

Zeilen-mittelwert

A1 A2 ... AcB1 Y(1,1) Y(1,2) ... Y(1,c) Y(1,.)B2 Y(2,1) Y(2,2) ... Y(2,c) Y(2,.)... ... ... ... ...Br Y(r,1) ... ... Y(r,c) Y(c,.)

Spalten-mittelwert Y(.,1) Y(.,2) Y(.,c) Y(.,.)

BLOCK: Faktor A

Faktor B

Page 31: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 31

Randomisierte Blöcke /2

Spezielles Studiendesign mit 2 Einflussfaktoren A und B

Z.B.: Faktor A ergibt sich aus einer Stratifzierung in Blöcke, Faktor B wird zufällig zugeordnet

Page 32: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 32

Randomisierte Blöcke /3

Tests auf Behandlungsunterschiede

ANOVA-Tabelleji

kH

μμ

μμμ

===

:mitPaar ein mindestensgibt Es:H1 hypotheseAlternativ

...:0:H0 eseNullhypoth

21

Page 33: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 33

Randomisierte Blöcke -Streuungszerlegung

∑∑

= =++++

=+++

=+++

+=

=

−=

k

1i

b

1j

2jiij

b

1j

2j

1

2

)YY-Y-(YSSE

:Rest

)Y-Y(kSSB

:Blöcken b beit Blockeffek

)(

:enBehandlungk beiseffekt Behandlungk

ii YYbSST

Page 34: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 34

Zweiweg-ANOVA (balanciert)

HypothesenFaktor AFaktor B

Interaktionen AB

2-Weg-ANOVA, nij=4

A1 A2 A3 A4B1 YYYY YYYY YYYY YYYY n1+=16B2 YYYY YYYY YYYY YYYY n2+=16B3 YYYY YYYY YYYY YYYY n3+=16

n+1=12 n+2=12 n+3=12 n+4=12 n++=n=48

Faktor A

Faktor B

Page 35: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 35

Balancierte Zweiweg ANOVA: Modell

2 Faktoren A,B und eine Wechselwirkung:

ijkijjiijky εγβαμ ++++=

Zwei-Weg ANOVA Tabelle (balanciert)

QuelleFreiheits-

grade SS MS F (feste Effekte)Zeilen r-1 SSR MSR=SSR/(r-1) MSR/MSESpalten c-1 SSC MSC=SSC/(c-1) MSC/MSEInteraktionen (r-1)*(c-1) SSRC MSRC=SSRC/((r-1)*(c-1)) MSRC/MSEFehler r*c*(n-1) SSE MSE=SSE/(r*c*(n-1))

Gesamt *r*c*n-1 TSS

Page 36: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 36

Balancierte Zweiweg ANOVA: Streuungszerlegung

SSESSRCSSCSSR

YYTSSr

i

c

j

n

kijk

+++=

=−=∑∑∑= = =

+++1 1 1

2)(

Page 37: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 37

Zwei- und Mehrweg ANOVA: unballanziert

Keine Streuungszerlegung möglichLösung über lineare Regression

Dummy VariablesKodierung von k-Ausprägungen durch k-1 Dummy Variables

∑ ∑ ∑∑−

=

=

=

=

++++=1

1

1

1

1

1

1

1

r

i

c

j

r

i

c

jjiijjjii EZXZXY γβαμ

Dummy Kodierung, 2 Beispiele

α1 α2 α3 α1 α2 α3A1 0 0 0 0 0 0A2 1 0 0 1 0 0A3 0 1 0 1 1 0A4 0 1 1 1 1 1

Page 38: varianzanalyse

15.01.2008 Varianzanalyse/Pfeiffer 38

QuadratsummenTyp I

Hierarchische Zerlegung der QSHaupteffekt vor Wechselwirkungen 1.,2.,... Ordnung

Typ IIEffekte werden aneinander angepasst

Bei ausgeglichenen ModellenBei Modellen nur mit Haupteffekten

Typ III – StandardBei ausgeglichenen und unausgeglichenen Modellen ohne leere Zellen

Invariant bezüglich Zellhäufigkeit

Typ IVAuch bei Modellen mit leeren Zellen