View
205
Download
0
Embed Size (px)
Citation preview
15.01.2008 Varianzanalyse/Pfeiffer 1
Varianzanalyse= ANOVA= Analysis of Variance
Univ.-Prof.DI.Dr.Karl P. PfeifferDept.f. Med. Statistik, Informatik und
Gesundheitsökonomie (MSIG)Medizinische Universität Innsbruck
E-mail: [email protected]/msig/
v.20070310
15.01.2008 Varianzanalyse/Pfeiffer 2
ANOVA:LiteraturKleinbaum et. Al: Applied regression and othermultivariable methods. Duxbury Press. Albany, 1998Büning, Trenkler: Nichtparametrische statistische Methoden. De Gruyter Verlag, Berlin, 1978Fisher L.D., van Belle G.: Biostatistics. John Wiley, New York, 1993Hartung J., Elpelt B.: Multivariate Statistik. R.Oldenburg Verlag, München, 1992
15.01.2008 Varianzanalyse/Pfeiffer 3
ANOVA - ProblemstellungANOVA – Analysis of Variance -StreuungszerlegungEinfache Varianzanalyse
Ein Einflussfaktor mit k>2 AusprägungenBspl.: 4 verschiedene Therapieformen
Vergleicht die Mittelwerte durch Zerlegung der Varianz in:
Streuung zwischen (between) den GruppenInnerhalb (within) der Gruppen (=Residuen)
15.01.2008 Varianzanalyse/Pfeiffer 4
ANOVA - BeispieleVergleich des Einkommens in 5 verschiedenen RegionenVergleich der Verkaufszahlen in 10 gleich grossen Filialen eines UnternehmensVergleich der Wirksamkeit der Kombination von zwei Medikamenten mit 3 bzw. 4 verschiedenen DosierungenVergleich der Zufriedenheit von Studierenden aus verschiedenen Studienrichtungen
15.01.2008 Varianzanalyse/Pfeiffer 5
ANOVA: StudiendesignEin oder mehrere Einflussfaktoren
mit k≥2 Ausprägungen
Unterscheide ANOVA mit Messwiederholungen
Repeated MeasurementsAufeinanderfolgende Beobachtungen sind abhängig
Wird hier nicht behandelt
15.01.2008 Varianzanalyse/Pfeiffer 6
ANOVA - ÜberblickEinfache Varianzanalyse (ANOVA)
Ein Einflussfaktor mit k≥2 AusprägungenMehrweg-ANOVA
Mehrere (≥ 2) Einflussfaktoren mit jeweils ≥ 2 Ausprägungen
KovarianzanalyseStetige und diskrete Einflussfaktoren
MANOVAMehrere abhängige Variable
15.01.2008 Varianzanalyse/Pfeiffer 7
Einweg-ANOVA: DatenGesamt
1 2 ... ky11 y21 ... yk1
y12 y22 yk2
.. . ..
.. .. ..
.. .. ..y1N1 y2N2 ... ykNk
Stichproben-umfang N1 N2 ... Nk N
Mittelwert ...Standard-abweichung s1 s2 ... sk sSumme pro Gruppe T1 T2 ... Tk G
Beo
bach
tung
en
Gruppen / Faktor
1y y2y
15.01.2008 Varianzanalyse/Pfeiffer 8
Feste oder zufällige EffekteFeste Effekte
In der Studienplanung vorgegeben
Zufällige EffekteDurch die Auswahl einer Zufallsstichprobe entstanden
Unterschiedliche Hypothesenformulierung und Interpretation beachten
15.01.2008 Varianzanalyse/Pfeiffer 9
Zufällige Effekte
Effekte. festefür Modell dem analogist test Hypothesen0:0
,....2,1),,0(2
2
=
=≈
++=
A
Ai
ijiij
H
iNA
EAY
σσ
μ
15.01.2008 Varianzanalyse/Pfeiffer 10
ANOVA: Hypothesen
Feste EffekteKeine Aussage darüber, welche der einzelnen Gruppen unterschiedliche Mittelwerte haben
Globaler Test
j)(i,Paar ein mindestensfür ,:1gleich sind eMittelwertk alle d.h.
...:0 21
ji
k
H
H
μμ
μμμ
≠
===
15.01.2008 Varianzanalyse/Pfeiffer 11
ANOVA-Modell
Das ANOVA-Modell (zufällige Effekte):
Die Nullhypothese:H0:α1 = α2 = ... = αk = 0
Die Alternativhypothese:Mindestens ein αi ist ungleich 0
ijiijy εαμ ++=
),0(:Annahme
2ασα Ni ≈
15.01.2008 Varianzanalyse/Pfeiffer 12
ANOVA - StreuungszerlegungSST = SSB + SSE
SST...Sum Squared TotalSSB...Sum Squared Between groupsSSE...Sum Squared Error (Within)
( ) ( )
( )
∑
∑∑∑
∑∑
∑
∑∑∑∑
=
== =
= =
=
= == =
=
==
−=
−=
+=
−+−=−=
i
i
i
ii
n
jij
ii
k
iii
k
i
n
jij
k
i
n
jiij
k
iii
k
i
n
jiiij
k
i
n
jij
yn
y
ynN
yN
y
yySSE
yynSSB
SSESSB
yyyyyySST
1
11 1
2
1 1
1
2
2
1 1
2
1 1
1
11
)(
15.01.2008 Varianzanalyse/Pfeiffer 13
Streuungszerlegung - Beweis( ) ( )
( ) ( )
∑
∑∑∑
∑∑ ∑∑∑∑∑
∑∑
∑ ∑∑ ∑
∑∑∑∑
=
== =
= = == == =
==
= == =
= == =
=
==
−=+−=−=
−==
+−=+−=−=
+=
−+−=−=
i
i
iii
ii
n
jij
ii
k
iii
k
i
n
jij
k
i
n
j
k
iiiij
k
i
n
jiiijij
k
i
n
jiij
k
iii
k
iii
k
i
k
iiiiii
k
i
k
iiiii
k
i
n
jiiij
k
i
n
jij
yn
y
ynN
yN
y
ynyyyyyyySSE
ynynSSBynyn
ynynyynyyyynyynSSB
SSESSBSST
yyyyyySST
1
11 1
1 1 1
22
1 1
222
1 1
2
1
2
1
2
1 1
22
1 1
22
2
1 1
2
1 1
1
11
2
:gilt :da
2)2()(
:Zeige
15.01.2008 Varianzanalyse/Pfeiffer 14
ANOVA: TeststatistikVarianz zwischen den Gruppen:
Varianz innerhalb der Gruppen:
F=MSB/MSE...F-verteilt mit (k-1),(n-k) Freiheitsgrade
1
/)/(
11
22
−
−=
−=
∑=
k
nGnT
kSSBMSB
k
iii
kn
nTy
knSSEMSE
k
i
k
iii
n
jij
i
−
−
−=
∑ ∑∑= ==1 1
2
1
2 )/(
15.01.2008 Varianzanalyse/Pfeiffer 15
ANOVA Tabelle
Einfache VarianzanalyseZerlegung der Gesamtsstreuung SST in SSB + SSE
UrsacheFreiheits-grade
Quadrat-summe
Mittlere Quadrat-summe Testgrösse
Zwischen den k-1 SSB MSB=SSB/(k-1) F=MSB/MSEResiduen n-k SSE MSE=SSE/(n-k)Gesamt n-1
15.01.2008 Varianzanalyse/Pfeiffer 16
ANOVA: Voraussetzungen
Unabhängige BeobachtungenNormalverteilungGleiche Varianzen in allen Gruppen
Alternative bei nicht-Normalverteilung:Kruskal-Wallis-H-Test
Rangsummentest
15.01.2008 Varianzanalyse/Pfeiffer 17
Multiples Testen Gesamtniveau α bei allen Tests auf die gleichen Daten einhaltenKorrektur des α-WertesBonferroni Korrektur der Irrtumswahrscheinlichkeit bei c Tests
α* = α/c
Weniger konservative VerfahrenBonferroni-Holm
Hochberg-BonferroniHochberg-Benjamini
15.01.2008 Varianzanalyse/Pfeiffer 18
Multiple TestsTukey TestLSD – Least significant differenceScheffe Test
Lineare KontrasteDunnettSidakGabriel...
Bei Gleichheit der Varianzen
15.01.2008 Varianzanalyse/Pfeiffer 19
LSD-ApproachLSD...Least Significant DifferenceNutze die globale Signifikanz α ausBilde die Differenzen:
Sortiere diese absteigendBerechne die paarweisen Konfidenzintervalle
Wenn 0 nicht im Konfidenzintervall enthalten, dann besteht ein signifikanter Unterschied
ji YY −
⎟⎟⎠
⎞⎜⎜⎝
⎛+±− −−
jiknji nn
MSEtYY 11)( 2/1, α
15.01.2008 Varianzanalyse/Pfeiffer 20
Tukey´s Verfahren
Für gleiche Stichprobenumfänge
qk,n-k,1-α...studentisierte SpannweiteModifikation für ungleiche n(i)
α−−=
±−
1,,*
1)(
knk
ji
qn
T
MSETYY
jiji nnMSETYY /1/1(*)2/()( +±−
15.01.2008 Varianzanalyse/Pfeiffer 21
Studentisierte Spannweite
{ }
radenFreiheitsgk k,-Nmit gnverteilunSpannweite entisierteR/s...studGruppenk bei
radenFreiheitsgk -Nmit von Schätzwertein ist und mit erteilt ...normalv
)(min)(max2
σσμ
sy
yyR
i
iiii −=
15.01.2008 Varianzanalyse/Pfeiffer 22
Student-Newman-Keuls
Ersetze k durch k* im Tukey-Testk*...Anzahl der Mittelwerte in der Spannweite der Mittelwerte, die getestet werden
Z.B.: k*=3 beim Vergleich des zweitgrösstenmit dem kleinsten MW bei vier Gruppen
15.01.2008 Varianzanalyse/Pfeiffer 23
Scheffe-TestLineare Kontraste:
Beispiel: k=4 Gruppen
Allgemein:22
4321 μμμμ +−+
=L
01
1
=
=
∑
∑
=
=
k
ii
k
iii
c
cL μ
15.01.2008 Varianzanalyse/Pfeiffer 24
Scheffe´s Verfahren
Scheffe-Konfidenzintervalle
Mit S2=(k-1)F(k-1),(n-k),1-α
∑ ∑ ⎟⎟⎠
⎞⎜⎜⎝
⎛±
=i
k
i i
iii n
cMSESYc1
2
15.01.2008 Varianzanalyse/Pfeiffer 25
Kruskal-Wallis-H-TestAlternative zur Einweg-ANOVA
Wenn die Daten nicht normalverteilt sindBasiert auf der Rangstatistik
Ähnlich dem Wilcoxon-Man-Whitney U-TestGlobaler TestVoraussetzung:
Gleiche Verteilungsform F(z) in den Gruppen
15.01.2008 Varianzanalyse/Pfeiffer 26
Kruskal-Wallis-H-Test: Teststatistik
[ ]
[ ]
[ ][ ][ ]
∑
∑
=−
=
≅
−=
−+=
−+
=
+=
k
iki
i
iii
iii
i
k
ii
i
ii
i
Z
RVARRERZ
nNNnRVAR
RERnNN
H
NnRE
R
1
21
2
2
1
12))(1(
)(1)1(
122
)1(i Gruppeder Rangsumme...
zu N bis 1 Ränge dieElementen Nden Ordne
χ
15.01.2008 Varianzanalyse/Pfeiffer 27
H-Test:Korrektur bei Bindungen
H,H*: für k>3, ni>5 ... Approximation an Chi**2-Verteilung mit k-1 Freiheitsgraden
Bindungender Anzahl...
))/()(1/(1
33*
j
r
jjj
b
NNbbHH ∑=
−−−=
15.01.2008 Varianzanalyse/Pfeiffer 28
Zwei- und Mehrweg ANOVAGrundprinzip: Kombination von zwei oder mehreren FaktorenRandomisiertes Block-Design
Stratifizierung nach einem Faktor (=Block)Randomisierung nach einem zweiten Faktor
Zwei-Weg-ANOVAZwei Einflussfaktoren mit k≥2 Ausprägungen
N(i,j)=1: keine Interaktionsprüfung möglichN(i,j)=const ≥2 ... Interaktionsprüfung möglich, einfache StreuungszerlegungN(i,j) ≥2 ... Lösung über Regressionsmodell
15.01.2008 Varianzanalyse/Pfeiffer 29
Zweiweg ANOVAStudiendesigns
15.01.2008 Varianzanalyse/Pfeiffer 30
Randomisierte Blöcke /1Allgemein: Zwei Einflussfaktoren A und B
Bspl: Kombination von 2 Medikamenten A und B
Einfachster FallN(i,j)=1 oder N(i,j)=const.
Zeilen-mittelwert
A1 A2 ... AcB1 Y(1,1) Y(1,2) ... Y(1,c) Y(1,.)B2 Y(2,1) Y(2,2) ... Y(2,c) Y(2,.)... ... ... ... ...Br Y(r,1) ... ... Y(r,c) Y(c,.)
Spalten-mittelwert Y(.,1) Y(.,2) Y(.,c) Y(.,.)
BLOCK: Faktor A
Faktor B
15.01.2008 Varianzanalyse/Pfeiffer 31
Randomisierte Blöcke /2
Spezielles Studiendesign mit 2 Einflussfaktoren A und B
Z.B.: Faktor A ergibt sich aus einer Stratifzierung in Blöcke, Faktor B wird zufällig zugeordnet
15.01.2008 Varianzanalyse/Pfeiffer 32
Randomisierte Blöcke /3
Tests auf Behandlungsunterschiede
ANOVA-Tabelleji
kH
μμ
μμμ
≠
===
:mitPaar ein mindestensgibt Es:H1 hypotheseAlternativ
...:0:H0 eseNullhypoth
21
15.01.2008 Varianzanalyse/Pfeiffer 33
Randomisierte Blöcke -Streuungszerlegung
∑∑
∑
∑
= =++++
=+++
=+++
+=
=
−=
k
1i
b
1j
2jiij
b
1j
2j
1
2
)YY-Y-(YSSE
:Rest
)Y-Y(kSSB
:Blöcken b beit Blockeffek
)(
:enBehandlungk beiseffekt Behandlungk
ii YYbSST
15.01.2008 Varianzanalyse/Pfeiffer 34
Zweiweg-ANOVA (balanciert)
HypothesenFaktor AFaktor B
Interaktionen AB
2-Weg-ANOVA, nij=4
A1 A2 A3 A4B1 YYYY YYYY YYYY YYYY n1+=16B2 YYYY YYYY YYYY YYYY n2+=16B3 YYYY YYYY YYYY YYYY n3+=16
n+1=12 n+2=12 n+3=12 n+4=12 n++=n=48
Faktor A
Faktor B
15.01.2008 Varianzanalyse/Pfeiffer 35
Balancierte Zweiweg ANOVA: Modell
2 Faktoren A,B und eine Wechselwirkung:
ijkijjiijky εγβαμ ++++=
Zwei-Weg ANOVA Tabelle (balanciert)
QuelleFreiheits-
grade SS MS F (feste Effekte)Zeilen r-1 SSR MSR=SSR/(r-1) MSR/MSESpalten c-1 SSC MSC=SSC/(c-1) MSC/MSEInteraktionen (r-1)*(c-1) SSRC MSRC=SSRC/((r-1)*(c-1)) MSRC/MSEFehler r*c*(n-1) SSE MSE=SSE/(r*c*(n-1))
Gesamt *r*c*n-1 TSS
15.01.2008 Varianzanalyse/Pfeiffer 36
Balancierte Zweiweg ANOVA: Streuungszerlegung
SSESSRCSSCSSR
YYTSSr
i
c
j
n
kijk
+++=
=−=∑∑∑= = =
+++1 1 1
2)(
15.01.2008 Varianzanalyse/Pfeiffer 37
Zwei- und Mehrweg ANOVA: unballanziert
Keine Streuungszerlegung möglichLösung über lineare Regression
Dummy VariablesKodierung von k-Ausprägungen durch k-1 Dummy Variables
∑ ∑ ∑∑−
=
−
=
−
=
−
=
++++=1
1
1
1
1
1
1
1
r
i
c
j
r
i
c
jjiijjjii EZXZXY γβαμ
Dummy Kodierung, 2 Beispiele
α1 α2 α3 α1 α2 α3A1 0 0 0 0 0 0A2 1 0 0 1 0 0A3 0 1 0 1 1 0A4 0 1 1 1 1 1
15.01.2008 Varianzanalyse/Pfeiffer 38
QuadratsummenTyp I
Hierarchische Zerlegung der QSHaupteffekt vor Wechselwirkungen 1.,2.,... Ordnung
Typ IIEffekte werden aneinander angepasst
Bei ausgeglichenen ModellenBei Modellen nur mit Haupteffekten
Typ III – StandardBei ausgeglichenen und unausgeglichenen Modellen ohne leere Zellen
Invariant bezüglich Zellhäufigkeit
Typ IVAuch bei Modellen mit leeren Zellen