Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Matematicka statistika
Sarka Hudecova
Katedra pravdepodobnosti a matematicke statistikyMatematicko-fyzikalnı fakulta Univerzity Karlovy
letnı semestr 2012
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Opakovanı
t-testy vs. neparametricke testy
Wilcoxonuv jednovyberovy test
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Opakovanı
t-testy vs. neparametricke testy
Wilcoxonuv jednovyberovy test
Wilcoxonuv jednovyberovy test:
Situace: X1, . . .Xn vyber ze spojiteho symetrickeho rozdelenı
H0 : mX = m0, proti H1 : mX 6= m0
normalnı rozdelenı → jednovyberovy t-test
porusenı normality → jednovyberovy Wilcoxonuv test
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Opakovanı – Wilcoxonuv jednovyberovy test
test sleduje vzdalenosti (resp. jejich poradı) pozorovanıX1, . . . ,Xn od bodu m0
Postup
vyloucıme prıpady Xi = m0 (a dle toho upravıme n)
Yi = Xi −m0 → usporadame |Yi | dle velikosti sledujeme R+
i poradı |Yi |
za H0 by soucty R+i pro kladna a zaporna Yi mely byt
srovnatelne
vezmeme W soucet poradı R+i pro Yi > 0
→ presny test→ asymptoticky test zalozeny na statistice Z
→ asymptoticky test s korekcı pro spojitost
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Parovy Wilcoxonuv test
Situace: Parova pozorovanı (X1,Y1), . . . , (Xn,Yn), zajıma nas,zda jsou veliciny X a Y co do polohy stejne
na kazdem subjektu merıme dve veliciny! jejichporovnanı
prıklady: vek rodicu, sıla stisku leve a prave ruky,hmotnost pred a po diete, . . .
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Parovy Wilcoxonuv test
Situace: Parova pozorovanı (X1,Y1), . . . , (Xn,Yn), zajıma nas,zda jsou veliciny X a Y co do polohy stejne
na kazdem subjektu merıme dve veliciny! jejichporovnanı
prıklady: vek rodicu, sıla stisku leve a prave ruky,hmotnost pred a po diete, . . .
Postup
zavedeme Zi = Xi − Yi
budeme chtıt testovat, zda Zi kolısajı kolem nuly, tj. zdamZ = 0 → problem preveden na jednovyberovy prıpad
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Parovy Wilcoxonuv test
majı-li Z1, . . . ,Zn normalnı rozdelenı t-test
porusenı normality jednovyberovy Wilcoxonuv testpredpoklad: Z1, . . . ,Zn spojite symetricke rozdelenı
Postup:
→ vyloucıme prıpady Zi = 0
→ urcıme poradı R+i absolutnıch hodnot |Zi |
→ W soucet poradı R+i , kde Zi > 0
→ testova statistika
Z =W − n(n+1)
4√n(n+1)(2n+1)
24
za H0 ma Z priblizne N(0, 1) rozdelenı
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Prıklad – porovnanı dvou metod ucenı nazpamet’
Prıklad
Porovnanı dvou metod ucenı (poslouchanı vs. ctenı).
studie zahrnujıcı 9 osob pozorovanı (Xi ,Yi )
chceme vedet, zda je mezi obema zpusoby rozdıl
i 1 2 3 4 5 6 7 8 9
Xi 90 86 72 65 44 52 46 38 43Yi 85 87 70 62 44 53 42 35 46
H0 : rozdelenı X a Y je stejne
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Prıklad – pokrac.
zavedeme rozdıly Zi = Xi − Yi predpoklad symetrie
H0 : mZ = 0
i 1 2 3 4 5 6 7 8 9
Zi 5 -1 2 3 0 -1 4 3 -3|Zi | 5 1 2 3 − 1 4 3 3R+i 8 1.5 3 5 − 1.5 7 5 5
W = 8 + 3 + 5 + 7 + 5 = 28
Z =W − n(n+1)
4√n(n+1)(2n+1)
24
=28− 8·9
4√8·9·1724
= 1.4
test: |Z | < z0.975 = 1.96 nelze zamıtnout H0
program R: oprava na spojitost, bere ohled na shodyp-hodnota 0.18
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Dvouvyberovy Wilcoxonuv test
Situace: dva nezavisle nahodne vybery X1, . . . ,Xn aY1, . . . ,Ym, oba ze spojiteho rozdelenı, chceme testovat
H0 : rozdelenı X a Y jsou stejna
(tj. i mediany se rovnajı)
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Dvouvyberovy Wilcoxonuv test
Situace: dva nezavisle nahodne vybery X1, . . . ,Xn aY1, . . . ,Ym, oba ze spojiteho rozdelenı, chceme testovat
H0 : rozdelenı X a Y jsou stejna
(tj. i mediany se rovnajı)
Postup
udelame spolecny (tzv. sdruzeny) vyberX1, . . . ,Xn,Y1, . . . ,Ym a usporadame jej podle velikosti
za H0 jsou vybery X a Y”dobre promıchane“
urcıme poradı v ramci spojeneho vyberuza H0 by se prumerna poradı X a Y nemela velmi lisit
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Dvouvyberovy Wilcoxonuv test
vezmeme W soucet poradı X1, . . . ,Xn
proti H0 svedcı velmi velke a velmi male hodnoty W
testova statistika:
Z =W − n(n+m+1)
2√nm(n+m+1)
12
ma za H0 priblizne N(0, 1) rozdelenı
Test:
hypotezu H0 o shode rozdelenı zamıtneme, pokud|Z | > z1−α/2
lze uvazovat i jednostranne alternativy
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Poznamky
test se nekdy nazyva Mannuv-Whitneyuv test
obecne formulovana hypoteza:test citlivy zejmena vuci posunutı, mene citlivy na nestejnyrozptyl
pri vetsım poctu shod Xi a Yi korekce ve jmenovateli Z
existujı i presne postupy (bez pouzitı aproximacı)
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Prıklad — vynos psenice
Prıklad
Vliv noveho zpusobu hnojenı na vynos psenice:
13 polı stejne kvality 8 novy zpusob, 5 osetrenostandardne
mereny vynosy v tunach na hektar
Xi novy zpusob: 5.7, 5.5, 4.3, 5.9, 5.2, 5.6, 5.8, 5.1
Yi standardnı hnojivo: 5.0, 4.5, 4.2, 5.4, 4.4
Chceme testovat:
H0 : zpusob hnojenı nema vliv na vynos psenice
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Prıklad – graficke znazornenı dat
novy tradicni
4.5
5.0
5.5
Zpusob
Vyn
os p
seni
ce [t
/ha]
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Prıklad – resenı
Pouzijeme popsany postup:
4.20 4.30 4.40 4.50 5.00 5.10 5.20 5.40 5.50 5.60 5.70 5.80 5.901 2 3 4 5 6 7 8 9 10 11 12 13
W = 2 + 6 + 7 + 9 + 10 + 11 + 12 + 13 = 70
testova statistika
Z =70− 8(5+8+1)
2√5·8·(5+8+1)
12
= 2.050
|Z | > z0.975 = 1.960 zamıtame H0
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Resenı v programu R
R pocıta W poradı Y , zde W = 21
uvadı Mannovu-Whitneyovu statistiku
U = mn +1
2n(n+ 1)− W
pak U udava pocet prıpadu, kdy Xi > Yj
> wilcox.test(x,y,correct=F,exact=F)
Wilcoxon rank sum test
data: x and y
W = 34, p-value = 0.04042
alternative hypothesis: true location shift is not
equal to 0
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Shrnutı
normalnı rozdelenı spojite rozdelenı
jeden vyber jednovyberovyt-test
jednovyberovy Wilcoxon
parova pozo-rovanı
parovy t-test parovy Wilcoxon
dva nezavislevybery
dvouvyberovy t-test dvouvyberovy Wilcoxon
Dale: Testy v binomickem rozdelenı
jednovyberova situace
dvouvyberova situace
Nynı: srovnanı strednıch hodnot v k vyberech
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Motivacnı prıklad – znecistenı reky
pet ruznych mıst na rece vyloveno vzdy 7 ryb
zjist’ovana koncentrace medi v jatrech
lisı se znecistenı reky na zkoumanych mıstech?
A B C D E
1.0
1.5
2.0
2.5
Misto
Cu
A B C D E
−0.
50.
00.
5
Misto
Log(
Cu)
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Motivacnı prıklad – znecistenı reky
MıstoCu A B C D E
prumer 1.84 1.68 1.71 0.97 1.40smer.odch. 0.53 0.46 0.51 0.26 0.20
Mıstolog Cu A B C D E
prumer 0.57 0.48 0.50 -0.06 0.33smer.odch. 0.31 0.28 0.32 0.29 0.14
porovnanı strednıch hodnot 5 nahodnych vyberu
zobecnenı dvouvyberoveho t-testu
analyza rozptylu (ANOVA)
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Analyza rozptylu jednoducheho trıdenı
Situace:
k nezavislych nahodnych vyberu z normalnıch rozdelenı seshodnymi rozptyly
Y11, . . . ,Y1n1 vyber z N(µ1, σ2)
Y21, . . . ,Y2n2 vyber z N(µ2, σ2)
...Yk1, . . . ,Yknk vyber z N(µk , σ
2)
Chceme testovat na hladine α
H0 : µ1 = µ2 = · · · = µk
proti H1 : neplatı H0.
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Znacenı
Oznacıme
Y 1• vyberovy prumer v 1. vyberuY2• vyberovy prumer v 2. vyberu. . .Yk• vyberovy prumer v k . vyberu
Y •• celkovy (spolecny) vyberovy prumer
n = n1 + · · ·+ nkmodel nazveme vyvazeny, pokud n1 = n2 = · · · = nk
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Celkovy soucet ctvercu
Celkova variabilita v datech:
ST =
k∑
i=1
ni∑
j=1
(Yij − Y ••)2
(celkovy soucet ctvercu)
−0.
50.
00.
51.
0
Mista
log(
Cu)
A B C D E
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Rozklad souctu ctvercu
Idea: rozklad celkoveho souctu ctvercu
k∑
i=1
ni∑
j=1
(Yij − Y ••)2
︸ ︷︷ ︸ST
=
k∑
i=1
ni(Y i• − Y ••)2
︸ ︷︷ ︸SA
+
k∑
i=1
ni∑
j=1
(Yij − Y i•)2
︸ ︷︷ ︸Se
ST = SA + Se
(celkova variabilita) = (variabilita mezi) + (variabilita uvnitr)
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Rozklad souctu ctvercu
Idea: rozklad celkoveho souctu ctvercu
k∑
i=1
ni∑
j=1
(Yij − Y ••)2
︸ ︷︷ ︸ST
=
k∑
i=1
ni(Y i• − Y ••)2
︸ ︷︷ ︸SA
+
k∑
i=1
ni∑
j=1
(Yij − Y i•)2
︸ ︷︷ ︸Se
ST = SA + Se
(celkova variabilita) = (variabilita mezi) + (variabilita uvnitr)
za H0 pochazı vsechny vybery z jednoho stejneho rozdelenı variabilita mezi by mela byt mensı nez variabilita uvnitr
do uvahy je treba brat tzv. stupne volnosti
fT = fA + fe
(n − 1) = (k − 1) + (n − k)
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Rozklad souctu ctvercu – pokrac.
(celkova variabilita) = (variabilita mezi) + (variabilita uvnitr)
k∑
i=1
ni∑
j=1
(Yij − Y ••)2 =
k∑
i=1
ni(Y i• − Y ••)2 +
k∑
i=1
ni∑
j=1
(Yij − Y i•)2
−0.
50.
00.
51.
0
Mista
log(
Cu)
A B C D E
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Testova statistika
Mame rovnostST = SA + Se
Testova statistika
FA =
SAfASefe
proti H0 svedcı velke hodnoty FA
za H0 ma FA tzv. F -rozdelenı s fA = k − 1 a fe = n− k
stupni volnosti
H0 zamıtneme, pokud FA ≥ Fk−1,n−k(1− α), kdeFk−1,n−k(1− α) je 1− α kvantil Fk−1,n−k rozdelenı
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
F -rozdelenı
Fisherovo-Snedecorovo rozdelenıdva parametry m, n: Fm,n rozdelenırozdelenı na kladnych cıslech
0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
1.2
x
f
F(30,30)F(10,5)F(10,20)F(5,10)F(3,10)
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Tabulka analyzy rozptylu
variabilita f S S/f F p-hodnota
vybery fA = k − 1 SA SA/fA FA p
rezidualnı fe = n− k Se Se/fecelkova fT = n − 1 ST
S – soucty ctvercu
f – pocet stupnu volnosti
S/f – prumerne ctverce
p-hodnota odpovıdajıcı testu H0 : µ1 = · · · = µk
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Prıklad – znecistenı
variabilita f S S/f F p-hodnota
mısto 4 1.80 0.45 5.90 0.0013rezidualnı 30 2.28 0.08
celkova 34 4.08
vyslo FA = 5.9 > F4,30 = 2.69
na hladine vyznamnosti 5 % zamıtame H0, tj. prokazalijsme vyznamny rozdıl ve znecistenı
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Predpoklady metody
1 nezavislost vyberu
melo by byt zajisteno provedenım (planem) pokusupredpoklad nelze nahradit
2 normalita dat
nutne overit, zda Yij − Y i• majı normalnı rozdelenıN(0, σ2) pro vsechna i , j ! standardnı postupy prooverenı normalityvyvazeny model nenı velmi citlivy na porusenıpri vyraznem porusenı existujı neparametricke postupy
3 shoda rozptylu
neformalnı posouzenı smerodatnych odchylektesty: Levenuv, Bartlettuvvyvazeny model nenı velmi citlivy na porusenı
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Prıklad – znecistenı
normalita: Shapiruv-Wilkuv test: p-hodnota 0.068
−2 −1 0 1 2
−0.
40.
00.
20.
4Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
shoda rozptylu: Levenuv test p-hodnota 0.648, Bartlettuvtest p-hodnota 0.453
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Mnohonasobna porovnanı
Prıklad znecistenı:
prokazali jsme, ze je statisticky vyznamny rozdıl veznecistenı jednotlivych mıst
zatım ale nevıme, ktera mısta se od sebe navzajemvyznamne lisı metody mnohonasobneho porovnanı
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Mnohonasobna porovnanı
Prıklad znecistenı:
prokazali jsme, ze je statisticky vyznamny rozdıl veznecistenı jednotlivych mıst
zatım ale nevıme, ktera mısta se od sebe navzajemvyznamne lisı metody mnohonasobneho porovnanı
Tukeyho metoda
ktere dvojice µi , µj se od sebe lisı?
posouzenı rozdılu Y i• a Y j•:
|Y i• − Y j•| ≥ qk,n−k(α)
√Se
2fe
(1
ni+
1
nj
),
kde qk,n−k(α) je tabelovana kriticka hodnota.
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Prıklad – znecistenı
Mısto A B C D E
pocet (ni) 7 7 7 7 7
prumer (Y i•) 0.568 0.484 0.495 −0.063 0.329
q5,30(α) = 4.102 , Se/fe = 0.076
kriticka mez:
qk,n−k (α)
√Se
2fe
(1
ni+
1
nj
)= 4.102 ·
√0.076
2·2
7= 0.428
nejnizsı prumer mısto D-0.063+0.428=0.365 na hladine 5 % se od mısta D lisıvsechna dalsı mısta s prumerem alespon 0.365
mısto D se tedy vyznamne lisı od A, B a C
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Prıklad – obrazek
Graficke znazornenı Tukeyho porovnanı:
−1.
0
−0.
5
0.0
0.5
E−DE−CD−CE−BD−BC−BE−AD−AC−AB−A
95% family−wise confidence level
Differences in mean levels of Misto
Matematickastatistika
Neparametricketesty
ParovyWilcoxonuv test
DvouvyberovyWilcoxonuv test
Analyzarozptylu
Poznamky
lze slozitejsı modely analyzy rozptyluvliv vıce faktoru analyza dvojneho trıdenı, trojnehoptrıdenı, . . .
existujı i dalsı metody mnohonasobneho porovnanı
existujı neparametricke postupy, ktere lze pouzıt priporusenı predpokladu ANOVA