Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
F2
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Statistik
Kirkwood & Sterne kapitel 4. Means, Standard Deviationsand Standard Errors
Kirkwood & Sterne kapitel 5. The Normal Distribution
Data observeret med tilfældig variation. Vi vil ...
... kvantificere at data kan forklares med
systematisk variationtilfældig variation.
... kvantificere at konklusioner baseret pa meget data er merepræcise end konklusioner baseret pa lidt data.
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Hæmoglobin-niveau for 70 kvinder (g/100ml)
10.2 13.3 10.6 12.1 9.3 12.0 13.4 11.9 11.2 14.6
13.7 12.9 10.5 12.9 13.5 12.9 12.1 11.4 15.1 11.1
10.4 12.1 13.7 11.4 14.6 11.1 10.9 12.5 10.7 13.5
14.9 9.4 11.8 12.7 11.2 8.8 11.3 13.0 12.9 10.9
11.5 13.2 14.1 10.6 11.7 10.2 14.7 11.6 13.4 13.1
12.0 10.8 10.3 11.4 10.9 11.6 10.8 13.1 12.3 11.8
11.0 11.7 13.6 11.9 10.4 12.5 13.3 9.7 11.0 12.2
https://youtu.be/z1Yokwnnlls
Software (ikke en del af pensum, ikke nødvendigt til eksamen)
Download R frahttps://cran.r-project.org/bin/windows/base/
Download SAS/SPSS fra softwarebibliokteket pahttp://kunet.dk
https://cran.r-project.org/doc/contrib/usingR.pdf
http://biostat.ku.dk/~kach/SAS2016
http://biostat.ku.dk/~kach/SPSS
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Hæmoglobin-niveau for 70 kvinder (g/100ml)
gennemsnit: x = (10.2 + 13.3 + · · · )/70 = 11.98
afvigelser: (10.2− x) (13.3− x) · · ·kvadreres1: (10.2− x)2 (13.3− x)2 · · ·Varians: Hvor langt væk fra centrum ligger data
1
69
[(10.2− 11.98)2 + (13.3− 11.98)2 + · · ·
]= 2.01
Skriver
V = s2 =1
n − 1
∑(x − x)2
dividerer ikke med n, men med ’frihedsgrader’ (n − 1)
1sa de bliver positiveKarl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Varians
V = s2 = 1n−1
∑(x − x)2 - dividerer ikke med n, men med
’frihedsgrader’ (n − 1)
x x (x − x) (x − x)2
10.2 11.98 -1.78 3.168413.3 11.98 1.31 1.7424
: : : :: : : :
12.2 11.98 0.22 0.0484∑(x − x)2 = 3.1684 + 1.7424 + . . .+ 0.0484 [K & S, Table 4.1]
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Varians og SD
V = s2
kompliceret (kvadratisk afvigelse), er nem at regne medhar ’sære enheder’ - svær at forsta.
Kvadratroden s
har oprindelige enheder - nemmere at forstakaldes standardafvigelsen (engelsk: standard deviation, SD),eller spredningen.
Tommelfingerregel:
95% ligger mellem x − 2 · s og x + 2 · s(’normalomradet’)
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Normalfordeling
Middelværdi µ og SD σ.
Ssh for interval = areal under tilsv. del af kurven.
Areal under hele kurven = 1.
95% af fordelingen ligger mellem
µ− 1.96 · σ og µ+ 1.96 · σ’normalomradet’ - 95% referenceinterval
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Normalfordelingen
Regneregler
Normalfordeling er symmetrisk P(Z > 1.45) = P(Z < −1.45)
Median=middelværdi
Husk atP(Z > 1.45) = 1− P(Z < 1.45)
Den centrale grænseværdisætning
Hvis X1, . . . ,Xn er n uafhængige identisk fordelte variable medmiddelværdi E(X) og varians V(X).
Sa vil gennemsnittet være approksimativt normalt fordelt medmiddelværdi E(X) og varians V(X)/n.
Approksimationen bliver bedre og bedre, jo flereobservationer, der indsamles.
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Normalfordeling. Notation
Middelværdi µ svarer til gennemsnittet x
Varians σ2 svarer til s2
SD σ svarer til s eller SD
Skriver µ nar vi mener sand middelværdi og x nar vi menergennemsnit beregnet fra stikprøve.
Skriver σ2 nar vi mener sand varians og s2 nar vi menervarians beregner fra stikprøve.
http://biostat.ku.dk/~kach/CSS1/Altman,Bland,
Normaldistribution,BMJ,1995.pdf
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Normalfordeling. Eksempel
Bruger normalfordeling til at beskrive højde.
Middelværdi µ=171.5 cm og SD σ=6.5 cm.
Kan nemt beregne et 95% referenceinterval for højde
[171.5− 1.96 · 6.5, 171.5 + 1.96 · 6.5] = [ , ]
fortolkningen af dette interval: ”de midterste 95% affordelingen”
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Normalfordeling. Eksempel
Middelværdi µ=171.5 cm og SD σ=6.5 cm.
Sandsynlighed for at ligge mellem 158.8 og 184.2: 95%.
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Referenceintervaller (’normalomrader’)
95% referenceinterval
[MEAN-1.96·SD,MEAN+1.96·SD]
indeholder de midterste 95% af populationen.
99% referenceinterval
[MEAN-2.58·SD,MEAN+2.58·SD]
indeholder de midterste 99% af populationen.
1.96 og 2.58 fra K & S Table A2 (bemærk viser bade’one-sided’ og ’two-sided’).
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Standardiseret normalfordeling: z-score
Normalfordeling med middelværdi 0 og varians 1 kaldesstandardiseret normalfordeling.
Hvis X er normalfordelt med middelværdi µ og varians σ2 er
Z =X − µσ
standardiseret normalfordelt.
kaldes z-score (eller SND) [K & S Table A1]
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Udregning
Hvad er sandsynligheden for at en person i vores population erhøjere end 185cm ?
Skal bruge tabel over normalfordeling med middelværdi 171.5og SD 6.5. Sadan en tabel har vi ikke.
Men X > 185 netop hvis Z > 185−171.56.5 = 2.08.
Derfor er P(X > 185) = P(Z > 2.08) = 0.0188 (sla op iTabel A1).
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Referenceinterval. Eksempel
Reference omrade over væksten for danske drenge baseret pa ElseAndersen’s undersøgelse fra 1974.
viser 97.5% og 2.5% percentiler, dvs. ’normalomradet’, midterste95% af populationen.
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Opgave
Reference omrade over vækst. For de 1 arige aflæser vi:gennemsnit 76 og referenceinterval [70, 82].
70 76 82
--------------------------
Hvad er sandsynligheden for at en 1 arig er mere end 80 cm ?
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Opgave1-arige: gennemsnit 76, referenceomrade [70, 82].
70 76 82
--------------------------
Vi kan regne SD ud
82 = 76 + 1.96 · SD82− 76 = 1.96 · SD82− 76
1.96= SD
dvs. SD=3.06. Tabelopslag
P(X > 80) = P(Z > 80−763.06 ) = P(Z > 1.31) = 0.0951 ∼ 9.5%
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Fordelingen af gennemsnit (’sample means’)
Vil undersøge en population af kvinder og tager en stikprøve(sample) pa n=10.
Gennemsnittet x i stikprøven er vores bedste bud pa denukendte middelværdi µ i populationen, men det er ikke densande værdi.
Hvis vi havde taget en anden stikprøve med n=10 ville vi havefaet et andet estimat (sikkert ikke meget anderledes)
Hvis vi havde en større stikprøve ville vi være mere sikre.
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Fordelingen af gennemsnit (’sample means’)
Hæmoglobin-niveau for 70 kvinder (g/100ml)
Hvad hvis vi havde baseret vores analyse pa kun 10 afkvinderne (f.eks. de 10 første eller de de 10 sidste)?
10.2 13.3 10.6 12.1 9.3 12.0 13.4 11.9 11.2 14.6 -> 11.86
13.7 12.9 10.5 12.9 13.5 12.9 12.1 11.4 15.1 11.1 -> 12.61
10.4 12.1 13.7 11.4 14.6 11.1 10.9 12.5 10.7 13.5 -> 12.09
14.9 9.4 11.8 12.7 11.2 8.8 11.3 13.0 12.9 10.9 -> 11.69
11.5 13.2 14.1 10.6 11.7 10.2 14.7 11.6 13.4 13.1 -> 12.41
12.0 10.8 10.3 11.4 10.9 11.6 10.8 13.1 12.3 11.8 -> 11.50
11.0 11.7 13.6 11.9 10.4 12.5 13.3 9.7 11.0 12.2 -> 11.73
Gennemsnit i de sma delpopulationer varierer omkringx = 11.98. Vi kunne godt have faet noget (lidt) anderledes
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2
Fordelingen af gennemsnit (’sample means’)
Observerer 70 datapunkter - kan sige noget om fordelingen.
Vi har kun observeret en middelværdi, men vil gerne sigenoget om fordelingen af middelværdien.
x1, . . . , xn er normalfordelte med middelværdi µ og varians σ2
x normalfordelt middelværdi µ varians σ2/n
Altsa, samme middelværdi, men standardafvigelsen
s.e.(x) =s√n
bliver mindre. Kaldes standard error of the mean (SEM).
Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2