Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

F2

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

http://biostat.ku.dk/~kach/CSS1


Statistik

Kirkwood & Sterne kapitel 4. Means, Standard Deviationsand Standard Errors

Kirkwood & Sterne kapitel 5. The Normal Distribution

Data observeret med tilfældig variation. Vi vil ...

... kvantificere at data kan forklares med

systematisk variationtilfældig variation.

... kvantificere at konklusioner baseret pa meget data er merepræcise end konklusioner baseret pa lidt data.



Hæmoglobin-niveau for 70 kvinder (g/100ml)

10.2 13.3 10.6 12.1 9.3 12.0 13.4 11.9 11.2 14.6

13.7 12.9 10.5 12.9 13.5 12.9 12.1 11.4 15.1 11.1

10.4 12.1 13.7 11.4 14.6 11.1 10.9 12.5 10.7 13.5

14.9 9.4 11.8 12.7 11.2 8.8 11.3 13.0 12.9 10.9

11.5 13.2 14.1 10.6 11.7 10.2 14.7 11.6 13.4 13.1

12.0 10.8 10.3 11.4 10.9 11.6 10.8 13.1 12.3 11.8

11.0 11.7 13.6 11.9 10.4 12.5 13.3 9.7 11.0 12.2

https://youtu.be/z1Yokwnnlls

Software (ikke en del af pensum, ikke nødvendigt til eksamen)

Download R frahttps://cran.r-project.org/bin/windows/base/

Download SAS/SPSS fra softwarebibliokteket pahttp://kunet.dk

https://cran.r-project.org/doc/contrib/usingR.pdf

http://biostat.ku.dk/~kach/SAS2016

http://biostat.ku.dk/~kach/SPSS


https://youtu.be/z1Yokwnnlls

https://cran.r-project.org/bin/windows/base/

http://kunet.dk

https://cran.r-project.org/doc/contrib/usingR.pdf

http://biostat.ku.dk/~kach/SAS2016

http://biostat.ku.dk/~kach/SPSS



gennemsnit: x = (10.2 + 13.3 + · · · )/70 = 11.98

afvigelser: (10.2− x) (13.3− x) · · ·kvadreres1: (10.2− x)2 (13.3− x)2 · · ·Varians: Hvor langt væk fra centrum ligger data

1

69

[(10.2− 11.98)2 + (13.3− 11.98)2 + · · ·

]= 2.01

Skriver

V = s2 =1

n − 1

∑(x − x)2

dividerer ikke med n, men med ’frihedsgrader’ (n − 1)

1sa de bliver positiveKarl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2


Varians

V = s2 = 1n−1

∑(x − x)2 - dividerer ikke med n, men med

’frihedsgrader’ (n − 1)

x x (x − x) (x − x)2

10.2 11.98 -1.78 3.168413.3 11.98 1.31 1.7424

: : : :: : : :

12.2 11.98 0.22 0.0484∑(x − x)2 = 3.1684 + 1.7424 + . . .+ 0.0484 [K & S, Table 4.1]



Varians og SD

V = s2

kompliceret (kvadratisk afvigelse), er nem at regne medhar ’sære enheder’ - svær at forsta.

Kvadratroden s

har oprindelige enheder - nemmere at forstakaldes standardafvigelsen (engelsk: standard deviation, SD),eller spredningen.

Tommelfingerregel:

95% ligger mellem x − 2 · s og x + 2 · s(’normalomradet’)



Normalfordeling

Middelværdi µ og SD σ.

Ssh for interval = areal under tilsv. del af kurven.

Areal under hele kurven = 1.

95% af fordelingen ligger mellem

µ− 1.96 · σ og µ+ 1.96 · σ’normalomradet’ - 95% referenceinterval



Normalfordelingen

Regneregler

Normalfordeling er symmetrisk P(Z > 1.45) = P(Z < −1.45)

Median=middelværdi

Husk atP(Z > 1.45) = 1− P(Z < 1.45)

Den centrale grænseværdisætning

Hvis X1, . . . ,Xn er n uafhængige identisk fordelte variable medmiddelværdi E(X) og varians V(X).

Sa vil gennemsnittet være approksimativt normalt fordelt medmiddelværdi E(X) og varians V(X)/n.

Approksimationen bliver bedre og bedre, jo flereobservationer, der indsamles.



Normalfordeling. Notation

Middelværdi µ svarer til gennemsnittet x

Varians σ2 svarer til s2

SD σ svarer til s eller SD

Skriver µ nar vi mener sand middelværdi og x nar vi menergennemsnit beregnet fra stikprøve.

Skriver σ2 nar vi mener sand varians og s2 nar vi menervarians beregner fra stikprøve.

http://biostat.ku.dk/~kach/CSS1/Altman,Bland,

Normaldistribution,BMJ,1995.pdf


http://biostat.ku.dk/~kach/CSS1/Altman, Bland, Normal distribution, BMJ, 1995.pdf

http://biostat.ku.dk/~kach/CSS1/Altman, Bland, Normal distribution, BMJ, 1995.pdf


Normalfordeling. Eksempel

Bruger normalfordeling til at beskrive højde.

Middelværdi µ=171.5 cm og SD σ=6.5 cm.

Kan nemt beregne et 95% referenceinterval for højde

[171.5− 1.96 · 6.5, 171.5 + 1.96 · 6.5] = [ , ]

fortolkningen af dette interval: ”de midterste 95% affordelingen”



Normalfordeling. Eksempel

Middelværdi µ=171.5 cm og SD σ=6.5 cm.

Sandsynlighed for at ligge mellem 158.8 og 184.2: 95%.



Referenceintervaller (’normalomrader’)

95% referenceinterval

[MEAN-1.96·SD,MEAN+1.96·SD]

indeholder de midterste 95% af populationen.

99% referenceinterval

[MEAN-2.58·SD,MEAN+2.58·SD]

indeholder de midterste 99% af populationen.

1.96 og 2.58 fra K & S Table A2 (bemærk viser bade’one-sided’ og ’two-sided’).



Standardiseret normalfordeling: z-score

Normalfordeling med middelværdi 0 og varians 1 kaldesstandardiseret normalfordeling.

Hvis X er normalfordelt med middelværdi µ og varians σ2 er

Z =X − µσ

standardiseret normalfordelt.

kaldes z-score (eller SND) [K & S Table A1]



Udregning

Hvad er sandsynligheden for at en person i vores population erhøjere end 185cm ?

Skal bruge tabel over normalfordeling med middelværdi 171.5og SD 6.5. Sadan en tabel har vi ikke.

Men X > 185 netop hvis Z > 185−171.56.5 = 2.08.

Derfor er P(X > 185) = P(Z > 2.08) = 0.0188 (sla op iTabel A1).



Referenceinterval. Eksempel

Reference omrade over væksten for danske drenge baseret pa ElseAndersen’s undersøgelse fra 1974.

viser 97.5% og 2.5% percentiler, dvs. ’normalomradet’, midterste95% af populationen.



Opgave

Reference omrade over vækst. For de 1 arige aflæser vi:gennemsnit 76 og referenceinterval [70, 82].

70 76 82

--------------------------

Hvad er sandsynligheden for at en 1 arig er mere end 80 cm ?



Opgave1-arige: gennemsnit 76, referenceomrade [70, 82].

70 76 82

--------------------------

Vi kan regne SD ud

82 = 76 + 1.96 · SD82− 76 = 1.96 · SD82− 76

1.96= SD

dvs. SD=3.06. Tabelopslag

P(X > 80) = P(Z > 80−763.06 ) = P(Z > 1.31) = 0.0951 ∼ 9.5%



Fordelingen af gennemsnit (’sample means’)

Vil undersøge en population af kvinder og tager en stikprøve(sample) pa n=10.

Gennemsnittet x i stikprøven er vores bedste bud pa denukendte middelværdi µ i populationen, men det er ikke densande værdi.

Hvis vi havde taget en anden stikprøve med n=10 ville vi havefaet et andet estimat (sikkert ikke meget anderledes)

Hvis vi havde en større stikprøve ville vi være mere sikre.





Hvad hvis vi havde baseret vores analyse pa kun 10 afkvinderne (f.eks. de 10 første eller de de 10 sidste)?

10.2 13.3 10.6 12.1 9.3 12.0 13.4 11.9 11.2 14.6 -> 11.86

13.7 12.9 10.5 12.9 13.5 12.9 12.1 11.4 15.1 11.1 -> 12.61

10.4 12.1 13.7 11.4 14.6 11.1 10.9 12.5 10.7 13.5 -> 12.09

14.9 9.4 11.8 12.7 11.2 8.8 11.3 13.0 12.9 10.9 -> 11.69

11.5 13.2 14.1 10.6 11.7 10.2 14.7 11.6 13.4 13.1 -> 12.41

12.0 10.8 10.3 11.4 10.9 11.6 10.8 13.1 12.3 11.8 -> 11.50

11.0 11.7 13.6 11.9 10.4 12.5 13.3 9.7 11.0 12.2 -> 11.73

Gennemsnit i de sma delpopulationer varierer omkringx = 11.98. Vi kunne godt have faet noget (lidt) anderledes




Observerer 70 datapunkter - kan sige noget om fordelingen.

Vi har kun observeret en middelværdi, men vil gerne sigenoget om fordelingen af middelværdien.

x1, . . . , xn er normalfordelte med middelværdi µ og varians σ2

x normalfordelt middelværdi µ varians σ2/n

Altsa, samme middelværdi, men standardafvigelsen

s.e.(x) =s√n

bliver mindre. Kaldes standard error of the mean (SEM).



Documents

Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager