Click here to load reader

Basal Statistik - Regressionsanalyse.publicifsv.sund.ku.dk/~lts/basal/overheads/regression.pdf · Basal Statistik Regressionsanalyse. LeneTheilSkovgaard ... ellergenereltstandard

  • View
    244

  • Download
    0

Embed Size (px)

Text of Basal Statistik - Regressionsanalyse.publicifsv.sund.ku.dk/~lts/basal/overheads/regression.pdf ·...

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Faculty of Health Sciences

Basal StatistikRegressionsanalyse.

Lene Theil Skovgaard25. februar 2019

1 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Simpel liner regression

Regression og korrelationI Simpel liner regressionI Todimensionale normalfordelingerI Korrelation vs. regressionI ModelkontrolI Diagnostics

Hjemmesider:http://publicifsv.sund.ku.dk/~lts/basal19_1E-mail: [email protected]

: Siden er lidt teknisk

2 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Simpel liner regression

Retningsbestemt relation(men ikke ndvendigvis kausal)mellem to kvantitative (kontinuerte) variable:

Y: Respons eller outcome, afhngig (dependent) variabelX: Forklarende variabel, kovariat(somme tider Independent/uafhngig - meget uheldigt!)

Gennemgende eksempel at tnke p:Y=blodtryk, X=alder

3 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Data

Sammenhrende registreringer (xi , yi),for en rkke individer eller units, i = 1, ,n:Bemrk: xi erne kan vlges p forhnd!

I Det er smart,fordi man kan designe sig til mere prcise estimater

I Det er farligt,hvis man har tnkt sig at benytte korrelationer(mere om det senere)

4 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel I

Sammenhng mellem kolinesteraseaktivitet (KE)og tid til opvgning (TID)

I Outcome: TIDI Forklarende variabel: KEI Konklusioner:

Hvor lang tid forventer vi til opvgning,baseret p en mling af KE?Hvor stor er usikkerheden p denne prediktion?

Et outcome, en (kvantitativ) kovariat:Simpel liner regression

5 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel II

Sammenligning af lungekapacitet (FEV1) for rygere og ikke-rygere

Problem: FEV1 afhnger ogs af f.eks. hjdeI Outcome: FEV1I Forklarende variable: hjde, rygevanerI Konklusioner:

Hvor meget drligere er lungefunktionen hos rygere?

Et outcome, to kovariater:Her er der tale om multipel regression, i form af enkovariansanalyse (omtales i nste forelsning)

6 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempel fra bogen

Hvilken sammenhng er der mellem fastende blodsukkerniveau ogsammentrkningsevne for venstre hjertekammer hos diabetikere?(n=23)

Outcome: Y=vcf, %/sec.

Kovariat:X=blodsukker, mmol/l

OBS BLODSUKKER VCF

1 15.3 1.762 10.8 1.343 8.1 1.27. . .. . .. . .

21 4.9 1.0322 8.8 1.1223 9.5 1.70

7 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Scatter plot

data vcf;infile "http://staff.pubhealth.ku.dk/

~lts/basal/data/vcf.txt"URL firstobs=2;

input blodsukker vcf;run;

proc sgplot data=vcf;scatter x=blodsukker y=vcf;

run;

SPSS: se app. s. 3

Er der nogen sammenhng her?

8 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Matematisk model

Ligningen for en ret linie: Y = + X

Intercept : Skring med Y-akseHldning

9 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Fortolkning

I : intercept, afskring (skring med Y-akse)Sammentrkningsevnen for en diabetiker med enblodsukkervrdi p 0.Samme enheder som outcome.Som regel en utilladelig ekstrapolation!

I : hldning, regressionskoefficientForskellen i sammentrkningsevne hos 2 diabetikere, derafviger i blodsukkervrdi med 1 mmol/l.Ofte parameteren med strst interesse.Enheder som Outcomes enheder pr. kovariats enhed.

10 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Statistisk model

Yi = + Xi + i , i N (0, 2) uafh.i erne er residualerne,dvs. afvigelserne (i Y) fra observeret til forventet.

(ingen kode til denne figur)11 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Estimation

Mindste kvadraters metode:Bestem og , s kvadratafvigelsessummen

ni=1

(yi ( + xi))2 =n

i=12i

bliver mindst mulig. Resultat (estimater):

= SxySxx=

ni=1 (xi x)(yi y)n

i=1 (xi x)2, = y x

12 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Regressionsanalyse i praksis

i SAS:

proc glm data=vcf;model vcf = blodsukker / clparm;

run;

eller

proc reg data=vcf;model vcf = blodsukker / clb;

run;

i SPSS:

Analyze/General Linear Model/

eller

Analyze/Regression/Linear

mere i appendix, s. 4

13 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Output fra regressionsanalyse i SAS (GLM)

Dependent Variable: vcf

Sum ofSource DF Squares Mean Square F Value Pr > FModel 1 0.20726892 0.20726892 4.41 0.0479Error 21 0.98609630 0.04695697Corrected Total 22 1.19336522

R-Square Coeff Var Root MSE vcf Mean0.173684 16.34634 0.216696 1.325652

Source DF Type I SS Mean Square F Value Pr > Fblodsukker 1 0.20726892 0.20726892 4.41 0.0479

Source DF Type III SS Mean Square F Value Pr > Fblodsukker 1 0.20726892 0.20726892 4.41 0.0479

StandardParameter Estimate Error t Value Pr > |t|Intercept 1.097814878 0.11748118 9.34

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Vigtige informationer fra output

I Hldning (slope, vises i output under betegnelsenblodsukker, fordi det er koefficienten til denne), = 0.02196 0.022,med tilhrende spredning (standard error)

I Spredningen omkring linien (Root MSE),s = = 0.216696 0.217Denne strrelse benyttes til konstruktion afprediktionsgrnser (kommer senere), som ernormalomrder for given blodsukkervrdi.

15 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Estimeret regressionslinie

proc sgplot data=vcf;reg x=blodsukker y=vcf /

markerattrs=(color=blue)lineattrs=(color=red);

run;

SPSS: app. s. 5

Estimeret regressionslinie: vcf=1.10 + 0.0220 blodsukker

16 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Forventet vrdi for specifikke vrdier af kovariaten

Fittede (predikterede, forventede) vrdier:

yi = + xi

Forventet vrdi af vcf for en diabetiker med blodsukker 10mmol/l:

1.10 + 0.0220 10 = 1.32

men hvad med usikkerheden (s.e.) for denne?17 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Forventet vrdi for specifikke vrdier af kovariaten, IIUsikkerheder p disse kan ikke udregnes ved at kombinere s.e. phhv. intercept og hldning!Dette skyldes, at intercept og hldning er (negativt) korrelerede:Hjt intercept giver lav hldning - og omvendt.

Lad SAS gre det ved hjlp af en estimate-stning:(SPSS: app. s. 6)

estimate blodsukker=10 intercept 1 blodsukker 10;

som giver outputtet:Standard

Parameter Estimate Error t Value Pr > |t|blodsukker=10 1.31744010 0.04535290 29.05

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Estimaterne fra regressionsanalysen

Regressionsanalysen indeholder 3 parametre:I 2 hrende til linien (intercept og hldning)I 1, som er spredningen omkring linien ():

den biologiske variation af vcf for folk med sammeblodsukker-vrdi

Variansen omkring regressionslinien (2) estimeres ved

s2 = 1n 2

ni=1

(yi xi)2

ca. gennemsnitlig kvadratisk afstand, blot er n (antallet af observationer)erstattet af n 2 (antallet af frihedsgrader), her 21

19 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Spredning omkring regressionslinie

Da man ikke kan forst eller fortolke varianser direkte, tager vistraks kvadratrod:

s =

s2

som er estimat for spredningen omkring regressionsliniensom benvnes

I i SAS (lidt uheldigt): Root Mean Square Error,forkortet Root MSE i output.

I i SPSS (heller ikke s sigende):Standard Error of the Estimate

Estimatet er 0.2167, med de samme enheder som outcome vcf uheldigt, fordi det ikke er en standard error,men en standard deviation20 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Usikkerhed p estimaterne

Hvor gode er sknnene over de ukendte parametre og ?

Hvor meget anderledes resultater kunne vi forvente at finde ved enny undersgelse?

Det kan vises, at

N (, 2

Sxx)

dvs. hldningen er prcist bestemt, hvisI observationerne ligger tt p linien (2 lille)I variationen i x-vrdier (Sxx) er stor

21 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Konfidensinterval = Sikkerhedsinterval

Estimeret usikkerhed p : s.e.() = sSxxDette estimat kaldes standard error for ,eller generelt standard error of the estimate (s.e.e.)

Vi bruger det til at konstruere et 95% konfidensinterval

t97.5%(n 2) s.e.() = ca.2 s.e.()

= 0.0220 2.080 0.0105 = (0.0002, 0.0438)

22 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

T-test for parameter=0

Vi kan ogs teste, typisk H0 : = 0 ved t-testet

t = s.e.()

t(n 2)

som her giver

t = 0.02200.0105=2.10 t(21), P=0.048

dvs. lige p grnsen af det signifikante

23 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Og hvad med interceptet....?

Man kan forestille sig situationer, hvor det er rimeligt at testef.eks. H0 : = 0I s fald benyttes det tilsvarende t-test

t = 0s.e.() t(n 2)

eller man udregner et 95% konfidensinterval for :

1.098 2.080 0.1175 = (0.854, 1.342)

Dette er bare ikke altid srligt interessant fordi interceptet i sig selv ikke er srligt interessant.

24 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Nr man har flere hypoteser...

Vi kan alts teste hypoteser om svel som , men:

I Estimaterne for intercept og hldning er (negativt)korrelerede (her -0.92)

I Accepter ikke to sideordnede testSelv om vi kan acceptere test vedr. bde (f.eks. intercept=0) og (f.eks. hldning 1)hver for sig,kan vi ikke ndvendigvis acceptere begge samtidig

25 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Hypotetisk eksempel

26 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Variationsopspaltning

Forklaring til de verste linier i output s. 14:

SStotal =n

i=1(yi y)2 = SSmodel + SSerror

Total variation = variation, som kan forklares+ variation, som ikke kan forklares

x er en god forklarende variable,hvis SSmodel er stor i forhold til SSerror

Jeg foretrkker at kalde SSerror for SSresidual...

27 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Determinationskoefficient, R2

Den andel af variationen (i y), der kan forklares ved modellen:

R2 = SSmodelSStotal

Her finder vi determinationskoefficienten: R2 = 0.17, dvs. vi kanforklare 17% af variationen i vcf v.hj.a. variablen blodsukker.

Determinationskoefficienten erkvadratet p korrelationskoefficientenmellem vcf og blodsukker (som dermed er r =

0.17 = 0.42)

28 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

KorrelationenKorrelationen r mellem to variable mler

I I hvor hj grad ligner scatter plottet en ret linie?I Ikke: Hvor nr ligger punkterne ved den rette linie?

Korrelationskoefficienten estimeres ved:

r = rxy =SxySxxSyy

=n

i=1 (xi x)(yi y)ni=1 (xi x)2

ni=1 (yi y)2

I antager vrdier mellem -1 og 1 (0 = uafhngighed)I +1 og -1 svarer til perfekt liner sammenhng,hhv. positiv og negativ

29 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Todimensional normalfordelingstthed, r=0

Korrelation 0

Alle lodrette snit givernormalfordelinger

I med sammemiddelvrdi

I og samme varians

30 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Todimensional normalfordelingstthed, r=0.9

Korrelation 0.9

Udprget retning i figuren

31 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Konturkurverne

for en normalfordeling bliver ellipser

s check af todimensional normalfordeling kan foretages somvisuelt check af scatterplottet:

I Giver det indtryk af noget elliptisk?I med flest observationer i de inderste ellipser

32 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Regression kontra korrelation

Regressionsmodellen

Yi = + Xi + i , i N (0, 2)

siger, at de betingede fordelinger af Y, givet X, ernormalfordelinger, med samme varians 2 (samme spredning ) ogmed middelvrdier, der afhnger linert af X.

33 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Regression kontra korrelation, II

Antagelserne til brug for fortolkning af en korrelation er skrappereend for regressionsanalysen, fordi:

Her er der ogs et krav om normalfordeling p xi erne!!Hvis ikke dette krav er opfyldt, kan man ikke fortolkekorrelationskoefficienten!

...men man kan godt teste, om den er 0.

34 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Test af hldning vs test af korrelation

Det er en og samme sag

De to estimater (for korrelation og hldning) er 0 p samme tid

rxy =

SxxSyy

Test for = 0 er identisk med test for xy = 0

men fortolkningen af de to strrelser er vidt forskellig:I fortolkes i substans-termer, med forstelige enhederI rxy er skala-uafhngig - og meget vanskelig at tillgge nogen

virkelig mening

35 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Pas p med fortolkning af korrelation

1 r2xy =s2

s2 + 2 Sxxn2Hold og s2 fast:Sxx stor 1-r2xy tt p 0 r2xy tt p 1

r2xy kan gres vilkrlig tt p 1 ved at sprede xerne hvordan mon?

36 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Forskellige typer af korrelationer

Pearson: Det er den type, vi netop har beskrevet, som altsbygger p en antagelse om tilfldig udvlgelse fra entodimensional normalfordeling

Spearman: Et non-parametrisk alternativ, som kun krvertilfldig udvlgelse fra en todimensional fordeling(der alts ikke behver at vre en normalfordeling)

I tilflde af et selekteret sample bliver begge korrelationermeningslse og under alle omstndigheder giver de bare et ret ufortolkeligttal.....

37 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Korrelationer i praksis

I SAS benyttes PROC CORR:

proc corr pearson spearman;var vcf blodsukker;run;

med oplagte options (pearson er default).

og vi fr output som vist p nste side.

SPSS, se appendix, s. 7

38 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Output med korrelationer

The CORR Procedure2 Variables: vcf blodsukker

Pearson Correlation Coefficients, N = 23Prob > |r| under H0: Rho=0

vcf blodsukkervcf 1.00000 0.41675

0.0479

blodsukker 0.41675 1.000000.0479

The CORR Procedure2 Variables: vcf blodsukker

Spearman Correlation Coefficients, N = 23Prob > |r| under H0: Rho=0

vcf blodsukkervcf 1.00000 0.31800

0.1392

blodsukker 0.31800 1.000000.1392

Her aflses korrelationerne:Pearson: 0.42, P=0.048

Spearman: 0.32, P=0.14Bemrk, at P-vrdien for Pearson-korrelationen er njagtig densamme som ved test af hldning=0 i regressionsanalysen.Dette vil altid vre tilfldet39 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Hvornr bruger vi s korrelationen

I Til at teste om der er en sammenhngBrug gerne Spearman korrelation og slip for s mangeantagelser, men s fr man ogs kun en P-vrdi

I Til at sammenligne styrken af sammenhnge mellemmange variable, mlt p de samme individer

I I observationelle studier uden selektion:Her kan korrelationen fortolkes, hvis der er tale om entodimensional normalfordelingmen sprgsmlet er stadig, om det giver den information,der er nskelig/brugbar

40 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Eksempler

Sprgsml: Hvor meget stiger blodtrykket med alderen?Svar: Korrelationen er 0.42.....

hellere: 5mmHg per r, med CI=(3.7, 6.3)

Sprgsml: Er rygning mere skadeligt for kvinder end for mnd?Svar: Nh, for korrelationen mellem pakker og FEV1 er

0.62 for mnd og kun 0.49 for kvinder....Pas p: Dette kan skyldes en strre spredning p variablen

rygning blandt mnd, og behver alts ikke at havenoget at gre med effekten af rygning

41 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Sammenligning af mlemetoder

I en sdan situation giver det ingen mening at benytte korrelation!I Korrelationen udtrykker sammenhng, ikke overensstemmelse

(der er f.eks. en sammenhng mellem alder og blodtryk, mender er naturligvis ikke overensstemmelse)

I Naturligvis er der sammenhng mellem to mlemetoder, derforegiver at mle det samme, s det behver man ikke teste(ellers er der i hvert fald noget helt galt)

I Man skal i stedet kvantificere differenserne mellem de tometoder, og udregne limits of agreement (p relevant skala)

og nu tilbage til regressionsanalyse

42 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Konfidensgrnser for linien

For hver vrdi af kovariaten (her x =blodsukker):Fittede (predikterede, forventede) vrdier er selve linien:yi = + xiKonfidensgrnser for denne linie (smalle grnser)

I benyttes til sammenligning med andre grupper af personerI man benytter spredningen skonf = s

1n +

(xix)2Sxx

I Disse grnser bliver vilkrligt snvre,nr antallet af observationer ges.

I De kan ikke bruges til diagnostik!

43 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Prediktionsgrnser for enkeltindivider

Normalomrder for sammentrkningsevne (y), for givetx=blodsukker(brede grnser):

I De benyttes til at afgre, om en ny person er atypisk i forholdtil normen (diagnostik), idet de omslutter ca. 95% affremtidige observationer, ogs for store n.

I man benytter spredningen spred = s

1 + 1n +(xix)2

SxxI Disse grnser bliver ikke nvnevrdigt snvrere, nr antallet

af observationer ges.

44 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Konfidens- og prediktionsgrnser i praksis

Figuren dannes enten automatisk, eller ved brug af ods graphics,se s. 81 (SPSS: se app. s. 8)

45 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Summa summarum om grnser

De smalle grnser, konfidensgrnser:I svarer til standard errorI bruges til at vurdere sikkerheden i estimatetI afhnger kraftigt af vrdien af kovariaten

De brede grnser, prediktionsgrnser:I svarer til standard deviationI kaldes ogs normalomrder eller referenceomrderI bruges til at diagnosticere individuelle patienterI udregnes approksimativt ved 2 spredninger (Root MSE)

46 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Har vi gjort det godt nok?

Modellens konklusioner er kun rimelige,hvis modellen selv er rimelig.

Modelkontrol: Passer modellen rimeligt til data?

Diagnostics: Passer data til modellen?Eller er der indflydelsesrige observationer eller outliers?

Check af disse to forhold burde naturligvis foretages frabegyndelsen, men da de krver fit af modellen, kan de frstforetages efterflgende.

47 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Modelkontrol

Den statistiske model var

Yi = + Xi + i , i N (0, 2) uafhngigeHvilke antagelser skal vi checke her?

I Uafhngighed: Tnk: Er der flere observationer p hvertindivid, sskende el.lign?

I LinearitetI Varianshomogenitet (i erne har samme spredning)I Normalfordelte residualer (i erne)

Obs: Intet krav om normalfordeling p xi erne!!

48 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Grafisk modelkontrol

Fokus er her p

residualerne = modelafvigelserne= observeret vrdi - fittet vrdi: i = yi yieller en modifikation af disse:

I Normerede/Standardiserede/Studentized: STUDENTI Leave-one-out: PRESSI Studentized Press: RSTUDENT

Alle disse kan fs i nyt datast ved at skrive (se ogs s. 82):

output out=ny p=yhat r=resid student=stresid cookd=cookrstudent=uresid press=press;

49 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Residualplots til modelkontrol

Residualer (af passende type) plottes mod1. den forklarende variabel xi

for at checke linearitet(se efter krumninger, buer)

2. de fittede vrdier yi for at checke varianshomogenitet(se efter trompeter)

3. fraktildiagram eller histogram for at checke normalfordelingsantagelsen(se efter afvigelse fra en ret linie)

Disse plots ses p s. 51 og 52, og kommenteres s. 51 og 53

50 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Residualplots i praksis

Check af lineariteten Residualer plottet mod kovariaten,med overlejret udglatning (hele koden s. 82):

proc glm PLOTS=(DIAGNOSTICS RESIDUALS(smooth)) data=vcf;

Her ses ingen oplagte (store) buer

51 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Diagnostics Panel - kode s.82

fs som regel automatisk, ellers brug ods graphics(SPSS: app. s. 9-10):

52 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Kommentarer til Diagnostics Panel

Vi ser forelbig p den venstre kolonne p s. 52:verst: Plot af residualer mod predikterede vrdier, dvs. plot

af type 2 fra s. 50:Her anes muligvis lidt trompetfacon

Mellemste: Fraktildiagram til check af normalfordelte residualer.Det ser rimeligt ud, men der anes ligesom et hul ifordelingen (type 3 fra s. 50)

Nederst: Histogram over residualerne, ligeledes til check afnormalfordelingen. (type 3 fra s. 50)Det hul, der nvnes ovenfor ses som minimummetlige over midten af fordelingen

Man kan med fordel supplere med plots p siderne 51 og 54

53 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Bedre check af varianshomogeniteten

Plot af kvadratrod af numerisk vrdi af normerede residualer, modde predikterede vrdier (se kode s. 83, SPSS: app. s.11):

Der er en tendens til hjere spredning for de hje predikteredevrdier. Mske konstant relativ spredning?

54 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Afvigelser fra modellen

55 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Afhjlpning af problemer

Linearitet:

Hvis lineariteten ikke holder i rimelig grad,bliver modellen ufortolkelig.

Hvad gr man s?I transformerer variablene med

I logaritmer - ligegyldigt hvilken, se s. 61-63I kvadratrod, inversI benytter linere splines (knk-linier, kommer senere)

I tilfjer flere kovariater, f.eks.I alder, kn, medicin etc., eller log(x)

I foretager ikke-liner regression

56 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Afhjlpning af problemer, II

Varianshomogenitet:

Hvis varianshomogeniteten ikke holder i rimelig grad,mister vi styrke,og prediktionsgrnser bliver uplidelige!

Hvad gr man s?I I tilflde af trompetfacon:

Transformation af Y med logaritmerI Vgtet regression...I (Non-parametriske metoder...

men s fr vi ingen kvantificeringer)I Robuste metoder: (quantreg)

57 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Varianshomogenitet, fortsat

Trompetfacon betyder, at residualernes variation (og dermedstrrelse) er strre for hjere niveauer af outcome - ofte i form af

Konstant relativ spredning= konstant variationskoefficient

Variationskoefficient = spredningmiddelvrdi

Dette sker ofte, nr man mler p sm positive strrelser,og lsningen er (sdvanligvis) at transformere outcome Ymed en logaritme

58 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Afhjlpning af problemer, III

Normalfordelte residualer:

Hvis normalfordelingen ikke holder i rimelig grad,mister vi styrke,og prediktionsgrnser bliver uplidelige!

Hvad gr man s?I I tilflde af hale mod hjre: Transformation med en logaritmeI Non-parametriske metoder...

59 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Normalfordeling (og varianshomogenitet)

Antagelsen om normalfordeling (og til en vis gradvarianshomogenitet) er ikke kritisk for selve fittet:

I Man fr stadig gode estimaterI Plidelige tests og konfidensintervaller

fordi normalfordelingen som regel passer godt for estimatet pgaDen centrale grnsevrdistning,der siger at summer og andre funktioner af mange observationerbliver mere og mere normalfordelt.

Men prediktionsgrnserne bliver misvisende og ufortolkelige!!

60 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Lidt om logaritmer mske genopfriskning...?

Alle logaritmefunktioner har et grundtalI 10-tals logaritmen (log10) har grundtal 10I Den skaldt naturlige logaritme (log, fr i tiden ofte kaldet

ln) har grundtal e = 2.71828I 2-tals logaritmen (log2) har grundtal 2

Alle logaritmer er proportionale, f.eks.

log2(x) =log(x)log(2) =

log10(x)log10(2)

og det betyder derfor intet for resultatet, hvilken en, man benytterfordi man altid fr det samme, nr man tilbagetransformerer.Alligevel er der visse fif....:

61 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Logaritmetransformation af outcome

I for at opn linearitetI for at opn ens spredninger (varianshomogenitet)I for at opn normalitet af residualerne

Her er kun et enkelt (ret ubetydeligt) fif:Hvis fokus er p estimation af variationskoefficenten (se s. 58),kan man med fordel benytte den naturlige logaritme), idet

Spredning(log(y)) Spredning(y)y = CV

dvs. en konstant variationskoefficient (CV) p Y betyder konstantspredning p log(Y ). Nr Y logaritmetransformeres, bliver effektenaf kovariater (nr de tilbagetransformeres) til faktorer, der skalganges p.62 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Logaritmetransformation af kovariat

Den forklarende variabel (x) transformeres altid for at opnlinearitet.Her kan med fordel anvendes 2-tals logaritmer, idet 1 enhed ilog2(x) s svarer til en fordobling af x, der har konstant effekt.

Hldningen udtrykker alts effekten af en fordobling afkovariaten, og successive fordoblinger antages at have sammeeffekt.

Man kan ogs gre det endnu mere fortolkeligt ved at benyttelogaritmen med grundtal f.eks. 1.1, svarende til en faktor 1.1, altsen 10% forgelse af kovariat-vrdien.

log1.1(x) =log10(x)

log10(1.1)

63 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Numeriske check af antagelserne

er mulig, men br kun bruges som en rettesnorI Linearitet:

Tilfj f.eks. log(x) sammen med x selv, og test derefter,om det resulterende fit er vsentlig bedre end linien

I Benyt linere splines (knk-linier, kommer senere) og test,om der overhovedet er et knk

I Varianshomogenitet:De findes, men ikke i GLM

I Normalfordelingen:Der findes test, men de kan ikke generelt anbefales

64 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Regression diagnostics

Understttes konklusionerne generelt af hele materialet?Eller er der observationer med meget stor indflydelse presultaterne?

I Udelad den i te personog bestem nye estimater for samtlige parametre.

I Udregn Cooks afstand,et ml for ndringen i parameterestimater.

I Spalt evt. Cooks afstand ud i separate dele, som mler f.eks:Hvor mange s.e.(1) ndrer 1 sig, hvis den i te personudelades?

Diagnostics i SPSS: app. s. 12

65 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Cooks afstand

Vi har allerede set en figur af disse i DiagnosticsPanel tidligere,se s. 52 (hjre kolonne i midten).Alternativt kan man benytte en output-stning og selv tegne enpassende figur (se s. 82 og 84):

En enkelt observation skiller sig ud i forhold til de vrigeTommelfingerregel: Sammenlign med 4n =

423 0.17 (rd stiplet linie)

66 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Cooks afstand spaltet i komponenter

Benyt option influence i model-stningen (kun procedurenREG, se appendix s. 85), og f svar p:Hvor mange s.e.(1)er ndres f.eks. ,nr den ite person udelades?Dependent Variable: vcf

Output Statistics

-------DFBETAS-------Obs Intercept blodsukker

1 -0.2421 0.41342 0.0014 0.00053 -0.0049 0.00304 0.1082 -0.14615 0.0150 -0.0104. . .. . .

11 0.0060 -0.004312 -0.0345 0.027713 -0.8744 1.1973

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Udeladelse af observation nr. 13

Estimeret linie fra tidligere: y = 1.098 + 0.022x

= 0.02196(0.01045), t = 0.021960.01045 = 2.1,P = 0.048

Regressionsanalyse uden observation nr. 13

Estimeret linie: y = 1.189 + 0.011x

= 0.01082(0.01029), t = 0.010820.01029 = 1.05,P = 0.31

68 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Outliers

Observationer, der ikke passer ind i sammenhngenI de er ikke ndvendigvis indflydelsesrigeI de har ikke ndvendigvis et stort residual

Press-residualerResidualer, der fremkommer efter at den pgldende observationhar vret udelukket fra estimationen.

(residualer without current observation)

Man kan med fordel danne et nyt datast med predikteredevrdier og residualer, se kode i appendix s. 82

69 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

To forskellige eksempler

p mulige outliers:

Hvad gr vi i hver af disse situationer?

70 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Kan vi udelade disse observationer?

Lad os forestille os, at figuren p forrige side viser blodtrykket somfunktion af alderen, og at den grnne person er 110 r, mens denrde person er 50 r

I Vi kan godt udelade den grnne personfaktisk br vi gre detfor ikke at delgge beskrivelsen af det store flertal.Men husk at skrive det som inklusionskriterium!

I Vi kan ikke udelade den rde person, fordi vi ikke kankonstruere et tilsvarende inklusionskriterium.Forestil jer stningen: Her beskriver vi blodtrykket forpersoner, hvis blodtryk ligger pnt i forhold til denbeskrivelse, vi er ved at lave....

71 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Udeladelse af enkeltobservationer?

Hvad gr vi ved indflydelsesrige observationer og outliers?I ser nrmere p dem, de er tit ganske interessanteI anfrer et ml for deres indflydelse

Hvornr kan vi udelade dem?I hvis de ligger meget yderligt i kovariat-vrdier

I husk at afgrnse konklusionerne tilsvarende!

I hvis man kan finde rsagenI og da skal alle sdanne udelades!

mere om dette senere (ved velserne)

72 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Confounding, bare lige et smugkig

meget mere om dette senere

(Kor)relationen er:I positiv for mndI positiv for kvinderI negativ for mennesker

Eks: Kolesterol vs. chokoladeindtag

73 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Confounding, II

(Kor)relationen er:I tilsyneladende positivI 0 for hver aldersgruppe

X og Y vokser begge med alderen(f.eks. kolesterol og blodtryk)

74 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

APPENDIX

med SAS-programbidder svarende til diverse slides:I Indlsning og scatter plot, s. 76I Regressionsanalyse, s. 77-79I Korrelation, s. 80I Konfidens- og prediktionsgrnser, s. 81I Modelkontrol, s. 82-83I Diagnostics, s. 84-85

SPSS: se separat appendix

75 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Indlsning og scatter plot

Slide 8

data vcf;infile "http://staff.pubhealth.ku.dk/~lts/basal/data/vcf.txt" URL firstobs=2;input blodsukker vcf;run;

proc sgplot data=vcf;scatter x=blodsukker y=vcf;

run;

eller evt. med den gamle kode:

proc gplot data=vcf;plot vcf*blodsukker;

run;

76 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Regressionsanalyse

Slide 13 og 14Med GLM:

proc glm data=vcf;model vcf = blodsukker / clparm;

run;

eller med REG:

proc reg data=vcf;model vcf = blodsukker / clb

run;

Udbygget kode s. 79 og 82

77 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Regressionslinie

Slide 16

For at tegne linien skrives f.eks.

proc sgplot data=vcf;reg x=blodsukker y=vcf /

markerattrs=(color=blue) lineattrs=(color=red);run;

eller med den lidt gamle kode

proc gplot data=vcf;plot vcf*blodsukker;

symbol v=circle c=red i=rl h=2 l=1;run;

78 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Forventet vrdi for specifikke vrdier af kovariaten

Slide 18

I SAS benyttes en estimate-stning,

Her for en blodsukkervrdi p 10:

proc glm data=vcf;model vcf=blodsukker / clparm;estimate blodsukker=10 intercept 1 blodsukker 10;

run;

79 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Korrelationer

Slide 38-39

proc corr pearson spearman;var vcf blodsukker;run;

Pearson: betegner den sdvanlige korrelationbaseret p en todimensional normalfordeling

Spearman: betegner den nonparametriske korrelation

80 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Konfidens- og prediktionsgrnser

Slide 45

Den pne figur s. 45 fs formentlig automatisk, nr der udfres enliner regression.

Ellers m man benytte ods graphics on;eller den mere gammeldags procedure gplot med en afnedenstende symbol-stninger:

proc gplot data=vcf;plot vcf*blodsukker;

* symbol v=circle c=blue i=rlclm95; /* konfidens */symbol v=circle c=blue i=rlcli95; /* prediktion */

run;

81 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Modelkontrol

Slide 51 og 52

ods graphics on;proc glm PLOTS=(DIAGNOSTICS RESIDUALS(smooth)) data=vcf;

model vcf=blodsukker / clparm;output out=ny p=yhat r=resid student=stresid

rstudent=uresid press=presscookd=cook;

run;ods graphics off;

danner DiagnosticsPanel med mange brugbare figurer,samt en figur til vurdering af lineariteten

Hvis man vil have fuld kontrol over hele modelkontrollen kan manudregne predikterede vrdier og residualer, samt gemme disse i etnyt datast (her kaldet ny) benyttes ovenstende output-linie

82 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Check af varianshomogenitet

Slide 51

Her afbildes kvadratroden af de numeriske residualer overfor depredikterede vrdier, eller evt. kovariaten(datasttet ny er defineret p s. 82):

data tegn;set ny;

sqrtres=sqrt(abs(stresid));run;

proc sgplot data=tegn;loess Y=sqrtres X=yhat; run;

proc sgplot data=tegn;loess Y=sqrtres X=blodsukker; run;

83 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Regression diagnostics

Slide 66

Plot af Cooks afstand mod observationsnummer ses iDiagnosticsPanel, se s. 52

Vil man mere end det, kan man f dem ud i et nyt datast ved atbenytte output-stningen (se s. 82) med cookd=cook;

Herefter kan vi lave tegninger direkte:

proc sgplot data=ny;scatter x=blodsukker y=cook /

markerattrs=(symbol=circle color=blue size=15);run;

84 / 85

u n i v e r s i t y o f c o p e n h a g e n d e p a r t m e n t o f b i o s t a t i s t i c s

Regression diagnostics i REG

Slide 67

I proceduren REG kan Cooks afstand spaltes ud i koordinater:

proc reg data=vcf;model vcf = blodsukker / influence;

run;

85 / 85