Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
MODELISATION DE
DONNEES QUALITATIVES
LA REGRESSION DE POISSON -
Pierre-Louis GONZAL EZ
La régressio de Poisson permet de modélise des comptages
distribué selon une loi de Poisson en fonction de variables
explicatives quantitatives ou qualitatives.
Y = comptage
X, ...Xi, Variables explicatives
Population
Y suit une loi de Poisson de moyenne
45 -54 = N exp [ P o +
55 -64 65 -74 3 74
Effectif population Âg Régio soumise au risque *
P 7 - P 7
Pl3 - P S
P S - P c
P l 0 - P l 0
P l 1 - P l i
- P 7 - - P l 1 P 7 + * * . + P l i
N s Âg * Régio
emeoÃ1est l'indice de la i population.
On estime les 13, en maximisant la vraisemblance.
On rejette Hosi :
H. Exemples
Exemple 1 :Mélanome
Nous reprenons l'exemple sur le risque de Mélanom présent dans Tenenhaus (1993) :La régressio de Poisson, Modlisation et Analyse des Dodes, no 4, pp.41-48. Les donnée proviennent de Koch, Atkinson & Stokes (1986) :Poisson Regression. In Kotz, Johnson & Read (Eds) :Encyclopedies ofStatistical Sciences, VOL 7, Wiley. Elles concernent des personnes de race blanche atteintes de mélanom dans les année 1969-1 97 1 et sont présentédans le tableau ci-dessous. L'indice i varie de 1 a 6 pour la régio Nord et de 7 3 12 pour la régio Sud,
Tranche - Nombre de cas de Nombre estimà de 1 d'fige &lanomes, ni personnes soumises 1
au risque, Ni Régio Régio 1 Régio
' Sud, ni Nord, Ni 1 Sud, Ni 64 2 880 262 1 1 074 246
35-44 76 75 45-54 98 68 55-64 63 65-74 63 275 80 271
Le but de l'étud est ici de détermine si le rapport entre le nombre d'atteints et le nombre d'expo&s, ni / Ni, est Ãpeu prè constant ou non selon la régio et la tranche d'âge
Nous allons utiliser sur cet exemple la regession de Poisson. On suppose que le comptage Yi = ni suit une loi de Poisson de moyenne :
Le modèl Gtudià s'&rit donc :
Plus précisebent notons Ah la variable indicatrice de la tranche d'âg h (de c35 à 275) et Rk la variable indicatrice de la régiok (1 = Nord et 2 = Sud). Abandonnant les dernière modalitésle modèl avec interaction s'écri :
C'est un modèl satur6 puisqu'il y a 12 paramètre pour 12 observations.
Utilisons maintenant la Proc Genmod pour 6tudier ce modèle
Lesdonnk
OBS AGE REGION EFFECT1F
1 <35 61
2 <35 64 3 35-44 76 4 35-44 75 5 45-54 98 6 45-54 68 7 55-64 1 O4 8 55-64 63 9 65-74 63
10 65-74 45 11 >74 80 12 >74 27 13 <35 2880201 14 <35 1O74 1 82 15 35-44 564459 16 35-44 220332 17 45-54 592885 18 45- 54 198051 19 55-64 450636 20 55'-64 134021 21 65-74 270845 22 65-74 70663 23 >74 161770 24 >74 34206
a
Le programme (modèl avec interaction)
opt ions nocenter nodate nolabel pageno=l ; da ta melanome ; input id S age $ region $ cas pop; logcsp=log (cas /pop) ; ~ o g p o P = l o g ( ~ o P ); cards ; n,<35 <35 n 61 2880262 S,<35 <35 s 64 1074246 n.35-44 35-44 n 76 564535 s,35-44 35-44 S 75 220407 n,45-54 45-54 n 98 592983 s,45-54 45-54 S 68 198119 n,55-64 55-64 n 104 450740 ~ $ 5 5 - 6 455-64 S 63 134084 n,65-74 65-74 n 63 270908 S,65-74 65-74 s 45 70708 n,>74 >74 n 80 161850 s ,>74 >74 s 27 34233
s
proc pr in t data=inelanome ; run ;
proc genmod data=çelanom OrdeFdata ; class age region; mode1 cas=age region age*regionidist=poisson
l ink=log off set=logpop
type3 ; run ;
Les Résultat
CAS POP LOGCSP LOGPOP
61 2880262 -10.7625 64 1074246 -9.7282 76 564535 -8.9130 75 220407 - 7.9857 98 592983 -8.7080 68 198%19 -7.9771
1O4 450740 -8.3743 63 134084 -7.6631 63 270908 -8.3664 45 70708 -7.3597 80 1 61 850 -7.6124 27 34233 -7.1451
The GENMOD Procedure
Mode1 Information
Description Value
Data Set WORK .MELANOME Distribution POISSON Link F u n c t i o n LOG Dependent Variable CAS Off s e t Variable LOGPOP Observations Used 12
Class Level Information
Class Levels Values
AGE 6 <35 35-44 45-54 55-64 65-74 >74
REGION 2 n s
Cr i te r ia For Assessing Goodness Of F i t
Criterion D F Value ValuejDF
Deviance O 0.0000 Scaled Deviance 0 0.0000 Pearson Chi-Square 0 0.0000 Scaled Pearson X2 O O. 0000 Log Likelihood 2698.0337
A n a l y s i s O f P a r a n e t e r E s t i m a t e s
P a r a m e t e r DF E s t l a a t e S t d E r r C h s q u a r e P r > C h i
INTERCEPT AGE AGE AGE AGE AGE AGE REGION REGION AGEÈREGIO AGEÈREGIO AGESREGION AGEXREGION AGEXREGION AGEXREGION AGE*REGION AGEXREGION AGE*REGION AGEÈREGIO AGEÈREGIO AGEÈREGI0 SCALE
NOTE: T h e scale parameter w a s h e l d f i x e d .
LU S t a t i s t i c s F o r T y p e 3 A n a l y s i s
source DF C h i s q u a r e P r > C h i
AGE 5 7 1 5 . 9 8 9 7 0 . 0 0 0 1 REGION 1 108.1919 0 . 0 0 0 1 AGEXREGION 5 6.2149 0.2859
Commentaires
1) On vkrifie que la dkviance et le khi-deux de Pearson sont nuls puisque le rnodkle est saturé
2) La vraisemblance des donnees s'écri
et son logarithme
Le Log Likelifwod 1 fournit par la Proc Genmod correspond en fait à la partie de 1 qui dkpend des pi, c'est à dire
Il est donc possible d'obtenir des Log Likelihood 1positifs (!), ce qui est le cas sur cet exemple. Les tests LRT peuvent êtr construits a partir des Log Likelihood f.
3) L'interaction étan non significative, on passe maintenant au modèl sans interaction.
Le programme (mod&leadditif)
p r o c genmod data=melanome o r d e r = d a t a 7 class a g e r e g i o n ; mode1 c a s = a g e r e g i o n l d i s t = p o i s s o n
l i n k = l o g o f f s e t = l o g pop t y p e 3 o b s t a t s r e s i d u a l s ;
c o n t r a s t ' < 3 5 v s 3 5 - 4 4 ' a g e - 1 1 0 . 0 0 0; c o n t r a s t '35-44 vs 45-54' age 0 - 1 1 0 0 0; c o n t r a s t '45-54 vs 55-64 ' age 0 0 -1 1 0 0; c o n t r a s t '55-64 v s 65-74' age 0 0 0 -1 1 0; c o n t r a s t '65-74 vs >74' age 0 0 0 0 -1 1; c o n t r a s t ' ~ 3 5v s 35-44, age - 1 1 0 0 0 0 / w a l d ; c o n t r a s t '35-44 vs 45-54' age 0 -1 1 0 0 0 / wald; c o n t r a s t '45-54 v s 55-64 ' age 0 0 -1 1 0 0 / wald ; c o n t r a s t '55-64 v s 65-74' age 0 0 0 -1 1 0 / wald; c o n t r a s t '65-74 v s >74' age 0 0 0 0 -1 1 1 wald ; rnake ' o b s t a t s ' o u t = a ; run ;
d a t a aa; Berge me-lanolae a ;
proc p l o t d a t a = a a ; p l o t l o g c s p * x b e t a = ' * ' S i d ;
run ;
Les kultats
C r i t eria For A s s e s s i n g Goodness Of F i t
C r i t e r i o n DF Value ValueIDF
Dev iance 5 6.2149 1 .2430 S c a l e d Deviance 5 6.2149 1 .243O P e a r s o n Chi-Square 5 6.1151 1.2230a
S c a l e d Pea r son X2 5 6.1151 1.2230
Log L i k e l i h o o d 2694.9262
A n a l y s i s O f P a r a n e t e r E s t i m a t e s
P a r a m e t e r DF E s t i m a t e S t d E r r C h i s q u a r e P r>Chi
INTERCEPT AG E AGE AG E AG E AGE AG E REGION REGION SCALE
NOTE: The s c a l e p a r a m e t e r was h e l d f i x e d .
LR Stat i s t ics For Type 3 Analysis
Source DF Chisquare Pr>Chi
AGE 5 796.7436 0.0001 REGION 1 124.2203 0.0001
CONTRAST Statement Results
Cont rast Chisq uare
206 -3042 1 -0595 8.9551 O. 9974 17.7438 220.9204 1.0581 8.9924 1 .O068 18.0049
Observation Stat i s t i c s
LR LR LR LR LR Wald Wald Wald wa id Wald
Lowe r
56.1779 47.3456 67.3860 59.5032 80.1708 60.3035 84.8113 56.6139 55.7776 32.6334 59.5022 28.0857
CAS Pred Xbeta s t d HessWgt
61 67.6998 64 57.3002 76 80 .O638 75 70. 9362 98 94.4150 68 71.5850
1 O4 99.6974 63 67.3026 63 67.8263 45 40.1737
' 80 72 -2979 27 34.7021
Observation S ta t i s t i c s
Resraw
-6.6998 6.6998 -4.0638 4 .O638 3.5850
-3.5850 4.3026 -4.3026 -4.8263 4.8263 7 .?O21 -7.7021
Reschi Resdev StResdev StReschi Reslik
-0.8143 - 1 -3183 0.8851 1.2985 -0.4542 -0.7386 0.4825 O. 7332 O. 3690 0 -6280 -0.4237 -0.6327 0 -4309 0.7585 -0.5245 -0.7642 -0.5860 - 1 -0326 0.7614 1 .O178 O. 9058 1 .6857
- 1 -3075
Commentaires
1) On v6rifie que la statistique LRT de l'interaction Age*R&gion vaut :
2[log L(Age, Rkgion, Age*R&gion)- log L(Age, Region)]= 2(2698.0337 -2694.9262) = 6.2150
2) Les facteurs Age et Régio sont significatifs. Le modèl additif &tudi6 est accepte. La deviarice norndis& et le khi-deux de Pearson normalisà divisépar leur degré de libertÃN-p = 12-7= 5 sont proches de 1 (respectivement 1.2430 et 1.2230).
3) Le modèl estirnt5 s'écri
L'ajustement entre les donnees et le modèl est visualisà dans la figure ci-dessous oà on a représenten ordonni5 le logarithme de nJN, ,notÃLOGCSP,et en abscisse
VALUE OF THE LINEAR PREDICTOR XBETA
4) L'examen des coefficients des variables indicatrices de l'âg suggkre de regrouper les âge 35-44 et 45-54 et égalemen les âge 55-64 et 65-74. Nous avons donc construit les contrastes permettant de comparer les tranches d'âg adjacentes. Nous avons utilisà les statistiques de Wald et LRT. Les résultat donnépar ces deux statistiques sont trè voisins et confirment la possibilità de regroupement. Nous avons donc étudiun troisièm modà l̈ en réalisan ces regroupement.
Le programme (modele additif simplifie)
data b; se t melanome; agel= (age = "<35"); age2=(age = "35-44") or (age="45-54"); age3=(age = '55-64") or (age="65-74");
proc genmod data=b order=data; c lass region; mode1 cas=agel age2 age3 region/dist=poisson
l inks log off set=logpop type3 residuals waldci l r c i ;
contrast 'age' agel 1 , age2 1 ,
age3 1 l e ; contrast ' age ' agel 1,
age2 1 , 8
age3 1 / wald; run ;
Les rbultats
Parameter Information
Paraneter ~f f ect REGION
Cr i te r ia For Assessing Goodness Of F i t
Cri ter ion DF Value ValueIDF
Deviance 7 8.2709 1.1816 Scaled Deviance 7 8.2709 1.1816 Pearson Chi-Square 7 8.2329 1.. 1761 Scaled Pearson X2 7 8.2329 1. 1761 Log ~ ike l i hood 2693.8982
Analysis Of parameter Es t imates
Parameter OF S t d E r r C h s q u a r e PrSChi
INTERCEPT 1 AGE1 1 AG=. 1 AGE3 1 RESION n 1 REGION S 0 SCALE 0
NOTE: The $ca le parameter was held f i x e d .
Normal Confidence I n t e r v a i s For Parameters
Two -Sided Confidence C o e f f i c i e n t : 0 .95OO Parameter Confidence Limi ts
Lower
upper Lower
UPPer Lower
u PPW Lower u P P ~r Lower
Upper
Likelihood Ratio Based Confidence I n t e r v a l s For Parameters
Two -Sideci Confidence C o e f f i c i e n t : 0.9500 Parameter Confidence Limits Parameter Values
PRM1 PRM2 PRM3 PRM4 PRM5
Lower
w p e r Lower UPPer Lower
upper Lower UPPer Lower u PPer
LR S t a t i s t i c s For Type 3 Analys is
Source DF Chisquare Pr>Chi
AGE1 1 362.7350 0.0001 A G E ~ ' 1 77.2131 0.0001 AGE3 1 29.7461 0.0001 REGION 1 123.4360 0.0001
C o e f f i c i e n t s For age
Parameter RW1 ROW2 ROW3
GONTRAST Statement R e s u l t s
Cont ras t DF Chisquare PraGhi Type
age 3 794.6877 0 -0001 LR %le 3 605.9962 0.0001 Wald
Commentaires
1) On peut comparer le modele additif complet et le modele simplifià à l'aide d'un test LRT. La statistique LRT vaut 2(2694.9262 - 2693.8982) = 2.056 3 comparer au fractile xi.05(2) = 5.99. On accepte donc le modèl simplifié On peut retrouver ce résultaÃl'aide d'un test sur le modèl additif complet. On utilise le programme ci- dessous :
proc genmod data=melanome order=data ; c l a s s age reg ion; mode1 cas=age region/ d i s t=po i s son
l i n k=log o f f set=logpop t Y pe3;
c o n t r a s t 'modèl complet vs s i m p l i f i à © age 0 - 1 1 0 0 0 , age 0 0 0 -1 1 0 / e ;
run ;
Et on obtient le rgsultat :
C o e f f i c i e n t s For modèl complet vs si
CONTRAST S t a t e m e n t R e s u l t s
c o n t r a s t DF C h i s q u a r e Pr>Chi Type
modè l comple t v s s i 2 2.0560 0.3577 LR
2) On peut aussi remarquer que la déviancdivisà par ses degré de libertà a diminuà en passant du modcle additif complet au modhle simplifià (respectivement 1.243 et 1.1816)
3) Le mod5le simplifià estimà s'écri
4) Dans cet exemple, les tailles des populations soumises au risque sont élevé par rapport au nombre de cas observes. En fait on peut aussi considére que Y;suit une loi binomiale bin(Ni ;pi) oà pi est la probabilità qu'un individu tirà au hasard dans la population soumise au risque présent un mélanome Cette loi binomiale est approché par une loi de Poisson de moyenne pi = Nipi. Nous avons donc essayà de mod6liser ces donnkes en utilisant la loi binomiale et en conservant la fonction de lien logarithme :
Voici le nouveau progamme. 9
Programme (Répons binomiale, fonction de lien log, modèl additif simplifie)
proc genmod d a t a = b o r d e r = d a t a ; c l a s s r e g i o n : n o d e l cas /pop=age l a g e 2 a g e 3 r e g i o n / d i s t = b i n
l i n k = l o g t Y p e 3 ;
c o n t r a s t ' a g e ' a g e l 1 , a g e 2 1, a g e 3 1 ;
r u n ;
The GENMOD Procedure
Mode1 I n f o r m a t i o n
D e s c r i p t i o n Value
Da ta S e t WORK .B D i s t r i b u t i o n BINOMIAL Link F u n c t i o n LOG Dependent Va r i a b l e CAS Dependent V a r i a b l e POP O b s e r v a t i o n s Used 12 Nuaber Of E v e n t s 824 Number Of T r i a l s 6653075
Criter ia For Assessing Goodness Of Fi t
Criterion DF Value Value/DF
Deviance 7 8 -2745 1 .1821 Scaled Deviance 7 8.2745 1.1821 Pearson Chi-Square 7 8.2368 1.1767 Scaled Pearson X2 7 8 -2368 1.1767 Log Likelihood -7793.1578
Analysis O f Parameter Estimates
Parameter DF Estiaate . Std Err Chisquare PrXhi
INTERCEPT AGE1 AG E2 AGE3 REGION n REGION s SCALE
NOTE: The scale parameter was held fixed.
LR S t a t i s t i c s For Type 3 Analysis
Source DF Chisquare P r > C h i
CONTRAST Statement Results
COntraSt DF ChiSquare Pr>Chi Type
age 3 794.8074 ' 0.0001 LR
Commentaires
Le modèl estimà s'écri
On retrouve exactement (en tout cas avec la précisio choisie) la régressio de Poisson estiméplus haut. Ce résulta est toujours vrai lorsqu'on est dans les conditions de convergence de la loi binomiale vers la loi de Poisson :N,grand et pi petit. Ce qui est le cas ici.
5 ) Les probabilité pi ktant petites, log(pi) est trè peu different de log(- pi ).par '-pi
cons6quent la regression de Poisson est ici équivalent Ãune rigression logistique. Nous allons donc verifier que le modèl
conduit à la m&me estimation des coefficients de régressio que le modkle prkcédent
Le programme (Répons binomiale, fonction de lien logit)
proc genmod daTa=b o r d e r = d a t a ; c l a s s reg ion ; mode1 cas /pop=age i age2 age3 r e g i o n / d i s t = b i n
l i n k = l o g i t t y p e 3 ;
c o n t r a s t a g e ' a g e l 1 ,
age2 ' , age3 1 ;
run ;
Résultat
The GENMOD Procedure
Mode1 Information
D e s c r i p t i o n Va l u e
Data s e t WORK .B D i s t r i b u t i o n BINOMIAL Link Funct ion LOGIT Dependent Var iab le CAS Dependent Var iab le POP Observa t ions Used 1 2 Nurnber Of Events 824 hiumber Of T r i a l s 6653075
C r i t e r i a For Assessing Goodness O f F i t
C r i t e r i o n DF . Value ValueiDF
Deviance 7 8.2667 1.1810 Sca led Deviance 7 8.2667 1 . 1810 Pearson Chi-Square 7 8 .2292 1.1756 Sca led Pearson X2 7 8.2292 1.1756 Log Likel ihood -7793.1539
Analy sis Of Parameter Estimates
Parameter DF Estimate Std Err ChiSquare Pr>Chi
INTERCEPT AGE 1 AGE2 AGE3 REGION
Analysis Of Parameter Estimates
Parameter RF Estimate Std Err Chisquare Pr>Chi
REGION SCALE
NOTE: The scale parameter was held "fxed.
LR S t a T i s t i c s For Type 3 Analysis
Source DF Chisquare Pr>Chi
AGEI 1 362.7964 0.0001 AGE2 ; 77.2398 0.0001 AGES 1 29.7586 0.0001 REGION 1 123.4705 0.0001
CONTRAST Statement Results
Contras t DF ChiSquare Pr>Chi Type
ag e 3 794.8152 0.0001 LR
Commentaires
Le mod&le estirnii s'écri
On retrouve exactement (en tout cas avec la précisio choisie) la régressio de Poisson estimé plus haut. Ce rksultat est toujours vrai lorsqu'on est dans les conditions de convergence de la loi binomiale vers la loi de Poisson :Y; grand et pi petit. Ce qui est le cas ici.