250
HAL Id: tel-00718743 https://tel.archives-ouvertes.fr/tel-00718743 Submitted on 18 Jul 2012 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Développement d’un indice de séparabilité adapté aux données de génomique en analyse de survie Sigrid Laure Rouam To cite this version: Sigrid Laure Rouam. Développement d’un indice de séparabilité adapté aux données de génomique en analyse de survie. Santé publique et épidémiologie. Université Paris Sud - Paris XI, 2011. Français. <NNT : 2011PA11T006>. <tel-00718743>

tel.archives-ouvertes.fr · HAL Id: tel-00718743 Submitted on 18 Jul 2012 HAL is a multi-disciplinary open access archive for the deposit and

  • Upload
    hakhue

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

  • HAL Id: tel-00718743https://tel.archives-ouvertes.fr/tel-00718743

    Submitted on 18 Jul 2012

    HAL is a multi-disciplinary open accessarchive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come fromteaching and research institutions in France orabroad, or from public or private research centers.

    Larchive ouverte pluridisciplinaire HAL, estdestine au dpt et la diffusion de documentsscientifiques de niveau recherche, publis ou non,manant des tablissements denseignement et derecherche franais ou trangers, des laboratoirespublics ou privs.

    Dveloppement dun indice de sparabilit adapt auxdonnes de gnomique en analyse de survie

    Sigrid Laure Rouam

    To cite this version:Sigrid Laure Rouam. Dveloppement dun indice de sparabilit adapt aux donnes de gnomique enanalyse de survie. Sant publique et pidmiologie. Universit Paris Sud - Paris XI, 2011. Franais..

    https://tel.archives-ouvertes.fr/tel-00718743https://hal.archives-ouvertes.fr

  • Anne 2011 No

    Thse

    pour obtenir le grade de

    DOCTEUR DE LUNIVERSITE PARIS SUD

    Spcialit : Sant PubliqueOption : Biostatistiques

    Prsente et soutenue publiquement par

    Melle Sigrid ROUAM

    le 30 mars 2011

    Dveloppement dun indice de sparabilit

    adapt aux donnes de gnomique

    en analyse de survie

    Directeur de thse : Monsieur le Docteur Philippe BROT

    Co-directeur : Monsieur le Docteur Thierry MOREAU

    Membres du Jury :

    M. Jean-Christophe THALABARD (PU-PH) PrsidentM. Jean-Louis GOLMARD (MCU-PH) RapporteurM. Jean-Pierre DAURS (PU-PH) RapporteurM. Kh HOANG XUAN (PU-PH) ExaminateurM. Philippe BROT (MCU-PH) Directeur de thseM. Thierry MOREAU (DR) Co-directeur

  • Thse prpare dans les laboratoires suivants :

    Dpartement de Mthodologie Biostatistiquede la gnomique en pidmiologie cliniqueHpital Paul Brousse16 av. Paul Vaillant Couturier94807 Villejuif cedexFrancehttp ://ifr69.vjf.inserm.fr/je2492/index.html

    quipe BiostatistiquesINSERM UMRS 1018Hpital Paul Brousse16 av. Paul Vaillant Couturier94807 Villejuif cedexFrancehttp ://www.cesp.idf.inserm.fr/page.asp ?page=1098

    Genome Institute of Singapore60 Biopolis Street, GenomeSingapore 138672Singaporehttp ://www.gis.a-star.edu.sg/internet/site/

  • 3

  • 4

  • 5

    Remerciements

    Jaimerais ici remercier toutes les personnes qui mont soutenues au cours de cestrois annes et demi de thse, en France et Singapour.

    Tout dabord, je tiens remercier Philippe Brot, mon directeur de thse, pourses conseils, sa patience et son aide considrable, pour avoir toujours pris le temps demclairer sur les points obscurs et pour mavoir donner lopportunit de raliser unegrande partie de mon travail Singapour.

    Jaimerais galement exprimer ma gratitude Thierry Moreau, qui ma galementbeaucoup apport dun point de vue scientifique, qui ma soutenue et encourage, et masuivie durant ces trois annes (pas toujours vident avec la distance).

    Je remercie sincrement les membres de mon jury de thse. Merci Monsieur JeanChristophe Thalabard de mavoir fait lhonneur dtre prsident, ainsi qu MessieursJean-Louis Golmard et Jean-Pierre Daurs, qui ont bien voulu rapporter cette thse.Merci Monsieur Kh Hoang Xuan davoir accept de faire partie de mon jury.

    Jaimerais remercier le Ministre de lEnseignement Suprieur et de la Recherche ,ainsi que le Genome Institute of Singapore pour leur financement.

    Mes remerciements sadressent toutes les personnes que jai rencontres au coursde mon parcours et qui ont contribu rendre ces trois annes agrables et enrichissantes,aussi bien lINSERM, lUniversit Paris Sud qu au Genome Institute of Singapore.

    Un grand merci mes amis qui mont soutenu et aid persvrer dans mon travail.

    Je tiens remercier ma famille pour leur amour et lintrt port mon travail :mon pre, ma sur et mon grand-pre.

    Finally, I would like to express my gratitude to Lawrence, who has been very com-prehensive, supportive and always available.

  • 6

    Rsum

    Dans le domaine de loncognomique, lun des axes actuels de recherche est lidentification denouveaux marqueurs gntiques permettant entre autres de construire des rgles prdictives vi-sant classer les patients selon le risque dapparition dun vnement dintrt (dcs ou rcidivetumorale). En prsence de telles donnes de haute dimension, une premire tape de slectionparmi lensemble des variables candidates est gnralement employe afin didentifier les mar-queurs ayant un intrt explicatif jug suffisant. Une question rcurrente pour les biologistes estle choix de la rgle de slection. Dans le cadre de lanalyse de survie, les approches classiquesconsistent ranger les marqueurs gntiques partir du risque relatif ou de quantits issues detest statistiques (p-value, q-value). Cependant, ces mthodes ne sont pas adaptes la combinai-son de rsultats provenant dtudes htrognes dont les tailles dchantillons sont trs diffrentes.

    Utiliser un indice tenant compte la fois de limportance de leffet pronostique et ne dpendantque faiblement de la taille de lchantillon permet de rpondre cette problmatique. Dansce travail, nous proposons un nouvel indice de capacit de prdiction afin de slectionner desmarqueurs gnomiques ayant un impact pronostique sur le dlai de survenue dun vnement.Cet indice tend la notion de pseudo-R2 dans le cadre de lanalyse de survie. Il prsente galementune interprtation originale et intuitive en terme de sparabilit . Lindice est tout dabordconstruit dans le cadre du modle de Cox, puis il est tendu dautres modles plus complexes risques non-proportionnels. Des simulations montrent que lindice est peu affecte par la taille delchantillon et la censure. Il prsente de plus une meilleure sparabilit que les indices classiquesde la littrature. Lintrt de lindice est illustr sur deux exemples. Le premier consiste identifierdes marqueurs gnomiques communs diffrents types de cancers. Le deuxime, dans le cadredune tude sur le cancer broncho-pulmonaire, montre lintrt de lindice pour slectionner desfacteurs gnomiques entranant un croisement des fonctions de risques instantans pouvant treexpliqu par un effet modulateur entre les marqueurs. En conclusion, lindice propos est unoutil prometteur pouvant aider les chercheurs identifier des listes de gnes mritant des tudesplus approfondies.

    Mots cls : Analyse de survie, Gnomique, Oncologie, Pseudo-R2

  • 7

    Abstract : Development of a separability index for geno-mic data in survival analysis

    In oncogenomics research, one of the main objectives is to identify new genomic markers so asto construct predictive rules in order to classify patients according to time-to-event outcomes(death or tumor relapse). Most of the studies dealing with such high throughput data usuallyrely on a selection process in order to identify, among the candidates, the markers having aprognostic impact. A common problem among biologists is the choice of the selection rule. Insurvival analysis, classical procedures consist in ranking genetic markers according to either theestimated hazards ratio or quantities derived from a test statistic (p-value, q-value). However,these methods are not suitable for gene selection across multiple genomic datasets with differentsample sizes.

    Using an index taking into account the magnitude of the prognostic impact of factors withoutbeing highly dependent on the sample size allows to address this issue. In this work, we propose anovel index of predictive ability for selecting genomic markers having a potential impact on time-to-event outcomes. This index extends the notion of "pseudo-R2" in the framework of survivalanalysis. It possesses an original and straightforward interpretation in terms of "separability".The index is first derived in the framework of the Cox model and then extended to more complexnon-proportional hazards models. Simulations show that our index is not substantially affected bythe sample size of the study and the censoring. They also show that its separability performanceis higher than indices from the literature. The interest of the index is illustrated in two examples.The first one aims at identifying genomic markers with common effects across different cancertypes. The second shows, in the framework of a lung cancer study, the interest of the indexfor selecting genomic factor with crossing hazards functions, which could be explained by some"modulating" effects between markers. The proposed index is a promising tool, which can helpresearchers to select a list of features of interest for further biological investigations.

    Key words : Survival Analysis, Genomics, Oncology, Pseudo-R2

  • 8

  • 9

    Liste des travaux relatifs la thse

    Publications

    (1) S. Rouam, T. Moreau and P. Brot. Identifying common prognostic factors in genomiccancer studies : A novel index for censored outcomes. BMC Bioinformatics, 11(1) :150, 2010.(2) S. Rouam, T. Moreau and P. Brot. A pseudo-R2 measure for selecting genomicmarkers with crossing hazard functions BMC Medical Research Methodology, 11(1) :28, 2011.(3) S. Rouam, T. Moreau and P. Brot. . A note on crossing hazard functions in survivalmodels. En prparation.

    Posters

    (1) S. Rouam. Identifying common prognostic factors in genomic cancer studies : A noveldiscrimination index for survival data. Singapore Symposium on Computational Biology, 8septembre 2009, A*Star, Singapore.

  • TABLE DES MATIRES 11

    Table des matires

    1 INTRODUCTION 15

    2 RAPPELS SUR LE R2 DANS LE MODLE LINAIRE GNRALIS 212.1 R2 dans le modle de rgression linaire . . . . . . . . . . . . . . . . . . . . . . . 22

    2.1.1 Cas de la rgression linaire sans hypothse gaussienne . . . . . . . . . . . 222.1.2 Cas du modle de rgression linaire gaussien . . . . . . . . . . . . . . . . 26

    2.2 Pseudo-R2 et rgression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.2.1 Gnralisations issues de la dfinition originelle du R2 . . . . . . . . . . . 352.2.2 Gnralisations issues du coefficient de corrlation . . . . . . . . . . . . . 402.2.3 Gnralisations issues de la statistique du rapport de vraisemblance . . . . 412.2.4 Gnralisations issues de linformation et de la divergence de Kullback-Leibler 41

    2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    3 REVUE DE LA LITTRATURE : INDICES DE CAPACIT DE PRDIC-TION EN ANALYSE DE SURVIE 433.1 Dfinitions et notations en analyse de survie . . . . . . . . . . . . . . . . . . . . . 44

    3.1.1 Modlisation de la survie en labsence de covariables . . . . . . . . . . . . 443.1.2 Modle de Cox : Rappels et Notations . . . . . . . . . . . . . . . . . . . . 48

    3.2 Prsentation des indices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.2.1 Les indices fonds sur la somme des carts . . . . . . . . . . . . . . . . . . 513.2.2 Les indices drivs de la vraisemblance . . . . . . . . . . . . . . . . . . . . 613.2.3 Les indices bass sur la notion de corrlation . . . . . . . . . . . . . . . . 643.2.4 Les indices de concordance . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    3.3 Comparaison des indices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    4 MATRIELS ET MTHODES : PRSENTATION DE LINDICE 774.1 Deux modles de survie risques non-proportionnels . . . . . . . . . . . . . . . . 78

    4.1.1 Un modle risques non-proportionnels dont les risques convergent : lemodle odds proportionnels . . . . . . . . . . . . . . . . . . . . . . . . . 78

    4.1.2 Un modle risques non-proportionnels dont les risques se croisent . . . . 814.1.3 Une criture du score commune aux diffrents modles . . . . . . . . . . . 86

    4.2 Indice de sparabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 884.2.1 Prsentation de lindice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 884.2.2 Proprits de lindice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 904.2.3 Ajustement de lindice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 964.2.4 Prise en compte des ex-quo . . . . . . . . . . . . . . . . . . . . . . . . . 97

    4.3 Conclusions sur les mthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

  • 12 TABLE DES MATIRES

    5 TUDE PAR SIMULATIONS DES PROPRITS DE LINDICE 1015.1 Simulations en vue dvaluer les proprits statistiques de lindice . . . . . . . . . 102

    5.1.1 Schma de simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1025.1.2 Rsultats des simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

    5.2 Simulations en vue dtudier les proprits pratiques de lindice . . . . . . . . . . 1175.2.1 Schma de simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1175.2.2 Rsultats des simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

    5.3 Simulations dans le cas particulier deffets modulateurs . . . . . . . . . . . . . . . 1265.3.1 Schma de simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1265.3.2 Rsultats des simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

    5.4 Conclusions des simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

    6 EXEMPLES DUTILISATION DE LINDICE 1316.1 Introduction loncognomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1326.2 Exemple 1 : slection de variables gnomiques dans diffrents types de cancer dans

    le cadre du modle de Cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1336.2.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1336.2.2 Prsentation des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . 1336.2.3 Choix du seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1366.2.4 Rsultats de la slection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

    6.3 Exemple 2 : slection de variables gnomiques dans une tude de cancer du poumondans le cadre dun modle risques non-proportionnels . . . . . . . . . . . . . . . 1396.3.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1396.3.2 Prsentation des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . 1396.3.3 Rsultats de la slection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

    6.4 Conclusion sur les exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

    7 DISCUSSION ET CONCLUSION 147

    ANNEXES 151

    Annexe A Rsultats complmentaires sur lindice 153A.1 Preuve de Lin et Wei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153A.2 Preuve montrant la relation entre D0 et les dterminants des matrices et . 155

    Annexe B Rsultats complets des simulations 159B.1 Calcul des paramtres des diffrents mcanismes de censure. . . . . . . . . . . . . 159B.2 Tableaux et figures complmentaires . . . . . . . . . . . . . . . . . . . . . . . . . 161

    Annexe C Rsultats complets des exemples 231C.1 Courbes de survie complmentaires pour lexemple 1 . . . . . . . . . . . . . . . . 231

    Annexe D Codes R pour la programmation de lindice 237D.1 Indice sous le modle de Cox risques proportionnels . . . . . . . . . . . . . . . . 237D.2 Indice sous le modle odds proportionnels . . . . . . . . . . . . . . . . . . . . . 238D.3 Indice sous le modle conduisant un croisement des risques instantanns . . . . 239

    Annexe E Articles 241

  • TABLE DES MATIRES 13

    E.1 Identifying commun prognostic factors in genomic cancer studies : a novel indexfor censored outcomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241

    E.2 A pseudo-R2 measure for selecting genomic markers with crossing hazard functions 241

    BIBLIOGRAPHIE 243

  • 15

    Chapitre 1

    INTRODUCTION

    Le contexte de la gnomique haut dbit

    Lapparition, la fin du sicle dernier des biotechnologies de gnomique dites haut

    dbit , reprsente une nouvelle source dinformation pour ltude des pathologies humaines. On

    distingue trs schmatiquement la gnomique structurale, qui sintresse la structure du

    gnome, et la gnomique fonctionnelle dont lobjectif est de dterminer la fonction des gnes.

    La gnomique structurale peut se dfinir comme la connaissance complte des gnomes, tant en ce

    qui concerne le nombre et lorganisation spatiale sur les chromosomes des gnes qui les constituent,

    que leur squence chimique et les produits cellulaires qui rsultent de leur fonctionnement. La

    gnomique structurale englobe les techniques de cartographie, de squenage et dannotation du

    gnome ainsi que la dtermination de la structure tridimensionnelle des protines. La gnomique

    fonctionnelle sintresse, quant--elle, la connaissance des mcanismes rgulateurs des gnes et

    ltude de leur fonctionnement intgr dans la cellule et lorganisme.

    Les outils technologiques, qui sont actuellement plus communment utiliss en gnomique

    fonctionnelle, sont les puces ADN (Acide DsoxyriboNuclique), de part leur efficacit et

    la diversit de leurs champs dapplication. Lapparition des premires puces ADN remonte

    une quinzaine dannes, la premire puce ayant t commercialise en 1994 par la socit Affy-

    metrix (www.affymetrix.com). Dune manire gnrale, une puce comporte plusieurs dizaines de

    milliers dunits dhybridation ("spots" en anglais), chacune de ces sondes tant constitue dun

    court fragment doligonuclotides (par dpt ou par synthse in situ) correspondant des s-

    quences donnes (cible). Les sondes sont dposes/fixes/synthtises sur un support solide selon

    une disposition ordonne. Le fonctionnement des puces repose sur le principe dhybridation entre

    la sonde et la cible, qui est, le plus souvent, marque par une molcule fluorescente, permettant

    de dtecter et de quantifier lensemble des cibles prsentes (ADN ou ARN, Acide Ribonuclique)

    en une seule exprience.

    On distingue diffrents types de puces en fonction du support, de la densit des puits, de

    la nature des sondes, de la mthode dhybridation (simple ou comptitive).

  • 16 INTRODUCTION

    Une des premires applications du principe des puces, et encore largement dominante

    lheure actuelle, est lanalyse du transcriptome. Lobjectif est la dtection de la prsence,

    dans une cellule ou un organisme, des ARN messagers (ARNm). Outre lanalyse de lexpression

    des gnes, les puces ADN sont galement utilises dans dautres domaines, dont en particulier

    le gnotypage avec lidentification de polymorphismes gntiques ponctuels (ou SNP, Single

    Nucleotide Polymorphism, (Hacia et al., 1998)) ; la recherche de variants de nombre, comme

    la dtection des variations du nombre de copies de lADN (amplifications et dltions de rgions

    chromosomiques constitutionnelles ou tumorales). Plus rcemment, de nouvelles applications

    voient le jour, comme par exemple les ChIP-on-Chip (Chromatin-ImmunoPrecipitation on

    Chip), qui combinent les principes dimmuno-prcipitation de la chromatine et des puces ADN

    et visent tudier linteraction entre ADN et protines, typiquement les facteurs de transcription.

    Loncognomique

    En cancrologie, les puces ADN sont actuellement de plus en plus largement utilises.

    Les tudes en oncognomique portent sur le gnome tumoral et/ou le gnome constitutionnel

    et recherchent les facteurs de susceptibilit ou dvolution de la maladie. Ainsi, les tudes

    dassociation pan-gnomiques (GWAS, Genome Wide Assocation Studies) centres sur lADN

    constitutionnel visent identifier des gnotypes associs laugmentation ou la diminution du

    risque dapparition de certains cancers. Lutilisation des puces ADN centres sur lADN tumo-

    ral permet galement lidentification de profils daberrations chromosomiques et de modifications

    transcriptionnelles. La technologie de type CGH-array (ou hybridation gnomique comptitive)

    permet didentifier des variations du nombre de copies de lADN tumoral (i.e. des dltions ou

    amplifications). Ces altrations gnomiques peuvent tre associes des modifications dexpres-

    sions de gnes cls de la cellule (amplification doncognes, dltion de gnes suppresseurs de

    tumeurs).

    Lobjectif de loncognomique est dapporter de nouveaux lments favorisant une meilleure

    comprhension de la biologie de la progression tumorale, conduisant potentiellement au dvelop-

    pement de nouvelles stratgies diagnostiques, pronostiques et prdictives (rponse des patients

    la thrapie). Le transfert des outils de la gnomique en clinique reprsente lun des dfis de la

    mdecine de demain. Lors des cinq dernires annes, de trs nombreux marqueurs gnomiques

    ont t proposs en cancrologie et une minorit dentre eux a dj t implment en clinique

    (e.g. Oncotype DXr, MammaPrintr). Il est hautement probable que ce type dapproche sera

    lun des enjeux des prochaines annes.

    Malgr un accroissement des connaissances dans le domaine de la biologie du cancer, de

    nombreux mcanismes restent encore inconnus. Lun des axes de recherche actuel en cancrologie

    gnomique est lidentification de nouveaux marqueurs molculaires afin de construire des

    rgles prdictives visant classer les patients selon le risque dapparition dun vnement dintrt

    (dcs ou rcidive tumorale). En prsence de telles donnes de haute dimension, une premire

  • 17

    tape de slection parmi lensemble des variables candidates est gnralement employe afin

    didentifier les marqueurs lis un critre de jugement principal. En oncologie, ce critre est

    souvent le dlai dapparition dun vnement.

    Les donnes censures

    En cancrologie, lanalyse de survie est frquemment utilise pour relier le dlai dappari-

    tion dun vnement dans la population tudie des variables explicatives (e.g. les biomarqueurs

    gntiques). Lanalyse de survie est apparue au XVIIme sicle dans le domaine de la dmogra-

    phie et des sciences actuarielles. Son utilisation dans dautres domaines tels que la physique,

    lindustrie, les sciences mdicales nest apparue quau XXme sicle. Comme son nom lindique,

    lanalyse de survie vise, lorigine, tudier la survie dun ensemble de patients, cest--dire le

    taux de mortalit. A lheure actuelle, lanalyse de survie a une dfinition plus large et dsigne

    lanalyse du temps dapparition de tout type dvnement. Lanalyse des donnes de survie

    a deux principales particularits : la premire est de ne concerner que des variables alatoires

    positives, la deuxime est la prsence de donnes incompltes car possiblement censures. Des

    mthodes spcifiques ont donc t dveloppes pour analyser ce type de donnes.

    Les avances majeures dans ce domaine ont vu le jour partir des annes cinquante. En

    1951, Weibull conoit un modle paramtrique dans le domaine de la fiabilit (Weibull, 1951).

    A cet effet, il propose une nouvelle distribution de probabilit qui sera par la suite frquemment

    utilise en analyse de la survie : la loi de Weibull . En 1958, Kaplan et Meier prsentent

    dimportants rsultats concernant lestimation non-paramtrique de la fonction de survie (Kaplan

    et Meier, 1958). En 1972, Cox introduit un modle statistique semi-paramtrique permettant de

    prendre en compte, dans la modlisation de la fonction de risque, des variables explicatives (Cox,

    1972). Il dfinit galement la notion de vraisemblance partielle. Cette approche a fait lobjet de

    dveloppements mthodologiques majeurs et a servi de cadre thorique pour le dveloppement

    de nombreux autres modles. En outre, de nouveaux dveloppements dans le cadre de la thorie

    des martingales et des processus de comptage ont fait lobjet de travaux lors des deux dernires

    dcennies (Fleming et Harrington, 2005).

    En oncognomique, lanalyse de survie permet dtudier la relation entre le risque dap-

    parition dun vnement et des modifications gnomiques. Les mthodes classiquement

    utilises pour slectionner les biomarqueurs lies ce risque consistent ordonner les gnes en

    fonction dune mesure base sur le risque relatif et/ou sur le degr de signification (p-value as-

    socie un test statistique), et choisir un seuil permettant de dterminer le sous-ensemble

    de gnes dintrt. Une question rcurrente pour les biologistes est la mthode de slection.

    Dans le cadre de la comparaison de deux groupes, on voit trs frquemment lutilisation de rgles

    heuristiques combinant effet biologique minimum (log suprieur 2) et significativit (p-value

    infrieure 0.001). Dans le cas des donnes censures, lutilisation du risque relatif estim comme

    mesure deffet ne tient pas compte de la variabilit et le degr de signification dpend fortement

  • 18 INTRODUCTION

    de la taille de lchantillon pnalisant une analyse combinant des tudes de tailles diffrentes.

    Utiliser une mesure tenant compte la fois de la variabilit des donnes et ne dpendant

    que faiblement de la taille de lchantillon, prsente un intrt majeur, notamment pour

    comparer, voire combiner, les rsultats issus dtudes htrognes de tailles diffrentes produites

    par des groupes distincts.

    Indices de capacit de prdiction

    Les mesures de capacit de prdiction permettent de rpondre cette problmatique.

    Elles visent dterminer la capacit dune ou plusieurs variables explicatives prdire la variable

    rponse et permettent ainsi dvaluer la contribution de variables pronostiques au modle. Dans

    le modle linaire, la mesure de capacit de prdiction la plus utilise est le coefficient de

    dtermination ou R2. Ce dernier est dfini comme le pourcentage de variation explique par le

    modle. Il permet la fois de mesurer la qualit dajustement du modle et galement de quantifier

    la force de la relation entre la ou les variables explicatives et la variable expliquer. Comme le

    souligne Magee (1990), il peut tre interprt de diffrentes faons : comme un pourcentage

    de variance expliqu, mais galement comme le carr du coefficient de corrlation, comme une

    fonction de la vraisemblance (et du score). Dans le modle linaire, toutes ces quantits sont lies.

    Dans des modles plus complexes, comme le modle logistique et lanalyse de survie, ce nest

    pas ncessairement le cas et la transposition des diffrentes interprtations de la notion de R2

    nest pas aisment ralisable. Ainsi il ny a pas de consensus sur la faon de calculer lquivalent

    du R2, ou pseudo-R2, dans le cadre de la survie et de nombreuses mesures ont t proposes.

    Dans ce travail, nous proposons une nouvelle mesure de capacit de prdiction afin

    de slectionner des marqueurs gnomiques ayant un impact pronostique sur le dlai de survenue

    dun vnement. En pratique, lindice propos prsente une interprtation originale et intuitive

    en terme de capacit dun marqueur gnomique sparer les patients en fonction de leur temps

    de survie et de leurs mesures dexpression gntique. Lindice est compris entre 0 et 1 et sa valeur

    augmente lorsque leffet du gne augmente.

    Pour crire notre pseudo-R2, plusieurs modles sont considrs. Dans un premier temps,

    notre indice est construit partir du modle de Cox risques proportionnels. Comme

    pour toute modlisation, bien que lhypothse des risques proportionnels soit une simplification

    de la ralit, ce modle est largement employ car il permet de rsumer leffet moyen dune

    variable sur la fonction de risque de base, et une infrence simple peut tre obtenue partir

    de la vraisemblance partielle. Dans ce travail, nous considrons galement le modle odds

    proportionnels. Il constitue une alternative au modle de Cox avec variables dpendantes du

    temps dans des situations o leffet de la covariable diminue au cours du temps. Enfin, nous

    nous intressons un modle particulier visant dcrire leffet de facteurs entranant un

    croisement des fonctions de risques instantans et ne pouvant tre modlis par les deux

    modles voqus prcdemment.

  • 19

    Plan de la thse

    Dans le chapitre 2, nous rappelons la dfinition du R2 dans le cadre du modle linaire

    simple et gnralis. Dans le chapitre 3, nous prsentons les principales mesures de capacit de

    prdiction proposes en analyse de survie. Le chapitre 4 est compos de deux parties. La premire

    vise dcrire les diffrents modles tudis, et la deuxime est consacre la prsentation de

    lindice sous ces modles et ltude de ses proprits. Le chapitre 5 expose les schmas et

    rsultats de simulations visant tudier le comportement de lindice sous les diffrents modles de

    survie. Le chapitre 6 dcrit deux exemples dapplication de lindice pour la slection de variables

    gntiques. Le premier sinscrit dans le cadre du modle de Cox et permet didentifier des facteurs

    gntiques communs divers types de cancers solides. Le deuxime montre lintrt de lindice

    pour slectionner des gnes aux risques qui se croisent. Le chapitre 7 discute la mthode prsente

    et conclut sur le travail effectu.

  • 21

    Chapitre 2

    RAPPELS SUR LE R2 DANS LE MODLELINAIRE GNRALIS

    Contenu

    2.1 R2 dans le modle de rgression linaire . . . . . . . . . . . . . . . . . 22

    2.1.1 Cas de la rgression linaire sans hypothse gaussienne . . . . . . . . . . 22

    2.1.2 Cas du modle de rgression linaire gaussien . . . . . . . . . . . . . . . 26

    2.2 Pseudo-R2 et rgression logistique . . . . . . . . . . . . . . . . . . . . 35

    2.2.1 Gnralisations issues de la dfinition originelle du R2 . . . . . . . . . . 35

    2.2.2 Gnralisations issues du coefficient de corrlation . . . . . . . . . . . . 40

    2.2.3 Gnralisations issues de la statistique du rapport de vraisemblance . . 41

    2.2.4 Gnralisations issues de linformation et de la divergence de Kullback-Leibler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

  • 22 R2 DANS LE MODLE LINAIRE

    Dans ce chapitre, la notion de coefficient de dtermination (R2) est introduite dans le cadre

    le plus simple, la rgression linaire. Le R2 estime la fraction de la variance (dispersion) qui est

    explique par une ou plusieurs variables explicatives Z dans un modle de rgression linaire.

    La dfinition du R2 dans le modle linaire est tout dabord rappele ; puis, les gnralisa-

    tions du R2 pour le modle logistique sont prsentes.

    2.1 R2 dans le modle de rgression linaire

    Dans un premier temps, le coefficient de dtermination dans le cadre du modle linaire

    simple sans faire dhypothse particulire sur la distribution des termes derreurs est prsent.

    Dans un second temps, les extensions de la dfinition du R2 dans le cas derreurs de type gaus-

    siennes sont exposes.

    2.1.1 Cas de la rgression linaire sans hypothse gaussienne

    a. Rappel de la dfinition du modle de rgression linaire

    Dfinition 2.1 Le modle de rgression linaire (multiple) standard est dfini par la relation

    suivante :

    Y = Z + (2.1)

    o Y est le vecteur (n1) de variables expliquer ou variables rponses, Z la matrice (n(p+1))de variables explicatives ou rgresseurs, le vecteur ((p+1) 1) des paramtres de la rgressionet le vecteur (n1) derreurs. Leurs expressions peuvent tre prsentes sous forme matriciellecomme suit :

    Yn1

    =

    y1...yn

    Z

    n(p+1)=

    1 z11 z1p...

    ......

    1 zn1 znp

    (p+1)1=

    01...p

    n1 =

    1...n

    On suppose que le terme derreur a une moyenne nulle et une matrice de variance-covariance

    2In (In est la matrice identit de dimension n n).

    Dans un premier temps, on ne fait aucune hypothse sur la distribution du terme derreur .

    b. Dfinition du coefficient de dtermination

    On note y =n

    i=1

    yin

    la moyenne empirique des yi , Y le n-vecteur (y, , y)T et Y le

    n-vecteur des valeurs prdites de Y .

  • 2.1. R2 DANS LE MODLE DE RGRESSION LINAIRE 23

    Dfinition 2.2 Le R2 ou coefficient de dtermination est dfini par la relation suivante :

    R2 = 1 SCESCT

    =SCM

    SCT

    avec SCE =n

    i=1

    (yi yi)2 =Y Y

    2

    SCM =n

    i=1

    (yi y)2 =Y Y

    2

    SCT =n

    i=1

    (yi y)2 =Y Y

    2

    (2.2)

    SCE est la somme des carrs des erreurs, SCT la somme des carrs totaux et SCM la somme des

    carrs du modle.

    c. Reprsentation gomtrique

    La figure 2.1 donne la reprsentation gomtrique des diffrentes sommes de carrs

    dans le modle linaire.

    On note M(Z) le sous-espace de Rn engendr par les p+1 vecteurs colonne de Z, souvent

    appel espace image ou espace des solutions. Soit M(Z) lespace des rsidus orthogonal M(Z).

    Daprs le thorme de Pyhtagore, on a :

    ||Y Y ||2 = ||Y Y ||2 + ||||2 SCT = SCM + SCE

    La variabilit totale (||Y Y ||2) est gale a la somme de la variabilit explique par le modle(||Y Y ||2) et de la variabilit rsiduelle (||||2).Si la constante ne fait pas partie du modle, i.e. Z est de dimension (n p), le thorme dePythagore devient :

    ||Y ||2 = ||Y ||2 + ||||2 = ||Z||2 + ||Y Z||2

    Dans un modle sans ordonne lorigine, il faut donc prendre SCM = ||Y ||2 et SCT = ||Y ||2pour que la dcomposition en sommes de carrs (SCT = SCM + SCE) soit vrifie.

    Dans ce cadre, le coefficient de dtermination sinterprte comme le cosinus carr de

    langle entre Y et Y pris en Y . En labsence de constante, il est gal au cosinus carr de

    langle 0 entre Y et Y pris lorigine.

    d. Caractristiques du R2

    Le coefficient de dtermination est compris entre 0 et 1.

    La valeur du R2 augmente lorsque le nombre p de prdicteurs augmente. Son utilisation

    pour comparer des modles avec un nombre de variables diffrentes nest donc pas appropri,

    comme le souligne Healy (1984).

  • 24 R2 DANS LE MODLE LINAIRE

    Figure 2.1 Reprsentation des sommes de carrs dans le modle linaire

    ZY =

    0

    Y

    Y1

    )(ZM

    )(ZM

    Pour remdier ce problme, un coefficient de dtermination ajust a t propos.

    Dans le cadre du modle linaire, le R2 ajust est une modification du R2 qui tient compte

    du nombre de variables explicatives. Contrairement au R2 non ajust, le R2 ajust augmente

    uniquement si la nouvelle variable amliore la prdiction du modle.

    Le R2 ajust est dfini de la manire suivante :

    R2adj = 1SCE/(n p 1)SCT/(n 1) = 1 (1 R

    2)n 1

    n p 1 (2.3)

    Le R2 ajust peut tre ngatif et est toujours infrieur au R2. Son interprtation est donc

    diffrente de celle du R2 non ajust.

    e. Interprtations du coefficient de dtermination

    Le coefficient de dtermination peut tre interprt de diffrentes manires.

    La plus simple et plus communment utilise consiste considrer le R2 comme unemesure de pourcentage de variation explique par la ou les covariables incluses dans le

  • 2.1. R2 DANS LE MODLE DE RGRESSION LINAIRE 25

    modle. En effet, le R2 peut scrire sous la forme :

    R2 =V[E(Y |Z)]

    E[V(Y |Z)] + V[E(Y |Z)] =V(Y ) E[V(Y |Z)]

    V(Y )= 1 E[V(Y |Z)]

    V(Y )(2.4)

    Linterprtation en terme de pourcentage de variation explique ne peut se faire que condition-

    nellement un modle. Sous cette forme, le coefficient de dtermination permet de dcrire la

    rduction de la variance de Y en passant de la distribution marginale la distribution condi-

    tionnelle sachant Z. Il constitue alors un moyen de quantifier lamlioration de la prdiction par

    lajout dune covariable dans un modle donn par rapport au modle nul, i.e. sans covariables.

    Une autre interprtation est galement parfois utilise et correspond lutilisation ducoefficient de dtermination comme une mesure dajustement du modle, ce quen anglais on

    dsigne par goodness of fit . Le R2 permet alors de quantifier ladquation du modle aux

    donnes.

    Dans ce cadre, le R2 peut tre reli la notion de perte introduite par Korn et Simon

    (1991) et dfinie ci-aprs.

    Soit L(y, y) la perte encourue en faisant la prdiction y de la vraie valeur observe y de la variable

    alatoire Y . Par exemple, la fonction de perte la plus couramment utilise est lerreur au carr

    ||y y||2.En prsence dune covariable Z, la perte attendue est

    L(y, y)dF (y|z), o F est la fonction de

    rpartition de Y conditionnellement Z. Le risque R(z) est dfini comme la perte minimale

    atteinte pour y = y(z), et vaut R(z) = minyL(y, y)dF (y|z).

    En labsence de covariables, la perte attendue estL(y, y)dF0(y), o F0 peut tre dcompose

    comme un mlange de ses composantes, telle que F0(y) = 1nn

    i=1 F (y|zi). Le minimum est atteintpour y = y0. Le risque vaut alors R0 = miny

    L(y, y)dF0(y).

    Le coefficient de dtermination peut alors sexprimer comme

    R2 =

    n

    i=1

    L(yi, y0)n

    i=1

    L(yi, y(zi))

    n

    i=1

    L(yi, y0)

    (2.5)

    o y(zi) et y0 sont les prdicteurs respectifs de y(zi) et de y0, et en prenant L(y, y) = ||y y||2.Sous cette forme, le R2 permet de quantifier la perte relative encourue en faisant la prdiction

    base sur lutilisation des covariables dans le modle, par rapport la prdiction ne faisant pas

    intervenir les covariables dans le modle.

    Il existe, dans la littrature, une certaine confusion entre les deux interprtations, en terme

    de pourcentage de variance explique et dajustement au modle, car, en ralit, la notion de

    coefficient de dtermination englobe les deux concepts dans le cadre du modle linaire (voir

    Korn et Simon, 1991).

  • 26 R2 DANS LE MODLE LINAIRE

    2.1.2 Cas du modle de rgression linaire gaussien

    Ce paragraphe montre quen faisant lhypothse de distribution gaussienne sur les termes

    derreur, le R2 peut scrire sous diffrentes formes. Il peut tre reli dautres quantits,

    comme le coefficient de corrlation ainsi que de la divergence de Kullback-Leibler. Magee (1990)

    montre galement quil peut tre reli aux statistiques de Fisher, de Wald, du log-rapport de

    vraisemblance et du score pour tester lhypothse nulle H0 : {1 = = p = 0} (i.e. tous lesparamtres de la rgression sont nuls lexception de lordonne lorigine).

    a. Rappels dans le cadre du modle linaire avec erreurs gaussiennes

    Dans ce paragraphe, on considre le modle linaire dfini p. 22. De plus, on suppose que

    les termes derreur i sont iid (indpendants et identiquement distribus), de distribution normale

    de moyenne nulle et de matrice de variance-covariance 2In, soit N (0, 2In).Dans ce cas, la densit de probabilit des yi, i = 1, , n est

    f(yi, , 2) =

    1

    2

    exp

    {(yi 0

    pj=1 zijj)

    2

    22

    }

    La vraisemblance des observations est

    L(y, , 2) =(

    1

    22

    )n/2exp

    { 122

    Y Z2}

    o Y Z2 = (Y Z)T (Y Z).La log-vraisemblance scrit alors

    logL(y, , 2) = n2log(22) 1

    22Y Z2

    Le vecteur des drives, par rapport aux j , j = 1, , p, de la log-vraisemblance sedduit de ce qui prcde :

    U() = logL(y, , 2) =( logL(y, , 2)

    1, , logL(y, ,

    2)

    p

    )T=

    1

    2ZT (Y Z)

    ainsi que logL(y, , 2)

    2= n

    22+

    1

    24Y Z2

    Les estimateurs des paramtres de la rgression j , j = 1, , p et de la variance 2sont alors

    = (ZTZ)1ZTY

    2 =||Y Z||2

    n=

    ||Y Y ||2n

    =||||2n

    =SCE

    n

    La drive seconde de la log-vraisemblance permet dobtenir linformation de Fisher

    ainsi que son inverse, la variance des :

    I() = E[2 logL(y, , 2)

    2

    ]= V()1

  • 2.1. R2 DANS LE MODLE DE RGRESSION LINAIRE 27

    b. Lien entre le R2 et le coefficient de corrlation multiple

    Dans le cadre de la rgression linaire avec erreurs gaussiennes, le coefficient de dtermina-

    tion est reli au coefficient de corrlation. Dans le cas dune seule variable explicative et avec

    une estimation des par la mthode des moindres carrs, le R2 est exactement gal au carr du

    coefficient de corrlation de Pearson entre la variable rponse et le rgresseur, qui scrit de la

    manire suivante :

    r =

    n

    i=1

    (zi z)(yi y)

    n

    i=1

    (zi z)n

    i=1

    (yi y)

    Dans le cadre multivari, on peut dfinir un coefficient de corrlation multiple. Pour ce

    faire, il est plus pratique, dans le modle (2.1), de sparer leffet moyen des autres variables de

    la matrice Z :

    Y = 01+ Z +

    o 1 est la matrice colonne unit (p 1), Z est une matrice (n p) et le vecteur colonne dedimension (p 1) des paramtres.Sans perte de gnralit, on peut supposer que les colonnes de Z sont centres de moyenne nulle.

    Le modle scrit alors (Mardia et al., 1979)

    Y Y = Z +

    avec = T1 qui dnote le vecteur centr des erreurs.Soit

    S =

    (s11 S12S21 S22

    )=

    1

    n

    (Y T Y T

    ZT

    )(Y Y ;Z)

    la matrice de covariance de Y et Z. Le coefficient de corrlation multiple est dfini par

    r =

    (S12S

    122 S21s11

    )1/2

    Le coefficient de dtermination est alors gal au carr du coefficient de corrlation multiple.

    Dans les cas univari et multivari, on a donc la relation suivante :

    R2 = r2 (2.6)

    Preuve. Dans le cas multivari, les composantes du coefficient de corrlation

    scrivent :

    s11 = ||Y Y ||2 et S12S122 S21 = (Y Y )TZ(ZTZ)1ZT (Y Y )

    Dautre part, on a

  • 28 R2 DANS LE MODLE LINAIRE

    SCE = ||Y Y Y ||2= ||Y Y Z||2= (Y Y )T (Y Y ) (Y Y )TZ(ZTZ)1ZT (Y Y )= ||Y Y ||2

    (1 (Y Y )

    TZ(ZTZ)1ZT (Y Y )||Y Y ||2

    )

    = ||Y Y ||2(1 r2

    )

    = SCT (1 r2)Do

    r2 = 1 SCESCT

    = R2

    Le cas univar est un cas particulier du cas multivari. La relation est donc ga-

    lement vrifie.

    c. Lien avec la statistique de Fisher

    La statistique de Fisher F visant tester lhypothse nulle H0 scrit comme suit

    F =SCM/(p)

    SCE/(n p 1)

    Elle suit un loi de Fisher p et n p 1 degrs de libert. On a alors

    F =R2/p

    (1R2)/(n p 1)

    Par consquent, le R2 peut scrire comme une fonction de la statistique de Fisher :

    R2 =nF

    n p 1 + nF (2.7)

    d. Lien avec la statistique de Wald

    La statistique F peut tre relie la statistique de Wald W pour tester H0 :

    W =n(SCM)

    SCE=

    npF

    n p 1

    et donc la relation entre le R2 et la statistique de Wald est

    R2 =W

    W + n(2.8)

    Preuve. La statistique de Wald testant H0 est dfinie par la relation suivante :

    W = ( )T V()1( ) avec (p+1)1

    =

    y0...0

  • 2.1. R2 DANS LE MODLE DE RGRESSION LINAIRE 29

    La variance des coefficients scrit

    V() = 2(ZTZ)1

    Un estimateur est donn par

    V() = 2(ZTZ)1 avec 2 =1

    n||Y Y ||2 = 1

    nSCE

    La statistique de Wald devient

    W =1

    2( )T (ZTZ)( )

    =1

    2

    [TZTZ T (ZTZ) (ZTZ) + T (ZTZ)

    ]

    =1

    2

    [TZTZ Y TZ TZTY T (ZTZ)

    ]

    En dveloppant, on montre que

    Y TZ = TZTY = T (ZTZ) = ny2

    On en dduit donc que

    W =||Z Y ||2

    2= n

    SCM

    SCE= n

    R2

    1R2Par consquent,

    R2 =W

    W + n

    e. Lien avec la statistique du rapport de vraisemblance

    Dans le modle (2.1), la relation entre la dfinition initiale du R2 et la statistique du rapport

    de vraisemblance scrit :

    R2 = 1 exp{LR

    n

    }(2.9)

    Preuve. Nous avons vu prcdemment que la vraisemblance du modle linaire

    scrit

    L(y, , 2) =(

    1

    22

    )n/2exp

    { 122

    ||Y Z||2}

    Cette vraisemblance est maximale lorsque = est lestimateur du maximum de

    vraisemblance ou des moindres carrs et que 2 = 2U = ||Y Z||2/n = SCE/n.Donc

    sup,2

    L(y, , 2) =(

    n

    2||Y Z||2

    )n/2en/2

    =( n2SCE

    )n/2en/2

    = L(y, , 2U ) = L1

  • 30 R2 DANS LE MODLE LINAIRE

    Sous lhypothse H0, nous obtenons de manire quivalente :

    sup,2

    LR(y, , 2) =(

    n

    2SCER

    )n/2en/2

    = LR(y, 0, 2R) = L0o SCER correspond la somme des carrs rsiduels sous H0, cest--dire SCER =||y 0||2 = ||Y Y ||2 = SCT et 2R = SCER/n. La statistique du rapport devraisemblance qui teste H0 est dfini par

    LR = 2 log

    (L1L0

    )

    Donc

    LR = 2 log

    (L1L0

    )= n log

    (SCT

    SCE

    )

    Do on dduit

    R2 = 1 exp{LR

    n

    }

    f. Lien avec la statistique du score

    Le lien entre le R2 et la statistique du score est expos ci-dessous. La statistique du

    score peut scrire comme suit

    LM =nSCM

    SCT=

    W

    1 +W/n

    soit

    R2 =LM

    n(2.10)

    Preuve. La statistique du score visant tester que = est dfinie par

    LM = U()T I()1U()

    avec

    U() =1

    2ZT (Y Z) et I()1 = 2(ZTZ)1

    On a alors

    LM =1

    2[(Y TZ TZTZ)(ZTZ)1(ZTY ZTZ)

    ]

    =1

    2[Y TZ(ZTZ)1ZTY Y TZ TZTY + T (ZTZ)

    ]

    Sous lhypothse nulle, le vecteur des paramtres se rduit

    T = TH0 = (0, 0, , 0) = (y, 0, , 0)

  • 2.1. R2 DANS LE MODLE DE RGRESSION LINAIRE 31

    On montre facilement que

    Y TZ = TZTY = T (ZTZ) = ny2

    De plus, la variance 2 est estime par

    2 =1

    n||Y ZH0 ||2 =

    1

    n||Y Y ||2 = 1

    nSCT

    La statistique du score est donc

    LM = n||Y Y ||2||Y Y ||2 = n

    SCM

    SCT

    Par consquent, on a R2 =LM

    n.

    Sous cette formulation, le R2 possde la proprit surprenante de pouvoir tre interprte

    comme une mesure dajustement du modle qui ne ncessite pas den estimer les paramtres.

    g. Lien avec linformation et la divergence de Kullback-Leibler

    Dans le cas gaussien, le R2 peut tre reli deux mesures proposes par Kullback-Leibler,

    linformation et la divergence, dfinies ci-aprs.

    Dfinition 2.3 Linformation de Kullback et Leibler (1951) permettant de mesurer lcart

    entre deux fonctions de densit f et g est dfinie par

    IKL(f, g) =

    f(z) log

    f(z)

    g(z)dz

    Sous forme desprance, cette information peut scrire

    IKL(f, g) = EPf {log(f(z))} EPf {log(g(z))}

    o Pf dsigne la mesure de probabilit sous-jacente la fonction de densit f .

    Lintgrale ci-dessus nest pas toujours dfinie. Une condition ncessaire pour que lint-

    grale converge est que Pf , la mesure de probabilit sous-jacente la fonction de densit f , est

    absolument continue par rapport Pg la mesure de probabilit induite par g.

    Linformation de Kullback-Leibler permet de quantifier la proximit de deux lois f et g.

    Applique dans le cadre de la rgression linaire de Z sur Y , linformation de Kullback-

    Leibler scrit (Linde et Tutz, 2008) :

    IKL(Z, Y ) =

    fZ,Y (z, y) log

    {fZ,Y (z, y)

    fZ(z)fY (y)

    }dzdy

    o fZ,Y , fY et fZ sont respectivement les densits jointe, marginale de Y et marginale de Z.

  • 32 R2 DANS LE MODLE LINAIRE

    Dans le cas o les distributions marginales de Y et Z sont normales et leur distribution

    jointe est normale bivarie, le coefficient de dtermination peut scrire en fonction de

    linformation de Kullback-Leibler par la relation suivante :

    R2 = 1 exp{2IKL(Z, Y )} (2.11)

    Preuve. Dans le cas gaussien avec une seule covariable Z (p=1), les densits

    marginales de Y et Z scrivent respectivement

    fY (y) =1

    Y2

    exp

    {(y Y )

    2

    22Y

    }

    et

    fZ(z) =1

    Z2

    exp

    {(z Z)

    2

    22Z

    }

    La densit jointe de Y et Z vaut

    fZ,Y (z, y) =1

    2ZY1 r2

    exp

    { 12(1 r2)

    ((z Z)2

    2Z+

    (y Y )22Y

    2r(z Z)(y Y )ZY

    )}

    o r est le coefficient de corrlation entre Z et Y .

    Dautre part, linformation de Kullback-Leibler peut tre rarrange comme suit

    IKL(Z, Y ) =

    fZ,Y (z, y) log{fZ,Y (z, y)}dzdy

    fZ,Y (z, y) log{fZ(z)}dzdy

    fZ,Y (z, y) log{fY (y)}dzdy

    =

    fZ,Y (z, y) log{fZ,Y (z, y)}dzdy

    fZ(z) log{fZ(z)}dz

    fY (y) log{fY (y)}dy

    De plus, on a

    fZ(z) log{fZ(z)}dz = 1

    2

    log

    {22Z

    }fZ(z)dz

    1

    Z2

    (z Z)222Z

    exp

    {(z Z)

    2

    22Z

    }

    = 12log

    {22Z

    } E

    [(z Z)2

    22Z

    ]

    = 12log

    {22Z

    }

    2Z

    22Z

    = 12

    [log

    {22Z

    }+ 1

    ]

    De mme faon, on a

    fY (y) log{fY (y)}dy = 1

    2

    [log

    {22Y

    }+ 1

    ]

    et

    fZ,Y (z, y) log{fZ,Y (z, y)}dzdy = 1

    2log

    {(2)22Z

    2Y (1 r2)

    }

    E[

    1

    2(1 r2)

    ((z Z)2

    2Z+

    (y Y )22Y

    2r(z Z)(y Y )ZY

    )]

    = 12

    [log

    {(2)22Z

    2Y (1 r2)

    }+ 1

    ]

  • 2.1. R2 DANS LE MODLE DE RGRESSION LINAIRE 33

    On en dduit que

    IKL(Z, Y ) = 1

    2log(1 r2) = 1

    2log(1R2)

    et donc

    R2 = 1 exp{2IKL(Z, Y )}

    Linformation de Kullback-Leibler nest pas une distance au sens mathmatique, car lin-

    galit triangulaire et la proprit de symtrie ne sont pas respectes.

    Pour rsoudre le problme de non-symtrie de cette information, Kullback et Leibler (1951)

    ont propos une autre mesure que lon dsigne par les termes divergence de Kullback-Leibler

    dfinie ci-aprs.

    Dfinition 2.4 La divergence de Kullback et Leibler (1951) entre deux densits de proba-

    bilit f et g est dfinie par

    JKL(f, g) = IKL(f, g) + IKL(g, f) =

    (f(z) g(z))log f(z)

    g(z)dz

    Dans le cadre de la rgression linaire de Z sur Y , la divergence de Kullback-Leibler scrit

    JKL(Z, Y ) =

    (fZ,Y (z, y) fZ(z)fY (y)) log

    {fZ,Y (z, y)

    fZ(z)fY (y)

    }dzdy

    = EZ

    (f(y|Z) fY (y))log

    f(y|Z)fY (y)

    dy

    o f(y|Z) dnote la densit de probabilit de y conditionnellement Z. JKL(Z, Y ) mesure ladviation entre la densit conditionnelle de Z et la densit marginale de Y . Elle dcrit donc le

    pouvoir discriminant de Z dans le modle de rgression. Une valeur de 0 indique que Y et Z sont

    indpendants, tandis que des valeurs leves refltent la variabilit de f(y|Z) en fonction de Z.

    Dans le cadre de la rgression linaire gaussienne, Linde et Tutz (2008) montrent que le

    coefficient de dtermination peut tre relie la divergence de Kullback-Leibler par

    la relation suivante :

    R2 =JKL(Z, Y )

    1 + JKL(Z, Y )(2.12)

    h. Rsum

    Le tableau 2.1 rsume les diffrentes formulations possibles du coefficient de dtermination

    dans le cadre de la rgression linaire.

  • 34 R2 DANS LE MODLE LINAIRE

    TABLEAU 2.1 Tableau rcapitulatif donnant la relation entre le R2 et plusieurs quantitsstatistiques

    Quantit Formule

    Erreurs quelconques

    Somme de carrs R2 = 1 SCESCT

    =SCM

    SCT

    Pourcentage de variance explique R2 =V[E(Y |Z)]

    V(Y )= 1 E[V(Y |Z)]

    V(Y )

    Fonction de perte R2 =

    n

    i=1

    L(yi, y0)n

    i=1

    L(yi, y(zi))

    n

    i=1

    L(yi, y0)

    avec L(y, y) = ||y y||2

    Erreurs gaussiennes

    Coefficient de corrlation R2 = r2

    Statistique de Fisher R2 =nF

    n p 1 + nF

    Statistique de Wald R2 =W

    W + n

    Statistique du rapport de vraisemblance R2 = 1 exp{LR

    n

    }

    Statistique du score R2 =LM

    n

    Information de Kullback-Leibler R2 = 1 exp{2IKL(Z, Y )}

    Divergence de Kullack-Leibler R2 =JKL(Z, Y )

    1 + JKL(Z, Y )

  • 2.2. PSEUDO-R2 ET RGRESSION LOGISTIQUE 35

    2.2 Pseudo-R2 et rgression logistique

    Les propositions de gnralisation du coefficient de dtermination au modle linaire g-

    nralis sont nombreuses et proviennent des diffrentes critures dans le modle linaire. Dans

    la suite, nous nous intressons plus particulirement la rgression logistique, qui est largement

    utilise en pidmiologie et permet de mieux comprendre les outils utiliss en analyse de survie.

    La dfinition de ce modle est rappele ci-dessous.

    Dfinition 2.5 Soit Y une variable binaire et Z est une variable explicative, le modle de

    rgression logistique suppose que Y sachant (Z = zi) suit une loi binomiale de paramtres

    (ni, pi), soit

    (Y |Z = zi) B(ni, pi), o i = 1, , navec

    logit(pi) = log

    (pi

    1 pi

    )= 0 +

    p

    j=1

    zijp

    et donc

    pi =exp

    {0 +

    j zijj

    }

    1 + exp{0 +

    j zijj

    }

    Dans le cadre du modle de rgression logistique, de nombreux pseudo-R2 ont t proposs :

    on distingue les indices issus de la dfinition originelle du R2, de la statistique du rapport de

    vraisemblance, du coefficient de corrlation ou encore de linformation et de la divergence de

    Kullback-Leibler. A notre connaissance, aucune gnralisation na t propose en rapport avec

    les statistiques de Fisher, de Wald et du score.

    2.2.1 Gnralisations issues de la dfinition originelle du R2

    Dans le modle linaire, le coefficient de dtermination R2 sinterprte en terme de pour-

    centage de variance explique par le modle dune part, et de mesure dadquation du modle

    aux donnes, dautre part (voir quations 2.4 et 2.5). La gnralisation de ces interprtations

    dans le cadre de la rgression logistique a donn naissance deux grandes familles dindices :

    la premire est base sur la notion de proportion de variation explique ; la deuxime sur

    lutilisation de fonctions de perte.

    Tout dabord, Mittlbck et Schemper (1996) utilisent la notion de proportion devariation explique (PEV ; en anglais : proportion of explained variation ) sous la forme

    PEV =

    n

    i=1

    D(yi)n

    i=1

    D(yi|zi)

    n

    i=1

    D(yi)

  • 36 R2 DANS LE MODLE LINAIRE

    o D(yi) et D(yi|zi) sont des mesures de dispersion des yi autour dun paramtre de centralitcalcul soit partir de la distribution marginale de Y , soit partir de sa distribution condition-

    nelle au vecteur des covariables pour la ime observation. Autrement dit, D(yi|zi) et D(yi) sontdes mesures de dispersion conditionnelle et non conditionnelle de Y . Lindice PEV sinterprte

    en termes de pourcentage de variation explique entre le modle nul (ne prenant pas en

    compte les covariables) et le modle alternatif (prenant en compte les covariables). Il permet

    de quantifier linfluence dune ou plusieurs variables pronostiques sur Y .

    Une autre faon de gnraliser le coefficient de dtermination est base sur lutilisationde fonction de pertes, comme dtaill prcdemment (p. 25). Le pseudo-R2 sexprime alors

    comme

    KS =

    n

    i=1

    L(yi, y0)n

    i=1

    L(yi, y(zi))

    n

    i=1

    L(yi, y0)

    Sous cette forme, le R2 permet de quantifier la perte relative encourue en faisant la prdiction

    base sur lutilisation des covariables dans le modle par rapport la prdiction ne faisant par

    intervenir les covariables.

    Les indices prsents dans la suite peuvent tre interprtes sous lun des deux angles dfinis

    prcdemment, i.e. sous langle de la proportion de variation explique ou sous celui des

    fonctions de perte. Dans le cas de la rgression logistique, les deux interprtations du coefficient

    de dtermination, PEV et KS, donnent naissance des indices identiques, car la dfinition du

    modle nul est la mme : y0 = 1n

    i yi = p.

    a. Indices bass sur la somme des carrs

    La distance initialement propose dans le cadre de la rgression linaire est, comme nous

    lavons vu, la somme des carrs.

    Dans le cadre de la proportion de variation explique, Efron (1978) et Mittlbck et Schem-

    per (1996), proposent, entre autres, lindice suivant :

    R2SC =

    n

    i=1

    D(yi)n

    i=1

    D(yi|zi)

    n

    i=1

    D(yi)

    =

    n

    i=1

    (yi p)2 n

    i=1

    (yi pi)2

    n

    i=1

    (yi p)2=

    2n

    i

    yipi n

    i

    p2i np

    np(1 p)

    avec p =

    i yin

    et pi =exp(zi)

    1 + exp(zi).

  • 2.2. PSEUDO-R2 ET RGRESSION LOGISTIQUE 37

    Lindice de Korn et Simon (1991) est gal

    KS =

    n

    i=1

    (yi y0)2 n

    i=1

    (yi y(zi))2

    n

    i=1

    (yi y0)2=

    2

    n

    n

    i=1

    yiy(zi)1

    n

    n

    i=1

    y(zi)2 y20

    y0(1 y0)

    avec y0 =1

    n

    n

    i=1

    yi et y(zi) =exp(zi)

    1 + exp(zi).

    Il concide avec celui de Mittlbck et Schemper (1996), car y0 = p et y(zi) = pi.

    Linterprtation du R2 bas sur la somme des carrs est la mme que dans le modle

    linaire.

    b. Indices bass sur lentropie

    La notion dentropie a initialement t introduite par Shannon (1948) dans le cadre de la

    thorie dinformation pour dcrire la quantit dinformation contenue ou dlivre par une source.

    Dfinition 2.6 Soit une variable alatoire discrte, U = {u1, , uK}. Lentropie H de U estdfinie comme (Haberman, 1982) :

    H(U) = K

    l=1

    Pr(U = ul) log{Pr(U = ul)}

    La dfinition de lentropie peut stendre au cas o U est une variable continue de densit de

    probabilit f

    HPf (u) = EPf {log f(u)} =

    f(u) log f(u)du

    o Pf dsigne la mesure de probabilit sous-jacente la fonction de densit f .

    Interprtation. Dans le cas discret, lentropie est comprise entre 0 et log(K). Elle est nulle

    si i|Pi = 1. On montre quelle est maximale pour une distribution uniforme pour K fix.Elle augmente avec le nombre de valeurs possibles de la valeur discrte, K. La quantit H

    croit proportionnellement avec lincertitude de linformation qui manque. Lentropie peut donc

    sinterprter comme une mesure dincertitude associe la variable tudie.

    Dans le cadre de la rgression logistique (K = 2), les deux indices bass sur lentropie

    proposs par Korn et Simon (1991), dune part, et Efron (1978); Mittlbck et Schemper (1996),

    dautre part, sont les mmes.

    Pour Efron (1978) et Mittlbck et Schemper (1996), dans le cadre de la proportion de

    variation explique, le pseudo-R2 dduit de lentropie scrit partir de :

    D(Y ) =

    n

    i=1

    [yi log(p) + (1 yi) log(1 p)]

    = n [p log(p) + (1 p) log(1 p)]

  • 38 R2 DANS LE MODLE LINAIRE

    et de

    D(Y |Z) =n

    i=1

    [yi log(pi) + (1 yi) log(1 pi)]

    do

    PEVH =

    n [p log(p) + (1 p) log(1 p)]n

    i=1

    [yi log(pi) + (1 yi) log(1 pi)]

    n [p log(p) + (1 p) log(1 p)]

    Pour Korn et Simon (1991), dans le cadre des fonctions de perte, le pseudo-R2 driv de

    lentropie scrit avec :

    L(yi, y0) = yi log(y0) + (1 yi) log(1 y0)

    et

    L(yi, y(zi)) = yi log(y(zi)) + (1 yi) log(1 y(zi))

    et donc

    KSH =

    n

    i=1

    [yi log(y0) + (1 yi) log(1 y0)]n

    i=1

    [yi log(y(zi)) + (1 yi) log(1 y(zi))]

    n

    i=1

    [yi log(y0) + (1 yi) log(1 y0)]

    c. Indices bass sur la concentration

    Le coefficient de concentration a t introduit par Gini (1912). Il existe de nombreuses

    faons de le prsenter et la dfinition dHaberman (1982) a t considre ici.

    Dfinition 2.7 Soit une variable alatoire discrte, U = {u1, , uK}. La concentration estdfinie, selon Haberman (1982), par

    C(U) = 1K

    l=1

    Pr(U = ui)2

    Interprtation. Ce coefficient mesure la concentration. Il peut galement tre interprt sous

    langle de la dispersion, une valeur gale 0 correspondant une absence de disparit et une

    valeur de 1 une disparit maximale.

    Dans le cas de la rgression logistique, la concentration de Gini permet de construire un

    indice de proportion de variation explique partir des quantits suivantes (voir Mittlbck et

    Schemper, 1996)D(yi) = 1 p2 (1 p)2 = 2p(1 p)D(yi|zi) = 1 p2i (1 pi)2 = 2pi(1 pi)

  • 2.2. PSEUDO-R2 ET RGRESSION LOGISTIQUE 39

    Le pseudo-R2 bas sur la concentration de Gini se simplifie comme suit

    PEVG =

    ni=1 p

    2i np

    np(1 p)

    Lutilisation de la concentration de Gini dans le contexte des fonctions de perte na pas t

    explore.

    d. Indices derreur de classement

    Lerreur de classement est dfinie dans larticle dEfron (1977) comme une mesure de

    dispersion qui vaut 0 si le prdicteur de la variable rponse est infrieur 1/2, 1 sil est suprieur

    1/2 et 0.5 sil est gal 1/2.

    Pour la rgression logistique, les termes D(yi) et D(yi|zi) permettant de construire lindicede proportion de variation explique sont dfinies de la manire suivante (Mittlbck et Schemper,

    1996) :

    D(yi) =

    1 si |yi p| > 0.50.5 si |yi p| = 0.50 si |yi p| < 0.5

    et D(yi|zi) =

    1 si |yi pi| > 0.50.5 si |yi pi| = 0.50 si |yi pi| < 0.5

    do

    PEVE =

    n

    i=1

    D(yi)n

    i=1

    D(yi|zi)

    n

    i=1

    D(yi)

    Korn et Simon (1991) nont pas propos dinterprtation de lerreur de classement en terme

    de fonction de perte.

    Remarque:

    Un autre indice de proportion de variation explique peut tre construite partir de

    linformation de Kullback-Leibler :

    R2K = 1IKL(y, y)

    IKL(y, y0)

    o y et y0 sont les estimateurs de la moyenne de y en prsence ou en labsence de

    covariables.

    Dans le cas gaussien, on retrouve lindice bas sur les sommes de carrs (voir p. 36).

    Dans le cas dun modle logistique, on obtient lindice bas sur lentropie (p. 37).

  • 40 R2 DANS LE MODLE LINAIRE

    2.2.2 Gnralisations issues du coefficient de corrlation

    Dans le modle linaire, nous avons vu que le coefficient de dtermination peut scrire

    comme le carr du coefficient de corrlation (quation 2.6, p. 27). La transposition de cette

    dfinition dans le cadre de la rgression logistique a donn naissance plusieurs indices bass sur

    les coefficients de Pearson, Spearman, Kendall, Somers et Goddman et Kruskal.

    Ces coefficients dcrivent la relation entre la variable observe et les covariables prdites,

    en utilisant soit la valeur des covariables, soit leur rang. Ils sont compris entre 1 et 1 et leurcarr peut donc tre utilis pour mesurer la capacit de prdiction du modle.

    Tout dabord, Mittlbck et Schemper (1996) utilisent le carr du coefficient de Pearson r2

    comme coefficient de dtermination, avec

    r =

    ni=1 yipi np2

    np(1 p)ni=1(pi p)2

    Dautres coefficients (au carr) ont galement t considrs par les auteurs. Il sagit tout

    dabord du coefficient de corrlation de Spearman. Ce dernier sexprime comme le coefficient de

    corrlation de Pearson en remplaant les valeurs des variables par leurs rangs (voir Snedecor et

    Cochran, 1989; Conover et Iman, 1981) :

    rs =

    ni=1(R(yi) R)(R(pi) R)n

    i=1(R(yi) R)2n

    i=1(R(pi) R)2

    o R(z) reprsente le rang de z et R = (n+ 1)/2 est le rang moyen .

    Ils ont galement suggr le coefficient de Kendall (Kendall et Gibbons, 1990), qui permet

    de tester lindpendance entre 2 variables alatoires :

    a =

    i 00 si z = 0

    1 si z < 0ou bien alternativement

    b =

    i

  • 2.2. PSEUDO-R2 ET RGRESSION LOGISTIQUE 41

    2.2.3 Gnralisations issues de la statistique du rapport de vraisemblance

    Dans le modle linaire, le coefficient de dtermination peut tre reli la statistique du

    rapport de vraisemblance (quation 2.9, p. 29). Allison (1995); Maddala (1983); Magee (1990)

    ont utilis cette relation pour gnraliser le R2 au modle logistique, en calculant la vraisemblance

    correspondante. Ce pseudo-R2 est not R2LR.

    Cependant, comme R2LR ne peut pas atteindre la valeur 1, Nagelkerke (1991) a suggr

    lutilisation dune version modifie de cet indice pour remdier cet inconvnient :

    R2N =R2LRR2max

    avec R2max = 1 exp(2

    nlogL0

    )

    L0 tant la vraisemblance du modle nul.

    2.2.4 Gnralisations issues de linformation et de la divergence de Kullback-

    Leibler

    Dans le modle linaire, le coefficient de dtermination peut tre reli linformation de

    Kullback-Leibler (quation 2.11, p. 32). Linde et Tutz (2008) utilisent la mme relation dans

    le cadre du modle logistique :

    R2I = 1 exp{2IKL(Z, Y )}

    Cet indice est en fait quivalent celui reposant sur la statistique du rapport de vraisemblance

    (voir p. 41).

    Dans le cadre de la rgression linaire, le R2 peut galement tre reli la divergence de

    Kullback-Leibler (quation 2.12, p. 33).

    Dans le cadre de la rgression logistique, Linde et Tutz (2008) ont propos une gnralisa-

    tion du coefficient de dtermination dans deux cas particulier. Dans un premier temps, lorsque la

    variance 2Z des covariables est petite, le pseudo-R2 peut tre approxim par la relation suivante

    R2J =22Z

    y(1 y) + 22Z

    Linde et Tutz (2008) prsentent galement une gnralisation du coefficient de dtermina-

    tion, lorsque Z est une variable gaussienne. Ils supposent que E(Z|Y = 1) = 1 et E(Z|Y = 0) =0 et que P (Y = 1) = p1 et p(Y = 0) = p0. Pour simplifier, ils posent E(Z) = 0, ce qui implique

    que 0 = 1p1/p0.Sous ces hypothses, le pseudo-R2 est donn par la relation suivante :

    R2J =p1

    21

    p02 + p12=

    p1p02

    1/2 + p1p02

  • 42 R2 DANS LE MODLE LINAIRE

    2.3 Conclusion

    Dans le cas du modle de rgression linaire gaussien, toutes les valeurs du R2 pr-

    sentes prcdemment, bases sur les notions de proportion de variance explique et de fonctions

    de pertes, sur les statistiques de Fisher, de Wald, du log-rapport de vraisemblance et du score,

    sur le coefficient de corrlation et les information et divergence de Kullback-Leibler, sont gales.

    Dans le modle de rgression logistique, cette galit nest pas ncessairement maintenue et les

    trs nombreux indices proposs conduisent des rsultats difficilement comparables.

    Dans ce chapitre, nous avons uniquement considr les gnralisations du R2 dans le cadre

    de la rgression logistique. Cependant, il existe dautres indices adapts dautres modles li-

    naires gnraliss. Ainsi Cameron et Windmeijer (1996) ont propos des indices pour le modle

    de Poisson. Par ailleurs, Agresti (1986) sest intress la gnralisation des indices bass sur

    lentropie et la concentration dans le cas de donnes catgorielles multivaries.

  • 43

    Chapitre 3

    REVUE DE LA LITTRATURE : INDICES DECAPACIT DE PRDICTION EN ANALYSE DE

    SURVIE

    Contenu

    3.1 Dfinitions et notations en analyse de survie . . . . . . . . . . . . . . 44

    3.1.1 Modlisation de la survie en labsence de covariables . . . . . . . . . . . 44

    3.1.2 Modle de Cox : Rappels et Notations . . . . . . . . . . . . . . . . . . . 48

    3.2 Prsentation des indices . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    3.2.1 Les indices fonds sur la somme des carts . . . . . . . . . . . . . . . . . 51

    3.2.2 Les indices drivs de la vraisemblance . . . . . . . . . . . . . . . . . . . 61

    3.2.3 Les indices bass sur la notion de corrlation . . . . . . . . . . . . . . . 64

    3.2.4 Les indices de concordance . . . . . . . . . . . . . . . . . . . . . . . . . 67

    3.3 Comparaison des indices . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

  • 44 REVUE DE LA LITTRATURE

    Comme nous lavons voqu prcdemment (chapitre 2), dans le modle linaire, le coeffi-

    cient de dtermination possde diffrentes interprtations et peut tre reli diffrentes statis-

    tiques. Dans le cas de ce modle particulier, les diffrentes critures du R2 sont gales entre elles.

    Pour des modles plus gnraux (modle logistique ou de survie), ce nest pas ncessairement

    le cas, et, par consquent, plusieurs pseudo-R2 peuvent tre proposs partir des diffrentes

    interprtations du R2 dans le modle linaire.

    Cette section est une revue des mesures de capacit de prdiction rencontres dans la

    littrature en analyse de survie.

    Dans un premier temps, quelques dfinitions et notations sont rappeles dans le cadre de

    lanalyse de survie, puis, les diffrents indices de type pseudo-R2 proposs dans la littrature

    sont prsents.

    3.1 Dfinitions et notations en analyse de survie

    Cette section vise donner les dfinitions des principaux outils utiliss en analyse de survie.

    3.1.1 Modlisation de la survie en labsence de covariables

    a. Fonctions de survie et de risque

    Une tude de survie est une tude ayant pour but dtudier le dlai de survenue dun

    vnement, qui peut tre la rcidive tumorale ou mtastasique, la rponse un traitement, le

    dcs. Le vocabulaire utilis fait souvent rfrence au dcs bien que dautres vnements puissent

    tre concerns.

    On note X la variable alatoire reprsentant le temps de survie rel dun sujet, i.e. le dlai

    entre le dbut du suivi et la date de survenue de lvnement tudi, ventuellement non observ

    si la fin de la dure de surveillance du sujet lui est antrieure (voir p. 45, paragraphe b.).

    Dfinition 3.1 La fonction de survie dune variable alatoire X est dfinie par

    S(x) = 1 F (x) = Pr(X > x)

    o F (x) est la fonction de rpartition de la variable alatoire X.

    Dfinition 3.2 La fonction de risque instantan est la fonction

    (x) = limx0

    1

    xPr {x X < x+x|X x}

    = [d

    dxS(x)

    ]/S(x)

    =f(x)

    S(x)

  • 3.1. DFINITIONS ET NOTATIONS EN ANALYSE DE SURVIE 45

    o f est la densit de probabilit de X.

    La quantit (x)dx est la probabilit que lvnement se produise entre x et x+dx sachant

    quil ne sest pas produit auparavant.

    Dfinition 3.3 La fonction de risque cumul est donne par

    A(x) =

    x

    0(s)ds

    Des dfinitions prcdentes, il sen suit que

    S(x) = exp

    (

    x

    0(s)ds

    )= exp (A(x))

    b. Censure

    Dfinition 3.4 La variable de censure C est dfinie par la possible non-observation de lv-

    nement. Si lon observe C, et non X, et que lon sait que X > C (respectivement X < C,

    C1 < X < C2), on dit quil y a censure droite (respectivement censure gauche, censure par

    intervalle).

    En pratique, en cas de censure droite, le temps de survie observ T , i.e. le dlai entre

    le dbut du suivi et la date de survenue de lvnement tudi ou la censure lorsque ce dernier

    nest pas observ, est gal au minimum entre le temps de survie rel et le temps de censure :

    T = min(X,C).

    Parmi les grands types de censure droite, on distingue la censure fixe et la censure

    alatoire. La censure fixe a lieu lorsque ltude sarrte aprs une dure de suivi fixe pour

    chaque sujet. Dans ce cas, tous les individus, pour lesquels lvnement dintrt na pas eu lieu

    au cours de ltude, auront tous le mme temps de censure. Dans le cas le plus simple de censure

    alatoire, ltude sarrte aprs une date donne et le temps de censure attach chaque sujet

    est gal la dure coule entre son entre dans ltude et la date de point .

    En gnral, le mcanisme de censure C est suppos indpendant de lvnement tudi X :

    la censure est dite non-informative . Lhypothse est ainsi faite que la raison du dpart des

    patients de ltude est indpendante du risque dapparition de lvnement, et que le risque de

    survenue de lvnement des sujets censurs et identique celui des patients encore prsents dans

    ltude. Si la censure est informative, i.e. que leur survenue nest pas lie au hasard, linfrence

    de modles standards, ne tenant pas compte de ce type de donnes, peut mener des conclusions

    biaises (Kalbfleisch et Prentice, 2002).

    Dans la suite de ce travail, les mthodes prsentes reposent sur lhypothse de censure non-

    informative.

  • 46 REVUE DE LA LITTRATURE

    c. Processus de comptage

    Dfinition 3.5 Pour chaque sujet i = 1, , n, une observation consiste en (Ti, i), o{

    Ti = min(Xi, Ci)i = 1{XiCi}

    ,

    Xi dsignant le temps de survenue de lvnement et Ci la variable de censure. i est lindicatrice

    de survenue de lvnement, souvent appele indicatrice de dcs.

    Dfinition 3.6 Soit le processus de comptage suivant

    Ni(t) = 1{Ti t; i = 1}

    indiquant le nombre dvnements observs dans lintervalle de temps (0, t] pour lindividu i. Le

    processus Ni est croissant et augmente par pas de taille +1, avec Ni(0) = 0.

    On note dNi(t) = Ni(t + dt)Ni(t) le nombre dvnements observs dans lintervalle[t, t+ dt).

    Dfinition 3.7 Soit le processus risque dfini par

    Yi(t) = 1{Ti t}

    Il vaut 1 lorsque lindividu i est risque juste avant le temps t, et 0 sinon.

    On note

    N(t) =n

    i=1

    Ni(t) ; N() = k

    et

    Y (t) =n

    i=1

    Yi(t), 0 < t <

    Clairement, N(t) est le nombre total dvnements observs dans lintervalle (0, t], k est le nombre

    total de dcs observs et Y (t) est le nombre total dindividus risque au temps t.

    De ce qui prcde, nous pouvons donc crire

    Pr{dNi(t) = 1|Ft} = i(t)Yi(t)dt

    Ft est lhistorique du processus ou filtration dfinie par Ft = {Ni(u), Yi(u+)) ; i = 1, , n; 0 u < t}. Dans le cas o p covariables dpendantes du temps Zi(t) = {Z1i(t), , Zpi(t)} sont ob-serves pour chaque sujet i, Ft est donne par Ft = {Ni(u), Yi(u+)), Zi(u+) ; i = 1, , n; 0 u < t}.

  • 3.1. DFINITIONS ET NOTATIONS EN ANALYSE DE SURVIE 47

    Dfinition 3.8 Les processus

    i(t)Yi(t)

    et

    i(t) =

    t

    0i(s)Yi(s)ds

    sont dsigns respectivement sous les termes de processus dintensit et processus dinten-

    sit cumule de Ni.

    Il est possible dexprimer i(t) en fonction du processus de comptage Ni(t) :

    i(t) = limdt0

    1

    dtPr {Ni(t+ dt)Ni(t) = 1|Ft}

    Proposition 3.1 Pour un individu i donn, le processus suivant

    Mi(t) = Ni(t) t

    0i(s)Yi(s)ds

    est une martingale si et seulement si

    (x) = limx0

    1

    xPr{x X < x+x|X x,C x} lorsque Pr{T > x} > 0 (3.1)

    De plus, elle est de moyenne nulle (Fleming et Harrington, 2005). De manire quivalente, on a

    dMi(t) = dNi(t) di(t) = dNi(t) i(t)Yi(t)dt

    Le processus dintensit cumul, i(t), est galement appel compensateur du processus

    Ni(t).

    Dans lquation (3.1), le terme de droite correspond la fonction e risque instantann de

    X en prsence de censure, qui diffre de la dfinition de fonction de risque donne la page 44,

    qui est la fonction de risque de X. Cette dernire est appele fonction de risque nette, alors

    que la fonction de la condition (3.1) est la fonction de risque brute. La proposition ci-dessus

    stipule donc que M est une martingale si et seulement si le risque net et le risque brut sont

    gaux.

    Ainsi, la condition (3.1) peut tre interprte comme

    Pr{x X < x+ dx|X x} = Pr{x X < x+ dx|X x,C x}

    Elle est alors lgrement plus faible que la condition dindpendance entre X et C.

    Enfin, notons que la condition de non-information suppose que la distribution de la

    variable de censure ne dpend pas des mmes paramtres que la survie.

  • 48 REVUE DE LA LITTRATURE

    d. Estimation des fonctions du risque cumul et de survie

    Dfinition 3.9 Lestimateur de Nelson-Aalen de la fonction du risque cumul est dfini par

    (Nelson, 1972; Aalen, 1978)

    A(t) =

    t

    0

    1{Y (s)>0}

    Y (s)dN(s) (3.2)

    Dfinition 3.10 Lestimateur de Kaplan-Meier de la fonction de survie est dfini par (Ka-

    plan et Meier, 1958)

    SKM (t) =

    st

    {1 N(s)

    Y (s)

    }(3.3)

    3.1.2 Modle de Cox : Rappels et Notations

    Le modle de Cox (1972) est le plus couramment utilis en pratique pour lanalyse

    de donnes censures droite. Il permet de modliser leffet dune ou plusieurs covariables sur

    la probabilit dapparition dun vnement. La plupart des indices de capacit de prdiction

    proposs en analyse de survie reposent sur ce modle. Nous y ferons rfrence tout au long de la

    thse, et cest pour cette raison quil est introduit dans cette section, avec la mthode destimation

    correspondante.

    a. Dfinition

    Dfinition 3.11 Le modle de Cox est dfini par la fonction de risque suivante

    (t|Zi) = 0 (t) exp{Zi

    }i = 1, , n (3.4)

    o 0 (t) est une fonction de risque de base fixe, non prcise, Zi = (Z1i, , Zpi) est le vecteur

    de dimension p des covariables du sujet i, et est un vecteur p 1 de paramtres estimer.

    Le modle peut galement scrire laide de la fonction de survie, dont lexpression

    un temps t donn et pour un sujet i est

    S(t|Zi) = exp{

    t

    00(s) exp{Zi}ds

    }= S0(t)

    exp(Zi) (3.5)

    o S0(t) dsigne la fonction de survie en labsence de covariables.

    Lorsque les covariables ne dpendent pas du temps, le modle obtenu est dit risques pro-

    portionnels. Dans ce cas, le rapport des risques instantans,(t|Zi)(t|Zj)

    = exp{(ZiZj)}, (i, j) {1, , n}, ne dpend pas du temps.

  • 3.1. DFINITIONS ET NOTATIONS EN ANALYSE DE SURVIE 49

    De plus, il sagit dun modle semi-paramtrique, car il comprend une partie para-

    mtrique exp(Zi) qui modlise la relation entre le temps de survenue de lvnement et les

    covariables, et une partie non-paramtrique, la fonction de risque de base 0(t) qui est inconnue.

    Le modle de Cox est galement log-linaire puisque le log-risque cumul est une fonction

    linaire des covariables : log(A(t|Zi)) = Zi + log(A0(t)), o A0(t) = t0 0(s)ds.

    La figure 3.1 (a) montre un exemple thorique de courbes de survie pour un modle

    risques proportionnels traces partir de la loi exponentielle. Les deux courbes reprsentent la

    survie associe deux groupes dindividus dfinis par les deux niveaux dune covariable binaire

    de risques instantans respectifs gaux 1.5 (groupe 1) et 1.2 (groupe 2). La figure 3.1 (b), qui

    reprsente la courbe du log-risque cumul pour les deux groupes dindividus, permet de vrifier

    visuellement lhypothse des risques proportionnels (courbes parallles).

    Figure 3.1 Courbes (a) de survie et (b) du log-risque cumul thoriques pour deux groupesdindividus dfinis par les deux valeurs dune covariable binaire, dans le cadre du modle de Cox.

    0 2 4 6 8 10

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    t

    Pr(

    T>

    t)

    groupe 1

    groupe 2

    (a)

    4 3 2 1 0 1 2

    6

    4

    2

    0

    log(temps)

    log d

    u r

    isque c

    um

    ule

    groupe 1

    groupe 2

    (b)

    b. Estimation

    Pour estimer les paramtres du modle de Cox, on dfinit, en utilisant les notations relatives

    aux processus de comptage, la vraisemblance partielle de la faon suivante

    L() =

    t

    n

    i=1

    {Yi(t) exp(

    Zi)

    S(0)(; t)

    }Ni(t)

    avec

    S(0)(; t) =n

    i=1

    Yi(t) exp(Zi)

  • 50 REVUE DE LA LITTRATURE

    et dsignant la plus grand temps de dcs observ.

    On en dduit

    logL() =n

    i=1

    0

    [Zi logS(0)(; s)

    ]dNi(s)

    Les termes ne dpendant pas de napparaissent pas dans la vraisemblance partielle.

    Dune faon plus gnrale, la log-vraisemblance partielle du modle de Cox peut scrire

    un temps t fix :

    log{L(; t)} =n

    i=1

    t

    0

    [Zi logS(0)(; s)

    ]dNi(s) (3.6)

    Le vecteur score, dduit de la vraisemblance partielle, scrit

    U(; t) = log{L(; t)}

    =

    n

    i=1

    t

    0[Zi E(; s)] dNi(s)

    o

    E(; t) =S(1)(; t)

    S(0)(; t)

    et

    S(1)(; t) =n

    i=1

    Yi(t)Zi exp(Zi)

    Les estimateurs du maximum de vraisemblance des paramtres du modle sont calculs

    partir du vecteur score par la relation U(, ) = 0. Ces estimateurs permettent de donner une

    estimation de la fonction de survie comme suit

    S(t|Z) = S0(t)exp(Z) (3.7)

    avec S0(t) = exp{A0(t)}, o A0(t) est lestimateur de Nelson-Aalen du risque cumul (quation(3.2), p. 48)

    Afin de tester lhypothse nulle H0 : { = 0}, plusieurs tests peuvent tre utiliss. Dans lasuite, il sera essentiellement question de la statistique du score qui est bas sur le vecteur score

    calcul en = 0 :

    U(0) =

    n

    i=1

    0[Zi E(0; s)] dNi(s) =

    n

    i=1

    0

    [Zi

    nl=1 Yl(s)ZlY (s)

    ]dNi(s) (3.8)

    3.2 Prsentation des indices

    La transposition de la notion de R2 lanalyse de survie a donn naissance une multitude

    dindices visant gnraliser les indices existant dans le modle linaire. Nous avons regroup

    ces indices en quatre catgories :

  • 3.2. PRSENTATION DES INDICES 51

    les indices fonds sur la somme des carts ;

    les indices drivs du rapport de vraisemblance ;

    les indices bass sur la notion de corrlation ;

    les indices de concordance.

    Les indices de somme des carts sont une gnralisation de la dfinition de base du R2 dans

    le modle linaire. Les indices drivs du rapport de vraisemblance sont une simple transposition

    des indices du modle linaire correspondants, en utilisant la vraisemblance partielle du modle

    de Cox. Les indices bass sur la notion de corrlation dcrivent la relation entre la variable

    alatoire de survie et la ou les variable(s) explicative(s). Enfin, les indices de concordance sont

    spcifiques la survie et quantifient le degr dadquation entre lordre des temps de dcs et les

    covariables explicatives.

    La plupart des indices prsents ci-aprs sont dfinis dans la cadre du modle de Cox

    risques proportionnels (sauf indication contraire).

    Notations

    Soit un sujet i, i = 1, , n. On note X = (X1, , Xn) le vecteur alatoire des temps de survenue de lvnement tudi (ou

    temps de survie) ;

    t1, , tn les valeurs prises par les variables alatoires (T1, , Tn) du temps de sur-veillance (ou suivi) et t(1), , t(n) les valeurs des temps de suivi ordonnes ;

    t(1), , t(k) les temps de dcs (non censurs) ordonns et k le nombre total dindividusnon censurs (en labsence dex-quo) ;

    Z = {Z1, , Zn}T la matrice (n p) des covariables avec Zi = {Z1i, , Zpi}T ; i lindicatrice de dcs en ti, valant 0 en cas de censure, et (i) lindicatrice de dcs en

    t(i) ;

    S(t) la fonction de survie marginale et SKM (t) son estimateur ;

    S(t|Zi) la fonction de survie conditionnelle aux covariables et S(t|Zi) son estimateur.Les expressions des estimateurs de la fonction de survie marginale, SKM (t), et de S(t|Z), sontdonnes par les formules (3.3) et (3.7) pages 48 et 50.

    3.2.1 Les indices fonds sur la somme des carts

    Dans le cadre de la survie, les indices fonds sur la somme des carts ne portent pas

    directement sur les temps de survie, mais se basent sur le processus risque Y (t) (ou sur des

    processus drivs) qui vaut 1 si lindividu est toujours vivant en t avec la probabilit S(t) et 0

    sinon avec la probabilit (1 S(t)). Ces indices mesurent ainsi un cart entre le processus risque observ (ou driv) et lestimation S de son esprance avec ou sans covariables.

  • 52 REVUE DE LA LITTRATURE

    a. Les indices bass sur une dispersion

    Comme dans le cadre de la rgression logistique (voir p. 35), Schemper (1990) a propos

    une gnralisation de la notion de proportion de variation explique dans le cadre de la

    survie :

    PEV =D(T )D(T |Z)

    D(T )=

    n

    i=1

    D(ti)n

    i=1

    D(ti|Zi)

    n

    i=1

    D(ti)

    (3.9)

    Dans cette expression, D(ti) et D(ti|Zi) dsignent des mesures de dispersion non-conditionnelleet conditionnelle la valeur des covariables, qui dpendent du temps au travers des fonctions de

    survie. Les indices PEV prsents ci-aprs sont tous compris entre 0 et 1 et diffrent par leurs

    dfinitions de D (ti) et D (ti | Zi).

    Schemper (1990, 1994) a introduit deux indices reposant sur la dispersion entre les fonc-tions de survie estimes, conditionnelles ou non aux covariables, et un processus YLi(t) analogue

    du processus risque Yi(t) et dfini par

    YLi(t(j)) =

    0 si Ti < t(j) (individu dj dcd ou censur)1/2 si Ti = t(j) (individu dcd ou censur en t(j))1 si Ti > t(j) (individu risque)

    Dans un premier temps, lauteur a propos lindice V2 o les mesures de dispersion sont

    donnes par :

    D(ti) =

    1ki

    ki

    j=1

    YLi(t(j)) SKM (t(j))

    2

    D(ti|Zi) =

    1ki

    ki

    j=1

    YLi(t(j)) S(t(j)|Zi)

    2

    o ki a deux dfinitions diffrentes selon que le sujet i est dcd ou censur. Si le sujet i est

    dcd, ki est le nombre total de dcs non censurs (i.e. ki = k), les auteurs utilisent dans ce

    cas linformation de lensemble des individus dcds. Lorsque lindividu i est censur, ki est le

    nombre de dcs avant le temps considr (ki =

    l|t(l)til), les auteurs utilisent linformation

    disponible sur tous les individus dcds avant le temps de censure.

    Enfin, la fonction S(t|z) est lestimateur de la fonction de survie en prsence de covariables(quation (3.7) p. 50), et SKM (t) est lestimateur de la fonction de survie marginale (quation

    (3.3) p. 48).

  • 3.2. PRSENTATION DES INDICES 53

    Finalement, lindice est donn par

    V2 =

    n

    i=1

    1ki

    ki

    j=1

    YLi(t(j)) SKM (t(j))

    2

    n

    i=1

    1ki

    ki

    j=1

    YLi(t(j)) S(t(j)|Zi)

    2

    n

    i=1

    1ki

    ki

    j=1

    YLi(t(j)) SKM (t(j))

    2

    Lindice V2 peut tre considr comme une gnralisation des indices bass sur la somme

    des carts carrs.

    Une alternative lindice V2 est le coefficient V1, qui est bas sur la mme somme des carts

    mais sans le carr (Schemper, 1990, 1994), avec :

    D(ti) =1

    ki

    ki

    j=1

    YLi(t(j)) SKM (t(j))

    D(ti|Zi) =1

    ki

    ki

    j=1

    YLi(t(j)) S(t(j)|Zi)

    et donc

    V1 =

    n

    i=1

    1

    ki

    ki

    j=1

    YLi(t(j)) SKM (t(j))

    n

    i=1

    1

    ki

    ki

    j=1

    YLi(t(j)) S(t(j)|Zi)

    n

    i=1

    1

    ki

    ki

    j=1

    YLi(t(j)) SKM (t(j))

    Ces deux indices quantifient le degr avec lequel la prdiction du processus de survie

    est amliore en remplaant lestimateur de la survie marginale par lestimateur de la survie

    conditionnelle du processus. Ils permettent de valider ou dinvalider le modle. Une proportion

    de variation explique faible peut indiquer que la prdiction nest pas la meilleure possible et que

    dautres facteurs pronostiques doivent tre envisags.

    Schemper et Henderson (2000) proposent deux indices, V et Vw, prsentant plusieursavantages par rapport aux indices V2 et V1. Ils amliorent la prise en compte de la censure

    en distinguant les individus risque, dcds et censurs et sont plus robustes aux mauvaises

    spcifications du modle, comme lont montr des simulations. Les indices V et Vw sont bases

    sur des mesures de dviation absolue moyenne (voir dfinition ci-aprs), et scrivent, aprs

    estimation, sous la forme de somme des carts (i.e. comme dans la formule (3.9), p. 52).

    Dfinition 3.12 La dviation absolue moyenne dune population ( mean absolute devia-

    tion en anglais) est dfinie par (Read, 2006)

    d = E (|U E(U)|)

  • 54 REVUE DE LA LITTRATURE

    Son estimation partir dun chantillon u1, , un scrit

    d =1

    n

    n

    i=1

    |ui u| avec u =1

    n

    n

    i=1

    ui

    Par exemple, si U suit une loi binomiale de paramtres (n, p), la dviation absolue moyenne

    vaut d = |1 E(U)|Pr{U = 1}+ |0 E(U)|Pr{U = 0} = 2p(1 p).

    - Cadre thorique

    Schemper et Henderson considrent le processus risque Y (t) de dviation absolue moyenne

    gale 2S(t)(1S(t)), puisque 0 S(t) 1. A partir de cette dernire quantit, ils dfinissent,dun point de vue thorique, dune part, la notion de capacit de prdiction marginale (en lab-

    sence de covariables) :

    D() =

    2

    0S(t)(1 S(t))f(t)dt

    0f(t)dt

    et, dautre part, la notion de capacit de prdiction conditionnelle (avec les covariables) :

    DZ() =

    2

    0EZ [S(t|Z)(1 S(t|Z))] f(t)dt

    0f(t)d