28
8/16/2019 Méthodes d’Analyses Factorielles http://slidepdf.com/reader/full/methodes-danalyses-factorielles 1/28 1 Méthodes d’Analyses Factorielles ACP et AFCM Séminaire « Tahiti » - IRISA - Île de Houat - 26-27 Avril 2004 Emmanuel ROUX, Alfredo HERNANDEZ et Guy CARRAULT LTSI - INSERM U642 LTSI

Méthodes d’Analyses Factorielles

Embed Size (px)

Citation preview

Page 1: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 1/28

1

Méthodes d’Analyses FactoriellesACP et AFCM

Séminaire « Tahiti » - IRISA - Île de Houat - 26-27 Avril 2004

Emmanuel ROUX, Alfredo HERNANDEZ et Guy CARRAULT

LTSI - INSERM U642

LTSI

Page 2: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 2/28

2

Introduction

• Contexte– Nombre important de variables et d’individus statistiques– Pas ou peu de connaissances préalables sur les données

• Objectifs des méthodes– Réduction des données

• Identifier les variables discriminantes les plus informatives• Identifier des relations entre variables

– Juger de la capacité de caractérisation des variables

– Identifier des groupes d’individus et/ou des types de comportement

Page 3: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 3/28

3

Plan de l’Exposé

• Principes communs aux méthodes factorielles

• Analyse en Composantes Principales (ACP)→  Exemple

• Analyse des Correspondances– Simple (AFC)– Multiple (AFCM)→ 

 Exemple

• Étude en cours

Page 4: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 4/284

Principes Communs

• Tableau de donnéesn individus statistiques × p variables

• ObjectifReprésenter les données de manière « optimale »

• Méthode– Transformation D→ X adaptée à l’analyse souhaitée– Définition d’une distance– Critère d’optimisation

Analyse en Composantes PrincipalesPrincipes Communs Analyse des Correspondances Étude en Cours

Page 5: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 5/285

Espace des Individus / des Variables

Individus

Statistiques

Variables

dnp In

 I2

d12d11 I1

Vp…V2V1D

Individus

Statistiques

Variables

xnp In

 I2

x12x11 I1

Vp…V2V1X 

V1Rn 

V2

Vp

I1

Rp 

I2Ip

I3

Mise en forme

Analyse en Composantes PrincipalesPrincipes Communs Analyse des Correspondances Étude en Cours

v

u

⎟ ⎠

 ⎞⎜⎝ 

⎛ ⋅∑

=

n

i

iu

OHid  p1

)(maxr

H2

Page 6: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 6/286

Propriétés de Base

• Dans l’espace des variables Rp 

uα 

= vecteurs propres de X tX associés aux valeurs propres λα

• Dans l’espace des individus Rn 

vα 

= idem avec XX t

Analyse en Composantes PrincipalesPrincipes Communs Analyse des Correspondances Étude en Cours

Les valeurs propres de X tX est de XX t sont égales !!

Rechercher la meilleure représentation des individusrevient à chercher la meilleure représentation des variables

Page 7: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 7/287

Analyse en Composantes Principales(ACP)

• Type de données

– Variables continues– ACP normée : données centrées réduites (X )

• Distance euclidienne• Critère

• Recherche des valeurs propres de X t

 j

 jij

ij

d d 

 x pn ji σ  

=×∈  ],,1[],1[),(

⎟ ⎠ ⎞⎜

⎝ ⎛ ∑=

n

iu

GHid 1

)(maxr

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

Page 8: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 8/288

Exemple ACP - Données

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

75841082845,0Suisse

602534712544,2Suède

211515774194,0Slovaquie

871817454849,0RoyaumeUni

61880752410,3Roumanie

212261048427,6RépTchèque

301834653118,7Portugal2022401167223,9Pologne

991869642735,7Pays-Bas

442344771962,8Norvège

41850053473,9Lettonie

3820255514410,5Italie

271760760338,3Israël672155791631,6Irlande

222525959325,6Hongrie

2218254375910,9Grèce

6821310464436,4France

43221010484226,9Finlande

22070626680,6Russie

471627514217,1Espagne 772518573549,5Danemark

632149712036,1Belgique

4820212731542,3Autriche

7516310474336,6Allemagne

LectCD(Nb / 100 Hab)

TxImp(%)

TxEnrPirates(%)

MusClas(%)

MusPopInt(%)

MusPopNat(%)

Vente($ US / Hab)

Activités et Tendances Culturelles : Musique Enregistrée (1998)

http://www.unesco.org/culture/worldreport/html_fr/stat2/table5f.pdf

Page 9: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 9/289

Valeurs Propres

Critères de choix des axes principaux• % inertie expliquée > 80%

• Valeurs propres > 1• Différence significative entre 2 valeurs propres successives

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

InterprétationRésultats ACP

% d’inertie expliquée par l’axe αλα/Σαλα

Variances suivant l’axe αValeurs propres λα

Dépend du nombre de variables

Page 10: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 10/2810

Variables

0,82

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

InterprétationRésultats ACP

CorrélationCosinus angle entre variables

Qualité de la représentation dans le planPosition absolue de la variable

Axe : 1

VENTE$/HAB 0,83LECTCD/100 0,81

MUSPOPINT 0,73

MUSCLAS 0,38

TXIMP -0,04

MUSPOPNAT -0,78

TXENRPIRAT -0,81

Axe : 2

MUSPOPINT 0,65

TXENRPIRAT 0,33

MUSCLAS -0,13

VENTE$/HAB -0,35

TXIMP -0,37

LECTCD/100 -0,42

MUSPOPNAT -0,60

   C  o  o  r   d  o  n  n   é  e  s  v  a  r   i  a   b   l  e  s

-0,98-0,74

Page 11: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 11/2811

Individus

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

InterprétationRésultats ACP

Contribution à l’inertie suivant l’axe αContribution d’un individu à l’axe α

SimilitudesProximités entre individus

OUEST et NORD ?

EST et SUD ?

Page 12: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 12/2812

Individus / Variables Supplémentaires(Illustratives)

• Individus : Projection dans Rp 

• Variables continues : Projection dans Rn 

• Variables nominales : Projection dans Rp  !!

xi+4p…xi+

4j…xi+41

xi+3p…xi+

3j…xi+31

nominalecontinue

mod 1

mod 2

…mod 1

Individus

supplémentaires

Individus

actifs

Variables supplémentairesVariables actives

………………

xv+i1xip…xij…xi1

……

xi+2p

xi+1p

xnp

x1p

……

………

xi+2jxi+

21

xi+1jxi+

11

xv+n1xnjxn1

xv

+

11x1jx11

moyenne

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

d d l

Page 13: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 13/2813

Individus Supplémentaires

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

ACP B f

Page 14: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 14/28

14

ACP en Bref

• Variables continues

• Relations linéaires entre variables

• Pas de représentation simultanée individus –variables(en fait si)

• Possibilité de projeter individus et variables(continues et nominales) supplémentaires

Principes Communs Analyse des Correspondances Étude en CoursAnalyse en Composantes Principales

A l F ll d C d

Page 15: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 15/28

15

Analyse Factorielle des Correspondances(AFC) - Données

• Tableau croisant deux variables nominales• Transformations des données brutes

– Calcul des fréquences relatives– Calcul des profils lignes– ________________colonnes

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

Cheveux

Yeux

59212771286108Total

21594178420Bleu

641614295Vert

9310145415Noisette

22072611968Marron

TotalBlondRouxChâtainBrun

10,220,120,480,18Profil moyen

10,440,80,390,9Bleu

10,250,220,450,8Vert

10,110,150,580,16Noisette

10,30,120,540,31Marron

TotalBlondRouxChâtainBrun

11111Total

0,360,740,240,290,19Bleu

0,110,130,20,10,5Vert

0,160,80,20,190,14Noisette

0,370,60,370,420,63Marron

Profil moyenBlondRouxChâtainBrun

Profils colonnesProfils lignes

AFC Méth d

Page 16: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 16/28

16

AFC - Méthode

• Distance entre profils : distance du χ²

• Critère

• Recherche des valeurs propres de F tD-1nFD-1 p

2

'

'

1

² 1)',(² ⎟⎟ ⎠

 ⎞⎜⎜⎝ 

⎛ −=∑=   i

 ji

i

ij

 p

 j   j   f  

 f  

 f  

 f  

 f  iid   χ 

⎟ ⎠ ⎞⎜

⎝ ⎛  ⋅∑

=

n

i

iu

iOd  f  1

² ),(²max χ r

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

S é ifi ité d l’AFC

Page 17: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 17/28

17

Spécificités de l’AFC

• Lignes et Colonnes jouent le même rôle

• On s’intéresse aux distances entre profils

• L’inertie totale du nuage de points (Σαλα) reflète

l’indépendance statistique entre les deux variables(test du χ²)

• Représentation simultanée des deux nuages de points

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

A l F t i ll d C d

Page 18: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 18/28

18

Analyse Factorielle des CorrespondancesMultiples (AFCM) - Données

• Tableau croisant n individus statistiques et s « questions »

ayant ms modalités

• Application privilégiée : enquêtes

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

Satisfaction

MoyenTrès SatisfaitFIndividu n

…………

PetitPas SatisfaitHIndividu 3

GrandMoyennement SatisfaitFIndividu 2

GrandTrès SatisfaitHIndividu 1

TailleSexe

AFCM Méth d

Page 19: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 19/28

19

AFCM - Méthode

0…

0

1

0

Petit

1…

0

0

0

Moyen

0…

1

0

0

PasSatisfait

Satisfaction

Grand

00110Individu n………………

00001Individu 3

11010Individu 2

10101Individu 1

Taille

MoyennementSatisfait

TrèsSatisfait

FH

Sexe

Satisfaction

MoyenTrès SatisfaitFIndividu n

…………

PetitPas SatisfaitHIndividu 3

GrandMoyennement SatisfaitFIndividu 2GrandTrès SatisfaitHIndividu 1

TailleSexe

Tableau DisjonctifComplet

AFCM = AFC d’un tableau disjonctif complet

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

Exemple AFCM

Page 20: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 20/28

20

Exemple AFCM

Réponses au questionnaire ASESÉvaluation fonctionnelle du membre supérieur

…71 individus

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

GERBERFacileFacileFacileFacileFacileImpossibleFacileFacilePat11_6M

GERBERFacileFacileAssez DifficileFacileFacileImpossibleFacileTrès DifficilePat11_3M

GERBERAssez DifficileFacileFacileFacileFacileImpossibleFacileFacilePat11_1A

Totale AnatomiqueImpossibleImpossibleImpossibleImpossibleImpossibleImpossibleImpossibleImpossiblePat10_PO

Totale AnatomiqueAssez DifficileFacileAssez DifficileFacileFacileImpossibleTrès DifficileAssez DifficilePat10_3M

Totale AnatomiqueImpossibleFacileImpossibleImpossibleTrès DifficileImpossibleImpossibleImpossiblePat1_PO

Totale AnatomiqueAssez DifficileFacileAssez DifficileFacileFacileAssez DifficileFacileAssez DifficilePat1_6M

Totale AnatomiqueAssez DifficileAssez DifficileImpossibleAssez DifficileFacileImpossibleTrès DifficileTrès DifficilePat1_3M

Totale AnatomiqueFacileFacileFacileAssez DifficileFacileFacileFacileFacilePat1_1A

ProthèseLancer

Une BalleLever

Une ChargeAtteindre uneEtagère Haute

Se PeignerFaire

Sa ToiletteSe

Laver le DosDormir

Sur l’EpauleMettre

Un ManteauIndividus

AFCM Valeurs Propres

Page 21: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 21/28

21

AFCM – Valeurs Propres

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

0.57463697

0.67789221

0.73949778

0.7866822

0.82479575

% cumulé

% : indice pessimiste de l’information extraite

Autre critère d’appréciation de l’inertie : (Valeurs Propres) ²

AFCM Individus et Variables

Page 22: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 22/28

22

Ressemblance (mêmes profils)Distance entre individusModalités choisies par les mêmes

individus ou des ind. semblables

Proximités entre modalités

de variables différentes

Ressemblance des ind. ayant

choisi ces modalités

Proximités entre modalités

d’une même variableContribution à l’inertie des axesContributionQualité de la représentationCorrélation (cos²)

cos²

AFCM – Individus et Variables

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

2

1

InterprétationRésultats

AFCM Variables Supplémentaires

Page 23: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 23/28

23

AFCM –Variables Supplémentaires

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

1

2

Types de prothèses

Recul

AFCM En Bref

Page 24: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 24/28

24

AFCM En Bref

Principes Communs Étude en CoursAnalyse en Composantes Principales Analyse des Correspondances

• Variables nominales et/ou continues avec codage (flou)

• Relations non linéaires entre variables

• Représentation simultanée individus –variables

• Possibilité de projeter individus, modalités et variables(nominales et continues) supplémentaires

Étude en Cours – Projet CEPICA

Page 25: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 25/28

25

Étude en Cours – Projet CEPICA

• Population d’étudePatients avec pacemaker bi-ventriculaire

• ObjectifLes données « physiologiques » recueillies permettent-elles

– Le suivi de l’état de santé des patients ?

– De différentier les répondeurs des non-répondeurs à la stimulation ?

• Données disponibles

– Données « physiologiques » journalières sur 1 ou 3 mois, tous les 3mois– 37 variables– Trop peu d’individus (8)

Principes Communs Analyse en Composantes Principales Analyse des Correspondances Étude en Cours

ACP – Codage des Données

Page 26: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 26/28

26

ACP – Codage des Données

Principes Communs Analyse en Composantes Principales Analyse des Correspondances Étude en Cours

30 60 90 120 150 180 (jours)

(s)

Patient n°1

Durée Totale En Exercice

………

…2,6 . 10e4Pat1_60

…2,2 . 10e4Pat1_30

…Durée Totale En ExerciceIndividus

2,6 . 10e4ACP

AFCM – Codage des Données

Page 27: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 27/28

27

Début 30j 60j

AFCM Codage des Données

Principes Communs Analyse en Composantes Principales Analyse des Correspondances Étude en Cours

30 60 90 120 150 180 (jours)

(s)

Patient n°1

Durée Totale En Exercice

     F    a     i     b     l    e

     M    o    y    e    n    n    e

     I    m    p    o    r     t    a    n     t    e

(Loslever et Bouilland, Fuzzy sets and systems, 1999)

AFCM0.2

0.1

Importante

0.5

0.5

Moyenne

Durée Totale En ExerciceIndividus

…………0.3Pat1_30j

…0.4Pat1_Début

…Faible

ACP et AFCM en Bref

Page 28: Méthodes d’Analyses Factorielles

8/16/2019 Méthodes d’Analyses Factorielles

http://slidepdf.com/reader/full/methodes-danalyses-factorielles 28/28

28

ACP et AFCM en Bref

—Peu adaptées à la prise de décision mais étapepréalable pour⇒ Tests d’hypothèses

⇒ Classification non-supervisée / supervisée …

+ Méthodes descriptives, exploratoires

+ Pas d’hypothèse préalable sur les données

(non Paramétriques)

+ Synthèse rapide de l’information