30
Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse) L’ANALYSE STATISTIQUE DES DONNEES

Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Embed Size (px)

Citation preview

Page 1: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse)Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse)

L’ANALYSE STATISTIQUE DES DONNEES

Page 2: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Données brutesDonnées brutes

Les attributs (ou propriétés) qui définissent les objets peuvent être :

• des variables qualitatives (discrètes)

• des variables quantitatives (continues)

• un mélange des deux

objet attribut A attribut B attribut C …

1 A1 B3 C2 …

2 A3 B2 C1 …

3 A4 B2 C1 …

4 A2 B1 C2 …

5 A1 B2 C1 …

6 A4 B3 C1 …

… … … … …

N … … … …

Page 3: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Codage: des données brutes au tableau disjonctif complet Codage: des données brutes

au tableau disjonctif complet

Sexe Residence Habitat

Jane female country owner

Robert male country owner

John male suburb leaseholder

Edward male town leaseholder

Martin male suburb hotel

Mary female town leaseholder

Gerard male suburb subtenant

Lea female town subtenant

Elisabeth female town subtenant

Tableau attributs-valeurs(« multi-valued context »)

NB: cette opération est implémentée dans Semana

S1 S2 R1 R2 R3 H1 H2 H3 H4

Jane 0 1 0 0 1 1 0 0 0

Robert 1 0 0 0 1 1 0 0 0

John 1 0 0 1 0 0 1 0 0

Edward 1 0 1 0 0 0 1 0 0

Martin 1 0 0 1 0 0 0 1 0

Mary 0 1 1 0 0 0 1 0 0

Gerard 1 0 0 1 0 0 0 0 1

Lea 0 1 1 0 0 0 0 0 1

Elisabeth 0 1 1 0 0 0 0 0 1

Tableau disjonctif complet(« one-valued context » = formal context)

Rough Set AnalysisFormal Concept Analysis

Correspondance Factor Analysis

Page 4: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Codage: du tableau disjonctif complet au tableau de Burt

Codage: du tableau disjonctif complet au tableau de Burt

S1 S2 R1 R2 R3 H1 H2 H3 H4

Jane 0 1 0 0 1 1 0 0 0

Robert 1 0 0 0 1 1 0 0 0

John 1 0 0 1 0 0 1 0 0

Edward 1 0 1 0 0 0 1 0 0

Martin 1 0 0 1 0 0 0 1 0

Mary 0 1 1 0 0 0 0 1 0

Gerard 1 0 0 1 0 0 1 0 0

Lea 0 1 1 0 0 0 0 0 1

Elisabeth 0 1 1 0 0 0 0 0 1

Tableau disjonctif complet

Les relations entre attributs sont renforcées

S1 S2 R1 R2 R3 H1 H2 H3 H4

S1 5 0 1 3 1 1 2 1 1

S2 0 4 3 0 1 1 1 0 2

R1 1 3 4 0 0 0 2 0 2

R2 3 0 0 3 0 0 1 1 1

R3 1 1 0 1 2 2 0 0 0

H1 1 1 0 0 2 2 0 0 0

H2 2 1 2 1 0 0 3 0 0

H3 1 0 0 1 0 0 0 1 0

H4 1 2 2 1 0 0 0 0 3

Table de Burt(co-occurrence des variables)

NB: cette opération est implémentée dans Semana

L’information relative aux individus est perdue

Page 5: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

DiscrétisationDiscrétisation

0

20

40

60

80

100

20 25 30 35 40 45 50 55 60

fraction Ni/Nt (%)

variable X

Courbe cumulative Ni/Nt = f(Xi)

Modalité 1 (Xi<31.5) : « petit »

Modalité 2 (31.5≤Xi<37.5) : « moyen »

Modalité 3 (Xi≥37.5) : « grand »

1/3

2/3

Exemple d’une partition en 3 classes d’effectifs égaux

Page 6: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

DiscrétisationDiscrétisation

21 sacs de couchage caractérisés par trois variables quantitatives (température, poids et prix) et un attribut nominal (matériau synthétique ou natural)

(d’après S. Prediger ,Symbolic objects in

FCA, 1997)

Discrétisation de la température (4 mod.): {+7, +3} => T1 {0, -3} => T2 {-7, -10} => T3 {-15} => T4

Discrétisation du poids (5 modalités): ≤ 1000 => W1 {1000-1400} => W2 {1400-1700} => W3 {1700-2000} => W4 ≥ 2000 => W5

Discrétisation du prix (3 modalités): ≤ 250 => cheap {250-400} => notexp ≥ 400 => expensive

d’après Susanne Prediger (1997). Symbolic objects in Formal concept Analysis, Vancouver

Page 7: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Discrétisation et « logical scaling »Discrétisation et « logical scaling »

Poids discrétisé in 5 modalitésTempérature minimale discrétisée en 4 modalités

Prix discrétisé in 3 modalités

Discrétisation de la température: {+7, +3} => T1 {0, -3} => T2 {-7, -10} => T3 {-15} => T4Discrétisation du poids: ≤ 1000 => W1 {1000-1400} => W2 {1400-1700} => W3 {1700-2000} => W4 ≥ 2000 => W5Discrétisation du prix: ≤ 250 => cheap {250-400} => notexp ≥ 400 => expensive

Etape 1: discrétisation des variables quantitatives température, poids et prix

Page 8: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Discrétisation et « logical scaling »Discrétisation et « logical scaling »

Etalement des 4 modalités de température

Étalement des 5 modalités de poids Étalement des 3

modalités de prix

Etape 2: transformation du « multi-valued context » (AV) en « one-valued context » (FCA)

Page 9: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Discrétisation et « logical scaling »Discrétisation et « logical scaling »

Etalement des 4 modalités de température

Étalement des 5 modalités de poids Étalement des 3

modalités de prix

Etape 3 : Logical scaling

{T1 and W1} or {T2 and (W1 or W2)} or {T3 and (W1 or W2 or W3)} or {T4 and (W1 or W2 or W3 or W4)} => good

{T1 and (W1 or W2)} or {T2 and (W1 or W2 or W3)} or {T3 and (W1 or W2 or W3 or W4)} or {T4} => acceptable

{T1 and (W3 or W4 or W5)} or {T2 and (W4 or W5)} or {T3 and W5} => bad

Page 10: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Discrétisation et « logical scaling »Discrétisation et « logical scaling »

3 attributs qualitatifs remplacent 9 modalités de 2 variables quantitatives (température et poids)

Page 11: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Les techniques de l’Analyse Statistique des Données

Les techniques de l’Analyse Statistique des Données

• Classification Ascendante Hiérarchique (CAH)

• une combinaison des deux: CAH sur l’AFC

• L’Analyse Factorielle des Correspondances (AFC)

NB: ces opérations sont implémentées dans Semana (STAT 3)

Programmes Fortran de l’équipe du Professeur J.-P. Benzécri (Université Paris-VI)adaptés en langage Transcript de Revolution®

Page 12: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Classification Ascendante Hiérarchique (CAH)Classification Ascendante Hiérarchique (CAH)

Objet de la CAH : agréger successivement les éléments d’une table de contingence (ou d’une table de Burt) en classes en utilisant une mesure de la distance entre classes et d’un critère d’agrégation.

(3) (2) (1) (5) (4)

• Distance enclidienne (métrique du 2)

• critère d’agrégation : moment centré d’ordre 2 d’une partition maximum

Les élements qui ont des profils voisins s’agrègent très tôt. Ils forment des classes (ou « clusters ») utiles pour l’interprétation.

Page 13: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Analyse Factorielle des Correspondances (AFC)Analyse Factorielle des Correspondances (AFC)

y

x

• • •••••• •

• • •••• •••

• • ••••••

•• • •

•••••

•• •••• •••• •••••• •

• •••••

• •••

y = ax + b

Deux dimensions (deux variables x,y)

régression linéaire,

mesure du2

z

x

y

• • •••••• •

• • •••• •••

• • •••• •••• • •

••• •••

•• •••• •••• •••••• •

• •••••

• •••

Trois dimensions (3 variables x,y,z)Projections dans les plans [x,y], [x,z] et [y,z] => vues déformées (difficiles à interpréter)

F1

F2

F3

AFC => changements d’axesF1, F2, F3 : axes d’inertie du nuages de points

projections sur les plans [F1,F2], [F1,F3], etc.

Page 14: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Analyse Factorielle des Correspondances (AFC)exemple: le champ sémantique des couleurs

Analyse Factorielle des Correspondances (AFC)exemple: le champ sémantique des couleurs

BLE ROU JAU BLA GRI ROS MAR VIO NOI ORA VER Acide ACI 0 0 12 0 0 0 0 0 0 1 1 Agressif AGR 0 3 0 0 0 0 0 1 0 1 0 Angoissant ANG 0 4 1 0 0 0 0 1 2 0 0 Asiatique ASI 0 0 3 0 0 0 0 0 0 0 0 Attirant ATT 1 0 4 0 0 0 0 0 4 4 0 Automnal AUT 0 0 0 0 0 0 4 0 0 0 0 Bête BET 0 0 0 1 3 5 0 0 0 0 0 Brûlant BRT 0 4 0 0 0 0 0 0 0 0 0 Brûlé BRE 0 0 0 0 0 0 0 0 0 8 0 Brumeux BRM 0 0 0 0 7 0 2 0 1 0 0 Calme CAL 12 0 0 0 0 3 4 0 0 1 8 Céleste CEL 17 0 1 6 0 0 0 0 0 0 0 Champêtre CHP 0 0 0 0 0 0 0 0 0 1 9 Chaud CHA 0 3 1 0 0 0 6 1 0 6 0 Clair CLA 0 0 0 2 5 0 4 0 0 0 3 Coloré COL 0 1 0 0 0 0 0 2 1 3 0 Comique COM 0 0 0 0 0 0 0 0 0 2 1 Cru CRU 0 2 2 0 0 0 0 0 0 0 0 Décoratif DEC 0 0 0 1 1 0 0 2 0 3 0 Discret DIS 0 0 0 0 0 0 1 3 0 0 0 Doux DOU 1 0 0 6 2 2 1 3 0 2 0 Dur DUR 0 0 0 0 0 0 3 2 0 0 2 Dynamique DY N 0 1 0 0 0 0 0 0 0 7 0 Ecclesiastique ECC 0 0 3 0 0 0 0 11 0 0 0 Eclatant ECL 0 2 7 1 0 0 0 1 0 0 0 Enervant ENE 0 2 0 0 0 1 0 0 0 0 0 Enfantin ENF 0 0 1 0 3 13 0 0 0 0 5 Ensoleillé ENS 0 0 7 0 0 0 0 0 0 0 0 Equilibré EQU 6 0 0 0 0 0 3 0 0 0 0 Etendu ETE 3 0 1 0 0 0 0 1 0 0 0 Féminin FEM 0 0 0 0 0 0 0 0 0 3 0 Flamboyant FLA 0 6 1 0 0 0 0 0 0 2 0 Fleuri FLE 0 0 1 0 0 3 0 0 0 0 0 Fragile FRg 0 0 0 0 0 6 0 0 0 0 2 Franc FRA 2 2 0 1 0 0 0 0 0 0 8 Froid FRO 2 0 0 3 2 0 1 0 0 0 5 Fruité FRU 0 1 0 0 0 0 0 0 0 15 0 Glacé GLA 0 0 0 0 0 0 6 0 0 0 0 Harmonieux HAR 0 1 0 0 0 0 3 0 0 0 0 Hivernal HIV 0 0 0 0 2 0 2 0 0 0 0 Immaculé IMM 0 0 0 9 0 0 0 0 0 0 0 Joyeux JOY 1 1 1 0 0 1 0 1 0 4 1 Juteux JUT 0 0 0 0 0 0 0 0 0 7 0 Laid LAI 0 0 1 0 0 1 3 1 0 0 1 Léger LEG 2 0 1 0 0 4 0 0 0 1 0 Limpide LIM 4 0 0 4 0 0 0 0 0 0 0 Lisse LIS 0 0 0 2 5 0 2 0 0 0 0 Lointain LOI 5 0 0 0 0 0 0 0 0 0 0 Lumineux LUM 3 1 22 0 0 0 0 0 0 8 1 Malade MAL 0 2 1 0 0 0 0 0 0 0 0 Masculin MAS 0 0 0 0 0 0 6 0 0 0 0 ------- ----------------------------------------------

11 couleurs décrites par 89 adjectifs

Page 15: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Analyse Factorielle des Correspondances (AFC)exemple: le champ sémantique des couleurs

Analyse Factorielle des Correspondances (AFC)exemple: le champ sémantique des couleurs

11 couleurs décrites par 89 adjectifs

F1

F2

ROUGE

ORANGE

BLEU

VERT

ROSE

NOIR

GRIS

MARRON

BLANC

silencieux

sévère profondreligieux sobre sinistre

mystérieuxtristevieux

discret mortrafffiné brumeux

sombrelissehivernalvide sale

immaculéneigeux

purautomnalglacémasculin

dur

douxparfumé

VIOLET

bête

propre

limpidepâle

laid

clair

froid

enfantin

naturelléger

franc calme

champêtreprintanier

reposant

patriotiquevivant

sucré

romantique

harmonieux

sournois

sonore

ensoleillé

acide

JAUNE

brûlantrévolutionnairepassionnésanguin

dynamiquefruitéfémininjuteux

agressifviolent

maladifvif

cru

rond

comique

énervant

chaud

angoissant

décoratif

attirant

éclatant

joyeuxlumineux

Avantages de l’AFC : • Les objets et les propriétés sont représentés sur le même graphe• leurs relations sont significatives

Page 16: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Analyse Factorielle des Correspondances (AFC)exemple: le champ sémantique des couleurs

Analyse Factorielle des Correspondances (AFC)exemple: le champ sémantique des couleurs

F1

F2

ROUGE

ORANGE

BLEU

VERT

ROSE

NOIR

GRIS

MARRON

BLANC

silencieux

sévère profondreligieux sobre sinistre

mystérieuxtristevieux

discret mortrafffiné brumeux

sombrelissehivernalvide sale

immaculéneigeux

purautomnalglacémasculin

dur

douxparfumé

VIOLET

bête

propre

limpidepâle

laid

clair

froid

enfantin

naturelléger

franc calme

champêtreprintanier

reposant

patriotiquevivant

sucré

romatique

harmonieux

sournois

sonore

ensoleillé

acide

JAUNE

brûlantrévolutionnairepassionnésanguin

dynamiquefruitéfémininjuteux

agressifviolent

maladifvif

cru

rond

comique

énervant

chaud

angoissant

décoratif

attirant

éclatant

class 158

class 118 class 153joyeuxlumineux

class 156

class 163

class 159

class 161

11 couleurs décrites par 89 adjectifs

Page 17: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Trois exemples typiques de structures

mises en évidence par AFC

Trois exemples typiques de structures

mises en évidence par AFC

• Dichotomie (deux classes opposées)

• Hiérarchies (structures arborescentes)

• Sériation (classes ordonnées)

Page 18: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

AFC : exemple 1 - DichotomieAFC : exemple 1 - Dichotomie

+--------------------------------------------+-----------------------------------------+--20A | | 00| | | 00| | | 00| Ob1 | | 00| Ob4D | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | G B Ob2| 00| Ob7 | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00+--------------------------------------------+-----------------------------------------+--00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | C | 00| Ob3 | 00| | Ob5 | 00| | | 00| | | 00| F E | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| Ob6 | | 00+--------------------------------------------+-----------------------------------------+

Axe 1

Axe 2

TABLEAU INITIAL A B C D E F GOb1 2 1 0 2 0 1 2Ob2 0 2 2 2 0 0 2Ob3 0 0 5 1 4 2 3Ob4 2 2 1 5 1 0 5Ob5 0 2 4 0 4 2 2Ob6 0 0 2 0 2 2 0Ob7 2 2 3 5 2 1 7

Page 19: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

+--------------------------------------------+-----------------------------------------+--20A | | 00| | | 00| | | 00| Ob1 | | 00| Ob4D | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | G B Ob2| 00| Ob7 | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00+--------------------------------------------+-----------------------------------------+--00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | C | 00| Ob3 | 00| | Ob5 | 00| | | 00| | | 00| F E | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| Ob6 | | 00+--------------------------------------------+-----------------------------------------+

Axe 1

Axe 2

AFC : exemple 1 - DichotomieAFC : exemple 1 - Dichotomie

TABLEAU INITIAL A B C D E F GOb1 2 1 0 2 0 1 2Ob2 0 2 2 2 0 0 2Ob3 0 0 5 1 4 2 3Ob4 2 2 1 5 1 0 5Ob5 0 2 4 0 4 2 2Ob6 0 0 2 0 2 2 0Ob7 2 2 3 5 2 1 7

REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE 1 2 3 4 5 6 7 8 9 10 +------+-------+-------+-------+-------+-------+-------+-------+-------+-------+Ob1 --------*--*------------------------------------------------------------------**Ob4 --*-----* * *Ob7 --* * *Ob2 -----------* *Ob3 ----*--*----------------------------------------------------------------------*Ob5 ----* * Ob6 -------*

REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE 1 2 3 4 5 6 7 8 9 10 +------+-------+-------+-------+-------+-------+-------+-------+-------+-------+A ------*----*------------------------------------------------------------------**D --*---* * *G --* * *B -----------* *C ----*----*--------------------------------------------------------------------*E ----* * F ---------*

Classification (AHC) sur les coordonnées:

Page 20: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE 1 2 3 4 5 6 7 8 9 10 +------+-------+-------+-------+-------+-------+-------+-------+-------+-------+Ob1 --------*--*------------------------------------------------------------------**Ob4 --*-----* * * Ob7 --* * * Ob2 -----------* * Ob3 ----*--*----------------------------------------------------------------------* Ob5 ----* * Ob6 -------*

1 2 3 4 5 6 7 8 9 10 +------+-------+-------+-------+-------+-------+-------+-------+-------+-------+A ------*----*------------------------------------------------------------------**D --*---* * * G --* * * B -----------* * C ----*----*--------------------------------------------------------------------* E ----* * F ---------*

+--------------------------------------------+-----------------------------------------+--20A | | 00| | | 00| | | 00| Ob1 | | 00| Ob4D | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | G B Ob2| 00| Ob7 | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00+--------------------------------------------+-----------------------------------------+--00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | C | 00| Ob3 | 00| | Ob5 | 00| | | 00| | | 00| F E | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| Ob6 | | 00+--------------------------------------------+-----------------------------------------+

Axe 1

Axe 2

AFC : exemple 1 - DichotomieAFC : exemple 1 - Dichotomie

Les objets 1, 4, 7, 2 appartiennent à une classe caractérisée par les propriétés A, B, D, G

Les objets 3, 5, 6 appartiennent à une classe caractérisée par les propriétés C, E, F

Les deux classes sont clairement opposées

TABLEAU INITIAL A B C D E F GOb1 2 1 0 2 0 1 2Ob2 0 2 2 2 0 0 2Ob3 0 0 5 1 4 2 3Ob4 2 2 1 5 1 0 5Ob5 0 2 4 0 4 2 2Ob6 0 0 2 0 2 2 0Ob7 2 2 3 5 2 1 7

Page 21: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

AFC : exemple 2 - HiérarchiesAFC : exemple 2 - Hiérarchies

TABLEAU INITIAL A B C D E F G ob1 1 1 0 1 0 0 0 ob2 1 1 0 0 1 0 0 ob3 1 0 1 0 0 1 0 ob4 1 0 1 0 0 0 1

+-----------------------------------------+-----------------------------------------E- +--10| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | ob2 | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00+-----ob3---------------------------------A-----------------------------------------B--+--40F ob4 | | 10G | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | ob1 | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | D | 00+-----------------------------------------+--------------------------------------------+--00

+-----------------------------------------+--------------------------------------------+--20G | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| ob4 | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00+-----------------------------------------A-----------------------------------ob1---B--+--40C | ob2 D | 10| | E | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| ob3 | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00F | | 00+-----------------------------------------+--------------------------------------------+--00

AB

D

ob3ob4

E

FCG

ABDE

C

F

G

ob2

ob1

ob1ob2

ob4

ob3

Axe 1

Axe 2

Axe 1

Axe 3

Page 22: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

AFC : exemple 2 - HiérarchiesAFC : exemple 2 - Hiérarchies

TABLEAU INITIAL A B C D E F G ob1 1 1 0 1 0 0 0 ob2 1 1 0 0 1 0 0 ob3 1 0 1 0 0 1 0 ob4 1 0 1 0 0 0 1

FJ 4 2 2 1 1 1 1

Axe 1 (50%)

Axe 2 (25%)

Axe 3 (25%)

o1 o2o3

o4

C

A

BD EF

G

A

B

D E F G

C

A, attribut commun à tous les objets, a le poids le plus fort. Il est au centre du nuage et la racine de l’arbre.

Page 23: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

PROJECTION DANS LE PLAN FACTORIEL [1,2]| Horizontal: Axe #2 (Inertie: 21.82%) ——— Vertical: Axe #1 (Inertie: 57.96%)| Largeur: 1.802072; Hauteur: 2.543553; Nombre de points : 14+--------------------------------+--------------------------------------------o1 ---F +--10| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| A | o6 | 00| | | 00| | | 00| | | 00| | | 00| | | 10O2 | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00o4 | | 00| E | | 00| | | 00| | | 00| | | 00| | | 00+--------------------------------+-----------------------------------------------------+--00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| o5 | | 00| | | 00| D | | 00| | | 00| o8 | | 00| | | 00| | | 00| | | 00| | | 00| | B | 00| | o3 | 00| | | 00| | C | 00| | o7 | 00+--------------------------------+-----------------------------------------------------+--00

AFC : exemple 3 - SériationAFC : exemple 3 - Sériation

TABLEAU INITIAL A B C D E Fo1 1 0 0 0 0 1o2 1 0 0 0 1 0o3 0 1 1 1 0 0o4 1 0 0 1 1 0o5 0 1 0 0 1 0o6 1 0 0 0 1 1o7 0 1 1 0 0 0o8 0 1 1 1 1 0

Forme parabolique:« Effet Guttman »(sériation)

Page 24: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

AFC : exemple 3 - SériationAFC : exemple 3 - Sériation

REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE 1 2 3 4 5 6 7 8 9 10 +------+-------+-------+-------+-------+-------+-------+-------+-------+-------+o1 -----*------------------------*-----------------------------------------------**o6 -----* * * o2 ------*-----------------------* * o4 ------* * o3 ---*------*------*------------------------------------------------------------* o8 ---* * * o7 ----------* * o5 -----------------*

REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE 1 2 3 4 5 6 7 8 9 10 +------+-------+-------+-------+-------+-------+-------+-------+-------+-------+A ------*-----------------------------------------------------------------------**F ------* * B ----------*------------------------------------*------------------------------* D ----------* * C ------------------------------*----------------* E ------------------------------*

Classification Ascendante Hiérarchique sur les coordonnées factorielles

Page 25: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

AFC : exemple 3 - SériationAFC : exemple 3 - Sériation

PROJECTION DANS LE PLAN FACTORIEL [1,2]| Horizontal: Axe #2 (Inertie: 21.82%) ——— Vertical: Axe #1 (Inertie: 57.96%)| Largeur: 1.802072; Hauteur: 2.543553; Nombre de points : 14+--------------------------------+--------------------------------------------o1 ---F +--10| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| A | o6 | 00| | | 00| | | 00| | | 00| | | 00| | | 10O2 | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00o4 | | 00| E | | 00| | | 00| | | 00| | | 00| | | 00+--------------------------------+-----------------------------------------------------+--00| | | 00| | | 00| | | 00| | | 00| | | 00| | | 00| o5 | | 00| | | 00| D | | 00| | | 00| o8 | | 00| | | 00| | | 00| | | 00| | | 00| | B | 00| | o3 | 00| | | 00| | C | 00| | o7 | 00+--------------------------------+-----------------------------------------------------+--00

• Les objets o1 et o6 sont liés aux propriétés F et A.• Les objets o2 et o4 sont liés à la propriété E• Les objets o8, o5, o3 et o7 sont liés aux propriétés D, B, C

F A E D B C

o1 1 1 0 0 0 0

o6 1 1 1 0 0 0

o2 0 1 1 0 0 0

o4 0 1 1 1 0 0

o5 0 0 1 0 1 1

o8 0 0 1 1 1 1

o3 0 0 0 1 1 1

o7 0 0 0 0 1 1

CAH sur AFC

Page 26: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

Analyse Factorielle (AFC)et

Analyse en Concepts Formels (FCA)(concerne uniquement les “one-valued contexts”)

Analyse Factorielle (AFC)et

Analyse en Concepts Formels (FCA)(concerne uniquement les “one-valued contexts”)

Un concept formel est une paire (A,B)où A est un ensemble d’objets (extent)et B un ensemble d’attributs (intent)

Toutes les propriétés

Tous les objets

Chaque nœud est un concept formel

C1 {},{female,juvenile,adult,male}C2 {man},{adult,male}C3 {boy},{juvenile,male}C4 {boy,man},{male}C5 {woman},{female,adult}C6 {woman,man},{adult}C7 {girl},{female,juvenile}C8 {girl,boy},{juvenile}C9 {girl,woman},{female}C10 {girl,woman,boy,man},{}

Ces concepts forment une structure hiérarchique que l’on peut représenter par un treillis de Galois.

Page 27: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

FCA et AFCFCA et AFC

Formal Concept Analysis Analyse Factorielle des Correspondances

Lecture de bas en haut: • a girl is a female juvenile,• a woman is a female adult, etc.

Page 28: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

FCA et AFCFCA et AFC

+-----------------------------------------female-------------------------------------------+| | || | || | || | || | || GIRL | WOMAN || | || | || | || | || | || | || | || | || | || | || | || | || | || | || | || | |+-----------------------------------------+---------------------------------------adult+juvenile | || | || | || | || | || | || | || | || | || | || | || | || | || | || | || | || BOY | MAN || | || | || | || | || | || male |+-----------------------------------------+--------------------------------------------+

Formal Concept Analysis

Lecture de haut en bas: • “female” characterizes girls and women,• “juvenile” characterizes girls and boys, etc.

L’axe 1 définit une propriété « sexe » (male vs female),

Analyse Factorielle des Correspondances

Axe 1

Axe 2

L’axe 2 définit une propriété « âge » (juvenile vs adult).

Lecture de bas en haut: • a girl is a female juvenile,• a woman is a female adult, etc.

Page 29: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

+-----------------------------------------female-------------------------------------------+| | || | || | || | || | || GIRL | WOMAN || | || | || | || | || | || | || | || | || | || | || | || | || | || | || | || | |+-----------------------------------------+---------------------------------------adult+juvenile | || | || | || | || | || | || | || | || | || | || | || | || | || | || | || | || BOY | MAN || | || | || | || | || | || male |+-----------------------------------------+--------------------------------------------+

Axe 1

Axe 2

FCA et AFCFCA et AFC

Formal Concept Analysis Analyse Factorielle des Correspondances

D’après les proximités spatiales :

• a girl is female and juvenile,• a woman is female and adult, etc

• female characterizes girls and women,

• juvenile characterizes girls and boys, etc

Lecture de haut en bas: • “female” characterizes girls and women,• “juvenile” characterizes girls and boys, etc.

Lecture de bas en haut: • a girl is a female juvenile,• a woman is a female adult, etc.

Page 30: Georges Sauvet (CREAP Cartaihac, CNRS, Toulouse ) L ANALYSE STATISTIQUE DES DONNEES

FCA et AFCFCA et AFC

Axe 1 (50%)

Axe 2 (25%)

Axe 3 (25%)

o1 o2o3

o4

C

A

BD EF

G

A

B

D E F G

C

TABLEAU INITIAL A B C D E F G ob1 1 1 0 1 0 0 0 ob2 1 1 0 0 1 0 0 ob3 1 0 1 0 0 1 0 ob4 1 0 1 0 0 0 1

Treillis de Galois