63
Analyses multivari´ ees avec R Commander (via le package FactoMineR) Plate-forme de Support en M´ ethodologie et Calcul Statistique (SMCS) - UCL Cedric Taverne Institut de Statistique, UCL Voie du Roman Pays, 20 Bureau : C113 [email protected] 1 er evrier 2010 C. Taverne (SMCS, UCL) SMCS : Analyses multivari´ ees avec R 01/02/2010 1 / 254 Analyses multivari´ ees avec R Commander 1 Introduction ` aR 2 Analyse en composantes principales 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 Clustering C. Taverne (SMCS, UCL) SMCS : Analyses multivari´ ees avec R 01/02/2010 2 / 254 Introduction ` aR Qu’est ce que R ? Analyses multivari´ ees avec R Commander 1 Introduction ` aR Qu’est ce que R ? Qu’est ce que R Commander ? Importer une base de donn´ ees en R Commander Quelques statistiques descriptives en R Commander Quelques r´ ef´ erences pour aller plus loin en R 2 Analyse en composantes principales 3 Analyse des correspondances multiples 4 Analyse factorielle multiple 5 Clustering C. Taverne (SMCS, UCL) SMCS : Analyses multivari´ ees avec R 01/02/2010 4 / 254 Introduction ` aR Qu’est ce que R ? Qu’est ce que ? R est un langage de programmation orient´ e objet R est un logiciel libre (GNU Public Licence) R est un outil statistique puissant, flexible et collaboratif Deux interfaces utilis´ ees dans cette formation : RGui et R Commander emarrer R en salles Socrate : emarrer > Programmes > R > R 2.9.2 C. Taverne (SMCS, UCL) SMCS : Analyses multivari´ ees avec R 01/02/2010 5 / 254

Analyses multivari´ees avec R Commander (via le … · Entrer le code : library(Rcmdr) Pour re lancer R ... Les principales m´ethodes d’analyse statistique ... European Marketing

  • Upload
    phamdan

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Analyses multivariees avec R Commander(via le package FactoMineR)

Plate-forme de Support en Methodologie et Calcul Statistique (SMCS) - UCL

Cedric Taverne

Institut de Statistique, UCLVoie du Roman Pays, 20

Bureau : C113

[email protected]

1er fevrier 2010

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 1 / 254

Analyses multivariees avec R Commander

1 Introduction a R

2 Analyse en composantes principales

3 Analyse des correspondances multiples

4 Analyse factorielle multiple

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 2 / 254

Introduction a R Qu’est ce que R ?

Analyses multivariees avec R Commander

1 Introduction a RQu’est ce que R ?Qu’est ce que R Commander ?Importer une base de donnees en R CommanderQuelques statistiques descriptives en R CommanderQuelques references pour aller plus loin en R

2 Analyse en composantes principales

3 Analyse des correspondances multiples

4 Analyse factorielle multiple

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 4 / 254

Introduction a R Qu’est ce que R ?

Qu’est ce que ?

R est un langage de programmation oriente objet

R est un logiciel libre (GNU Public Licence)

R est un outil statistique puissant, flexible et collaboratif

Deux interfaces utilisees dans cette formation : RGui et R Commander

Demarrer R en salles Socrate :

Demarrer > Programmes > R > R 2.9.2

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 5 / 254

Introduction a R Qu’est ce que R ?

L’interface classique sous Windows : RGui

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 6 / 254

Introduction a R Qu’est ce que R ?

Qu’est ce que ?

R est un logiciel dynamique :

> 1 + 1

[1] 2

a = 1 + 1

> a

[1] 2

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 7 / 254

Introduction a R Qu’est ce que R ?

Qu’est ce que ?

R est un langage oriente objet :

> a = c(1, 2, 3)

> is.vector(a)

[1] TRUE

> a

[1] 1 2 3

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 8 / 254

Introduction a R Qu’est ce que R ?

Les Packages et l’Aide dans RGui

Installation d’un package sur votre ordinateur :

1 Menu RGui : Packages > Installer le(s) package(s) puisselectionner le packageDans cette formation : Rcmdr, FactoMineR, RcmdrPlugin.FactoMineR

2 Entrer le code : library(nom_du_package ) dans RGui

Utiliser l’aide de R :

Aide html sur une fonction : ?nom_de_fonction

Recherche dans l’aide html : help.search("mot cle ")

Recherche dans l’aide en ligne : RSiteSearch("mot cle ")

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 9 / 254

Introduction a R Qu’est ce que R ?

Ouvrir un script

Conseil : Sauver les scripts avec l’extension .R

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 10 / 254

Introduction a R Qu’est ce que R Commander ?

Analyses multivariees avec R Commander

1 Introduction a RQu’est ce que R ?Qu’est ce que R Commander ?Importer une base de donnees en R CommanderQuelques statistiques descriptives en R CommanderQuelques references pour aller plus loin en R

2 Analyse en composantes principales

3 Analyse des correspondances multiples

4 Analyse factorielle multiple

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 11 / 254

Introduction a R Qu’est ce que R Commander ?

Qu’est ce que R Commander ?

R Commander est une interface ”clique-boutons”pour R developpee parJohn Fox. (http ://socserv.mcmaster.ca/jfox/Misc/Rcmdr/)

Pour lancer R Commander : charger le package Rcmdr

Entrer le code : library(Rcmdr)

Pour relancer R Commander : Commander()

Pour un lancement plus complet :

library(RcmdrPlugin.Export)

library(RcmdrPlugin.FactoMineR)

library(RcmdrPlugin.TeachingDemos)

options(Rcmdr=list(plugins=c("RcmdrPlugin.Export",

"RcmdrPlugin.FactoMineR", "RcmdrPlugin.TeachingDemos")))

library(Rcmdr)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 12 / 254

Introduction a R Qu’est ce que R Commander ?

R Commander

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 13 / 254

Introduction a R Qu’est ce que R Commander ?

Les menus de R Commander

Fichier : Changer de repertoire de travail et sauver les scripts et sorties

Edition : Copier, coller...

Donnees : Importer et gerer le(s) jeu(x) de donnees, modifier des variables, etc.

Statistiques : Les principales methodes d’analyse statistique

Graphes : Tous les graphiques et leur sauvegarde

Modeles : Gestion des options des modeles (suite du menu Statistiques)

Distributions : Analyse et generation de nombreuses distributions

Export : Module d’exportation de donnees

FactoMineR : Module d’analyses multivariees

Demos : Demonstrations pour l’enseignement des statistiques

Outils : Chargement de Packages, etc.

Aide : Aide et introduction a R Commander

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 14 / 254

Introduction a R Importer une base de donnees en R Commander

Analyses multivariees avec R Commander

1 Introduction a RQu’est ce que R ?Qu’est ce que R Commander ?Importer une base de donnees en R CommanderQuelques statistiques descriptives en R CommanderQuelques references pour aller plus loin en R

2 Analyse en composantes principales

3 Analyse des correspondances multiples

4 Analyse factorielle multiple

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 15 / 254

Introduction a R Importer une base de donnees en R Commander

Changer le repertoire de travail

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 16 / 254

Introduction a R Importer une base de donnees en R Commander

La base de donnees Eurojob

Donnees concernent 26 pays europeens

Informe sur la repartition (en %) des travailleurs dans 9 secteursd’activite

Source : Euromonitor (1979), European Marketing Data and Statistics, London :Euromonitor Publications, 76-77.

(http ://lib.stat.cmu.edu/DASL/Datafiles/EuropeanJobs.html)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 17 / 254

Introduction a R Importer une base de donnees en R Commander

De SPSS a R Commander

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 18 / 254

Introduction a R Importer une base de donnees en R Commander

De SPSS a R Commander

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 19 / 254

Introduction a R Importer une base de donnees en R Commander

De SPSS a R Commander

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 20 / 254

Introduction a R Importer une base de donnees en R Commander

R Commander : Visualiser et editer une base de donnees

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 21 / 254

Introduction a R Quelques statistiques descriptives en R Commander

Analyses multivariees avec R Commander

1 Introduction a RQu’est ce que R ?Qu’est ce que R Commander ?Importer une base de donnees en R CommanderQuelques statistiques descriptives en R CommanderQuelques references pour aller plus loin en R

2 Analyse en composantes principales

3 Analyse des correspondances multiples

4 Analyse factorielle multiple

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 22 / 254

Introduction a R Quelques statistiques descriptives en R Commander

La fonction summary

La fonction summary fournit un resume descriptif de chaque variable

Variables qualitative : frequencesVariables quantitative : minimum, quartiles, moyenne, maximum

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 23 / 254

Introduction a R Quelques statistiques descriptives en R Commander

La fonction numSummary

La fonction numSummary fournit des statistiques descriptives pour lesvariables selectionnees

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 24 / 254

Introduction a R Quelques statistiques descriptives en R Commander

Matrice de correlations - la fonction cor

La fonction cor fournit la matrice des correlations (Pearson, Spearman ouPartielles) entre les variables selectionnees

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 25 / 254

Introduction a R Quelques statistiques descriptives en R Commander

Tester une correlation - la fonction cor.test

La fonction cor.test fournit un test d’hypothese (uni ou bilateral) sur lacorrelation (Pearson ou Spearman) ou le Tau de Kendall entre les variablesselectionnees

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 26 / 254

Introduction a R Quelques statistiques descriptives en R Commander

Tester une correlation...

Peut-on interpreter sans risque les resultats ci-dessous ?

Il faut verifier l’hypothese de normalite posee par la statistique de Pearson !

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 27 / 254

Introduction a R Quelques statistiques descriptives en R Commander

Verifier une hypothese de normalite

Test formel QQ-plot

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 28 / 254

Introduction a R Quelques statistiques descriptives en R Commander

Verifier une hypothese de normalite

Test formelQQ-plot

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 29 / 254

Introduction a R Quelques statistiques descriptives en R Commander

Verifier une hypothese de normalite

Histogramme QQ-plot

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 30 / 254

Introduction a R Quelques statistiques descriptives en R Commander

Verifier une hypothese de normalite

Histogramme QQ-plot

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 31 / 254

Introduction a R Quelques statistiques descriptives en R Commander

Verifier une hypothese de normalite

Ajouter la fonction de densite normale correspondante :

curve(dnorm(x, mean=mean(Eurojob$Agr), sd=sd(Eurojob$Agr)), add=TRUE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 32 / 254

Introduction a R Quelques statistiques descriptives en R Commander

Sauver un graphe

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 33 / 254

Introduction a R Quelques references pour aller plus loin en R

Analyses multivariees avec R Commander

1 Introduction a RQu’est ce que R ?Qu’est ce que R Commander ?Importer une base de donnees en R CommanderQuelques statistiques descriptives en R CommanderQuelques references pour aller plus loin en R

2 Analyse en composantes principales

3 Analyse des correspondances multiples

4 Analyse factorielle multiple

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 34 / 254

Introduction a R Quelques references pour aller plus loin en R

Quelques references pour aller plus loin avec R

Initiation au langage R avec exemples dans RGui et R Commander :http ://www.stat.ucl.ac.be/SMCS/formation/FormationsIS/support.html

Le langage de programmation S et les environnements R-Gui et S-Plussous Windows (STAT2020 - Calcul Statistique sur ordinateur) :http ://www.stat.ucl.ac.be/cours/stat2020/documents/manuelslogiciels/syllabusR.pdf

Le site officiel de R :

http ://cran.r-project.org/

Avant tout, un mot d’ordre : R est un logiciel tres flexible, il sedecouvre donc facilement par essais-erreurs...

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 35 / 254

Introduction a R Quelques references pour aller plus loin en R

Quelques references pour aller plus loin avec FactoMineR

Le site de FactoMineR :http ://factominer.free.fr/

Husson F., Le S., Pages J. (2009) Analysede donnees avec R, Rennes : PressesUniversitaires de Rennes

L’ensemble des bases de donnees exploiteesdans le bouquin :http ://factominer.free.fr/livre/

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 36 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Analyses multivariees avec R Commander

1 Introduction a R

2 Analyse en composantes principalesPetite introduction au calcul matricielLa decomposition spectrale d’une matriceL’analyse en composantes principalesL’ACP sur les donnees Eurojob

3 Analyse des correspondances multiples

4 Analyse factorielle multiple

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 38 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Petite introduction au calcul matriciel

Une section pour vous aider a comprendre les notations mathematiquesdes methodes d’analyses multivariees et, par la, ce que l’on effectuecomme calculs sur les donnees

Qu’est ce qu’une matrice ?

Un tableau de donnees a deux entrees (lignes, colonnes)

Une table de contingence

Une base de donnees

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 39 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Exemples de matrices

A =

3 2 11 4 32 2 1

B =

3 1 42 2 41 2 3

Section suivante

Eurojob =

3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.29.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.110.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.76.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.123.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.115.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.77.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.26.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.82.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.412.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.013.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.641.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.79.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.427.8 0.3 24.5 0.6 8.4 13.3 2.7 16.7 5.722.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.56.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.87.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.766.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.223.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.716.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.04.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.421.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.031.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.934.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.023.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.348.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 40 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Dimensions d’une matrice

Les dimensions d’une matrice informent sur sa taille

C =

3 2 4 44 1 4 21 2 1 3

3 lignes

4 colonnes

⇒ C est une matrice de dimension (3× 4)

(3 lignes × 4 colonnes )

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 41 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Transposer une matrice

Transposer une matrice, c’est la faire pivoter sur sa diagonale

F =

3 2 11 4 32 2 13 2 1

t(F ) = F′ =

3 1 2 32 4 2 21 3 1 1

Les lignes deviennent les colonnes

Les colonnes deviennent les lignes

Les dimensions d’inversent (4× 3) → (3× 4)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 42 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Transposer un vecteur

E =

221

t(E ) = E ′ =(

2 2 1)

vecteur colonne vecteur ligne

Si la transposition n’est pas indiquee,un vecteur est toujours un vecteur colonne.

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 43 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Matrices symetriques

D =

1 0 00 2 30 3 2

D ′ =

1 0 00 2 30 3 2

= D

D est une matrice symetrique ⇔ D = D ′

Lorsque l’on transpose, rien ne change

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 44 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Matrices diagonales

E =

1 0 00 2 00 0 2

E ′ =

1 0 00 2 00 0 2

= diag (1, 2, 2)

E est une matrice symetrique et diagonale

Tous les elements non-nuls de la matrice sont sur sa diagonale

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 45 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Additions et multiplications

Un scalaire est un nombre isole en calcul matriciel

Addition d’un scalaire

3 + A = 3 +

3 2 11 4 32 2 1

=

3 + 3 3 + 2 3 + 13 + 1 3 + 4 3 + 33 + 2 3 + 2 3 + 1

=

6 5 44 7 65 5 4

Addition de deux matrices

A+D =

3 2 11 4 32 2 1

+

1 0 00 2 30 3 2

=

3 + 1 2 + 0 1 + 01 + 0 4 + 2 3 + 32 + 0 2 + 3 1 + 2

=

4 2 11 6 62 5 3

Multiplication par un scalaire

3× A = 3×

3 2 11 4 32 2 1

=

3× 3 3× 2 3× 13× 1 3× 4 3× 33× 2 3× 2 3× 1

=

9 6 33 12 96 6 3

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 46 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Produit scalaire de deux vecteurs

Attention : Multiplication 6= Produit (scalaire ou matriciel)

E ′ × F =(

2 2 1)

×

111

= 2× 1 + 2× 1 + 1× 1 = 5

On obtient un scalaire !

Que donnerait le produit dans l’ordre inverse ?

F ′ × E =(

1 1 1)

×

221

= 1× 2 + 1× 2 + 1× 1 = 5

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 47 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Produit matriciel de deux vecteurs

Et si on place le vecteur transpose derriere ?

F × E ′ =

(

111

)

× ( 2 2 1 ) =

(

1× 2 1× 2 1× 11× 2 1× 2 1× 11× 2 1× 2 1× 1

)

=

(

2 2 12 2 12 2 1

)

Attention : E × F ′ =

2 2 22 2 21 1 1

Que dire des dimensions ?

111

×

(

2 2 1)

=

2 2 12 2 12 2 1

( × ) ( × ) ( × )

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 48 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Produit matriciel de deux matrices

B × D = B D =

3 1 42 2 41 2 3

1 0 00 2 30 3 2

=

3× 1 + 1× 0 + 4× 0 3× 0 + 1× 2 + 4× 3 3× 0 + 1× 3 + 4× 22× 1 + 2× 0 + 4× 0 2× 0 + 2× 2 + 4× 3 2× 0 + 2× 3 + 4× 21× 1 + 2× 0 + 3× 0 1× 0 + 2× 2 + 3× 3 1× 0 + 2× 3 + 3× 2

1eligne de B × 1ecolonne de D 1eligne de B × 2ecolonne de D 1eligne de B × 3ecolonne de D

2eligne de B × 1ecolonne de D 2eligne de B × 2ecolonne de D 2eligne de B × 3ecolonne de D

3eligne de B × 1ecolonne de D 3eligne de B × 2ecolonne de D 3eligne de B × 3ecolonne de D

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 49 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Produit matriciel de deux matrices

Attention aux dimensions !

B D =

3 1 42 2 41 2 3

1 0 00 2 30 3 2

=

3 14 112 16 141 13 12

( × ) ( × ) ( × )

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 50 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Produit matriciel de deux matrices

Quelques regles a retenir concernant le produit de deux matrices :

Les matrices doivent avoir au moins une dimension commune

La matrice obtenue (si le calcul est possible) a pour dimensions lenombre de ligne de la premiere matrice et le nombre de colonnes de laseconde

La matrice obtenue se calcule comme suit :

Soit X une matrice (n × p) et Y une matrice (p ×m)

X Y = Z = {zik} ou zik =∑p

j=1 xij × yjk

avec i = 1, 2, ...n, j = 1, 2, ...p et k = 1, 2, ...m

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 51 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Premultiplier et postmultiplier par une matrice diagonale

diag (1, 2, 3) B =

1 0 00 2 00 0 3

3 1 42 2 41 2 3

=

3 1 44 4 83 6 9

Premultiplier par une matrice diagonale revient a multiplierles lignes uniquement !

B diag (1, 2, 3) =

3 1 42 2 41 2 3

1 0 00 2 00 0 3

=

3 2 122 4 121 4 9

Postmultiplier par une matrice diagonale revient a multiplierles colonnes uniquement !

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 52 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Inverser une matrice

L’inverse d’un nombre, c’est quoi ?

= Le nombre qui conduit a 1 par multiplication

Ex : l’inverse de 8 est 1/8 ; l’inverse de -1 est -1...

L’inverse d’une matrice, c’est quoi ?

= La matrice qui conduit a la matrice identite par produit matriciel

La matrice identite, c’est quoi ?

= Une matrice diagonale composee uniquement de 1

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 53 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

La matrice identite

Matrice identite est une matrice diagonale dont la diagonale estuniquement composee de 1

I3 =

1 0 00 1 00 0 1

= diag (1, 1, 1)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 54 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

La matrice que l’on veut inverser doit :

Etre carree

Une matrice carree est une matrice dont le nombre de lignes egale lenombre de colonnes.

A =

3 2 11 4 32 2 1

C =

3 2 4 44 1 4 21 2 1 3

Etre de rang complet

Un matrice de rang complet a autant de lignes/colonnes independantesque de lignes/colonnes dans la matrice.

B =

3 1 42 2 41 2 3

D =

1 0 00 2 30 3 2

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 55 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Inverse de la matrice A

A =

3 2 11 4 32 2 1

A−1 =

−1 0 −1−2.5 −0.5 4

3 1 −5

A A−1 =

3 2 11 4 32 2 1

−1 0 −1−2.5 −0.5 4

3 1 −5

=

1 0 00 1 00 0 1

= I3

Une propriete bien utile a connaıtre :

A A−1 = A−1 A = Ip

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 56 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Exercice : Inversez la matrice ci-dessous

(

2 00 3

)(

2 00 3

)

−1

= ?

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 57 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Exercice : Inversez la matrice ci-dessous(

2 00 3

)(

2 00 3

)

−1

= ?

Piste 1 pour resoudre :(

2 00 3

) (

a bc d

)

=

(

1 00 1

)

Piste 2 pour resoudre :

2× a + 0× c = 1

2× b + 0× d = 0

0× a + 3× c = 0

0× b + 3× d = 1

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 58 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Exemple de code R pour la manipulation de matrices

A =

3 2 11 4 32 2 1

> A1 = matrix(c(3, 1, 2, 2, 4, 2, 1, 3, 1), ncol = 3)

> v1 = c(3, 1, 2)

> v2 = c(2, 4, 2)

> v3 = c(1, 3, 1)

> A2 = cbind(v1, v2, v3)

> A1

[,1] [,2] [,3]

[1,] 3 2 1

[2,] 1 4 3

[3,] 2 2 1

> A2

v1 v2 v3

[1,] 3 2 1

[2,] 1 4 3

[3,] 2 2 1

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 59 / 254

Analyse en composantes principales Petite introduction au calcul matriciel

Exemple de code R pour la manipulation de matrices

A =

3 2 11 4 32 2 1

C =

3 2 4 44 1 4 21 2 1 3

> A = A1 = matrix(c(3, 1, 2, 2, 4, 2, 1, 3, 1), ncol = 3)

> C = matrix(c(3, 4, 1, 2, 1, 2, 4, 4, 1, 4, 2, 3), nrow = 3)

Produit matriciel : C A ou C ′ A ?

> t(C)

[,1] [,2] [,3]

[1,] 3 4 1

[2,] 2 1 2

[3,] 4 4 1

[4,] 4 2 3

> t(C) %*% A

[,1] [,2] [,3]

[1,] 15 24 16

[2,] 11 12 7

[3,] 18 26 17

[4,] 20 22 13

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 60 / 254

Analyse en composantes principales La decomposition spectrale d’une matrice

Analyses multivariees avec R Commander

1 Introduction a R

2 Analyse en composantes principalesPetite introduction au calcul matricielLa decomposition spectrale d’une matriceL’analyse en composantes principalesL’ACP sur les donnees Eurojob

3 Analyse des correspondances multiples

4 Analyse factorielle multiple

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 61 / 254

Analyse en composantes principales La decomposition spectrale d’une matrice

La decomposition spectrale d’une matrice

Section precedente

La decomposition spectrale d’une matrice (d’une base de donnees)consiste a rechercher son squelette en :

reorganisant l’information de maniere hierarchique(avec l’idee que l’on veut reduire le nombre de dimensions)

de sorte a discriminer au mieux les points(inertie decroissante sur les nouvelles dimensions)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 62 / 254

Analyse en composantes principales La decomposition spectrale d’une matrice

La Decomposition spectrale d’une matrice

Les r couples de valeurs propres (λi ) et de vecteurs propres (vi ) forment ladecomposition spectrale de la matrice M.

Ils correspondent aux r solutions possibles a l’equation suivante :

Mvi = λivi

r = rang(M) = nombre minimal de lignes/colonnes independantes

Quelques proprietes interessantes :

r∑

i=1

λi = trace(M)r

i=1

λi = |M| = det(M)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 63 / 254

Analyse en composantes principales La decomposition spectrale d’une matrice

La Decomposition spectrale d’une matrice

Les vecteurs propres (vi ) sont :

orthogonaux v ′i vj = 0 pour i 6= j

normes v ′i vi = 1

→ on dit qu’ils sont orthonormes

Aucune information n’est perdue par la decomposition spectrale !

(on peut toujours reconstruire la matrice de depart)

La decomposition spectrale d’une matrice est la methode de base desanalyses factorielles (ACP, ACM, AFM, etc.)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 64 / 254

Analyse en composantes principales L’analyse en composantes principales

Analyses multivariees avec R Commander

1 Introduction a R

2 Analyse en composantes principalesPetite introduction au calcul matricielLa decomposition spectrale d’une matriceL’analyse en composantes principalesL’ACP sur les donnees Eurojob

3 Analyse des correspondances multiples

4 Analyse factorielle multiple

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 65 / 254

Analyse en composantes principales L’analyse en composantes principales

L’analyse en composantes principales

L’Analyse en Composantes Principales (ACP) consiste en unedecomposition spectrale d’une matrice particuliere :

la matrice de variances-covariances

la matrice des correlations

L’objectif reste le meme :

reorganiser l’information de maniere hierarchique(avec l’idee que l’on veut reduire le nombre de dimensions)

de sorte a discriminer au mieux les individus(variance decroissante sur les nouvelles dimensions)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 66 / 254

Analyse en composantes principales L’analyse en composantes principales

L’analyse en Composantes Principales

Les r couples (r = rang(X ′X )) de valeurs propres (λi ) et de vecteurspropres (vi ) forment la decomposition spectrale de la matrice (X ′X ).

Il s’agit des r solutions possibles a l’equation suivante :

(X ′X )vi = λivi

Deux proprietes interessantes :∑r

i=1 λi = trace((X ′X )) =∑p

j=1 sjj = somme des variancessi l’on travaille sur la matrice de variances-covariances∑r

i=1 λi = trace((X ′X )) =∑p

j=1 rjj = psi l’on travaille sur la matrice de correlations

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 67 / 254

Analyse en composantes principales L’analyse en composantes principales

L’analyse en Composantes Principales

Les vecteurs propres obtenus vont fournir l’orientation des nouvellesdimensions, appelees Composantes Principales

Ces Composantes Principales sont hierarchisees :

λ1 ≥ λ2 ≥ ... ≥ λp (avec seulement r valeurs propres non-nulles)

la variance des projections des points (individus) sur les composantesprincipales decroıt proportionnellement aux valeurs propres associees

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 68 / 254

Analyse en composantes principales L’analyse en composantes principales

Variances-covariances ou Correlations

L’utilisation de la matrice de variances-covariances n’influence pas lesresultats tant que :

les unites des variables restent les memes

les variances des variables restent sensiblement les memes

L’utilisation de la matrice de correlations :

ne peut qu’ameliorer le resultat de l’ACP

en mettant toutes les variables sur le meme pied(pas de hierarchie a priori)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 69 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

Analyses multivariees avec R Commander

1 Introduction a R

2 Analyse en composantes principalesPetite introduction au calcul matricielLa decomposition spectrale d’une matriceL’analyse en composantes principalesL’ACP sur les donnees Eurojob

3 Analyse des correspondances multiples

4 Analyse factorielle multiple

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 70 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

La base de donnees Eurojob

Donnees concernent 26 pays europeens

Informe sur la repartition (en %) des travailleurs dans 9 secteursd’activite

Source : Euromonitor (1979), European Marketing Data and Statistics, London :Euromonitor Publications, 76-77.

(http ://lib.stat.cmu.edu/DASL/Datafiles/EuropeanJobs.html)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 71 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

la fonction row.names

La fonction row.names permet d’extraıre ou imputer des noms aux”individus”d’une matrice ou d’un data frame.

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 72 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

Analyser les variances et covariances

Dans le cas d’une ACP, les variables sont toutes considerees commecontinues. Il faut donc :

Analyser et comparer les distributions (min, max, moyenne, variance, etc.)

summary : Statistiques > Resumes > Jeu de donnees actif

numSummary : Statistiques > Resumes > Stat. Descriptives

Analyser les correlations (ou covariances) entre variables

cor : Statistiques > Resumes > Matrice de correlations

scatterplot.matrix : Graphes > Matrice de nuages de points

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 73 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

La fonction scatterplot.matrix

La fonction scatterplot.matrix fournit une matrice de graphes XYpermettant d’observer en un coup d’oeil tous les couples de variables.Menu R Commander : Graphes > Matrice de nuages de points

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 74 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

La fonction scatterplot.matrix

La fonction scatterplot.matrix fournit une matrice de graphes XYpermettant d’observer en un coup d’oeil tous les couples de variables.Menu R Commander : Graphes > Matrice de nuages de points

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 75 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

Analyser les variances et correlations

Agr Min Man PS Con SI Fin SPS TCminimum 2.70 0.10 7.90 0.10 2.80 5.20 0.50 5.30 3.20

Q1 7.70 0.52 23.00 0.60 7.53 9.25 1.22 16.25 5.70mediane 14.45 0.95 27.55 0.85 8.35 14.40 4.65 19.65 6.70moyenne 19.13 1.25 27.01 0.91 8.17 12.96 4.00 20.02 6.55

ecart-type 15.55 0.97 7.01 0.38 1.65 4.58 2.81 6.83 1.39variance 241.70 0.94 49.11 0.14 2.71 20.93 7.88 46.64 1.94

Q3 23.67 1.80 30.20 1.17 8.97 16.88 5.92 24.12 7.07maximum 66.80 3.10 41.20 1.90 11.50 19.10 11.30 32.40 9.40

Agr Min Man PS Con SI Fin SPS TCAgr 1.00 0.04 -0.67 -0.40 -0.54 -0.74 -0.22 -0.75 -0.56Min 0.04 1.00 0.44 0.40 -0.03 -0.40 -0.44 -0.28 0.16Man -0.67 0.44 1.00 0.38 0.49 0.20 -0.16 0.15 0.35

PS -0.40 0.40 0.38 1.00 0.06 0.20 0.11 0.13 0.38Con -0.54 -0.03 0.49 0.06 1.00 0.36 0.02 0.16 0.39

SI -0.74 -0.40 0.20 0.20 0.36 1.00 0.37 0.57 0.19Fin -0.22 -0.44 -0.16 0.11 0.02 0.37 1.00 0.11 -0.25

SPS -0.75 -0.28 0.15 0.13 0.16 0.57 0.11 1.00 0.57TC -0.56 0.16 0.35 0.38 0.39 0.19 -0.25 0.57 1.00

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 76 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

L’ACP dans R Commander

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 77 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

Les sorties de l’ACP : les valeurs propres

Deux manieres (parmi d’autres) de visualiser ces valeurs propres :

barplot(resultACP$eig[,2], names.arg=seq(1,9), xlab=NULL,

ylab="Pourcentage de variance")

plot(resultACP$eig[,2],type=’l’,xlab="Valeurs

propres",ylab="Pourcentage de variance")

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 78 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

Les sorties de l’ACP : les valeurs propres

barplot(res$eig[,2], names.arg=seq(1,9),

xlab=NULL, ylab="Pourcentage de

variance")

plot(resultACP$eig[,2], type=’l’, xlab=

"Valeurs propres", ylab= "Pourcentage de

variance" )

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 79 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

Combien de composantes principales retenir ?

Trois regles sont generalement proposees :

Toutes les composantes dont la valeur propre est superieure a 1

Toutes les composantes dont le pourcentage de variance est superieura (100% / nombre de variables)

Toutes les composantes se situant avant un ”coude” sur le graphe desvaleurs propres (ou des pourcentages de variance)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 80 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

Les sorties de l’ACP : l’analyse des variables

resultACP$var

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 81 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

Les sorties de l’ACP : l’analyse des variables

resultACP$var

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 82 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

Les sorties de l’ACP : l’analyse des variables

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 83 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

Interpretation des Composantes Principales

Etape 1 : Quelles variables sont bien representees sur le plan ?

Correlation forte avec au moins une des composantes

La somme des carres des correlations avec les deux composantes duplan s’approche de 1 (vecteur proche du cercle des correlations)

Etape 2 : Composante par composante, interpretez en fonction...

de l’importance des correlations

du sens des correlations (positives, negatives)

de la contribution des variables dans la composante

de la qualite de representation des variables

mais aussi de votre connaissance sur le sujet !

Etape 3 : Interpreter en terme de cadrant (quart de plan)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 84 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

Interpretation des Composantes Principales

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 85 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

Interpretation des Composantes Principales

La fonction dimdesc presente les variables les plus fortement correleesavec les composantes principales.

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 86 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

Les sorties de l’ACP : l’analyse des individus

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 87 / 254

Analyse en composantes principales L’ACP sur les donnees Eurojob

Les sorties de l’ACP : l’analyse des individus

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 88 / 254

Analyse des correspondances multiples

Importer le jeu de donnees Ronfle.sav

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 90 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

Analyses multivariees avec R Commander

1 Introduction a R

2 Analyse en composantes principales

3 Analyse des correspondances multiplesAnalyse factorielle des correspondances simplesDiscretiser une variable continueAnalyse des Correspondances MultiplesL’analyse des Correspondances Multiples en R Commander

4 Analyse factorielle multiple

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 91 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

Consommation d’alcool et de tabac

Effectifs observesTabac

TotalNon-fumeur Fumeur

Alc

ool Aucun verre 23 19 42

De 1 a 4 verres 10 23 33Plus de 4 verres 3 22 25

Total 36 64 100

Quelles relations entre ces deux variables ?

Test d’independance (chi-carre)

Force de l’association (le φ, le V de Cramer)

Analyse factorielle des correspondances

Section suivante

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 92 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

Test d’independance

Tester l’independance entre deux variables revient a mesurer l’ecart entrece qu’on observe et ce que l’on s’attend a observer dans une situationtheorique d’independance

Effectifs observesTabac

TotalNon-fumeur Fumeur

Alc

ool Aucun verre 23 19 42

De 1 a 4 verres 10 23 33Plus de 4 verres 3 22 25

Total 36 64 100

Effectifs attendusTabac

TotalNon-fumeur Fumeur

Alc

ool Aucun verre 15.12 26.88 42

De 1 a 4 verres 11.88 21.12 33Plus de 4 verres 9.00 16.00 25

Total 36 64 100

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 93 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

Test d’independance

Tester l’independance entre deux variables revient a mesurer l’ecart entrece qu’on observe et ce que l’on s’attend a observer dans une situationtheorique d’independance

Q =

I∑

i=1

J∑

j=1

(nij − eij)2

eij

≈I

i=1

J∑

j=1

(nij − ni•n•j/n••)2

ni•n•j/n••

H0∼ χ2(I−1)(J−1)

H0 : Proba(i ,j) = Proba(i) Proba(j) H1 : Proba(i ,j) 6= Proba(i) Proba(j)

Si l’hypothese d’independance est rejetee (ici : p − valeur = 0.001408), ilest interessant d’observer la contribution de chaque modalite a ce rejet→ Analyse factorielle des correspondances simples

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 94 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

L’AFCS sur une base de donnees

On peut appliquer l’analyse des correspondances simples directement surune base de donnee (a la place d’un tableau croise) si :

Lorsque l’on additionne toutes les valeurs d’une ligne, on peut tirer duresultat une interpretation pertinente(egalement avec les autres operations mathematiques telle la moyenne)

Lorsque l’on additionne toutes les valeurs d’une colonne, on peut tirerdu resultat une interpretation pertinente(egalement avec les autres operations mathematiques telle la moyenne)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 95 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

La base de donnees Eurojob

Agr Min Man PS Con SI Fin SPS TC

Belgium 3.30 0.90 27.60 0.90 8.20 19.10 6.20 26.60 7.20Denmark 9.20 0.10 21.80 0.60 8.30 14.60 6.50 32.20 7.10

France 10.80 0.80 27.50 0.90 8.90 16.80 6.00 22.60 5.70W. Germany 6.70 1.30 35.80 0.90 7.30 14.40 5.00 22.30 6.10

Ireland 23.20 1.00 20.70 1.30 7.50 16.80 2.80 20.80 6.10Italy 15.90 0.60 27.60 0.50 10.00 18.10 1.60 20.10 5.70

Luxembourg 7.70 3.10 30.80 0.80 9.20 18.50 4.60 19.20 6.20Netherlands 6.30 0.10 22.50 1.00 9.90 18.00 6.80 28.50 6.80

United Kingdom 2.70 1.40 30.20 1.40 6.90 16.90 5.70 28.30 6.40Austria 12.70 1.10 30.20 1.40 9.00 16.80 4.90 16.80 7.00Finland 13.00 0.40 25.90 1.30 7.40 14.70 5.50 24.30 7.60Greece 41.40 0.60 17.60 0.60 8.10 11.50 2.40 11.00 6.70Norway 9.00 0.50 22.40 0.80 8.60 16.90 4.70 27.60 9.40

Portugal 27.80 0.30 24.50 0.60 8.40 13.30 2.70 16.70 5.70Spain 22.90 0.80 28.50 0.70 11.50 9.70 8.50 11.80 5.50

Sweden 6.10 0.40 25.90 0.80 7.20 14.40 6.00 32.40 6.80Switzerland 7.70 0.20 37.80 0.80 9.50 17.50 5.30 15.40 5.70

Turkey 66.80 0.70 7.90 0.10 2.80 5.20 1.10 11.90 3.20Bulgaria 23.60 1.90 32.30 0.60 7.90 8.00 0.70 18.20 6.70

Czechoslovakia 16.50 2.90 35.50 1.20 8.70 9.20 0.90 17.90 7.00E. Germany 4.20 2.90 41.20 1.30 7.60 11.20 1.20 22.10 8.40

Hungary 21.70 3.10 29.60 1.90 8.20 9.40 0.90 17.20 8.00Poland 31.10 2.50 25.70 0.90 8.40 7.50 0.90 16.10 6.90

Rumania 34.70 2.10 30.10 0.60 8.70 5.90 1.30 11.70 5.00USSR 23.70 1.40 25.80 0.60 9.20 6.10 0.50 23.60 9.30

Yugoslavia 48.70 1.50 16.80 1.10 4.90 6.40 11.30 5.30 4.00

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 96 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

Somme et moyenne sur la base de donnees Eurojob

Agr Min Man PS Con SI Fin SPS TC Total

Belgium 3.30 0.90 27.60 0.90 8.20 19.10 6.20 26.60 7.20 100.00Denmark 9.20 0.10 21.80 0.60 8.30 14.60 6.50 32.20 7.10 100.00

France 10.80 0.80 27.50 0.90 8.90 16.80 6.00 22.60 5.70 100.00W. Germany 6.70 1.30 35.80 0.90 7.30 14.40 5.00 22.30 6.10 100.00

Ireland 23.20 1.00 20.70 1.30 7.50 16.80 2.80 20.80 6.10 100.00Italy 15.90 0.60 27.60 0.50 10.00 18.10 1.60 20.10 5.70 100.00

Luxembourg 7.70 3.10 30.80 0.80 9.20 18.50 4.60 19.20 6.20 100.00Netherlands 6.30 0.10 22.50 1.00 9.90 18.00 6.80 28.50 6.80 100.00

United Kingdom 2.70 1.40 30.20 1.40 6.90 16.90 5.70 28.30 6.40 100.00Austria 12.70 1.10 30.20 1.40 9.00 16.80 4.90 16.80 7.00 100.00Finland 13.00 0.40 25.90 1.30 7.40 14.70 5.50 24.30 7.60 100.00Greece 41.40 0.60 17.60 0.60 8.10 11.50 2.40 11.00 6.70 100.00Norway 9.00 0.50 22.40 0.80 8.60 16.90 4.70 27.60 9.40 100.00

Portugal 27.80 0.30 24.50 0.60 8.40 13.30 2.70 16.70 5.70 100.00Spain 22.90 0.80 28.50 0.70 11.50 9.70 8.50 11.80 5.50 100.00

Sweden 6.10 0.40 25.90 0.80 7.20 14.40 6.00 32.40 6.80 100.00Switzerland 7.70 0.20 37.80 0.80 9.50 17.50 5.30 15.40 5.70 100.00

Turkey 66.80 0.70 7.90 0.10 2.80 5.20 1.10 11.90 3.20 100.00Bulgaria 23.60 1.90 32.30 0.60 7.90 8.00 0.70 18.20 6.70 100.00

Czechoslovakia 16.50 2.90 35.50 1.20 8.70 9.20 0.90 17.90 7.00 100.00E. Germany 4.20 2.90 41.20 1.30 7.60 11.20 1.20 22.10 8.40 100.00

Hungary 21.70 3.10 29.60 1.90 8.20 9.40 0.90 17.20 8.00 100.00Poland 31.10 2.50 25.70 0.90 8.40 7.50 0.90 16.10 6.90 100.00

Rumania 34.70 2.10 30.10 0.60 8.70 5.90 1.30 11.70 5.00 100.00USSR 23.70 1.40 25.80 0.60 9.20 6.10 0.50 23.60 9.30 100.00

Yugoslavia 48.70 1.50 16.80 1.10 4.90 6.40 11.30 5.30 4.00 100.00Moyenne 19.13 1.25 27.01 0.91 8.17 12.96 4.00 20.02 6.55

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 97 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

AFCS vs ACP

En travaillant avec l’AFCS :

On change de standardisation(de centrer-reduire a une division par la racine du profil moyen)

On change de metrique(d’Euclidienne a Chi-carre)

On obtient une representation simultanee

des variables et des individus

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 98 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

AFCS dans R Commander : la fonction CA

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 99 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

Sorties de la fonction CA

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 100 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

Valeurs propres

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 101 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

Les sorties cles pour les colonnes

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 102 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

Les sorties cles pour les lignes

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 103 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

La fonction dimdesc : Description des dimensions

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 104 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

Analyse Factorielle des Correspondances Simples

On obtient :

Toutes les modalites des deux meta-variables representees sur un meme plan

La projection d’un profil ligne (colonne) est, a une constante pres, lamoyenne ponderee des projections de tous les profils colonnes (lignes)

Effet des relations quasi-barycentriques :

ψk(i) = ψki =1√λk

J∑

j=1

rijφkj φk(i) = φki =1√λk

I∑

i=1

cijψki

Par consequent :

Profils lignes (colonnes) proches ↔ profils semblables

Profils lignes (colonnes) loin du centre ↔ Profils eloignes du profil moyen

Deux profils ligne (indiv.) et colonnes (var.) loin du centre et proche l’un del’autre ↔ association forte et positive

Deux profils ligne (indiv.) et colonnes (var.) loin du centre et eloignes l’un del’autre ↔ association forte et negative

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 105 / 254

Analyse des correspondances multiples Analyse factorielle des correspondances simples

Sortie graphique de l’AFCS : la fonction plot.CA

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 106 / 254

Analyse des correspondances multiples Discretiser une variable continue

Analyses multivariees avec R Commander

1 Introduction a R

2 Analyse en composantes principales

3 Analyse des correspondances multiplesAnalyse factorielle des correspondances simplesDiscretiser une variable continueAnalyse des Correspondances MultiplesL’analyse des Correspondances Multiples en R Commander

4 Analyse factorielle multiple

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 107 / 254

Analyse des correspondances multiples Discretiser une variable continue

Discretiser une variable continue, utile ?

Jump2back

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 108 / 254

Analyse des correspondances multiples Discretiser une variable continue

Discretiser une variable continue, utile ?

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 109 / 254

Analyse des correspondances multiples Discretiser une variable continue

Discretiser une variable continue, utile ?

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 110 / 254

Analyse des correspondances multiples Discretiser une variable continue

Discretiser une variable continue, utile ?

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 111 / 254

Analyse des correspondances multiples Discretiser une variable continue

Discretiser une variable continue, utile ?

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 112 / 254

Analyse des correspondances multiples Discretiser une variable continue

Discretiser une variable continue, utile ?

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 113 / 254

Analyse des correspondances multiples Discretiser une variable continue

Discretiser une variable continue en R Commander

Via les menus

Classes de taille egale (fonction de l’etendue)

Classes basees sur les quantiles (effectifs egaux)

Classes ’naturelles’ (algorithme k-means - cf. Clustering)

Avec la fonction cut

Classes de taille egale (fonction de l’etendue)

Classes predefinies (ex : classes d’age)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 114 / 254

Analyse des correspondances multiples Discretiser une variable continue

Discretiser une variable continue via les menus

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 115 / 254

Analyse des correspondances multiples Discretiser une variable continue

Statistiques descriptives sur les classes

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 116 / 254

Analyse des correspondances multiples Discretiser une variable continue

Discretiser une variable continue via les menus

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 117 / 254

Analyse des correspondances multiples Discretiser une variable continue

La fonction cut

cut( x, breaks, labels=NULL,

include.lowest=FALSE, right=TRUE, ... )

x : la variable a discretiser

breaks : soit le nombre de classessoit les limites des classes sous forme vectorielle

labels : labels des classes

include.lowest : une valeur egale a la plus petite (grande) bornedoit-elle etre incluse dans la premiere (derniere) classe ? (siright=FALSE )

right : Borne fermee a droite ? (ex : (1,2] )

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 118 / 254

Analyse des correspondances multiples Discretiser une variable continue

Discretiser une variable continue via la fonction cut

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 119 / 254

Analyse des correspondances multiples Analyse des Correspondances Multiples

Analyses multivariees avec R Commander

1 Introduction a R

2 Analyse en composantes principales

3 Analyse des correspondances multiplesAnalyse factorielle des correspondances simplesDiscretiser une variable continueAnalyse des Correspondances MultiplesL’analyse des Correspondances Multiples en R Commander

4 Analyse factorielle multiple

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 120 / 254

Analyse des correspondances multiples Analyse des Correspondances Multiples

Objectif de l’analyse des correspondances multiples

En ACM, l’objectif est d’obtenir une representation graphique ou...

toutes les modalites des variables initiales et les individus sontrepresentes sur un meme plan

la proximite (l’eloignement) de d’une modalite et d’un individu prendun sens intrinseque

le centre du plan ou de l’axe (le zero) a egalement du sens intrinseque

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 121 / 254

Analyse des correspondances multiples Analyse des Correspondances Multiples

La table disjonctive complete

Lorsque l’on applique une ACM, le logiciel transforme la base de donneescontenant p variables discretes (ou discretisees) en un table disjonctivecomplete (Z ) contenant Q variables binaires (avec Q =

∑pj=1 (lj − 1) ou lj

est le nombre de niveau de la variable j)

Sexe Ronfle Tabac AlcoolDisc AgeDiscr IMCDiscrFemme Ne ronfle pas Fumeur Aucun verre <40 NormalHomme Ne ronfle pas Fumeur De 1 a 4 verres <40 Insuf.Femme Ne ronfle pas Fumeur Aucun verre 50-59 Insuf.Homme Ronfle Fumeur De 1 a 4 verres 60-69 Insuf.

Sexe Ronfle Tabac Alc.1 Alc.2 Age.1 Age.2 Age.3 Age.4 IMC.1 IMC.2 IMC.21 0 1 0 0 0 0 0 0 1 0 00 0 1 1 0 0 0 0 0 0 0 01 0 1 0 0 0 1 0 0 0 0 00 1 1 1 0 0 0 1 0 0 0 0

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 122 / 254

Analyse des correspondances multiples Analyse des Correspondances Multiples

La table de Burt

Ensuite, une table de Burt (B) est formee. Il s’agit d’une sorte de table decontingence multivariee :

B = Z ′Z =

D1 Z ′1Z2 . . . Z ′1Zp

Z ′2Z1 D2...

.... . .

...Z ′pZ1 . . . . . . Dp

Avec Z ′j Zk = la table de contingence (partielle) entre la variable j et k etDj = la matrice diagonale des effectifs des (lj − 1) niveaux de la variable j

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 123 / 254

Analyse des correspondances multiples Analyse des Correspondances Multiples

Decomposition spectrale de l’ACM

C’est sa decomposition spectrale de la table de Burt (B) qui permet al’analyse des correspondances multiples.

(

1

pD−1

B B

)

φq = λqφq

Avec DB = diag(D1,D2, ...,Dp) = la diagonale de la table de Burt

Il y a Q solutions possibles a l’equation ci-dessus (avec Q =∑p

j=1 (lj − 1)ou lj est le nombre de niveau de la variable j)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 124 / 254

Analyse des correspondances multiples Analyse des Correspondances Multiples

Interpretation graphique

Les deux elements cles de l’interpretation des resultats graphiques del’ACM sont les relations quasi-barycentriques :

φq =1

λq

D−1B Z ′ψq ψq =

1√

λq

1

pZφq

Dont on peut tirer deux grandes regles d’interpretation des graphes :

La projection d’une categorie est, a une constante pres, la moyennearithmetique des projections des individus qui la compose

La projection d’un individu est, a une constante pres, la moyennearithmetique des projections des modalites auxquelles il appartient

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 125 / 254

Analyse des correspondances multiples Analyse des Correspondances Multiples

Interpretation graphique

La projection d’une categorie est, a une constante pres, la moyennearithmetique des projections des individus qui la compose

La projection d’un individu est, a une constante pres, la moyennearithmetique des projections des modalites auxquelles il appartient

Modalites proches ↔ Beaucoup d’individus en commun ↔Association forte positive

Modalites opposees ↔ Peu d’individus en commun ↔ Associationforte negative

Le centre du graphe est le centre de gravite du nuage de points

La moyenne arithmetique des projections des individusLa moyenne ponderee des projections des modalitesConsequence : les modalites ayant beaucoup plus de poids que lesautres resteront toujours proche du centre

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 126 / 254

Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander

Analyses multivariees avec R Commander

1 Introduction a R

2 Analyse en composantes principales

3 Analyse des correspondances multiplesAnalyse factorielle des correspondances simplesDiscretiser une variable continueAnalyse des Correspondances MultiplesL’analyse des Correspondances Multiples en R Commander

4 Analyse factorielle multiple

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 127 / 254

Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander

L’analyse des Correspondances Multiples en R Commander

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 128 / 254

Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander

Les valeurs propres

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 129 / 254

Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander

Les valeurs propres

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 130 / 254

Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander

Les resultats pour les variables

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 131 / 254

Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander

La fonction dimdesc

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 132 / 254

Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander

La fonction plot.MCA

plot.MCA( x, axes=c(1, 2), xlim=NULL, ylim=NULL, invisible = NULL,

col.ind="blue", col.var="red", label="all", title=NULL,

habillage="none", palette=NULL, new.plot=TRUE, ...)

x : un objet resultat de la fonction MCA

axes : les numeros des facteurs que l’on desire representer

xlim et ylim : l’etendue representee des facteurs (cf. minmax dans le code)

invisible : liste de ce que l’on desire rendre invisible (”ind”, ”var”, ”ind.sup”,”quali.sup”, ”quanti.sup”)

col.ind : couleur pour les individus

col.var : couleur pour les variables

label : liste des points pour lesquels on souhaite ajouter un label (”ind”, ”var”,”ind.sup”, ”quali.sup”, ”quanti.sup”)

title : titre (entre guillemets)

habillage : ’none’ = une couleur pour les indiv., une autre pour les var. ; ’quali’= une couleur differente pour chaque variable ; position d’une variable = couleursdifferentes pour les indiv. en fonction de leur reponse

palette : liste de couleur a utiliser (ex : palette=palette(c(’black’,’red’)) )

new.plot : FALSE permet d’ajouter de nouveaux point au graphe existant

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 133 / 254

Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander

Resultats graphiques

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 134 / 254

Analyse des correspondances multiples L’analyse des Correspondances Multiples en R Commander

Resultats graphiques

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 135 / 254

Analyse factorielle multiple Qu’est ce que l’analyse factorielle multiple ?

Analyses multivariees avec R Commander

1 Introduction a R

2 Analyse en composantes principales

3 Analyse des correspondances multiples

4 Analyse factorielle multipleQu’est ce que l’analyse factorielle multiple ?L’AFM avec R Commander

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 137 / 254

Analyse factorielle multiple Qu’est ce que l’analyse factorielle multiple ?

ACP, ACM,... AFM

Variables continues ou pseudo-continues→ Analyse en composantes principales (ACP)

Variables discretes ou discretisees→ Analyse des correspondances multiples (ACM)

Mix de variables continues et discretes→ Analyse factorielle multiple (AFM)

Groupes variables continues et/ou discretes→ Analyse factorielle multiple (AFM)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 138 / 254

Analyse factorielle multiple Qu’est ce que l’analyse factorielle multiple ?

Une generalisation des correlations canoniques

Les correlations canoniques :

Deux groupes de variables continues

L’objectif est de trouver une combinaison lineaire des variables danschaque groupe → variables canoniques

Avec la contrainte de maximiser la correlation entre ces deux variablescanoniques

Cette correlation et la representation graphique des variables initialessur le plan forme par les variables canoniques informent sur l’intensitede la relation entre les deux groupes de variables

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 139 / 254

Analyse factorielle multiple Qu’est ce que l’analyse factorielle multiple ?

Une generalisation des correlations canoniques

L’analyse factorielle multiple (AFM) :

Plusieurs groupes de variables continues ou discretes(on impose une coherence interne des groupes)

L’objectif est de trouver les axes factoriels principaux de l’ensembledes variables ainsi que ceux de chaque groupe de variables

Avec la contrainte d’egaliser l’information apportee par chaque groupe(ponderation des variables) dans l’analyse globale

L’analyse simultanee des axes factoriels principaux issus de l’ensembledes variables et des groupes ainsi que le positionnement des variablesinitiales informent sur l’intensite de la relation entre les groupes devariables et la/les structure(s) commune(s) a l’ensemble

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 140 / 254

Analyse factorielle multiple Qu’est ce que l’analyse factorielle multiple ?

Mise en oeuvre de l’analyse factorielle multiple

L’algorithme AFMULT (1) se decompose en 3 etapes :

1 ACP et/ou ACM sur chaque groupe de variables

2 Ponderation des variables en fonction de la premiere valeur propre del’ACP/ACM du groupe dont la/les variable(s) fait/font partie→ Chaque groupe apporte alors une unite d’information

3 ACP sur l’ensemble des variables en tenant compte des ponderations(les axes factoriels principaux des ACP/ACM preliminaires sontajoutes en variables illustratives)

(1) Escofier, B. and Pages, J. (1994) Multiple Factor Analysis (AFMULTpackage), Computational Statistics and Data Analysis, 18, 121-140.

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 141 / 254

Analyse factorielle multiple Qu’est ce que l’analyse factorielle multiple ?

Mise en oeuvre de l’analyse factorielle multiple

Ponderation variable k = a(k)λ(j ,1)

Ou a(k) est le poids initial de la variable k. En l’absence de specification parl’utilisateur, a(k) = 1 pour les continues et a(k) = proportion des individus quine possedent pas la caracteristique k pour les discretes.

Et λ(j , 1) est la premiere valeur propre de l’ACP/ACM preliminaire du groupe jdont la variable k fait partie

Dans toutes les directions, l’inertie maximum du nuage de point d’ungroupe est 1

La premiere valeur propre de l’ACP/ACM sur le groupe j une foispondere vaut 1

Aucun groupe ne va dominer le premier axe factoriel commun

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 142 / 254

Analyse factorielle multiple Qu’est ce que l’analyse factorielle multiple ?

Mise en oeuvre de l’analyse factorielle multiple

Groupe :Groupe 1 Groupe 2

· · · Groupe j · · · Groupe J(ex : continues) (ex : discretes)

D.1 D.2 · · ·

Variable : V.1 V.2 V.3 V.4 V.5 V.6 V.7 · · · · · · V.k · · · V.K

Individu : 12

.

.

.i

.

.

.I

Groupe 1 (continues) Groupe 2 (discretes)

Age IMC AlcoolSexe Ronfle Tabac

F H Oui Non Oui NonIndividu : 1 33 25.00 0 1 0 0 1 1 0

2 38 16.20 4 0 1 0 1 1 0...

100 46 30.02 8 0 1 1 0 0 1

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 143 / 254

Analyse factorielle multiple L’AFM avec R Commander

Analyses multivariees avec R Commander

1 Introduction a R

2 Analyse en composantes principales

3 Analyse des correspondances multiples

4 Analyse factorielle multipleQu’est ce que l’analyse factorielle multiple ?L’AFM avec R Commander

5 Clustering

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 144 / 254

Analyse factorielle multiple L’AFM avec R Commander

La fonction MFA

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 145 / 254

Analyse factorielle multiple L’AFM avec R Commander

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 146 / 254

Analyse factorielle multiple L’AFM avec R Commander

Resultats des ACP et/ou ACM preliminaires

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 147 / 254

Analyse factorielle multiple L’AFM avec R Commander

Resultats des ACP et/ou ACM preliminaires

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 148 / 254

Analyse factorielle multiple L’AFM avec R Commander

Resultats des ACP et/ou ACM preliminaires

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 149 / 254

Analyse factorielle multiple L’AFM avec R Commander

Valeurs propres de l’AFM (analyse globale)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 150 / 254

Analyse factorielle multiple L’AFM avec R Commander

Mesure de similarite entre les groupes de variables

L’inertie des I × J projections d’individus sur un axe factoriel global peutetre decomposee en deux inerties complementaires :

l’inertie intra individuelle (Within)

l’inertie inter individuelle (Between)

Ratio d’inerties = Inertie Between / Inertie Totale

0 ≤ Ratio d’inerties ≤ 1L’axe represente une structure L’axe represente une structure

propre a un groupe commune aux differents groupes

Remarque : les ratios d’inerties ne sont pas necessairement decroissants !

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 151 / 254

Analyse factorielle multiple L’AFM avec R Commander

Mesure de similarite entre les groupes de variables

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 152 / 254

Analyse factorielle multiple L’AFM avec R Commander

Les groupes de variables sur les axes de l’AFM

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 153 / 254

Analyse factorielle multiple L’AFM avec R Commander

ACP et/ou ACM preliminaires sur les axes de l’AFM

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 154 / 254

Analyse factorielle multiple L’AFM avec R Commander

ACP et/ou ACM preliminaires sur les axes de l’AFM

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 155 / 254

Analyse factorielle multiple L’AFM avec R Commander

Le(s) groupe(s) de variables quantitatives

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 156 / 254

Analyse factorielle multiple L’AFM avec R Commander

Le(s) groupe(s) de variables quantitatives

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 157 / 254

Analyse factorielle multiple L’AFM avec R Commander

Le(s) groupe(s) de variables qualitatives

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 158 / 254

Analyse factorielle multiple L’AFM avec R Commander

Le(s) groupe(s) de variables qualitatives

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 159 / 254

Analyse factorielle multiple L’AFM avec R Commander

La fonction dimdesc

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 160 / 254

Analyse factorielle multiple L’AFM avec R Commander

L’analyse globale par les variables

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 161 / 254

Analyse factorielle multiple L’AFM avec R Commander

Resultats pour les individus

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 162 / 254

Analyse factorielle multiple L’AFM avec R Commander

Resultats pour les individus (lab.ind.moy=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 163 / 254

Analyse factorielle multiple L’AFM avec R Commander

Resultats pour les individus (invisible=’quali’)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 164 / 254

Clustering

Problemes de groupes...

Groupe = ensemble d’observations (individus) partageant un profil dereponse semblable sur une ou plusieurs variable(s)

Plusieurs questions possibles :

Q1 : Existe-t-il des groupes naturels dans ma base de donnees ?

Q2 : Comment discriminer au mieux des groupes existants ?

Q3 : Dans quel groupe classer un nouveau venu ?

Q1 → Clustering

Q2, Q3 → Analyse discriminante et regression logistique

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 166 / 254

Clustering

Existe-t-il des groupes naturels dans ma base de donnees ?

Avec le clustering, on va :

repartir d’un probleme a p dimensions (p variables)

sans a priori ni hierarchie entre les variables

en se concentrant sur la structure du nuage des n points

Deux problemes a regler avant de faire cela :

Quelle regle de ressemblance, de proximite choisir ?

→ Choix de la mesure de distance

De quelle maniere proceder et avec quelles implications ?

→ Choix de l’algorithme

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 167 / 254

Clustering Choix de la mesure de distance

Analyses multivariees avec R Commander

1 Introduction a R

2 Analyse en composantes principales

3 Analyse des correspondances multiples

4 Analyse factorielle multiple

5 ClusteringChoix de la mesure de distanceChoix de l’algorithmeClustering avec R CommanderExporter des resultats en SPSS

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 168 / 254

Clustering Choix de la mesure de distance

Quelle regle de ressemblance, de proximite choisir ?

Qu’est-ce qui fait groupe ?

Une reponse formulee en terme de distance entre observations

Distance ”numerique”↔ Distance pythagoricienne

Distance ”normalisee”↔ Distance de l’ACP appliquee a une matrice de correlation

Distance ou proximite entre des profils de reponses↔ Distance χ2 de l’analyse des correspondances

Analyse de (dis)similarite d’une table disjonctive

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 169 / 254

Clustering Choix de la mesure de distance

Metrique pythagoricienne et metrique normalisee

Distance pythagoricienne : d2(x , y) = (x − y)′Ip(x − y)

Distance normalisee : d2(x , y) = (x − y)′D−1S2 (x − y)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 170 / 254

Clustering Choix de la mesure de distance

Metrique pythagoricienne et metrique normalisee

Distance pythagoricienne : d2(x , y) = (x − y)′Ip(x − y)

Distance normalisee : d2(x , y) = (x − y)′D−1S2 (x − y)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 171 / 254

Clustering Choix de la mesure de distance

Metrique pythagoricienne et metrique normalisee

Distance pythagoricienne : d2(x , y) = (x − y)′Ip(x − y)

Distance normalisee : d2(x , y) = (x − y)′D−1S2 (x − y)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 172 / 254

Clustering Choix de la mesure de distance

Metrique du χ2

Distance entre deux profils lignes : d2(ri , ri ′) = (ri − ri ′)′D−1

J (ri − ri ′)

avec D−1J = diag(f −1

•1 , ..., f−1•J )

Profils lignesTabac

TotalNon-fumeur Fumeur

Alc

ool Aucun verre 0.55 0.45 1

De 1 a 4 verres 0.30 0.70 1Plus de 4 verres 0.12 0.88 1

Total 0.36 0.64 1

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 173 / 254

Clustering Choix de la mesure de distance

Metrique de similarite

Mesurer la similarite de deux observations dans une table disjonctive

ID Sexe Prof-empl Prof-indep Prof-ouvr Similarite

1 0 0 1 02 1 0 0 13 0 1 0 04 0 1 0 05 1 0 1 06 1 1 0 07 0 0 0 1... ... ... ... ...

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 174 / 254

Clustering Choix de la mesure de distance

Metrique de similarite

Mesurer la similarite de deux observations dans une table disjonctive

ID Sexe Prof-empl Prof-indep Prof-ouvr Similarite

3 0 1 0 0 3

6 1 1 0 0 3

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 175 / 254

Clustering Choix de l’algorithme

Analyses multivariees avec R Commander

1 Introduction a R

2 Analyse en composantes principales

3 Analyse des correspondances multiples

4 Analyse factorielle multiple

5 ClusteringChoix de la mesure de distanceChoix de l’algorithmeClustering avec R CommanderExporter des resultats en SPSS

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 176 / 254

Clustering Choix de l’algorithme

De quelle maniere proceder et avec quelles implications ?

Deux grandes familles d’algorithme :

Algorithmes hierarchiques

Le nombre de clusters n’est pas decide a priori

Algorithmes de partition

Le nombre de clusters est fixe a priori

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 177 / 254

Clustering Choix de l’algorithme

Les algorithmes hierarchiques

Quelques algorithmes hierarchiques :

Single Linkage (lien simple) : travaille sur les distances entre les points

Average Linkage (lien moyen) : travaille sur les distances entre lesgroupes deja formes

Ward : decompose l’inertie du nuage de points et minimise la perted’information a chaque etape

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 178 / 254

Clustering Choix de l’algorithme

Single Linkage

Single Linkage Algorithm (lien simple) : distances entre les points

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 179 / 254

Clustering Choix de l’algorithme

Single Linkage

Single Linkage Algorithm (lien simple) : distances entre les points

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 180 / 254

Clustering Choix de l’algorithme

Single Linkage

Single Linkage Algorithm (lien simple) : distances entre les points

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 181 / 254

Clustering Choix de l’algorithme

Single Linkage

Single Linkage Algorithm (lien simple) : distances entre les points

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 182 / 254

Clustering Choix de l’algorithme

Single Linkage et Average Linkage

Single Linkage Algorithm (lien simple) : distances entre les points

Average Linkage Algorithm (lien moyen) : distances entre les groupes

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 183 / 254

Clustering Choix de l’algorithme

Single Linkage et Average Linkage

Single Linkage Algorithm (lien simple) : distances entre les points

Average Linkage Algorithm (lien moyen) : distances entre les groupes

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 184 / 254

Clustering Choix de l’algorithme

Single Linkage et Average Linkage

Single Linkage Algorithm (lien simple) : distances entre les points

Average Linkage Algorithm (lien moyen) : distances entre les groupes

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 185 / 254

Clustering Choix de l’algorithme

Single Linkage et Average Linkage

Single Linkage Algorithm (lien simple) : distances entre les points

Average Linkage Algorithm (lien moyen) : distances entre les groupes

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 186 / 254

Clustering Choix de l’algorithme

Algorithme de Ward

Ward : decompose l’inertie du nuage de points et minimise la perted’information a chaque etape

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 187 / 254

Clustering Choix de l’algorithme

Algorithme de Ward

Ward : decompose l’inertie du nuage de points et minimise la perted’information a chaque etape

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 188 / 254

Clustering Choix de l’algorithme

Algorithme de Ward

Ward : decompose l’inertie du nuage de points et minimise la perted’information a chaque etape

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 189 / 254

Clustering Choix de l’algorithme

Algorithme de Ward

Ward : decompose l’inertie du nuage de points et minimise la perted’information a chaque etape

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 190 / 254

Clustering Choix de l’algorithme

Algorithme de Ward

Ward : decompose l’inertie du nuage de points et minimise la perted’information a chaque etape

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 191 / 254

Clustering Choix de l’algorithme

Les algorithmes de partition

Quelques algorithmes de partition :

Moving Centers (centres mobiles) : succession d’etapes de classementet de calcul de nouveau centre de classe (a la fin de chaque etape declassement)

K-Means (K-Moyennes) : succession d’etapes de classement et decalcul de nouveau centre de classe (apres chaque classement)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 192 / 254

Clustering Choix de l’algorithme

Moving Centers

Moving Centers : classement (tous) → centre de classe ←

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 193 / 254

Clustering Choix de l’algorithme

Moving Centers

Moving Centers : classement (tous) → centre de classe ←

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 194 / 254

Clustering Choix de l’algorithme

Moving Centers

Moving Centers : classement (tous) → centre de classe ←

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 195 / 254

Clustering Choix de l’algorithme

Moving Centers

Moving Centers : classement (tous) → centre de classe ←

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 196 / 254

Clustering Choix de l’algorithme

Moving Centers

Moving Centers : classement (tous) → centre de classe ←

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 197 / 254

Clustering Choix de l’algorithme

Moving Centers et K-Means

Moving Centers : classement (tous) → centre de classe ←

K-Means (K-Moyennes) : classement (un seul) → centre de classe ←

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 198 / 254

Clustering Choix de l’algorithme

Moving Centers et K-Means

Moving Centers : classement (tous) → centre de classe ←

K-Means (K-Moyennes) : classement (un seul) → centre de classe ←

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 199 / 254

Clustering Choix de l’algorithme

Moving Centers et K-Means

Moving Centers : classement (tous) → centre de classe ←

K-Means (K-Moyennes) : classement (un seul) → centre de classe ←

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 200 / 254

Clustering Choix de l’algorithme

Moving Centers et K-Means

Moving Centers : classement (tous) → centre de classe ←

K-Means (K-Moyennes) : classement (un seul) → centre de classe ←

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 201 / 254

Clustering Choix de l’algorithme

Moving Centers et K-Means

Moving Centers : classement (tous) → centre de classe ←

K-Means (K-Moyennes) : classement (un seul) → centre de classe ←

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 202 / 254

Clustering Choix de l’algorithme

Moving Centers et K-Means

Moving Centers : classement (tous) → centre de classe ←

K-Means (K-Moyennes) : classement (un seul) → centre de classe ←

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 203 / 254

Clustering Choix de l’algorithme

Moving Centers et K-Means

Moving Centers : classement (tous) → centre de classe ←

K-Means (K-Moyennes) : classement (un seul) → centre de classe ←

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 204 / 254

Clustering Clustering avec R Commander

Analyses multivariees avec R Commander

1 Introduction a R

2 Analyse en composantes principales

3 Analyse des correspondances multiples

4 Analyse factorielle multiple

5 ClusteringChoix de la mesure de distanceChoix de l’algorithmeClustering avec R CommanderExporter des resultats en SPSS

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 205 / 254

Clustering Clustering avec R Commander

Le clustering avec FactoMineR

Deux manieres de faire du clustering :

Travailler sur les donnees brutes

Statistiques > Analyse multivariee > Classification > ...

Enchaıner analyse factorielle et clustering

PCA, MCA, etc. + HCPC

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 206 / 254

Clustering Clustering avec R Commander

Enchaıner analyse factorielle et clustering

Deux alternatives :

Retenir tous les facteurs de l’analyse factorielle

Conserve toute l’information

Tient compte de la nature des donnees (continue, categorielle) tout enmenant a un espace euclidien pour l’etape de classification

Conserver un nombre reduit de facteurs

Conserve l’information principale (les k premiers facteurs) et elimine lebruit

Tient compte de la nature des donnees (continue, categorielle) tout enmenant a un espace euclidien pour l’etape de classification

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 207 / 254

Clustering Clustering avec R Commander

Etape 1 : Analyse en Composantes Principales

Charger la base de donnees Eurojob.sav dans R Commander puisexecuter une ACP en conservant toutes les composantes

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 208 / 254

Clustering Clustering avec R Commander

Etape 1 : Analyse en Composantes Principales

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 209 / 254

Clustering Clustering avec R Commander

Etape 1 : Analyse en Composantes Principales

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 210 / 254

Clustering Clustering avec R Commander

Etape 2 : la fonction HCPC

HCPC(res, nb.clust=0, consol=TRUE, iter.max=10, min=3, max=NULL,

metric="euclidean", method="ward", order=TRUE,

graph.scale="inertia", nb.par=5, graph=TRUE, proba=0.05, ...)

res : n’importe quel objet resultant d’une analyse factorielle ou undataframe quelconque

nb.clust : 0 si choix sur le dendrogramme, -1 si choix par R, n’importequel autre entier pour un choix fixe d’avance

consol : controle si l’etape de consolidation par K-Means est appliquee(iter.max pour le nombre d’iterations)

metric : Metrique choisie ("euclidean",...)

method : Algorithme choisi ("average", "single", "ward",...)

nb.par : Nombre de parangons edites

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 211 / 254

Clustering Clustering avec R Commander

Etape 2.1 : Clustering hierarchique sans consolidation enconservant toute l’information disponible

HCPC(res.PCA, consol=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 212 / 254

Clustering Clustering avec R Commander

Etape 2.1 : HCPC(res.PCA, consol=FALSE)

Cliquer sur la solution proposee (3 groupes) pour obtenir tous les graphes

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 213 / 254

Clustering Clustering avec R Commander

Etape 2.1 : HCPC(res.PCA, consol=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 214 / 254

Clustering Clustering avec R Commander

Etape 2.1 : HCPC(res.PCA, consol=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 215 / 254

Clustering Clustering avec R Commander

Etape 2.1 : HCPC(res.PCA, consol=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 216 / 254

Clustering Clustering avec R Commander

Etape 2.1 : HCPC(res.PCA, consol=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 217 / 254

Clustering Clustering avec R Commander

Etape 2.1 : HCPC(res.PCA, consol=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 218 / 254

Clustering Clustering avec R Commander

Etape 2.1 : HCPC(res.PCA, consol=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 219 / 254

Clustering Clustering avec R Commander

Etape 2.1 : HCPC(res.PCA, consol=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 220 / 254

Clustering Clustering avec R Commander

Etape 2.1 : HCPC(res.PCA, consol=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 221 / 254

Clustering Clustering avec R Commander

Etape 2.1 : HCPC(res.PCA, consol=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 222 / 254

Clustering Clustering avec R Commander

Etape 2.1 : HCPC(res.PCA, consol=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 223 / 254

Clustering Clustering avec R Commander

Etape 2.1 : HCPC(res.PCA, consol=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 224 / 254

Clustering Clustering avec R Commander

Etape 2.2 : Clustering hierarchique avec consolidation enconservant toute l’information disponible

HCPC(res.PCA, consol=TRUE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 225 / 254

Clustering Clustering avec R Commander

Etape 2.2 : HCPC(res.PCA, consol=TRUE)

Cliquer sur la solution proposee (3 groupes) pour obtenir tous les graphes

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 226 / 254

Clustering Clustering avec R Commander

Etape 2.2 : HCPC(res.PCA, consol=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 227 / 254

Clustering Clustering avec R Commander

Etape 2.2 : HCPC(res.PCA, consol=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 228 / 254

Clustering Clustering avec R Commander

Etape 2.2 : HCPC(res.PCA, consol=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 229 / 254

Clustering Clustering avec R Commander

Etape 2.3 : Clustering hierarchique avec un nombre reduit(4) de facteurs

On reduit le nombre de composantes principales retenues :PCA(Eurojob.PCA , scale.unit=TRUE, ncp=4, graph=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 230 / 254

Clustering Clustering avec R Commander

Etape 2.3 : HCPC(res.PCA2, consol=TRUE)

Cliquer sur la solution proposee (3 groupes) pour obtenir tous les graphes

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 231 / 254

Clustering Clustering avec R Commander

Etape 2.3 : HCPC(res.PCA2, consol=TRUE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 232 / 254

Clustering Clustering avec R Commander

Etape 2.3 : HCPC(res.PCA2, consol=TRUE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 233 / 254

Clustering Clustering avec R Commander

Etape 2.3 : HCPC(res.PCA2, consol=TRUE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 234 / 254

Clustering Clustering avec R Commander

Etape 2.4 : Clustering hierarchique avec un nombre reduit(2) de facteurs

On reduit le nombre de composantes principales retenues :PCA(Eurojob.PCA , scale.unit=TRUE, ncp=2, graph=FALSE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 235 / 254

Clustering Clustering avec R Commander

Etape 2.4 : HCPC(res.PCA3, consol=TRUE)

Cliquer sur la solution proposee (3 groupes) pour obtenir tous les graphes

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 236 / 254

Clustering Clustering avec R Commander

Etape 2.4 : HCPC(res.PCA3, consol=TRUE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 237 / 254

Clustering Clustering avec R Commander

Etape 2.4 : HCPC(res.PCA3, consol=TRUE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 238 / 254

Clustering Clustering avec R Commander

Etape 2.4 : HCPC(res.PCA3, consol=TRUE)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 239 / 254

Clustering Clustering avec R Commander

HCPC : 9 CP, sans consolidation

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 240 / 254

Clustering Clustering avec R Commander

HCPC : 9 CP, avec consolidation

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 241 / 254

Clustering Clustering avec R Commander

HCPC : 4 CP, avec consolidation

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 242 / 254

Clustering Clustering avec R Commander

HCPC : 2 CP, avec consolidation

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 243 / 254

Clustering Clustering avec R Commander

HCPC : 9 CP, sans consolidation

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 244 / 254

Clustering Clustering avec R Commander

HCPC : 9 CP, avec consolidation

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 245 / 254

Clustering Clustering avec R Commander

HCPC : 4 CP, avec consolidation

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 246 / 254

Clustering Clustering avec R Commander

HCPC : 2 CP, avec consolidation

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 247 / 254

Clustering Exporter des resultats en SPSS

Analyses multivariees avec R Commander

1 Introduction a R

2 Analyse en composantes principales

3 Analyse des correspondances multiples

4 Analyse factorielle multiple

5 ClusteringChoix de la mesure de distanceChoix de l’algorithmeClustering avec R CommanderExporter des resultats en SPSS

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 248 / 254

Clustering Exporter des resultats en SPSS

Exporter le resultat du clustering en SPSS

Une fois une solution stable et satisfaisante trouvee, la fonctionwrite.foreign permet d’exporter les donnees vers SPSS, SAS, etc.

write.foreign(dataframe, datafile, codefile,

package=c("SPSS","Stata","SAS"), ...)

dataframe : le dataset a exporter

datafile : chemin et nom de fichier texte (extension .txt) a creer.Il contient la base elle-meme et est enregistre en CSV

codefile : chemin et nom de fichier syntaxe du logiciel choisi(extension .sps pour SPSS, .sas pour SAS, etc.). Il contient lefichier de syntaxe a ouvrir dans le logiciel pour importer les donnees

package : choisir le nom du logiciel (entre guillemets)

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 249 / 254

Clustering Exporter des resultats en SPSS

Ex : Exporter le resultat du clustering sur 4CP

Code de l’ACP

res.PCA2 = PCA(Eurojob.PCA, scale.unit=TRUE, ncp=4,

graph=FALSE)

Assigner le resultat du clustering a un objet res.HCPC

res.HCPC = HCPC(res.PCA2, consol=TRUE)

Soumettre l’objet dans R affichera les resultats complets

res.HCPC

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 250 / 254

Clustering Exporter des resultats en SPSS

Ex : Exporter le resultat du clustering sur 4CP

Selectionner la partie des sorties qui contient la base de donneesaugmentee d’une colonne clust et l’assigner a une nouvelle base dedonnees EuroClust

EuroClust = res.HCPC1$data.clust

Exporter la base de donnee avec write.foreign

write.foreign(EuroClust,"D :/Taverne/My Documents/08

LaTeX/PSYM2132/TP7-Cluster/EurojobClust.txt", "D :/Taverne/My

Documents/08

LaTeX/PSYM2132/TP7-Cluster/EurojobClust.sps",package="SPSS")

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 251 / 254

Clustering Exporter des resultats en SPSS

Ouvrir la base de donnees en SPSS

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 252 / 254

Clustering Exporter des resultats en SPSS

Ouvrir la base de donnees en SPSS

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 253 / 254

Clustering Exporter des resultats en SPSS

Ouvrir la base de donnees en SPSS

C. Taverne (SMCS, UCL) SMCS : Analyses multivariees avec R 01/02/2010 254 / 254