32
 © La Revue MODULAD, 2003 - 19 - Numéro 30 Une introduction à l’analyse discri minante avec SPSS pour Windows   Dominique DESBOIS  INRA-ESR Nancy et SCEES 251 rue de Vaugirard, 75732 Paris Cedex 15. Fax : +33 1 49 55 85 00 Mél :[email protected]  RÉSUMÉ : cette note initie l'utilisateur débutant à la mise en œuvre de l’analyse discriminante par l’intermédiaire de la procédure DISCRIM du logiciel SPSS pour Windows. Cette mise en œuvre concerne le classement d’individus caractérisés par des variables quantitatives, les affectant à des groupes a priori au moyen de  fonctions discriminantes. Les sorties du logiciel sont commentées par la présentation du formulaire de l’analyse discriminante associé à chacun des résultats obtenus. MOTS-CLÉS : analyse discriminante linéaire,  analyse factorielle discriminante, fonctions linéaires discriminantes, logiciel SPSS 11.0.1, mise en œuvre. I) Problématiques de discrimination Dans beaucoup de domaines, les professionnels sont amenés à prévoir les comportements sur la base de certains critères : c’est le cas par exemple d’un médecin établissant un diagnostic pour  prescrire un traitement, ou d’un banqu ier accordant un crédit à un particulier ou une entrep rise. Une stratégie très empirique mais suffisamment éprouvée consiste à comparer ces caractéristiques aux relevés effectués sur un ensemble d’observations où le comportement des individus qu’ils soient malades ou emprunteurs, entreprises ou particuliers, est connu. Diagnostic ou  prévision s’effectuent alors sur la base des corrélations observées entre les critères retenus et la situation des individus. Cette stratégie est d’ailleurs appliquée de façon plus ou moins implicite par la  plupart des décideurs sur la b ase de leurs expériences antérieures d ans des circonstances similaires. Dans certains cas, les enjeux financiers ou humains sont suffisamment importants pour qu’on envisage de formaliser ce processus décisionnel en proposant une aide au diagnostic ou au jugement de l’expert. Par exemple dans le secteur bancaire, les techniques de credit-scoring cherchent à distinguer les bons des mauvais payeurs sur la base d’un ensemble de variables appelés descripteurs comme l’âge, le revenu annuel et le profil des transactions bancaires. Disposant de comptabilités d’entreprises, on peut également chercher à minimiser le risque de défaillance ou à prévenir les défaillances des emprunteurs, en classant selon une échelle de risque fixée a priori les agents économiques sur la base des descripteurs que sont les ratios financiers (cf. [Bardos, 2001]). L’affectation à une classe  de risque décide alors de leur accès aux ressources financières ou de leur éligibilité à des mesures d’aide publique. Consistant à prévoir l’appartenance du sujet aux groupes d’une partition a priori, la plupart de ces applications fondent leurs prédictions sur une technique statistique multidimensionnelle, l’analyse discriminante linéaire, introduite par Ronald Fisher.

spss pratique

Embed Size (px)

Citation preview

Une introduction lanalyse discriminante avec SPSS pour WindowsDominique DESBOIS INRA-ESR Nancy et SCEES 251 rue de Vaugirard, 75732 Paris Cedex 15. Fax : +33 1 49 55 85 00 Ml :[email protected]

RSUM : cette note initie l'utilisateur dbutant la mise en uvre de lanalyse discriminante par lintermdiaire de la procdure DISCRIM du logiciel SPSS pour Windows. Cette mise en uvre concerne le classement dindividus caractriss par des variables quantitatives, les affectant des groupes a priori au moyen de fonctions discriminantes. Les sorties du logiciel sont commentes par la prsentation du formulaire de lanalyse discriminante associ chacun des rsultats obtenus. MOTS-CLS : analyse discriminante linaire, analyse factorielle discriminante, fonctions linaires discriminantes, logiciel SPSS 11.0.1, mise en uvre.

Problmatiques de discrimination Dans beaucoup de domaines, les professionnels sont amens prvoir les comportements sur la base de certains critres : cest le cas par exemple dun mdecin tablissant un diagnostic pour prescrire un traitement, ou dun banquier accordant un crdit un particulier ou une entreprise. Une stratgie trs empirique mais suffisamment prouve consiste comparer ces caractristiques aux relevs effectus sur un ensemble dobservations o le comportement des individus quils soient malades ou emprunteurs, entreprises ou particuliers, est connu. Diagnostic ou prvision seffectuent alors sur la base des corrlations observes entre les critres retenus et la situation des individus. Cette stratgie est dailleurs applique de faon plus ou moins implicite par la plupart des dcideurs sur la base de leurs expriences antrieures dans des circonstances similaires. Dans certains cas, les enjeux financiers ou humains sont suffisamment importants pour quon envisage de formaliser ce processus dcisionnel en proposant une aide au diagnostic ou au jugement de lexpert. Par exemple dans le secteur bancaire, les techniques de credit-scoring cherchent distinguer les bons des mauvais payeurs sur la base dun ensemble de variables appels descripteurs comme lge, le revenu annuel et le profil des transactions bancaires. Disposant de comptabilits dentreprises, on peut galement chercher minimiser le risque de dfaillance ou prvenir les dfaillances des emprunteurs, en classant selon une chelle de risque fixe a priori les agents conomiques sur la base des descripteurs que sont les ratios financiers (cf. [Bardos, 2001]). Laffectation une classe de risque dcide alors de leur accs aux ressources financires ou de leur ligibilit des mesures daide publique. Consistant prvoir lappartenance du sujet aux groupes dune partition a priori, la plupart de ces applications fondent leurs prdictions sur une technique statistique multidimensionnelle, lanalyse discriminante linaire, introduite par Ronald Fisher.

I)

La Revue MODULAD, 2003

- 19 -

Numro 30

Figure 1 : Portrait de Sir Ronald Aylmer Fisher par Leontine Tinter (Biometrika 50, 1963).

Sir Ronald Aylmer FISHER 1890-1962Droits rservs

La solution propose ds 1936 par Fisher consiste chercher des combinaisons linaires de descripteurs quantitatifs, indicateurs synthtiques qui permettent de classer les individus correctement dans chacun des groupes. Cette mthode, essentiellement analytique, est base sur des concepts gomtriques, cependant pour que ces combinaisons linaires puissent tre optimales (au sens o le risque derreur de classement serait alors minimal), nous verrons que les donnes doivent vrifier certaines hypothses de nature probabiliste. Donnes : les Iris de Fisher Les donnes utilises dans cet exemple furent publies initialement par Fisher dans son article originel prsentant le concept de fonction linaire discriminante [Fisher, 1936]. Lchantillon tudi par Fisher comporte cent cinquante iris provenant de trois espces distinctes (Iris Setosa, Iris Versicolor et Iris Virginica) raison de cinquante iris par espce qui constituent ainsi notre chantillon dapprentissage : Figure 2 : Fleurs des Iris Setosa, Versicolor et Virginica II)

Iris Setosa

Iris Versicolor

Iris Virginica

Droits rservs, avec laimable autorisation de Marc-Michel Corsini (http://www.sm.u-bordeaux2.fr/~corsini/Pedagogie/)

Chaque individu est identifi par un numro de squence (numero) au sein de lchantillon dapprentissage et son appartenance lune des trois populations est renseigne par un code despce (1 pour Setosa, 2 pour Versicolor et 3 pour Virginica) . Ces donnes constituent lun des chantillons les plus utiliss pour les mthodes de discrimination : on les retrouve dans de nombreux ouvrages et rpertoires, notamment http://www.ics.uci.edu/~mlearn/MLRepository.html [Blake & Mertz, 1998]. Parmi les mesures effectues, quatre dentre elles caractrisent la fleur : longueur du spale (lonsepal), largeur du spale (larsepal), longueur du ptale (lonpetal), largeur du ptale (larpetal) exprimes en millimtres. Le problme de discrimination se pose ainsi : partir de ces quatre mesures quantitatives donnant une indication sur la morphologie globale de la fleur, peut-on dcider de lespce laquelle appartient lindividu ?

La Revue MODULAD, 2003

- 20 -

Numro 30

La variable y prdire est donc une variable qualitative (espece) k = 3 modalits. Cette prdiction seffectue partir dun tableau X de p = 4 variables quantitatives observes sur un chantillon dapprentissage de n = 150 individus. Figure 3 : extrait du fichier des donnes.

Les options de la procdure DISCRIM de SPSS, version 11.0.1, permettant deffectuer ce type danalyse sont dcrites de faon exhaustive dans la quatrime partie de cette note. On y retrouvera les spcifications permettant dobtenir les rsultats interprts dans la troisime partie. Par exemple, dans le logiciel SPSS, les observations de lchantillon dapprentissage retenues pour lanalyse discriminante ne doivent pas comporter de valeurs manquantes (option retenue par dfaut), moins de spcifier leur remplacement par la moyenne (cf. infra IV.v, dernier ). Figure 4 : les observations dans lespace des descripteurs des spales.80

70

60

longueur des spales

type d'Iris50 Virginica Versicolor 40 10 20 30 40 50 Setosa

largeur des spales

La Revue MODULAD, 2003

- 21 -

Numro 30

Interprtation des rsultats de lanalyse discriminante Lanalyse des liaisons entre le tableau quantitatif X des descripteurs et la variable qualitative y k modalits, codant la partition a priori en k groupes de lensemble des individus, peut tre mene selon deux points de vue : le premier orientation descriptive est centr sur la dcomposition de la variance en sappuyant sur des notions gomtriques ; le second orientation dcisionnelle se focalise sur le risque derreur en faisant intervenir une modlisation probabiliste. III.1) Statistiques descriptives i) Rsum statistique univari Bien que des mesures multiples impliquent une certaine redondance dans linformation apporte par lchantillon et se traduisent par des corrlations entre variables quantitatives, il est toujours intressant dans un but descriptif de disposer de statistiques univaries pour chacun des groupes tudis sur les variables de lanalyse, ne serait ce que pour en contrler les paramtres. Tableau 1 : statistiques univaries pour chacun des groupes.Statistiques de groupe N valide (liste) Non pondres Pondres 50 50,000 50 50,000 50 50,000 50 50,000 50 50,000 50 50,000 50 50,000 50 50,000 50 50,000 50 50,000 50 50,000 50 50,000 150 150,000 150 150,000 150 150,000 150 150,000

III)

type d'Iris Setosa

Versicolor

Virginica

Total

longueur des spales largeur des spales longueur des ptales largeur des ptales longueur des spales largeur des spales longueur des ptales largeur des ptales longueur des spales largeur des spales longueur des ptales largeur des ptales longueur des spales largeur des spales longueur des ptales largeur des ptales

Moyenne 49,94 34,28 14,62 2,46 59,36 27,70 42,60 13,20 65,88 29,74 55,52 20,26 58,39 30,57 37,58 11,97

Ecart-type 3,66 3,79 1,74 1,05 5,16 3,14 4,70 1,97 6,36 3,22 5,52 2,75 8,34 4,36 17,65 7,62

Afin de suivre les calculs effectus par la procdure danalyse discriminante, fixons les notations adoptes : soit xijl , lobservation selon le descripteur j pour lindividu i du groupe Gl. chaque individu i du groupe Gl, est associe une pondration mil . La somme des masses mil pour lensemble des nl individus du groupe Gl donne la masse du groupe ml =

mi =1

nl

il

. La masse totale de

lchantillon des n individus sobtient par sommation des masses des diffrents groupes : m =

ml =1

k

l

.

Dans notre chantillon, la pondration tant uniforme et gale 1 pour chaque individu ( mil = 1 i, l ), la masse locale pour chaque groupe est gale au nombre dindividus ( ml = nl = 50

l ).

La moyenne locale

x. jl de la variable j pour le groupe Gl est dfinie par :

x. jl =

1 ml

mi =1

nl

il

xijl

Cette valeur dfinit la je coordonne du barycentre gl du groupe l. Soit x.12 = 59,36 moyenne locale de la variable longueur des spales pour le groupe Versicolor. La Revue MODULAD, 2003

- 22 -

Numro 30

Lcart-type local s. jl de la variable j pour le groupe Gl est dfini par la racine carre de la variance locale :

s.2jl =

1 nl 2 mil xijl ml x.2jl (ml 1) i=1

Soit s.12 = 5,16 cart-type local de la variable longueur des spales. La moyenne globale x. j . de la variable j est dfinie par :

1 k x. j . = ml x. jl m l =1

masse

totale de lchantillon . Soit x.1. = 58,39 moyenne globale de la variable longueur des spales. Lcart-type global s. j . de la variable j est dfini par la racine carre de la variance globale :

s.2j . =

1 k nl 2 mil xijl mx.2j. (m 1) l =1 i =1

Soit s.1. = 8,34 cart-type local de la variable longueur des spales. On observe pour chacune des mesures effectues des diffrences notables entre les moyennes des trois groupes mais galement des valeurs sensiblement distinctes des carts-types. Ces remarques peuvent tre confirmes ou invalides par des tests statistiques. Lusage des statistiques univaries est fortement recommand dans ltape de constitution de lchantillon et de la slection des descripteurs pour tudier la nature des distributions des valeurs observes au sein des diffrents groupes. ii) Composantes de la variabilit Lanalyse discriminante gnralise plusieurs descripteurs quantitatifs (soit p variables explicatives) la question laquelle lanalyse de la variance permet de rpondre : comment partir des valeurs dune variable quantitative prdire le classement des observations parmi k groupes distincts. Dans le contexte dun seul descripteur quantitatif x, dun facteur k modalits et dune pondration uniforme, lanalyse de la variance conduit dcomposer la somme des carrs des carts la moyenne globale de lchantillon entre la somme des carrs des carts la moyenne locale pour les observations de chacun des groupes (intraclasses, ou W comme Within) et la somme des carrs des carts des moyennes locales la moyenne globale pour chacun des groupes (interclasses, ou B comme Between). [1]

SCET = (xi x. j . ) = ( xil xl ) + nl ( xl x ) = SCEW + SCE Bn2

k

nl

2

k

2

i =1

l =1 i =1

l =1

En divisant chacun des termes de cette quation par les degrs de liberts correspondant au nombre de valeurs indpendantes dans les sommations effectues, on aboutit la notion de carr moyen intraclasses CMW et carr moyen interclasses CMB permettant une comparaison de la variance intraclasses et de la variance interclasses :

CM W = SCEW (n k )

CM B = SCE B (k 1)

En situation dinfrence par rapport une population dont n observations constitueraient un chantillon alatoire, pour une variable normalement distribue, la statistique F du rapport de variance dfinie par :

F=

suit une distribution thorique F [(k 1);(n k )] de Fisher-Snedecor (k 1) et (n k ) degrs de libert sous lhypothse nulle H 0 dgalit des moyennes entre les k groupes. Au seuil de risque choisi , lhypothse nulle H 0 sera rejete si F est suprieure au (1-)e quantile F(1 ) [(k 1);(n k )] dune distribution de Fisher-Snedecor.

CM B CM W

La Revue MODULAD, 2003

- 23 -

Numro 30

Dans le cas de plusieurs descripteurs X 1 , X 2 ,..., X p , la variabilit totale du tableau X des variables explicatives du classement est exprime par la matrice des sommes de carrs et de coproduits totaux T, de terme gnral :

{

}

t jj = mil xijl xijl mx. j . x. j.l =1 i =1

k

nk

Soit, par exemple pour le premier lment diagonal t11, somme totale des carrs des carts pour la longueur des spales : t11 = 10365,793 = SCET linstar de lanalyse de la variance univarie, la matrice des sommes de carrs et de coproduits totaux T se dcompose en deux matrices : W, matrice des sommes de carrs et de coproduits intragroupes, et B, matrice des sommes de carrs et de coproduits intergroupes. Lquation matricielle danalyse de la variance scrit alors : [2] T =W + B. La variabilit intraclasses du tableau X est exprime par la matrice des sommes de carrs et de coproduits intraclasses W, de terme gnral :

w jj = mil xijl xijl ml x. jl x. jll =1 i =1 l =1

k

nk

k

Soit, par exemple pour le premier lment diagonal w11, somme intraclasses des carrs des carts pour la longueur des spales : w11 = 3943,620 = SCEW La matrice B des sommes de carrs et de produits interclasses, dfinie par B = T W , sobtient par diffrence terme terme : b jj = t jj w jj [3] Soit, par exemple pour le premier lment diagonal b11, somme des carrs des carts interclasses pour la longueur des spales : b11 = 6422,173 = SCE B Le calcul du F univari pour chaque descripteur j seffectue alors directement partir des termes diagonaux des matrices T et W :

Fj =

(t

jj

w jj )(m k ) w jj (k 1)

=

b jj (m k ) w jj (k 1)

Tableau 2 : tests statistiques dgalit des moyennesTests d'galit des moyennes des groupes Lambda de Wilks ,380 ,599 ,059 ,071

longueur des spales largeur des spales longueur des ptales largeur des ptales

F 119,695 49,160 1180,161 961,645

ddl1 2 2 2 2

ddl2 147 147 147 147

Signification ,000 ,000 ,000 ,000

Ainsi pour une valeur F 119,7 et un risque < 0,0005 , nous sommes conduits rejeter lhypothse nulle dgalit des moyennes des espces diris pour la variable longueur des spales. Dans le tableau 2, figure une autre statistique, le lambda de Wilks univari. Pour chacune des variables, le lambda de Wilks univari est constitu par le rapport de la somme des carrs des carts intraclasses la somme totale des carrs des carts :

j =

w jj t jj

La Revue MODULAD, 2003

- 24 -

Numro 30

Tableau 3 : analyse de la variance un facteur pour la longueur des spales.ANOVA longueur des spales Somme des carrs 6422,173 3943,620 10365,793 ddl 2 147 149 Moyenne des carrs 3211,087 26,827 F 119,695 Signification ,000

Inter-groupes Intra-groupes Total

On peut vrifier cette galit daprs les valeurs inscrites dans le tableau 3 pour la longueur des spales :

1 =

w11 SCEW 3943,6 = 0,380 t11 SCET 10365,8

La valeur du lambda de Wilks univari varie entre 0 et 1. La valeur 1 signifie lgalit des moyennes pour lensemble des groupes. Une valeur quasi-nulle est associe de trs faibles variabilits intraclasses donc de trs fortes variabilits interclasses et des moyennes de groupes manifestement diffrentes. Cependant, ltude graphique de la distribution des variables au sein de chacun des groupes et leur comparaison montrent quun certain nombre de recouvrements peuvent soprer entre les trois populations pour les mesures effectues, ainsi quen tmoignent les quatre sries de botes moustaches juxtaposes en figure 5. Figure 5 : bote moustaches multiple pour chacun des groupes.100

80

60

060 025

40121

039 021

20

137 054 061 059 010 042 018

091

longueur des spales largeur des spales longueur des ptales

0

-20N= 50 50 50 50 50 50 50 50 50 50 50 50

largeur des ptales Setosa Versicolor Virginica

type d'IrisIl convient donc dtudier globalement pour lensemble des descripteurs la dcomposition de cette variabilit afin dobtenir une vision synthtique des diffrences intergroupes et des diffrences interindividuelles (ou intraclasses), ce qui ncessite de passer de ltude partielle de chacun des descripteurs celle globale des matrices. La Revue MODULAD, 2003 - 25 Numro 30

iii) Analyse bivarie de la variabilit Dans la plupart des analyses multivaries, on observe des liaisons parmi les descripteurs retenus. Cependant, de fortes corrlations entre les variables explicatives peuvent conduire une forte variabilit dans les estimations des coefficients de la fonction discriminante. Il est donc indispensable dexaminer soit les matrices de variance-covariance si les variables ont des dispersions quivalentes, sinon les matrices de corrlation entre variables afin de dtecter de semblables situations. En outre, que le point de vue thorique adopt soit gomtrique ou probabiliste, le fait que les groupes prsentent ou non une dispersion des mesures individuelles peu prs similaire peut avoir, selon la rgle de classement alors adopte, une certaine influence sur les rsultats. Tableau 4 : estimations des matrices communes de variance-covariance et corrlation

intraclassesa Matrices intra-groupes combins

Covariance

Corrlation

longueur des spales largeur des spales longueur des ptales largeur des ptales longueur des spales largeur des spales longueur des ptales largeur des ptales

longueur des spales 26,827 9,406 16,736 3,805 1,000 ,535 ,751 ,359

largeur des spales 9,406 11,539 5,524 3,183 ,535 1,000 ,378 ,459

longueur des ptales 16,736 5,524 18,519 4,218 ,751 ,378 1,000 ,480

largeur des ptales 3,805 3,183 4,218 4,177 ,359 ,459 ,480 1,000

a. La matrice de covariance a 147 degr(s) de libert

La matrice C de variance-covariance intraclasses combine (cf. tableau 4) est la moyenne pondre des matrices Cl de variance-covariance locale chacun des k groupes (cf. tableau 5) :l k W 1 l =1 (m 1)Cl C= = = (m k ) (m k ) (m k ) l l =1

W

k

soit, pour la variance intraclasses de la longueur des spales : 3943,62 1 (49 13,404 + 49 26,643 + 49 40,434 ) = 26,827 . c11 = = 147 147 La matrice de corrlation commune R est calcule partir de la matrice W des sommes de carrs et de produits intraclasses combine :

R jj =

w jj w jj w jj9,406

=

c jj c jj c jj 0,535

Soit, pour la corrlation entre la longueur des spales et la largeur des spales :

r12 =

1382,682 3943,620 1696,200

=

26,827 11,539

La matrice de variance-covariance totale T (cf. tableau 5) est calcule partir de la matrice T des sommes de carrs et de produits globale lchantillon : T = Ainsi, la variance globale de la longueur des spales est gale :

T (m 1)

t11 =

t11 10365,793 = 69,569 (m 1) 149

La Revue MODULAD, 2003

- 26 -

Numro 30

Tableau 5 : matrices locales et totale de variance-covariance

Matrices de covariancesa longueur des spales 13,404 10,323 1,589 1,212 26,643 8,518 18,290 5,294 40,434 9,376 30,329 4,909 69,569 -4,261 128,341 51,957 largeur des spales 10,323 14,369 1,170 ,930 8,518 9,847 8,265 3,857 9,376 10,400 7,138 4,763 -4,261 18,998 -32,966 -12,193 longueur des ptales 1,589 1,170 3,016 ,607 18,290 8,265 22,082 7,163 30,329 7,138 30,459 4,882 128,341 -32,966 311,628 129,412 largeur des ptales 1,212 ,930 ,607 1,111 5,294 3,857 7,163 3,878 4,909 4,763 4,882 7,543 51,957 -12,193 129,412 58,040

type d'Iris Setosa

Versicolor

Virginica

Total

longueur des spales largeur des spales longueur des ptales largeur des ptales longueur des spales largeur des spales longueur des ptales largeur des ptales longueur des spales largeur des spales longueur des ptales largeur des ptales longueur des spales largeur des spales longueur des ptales largeur des ptales

a. La matrice de covariance totale a 149 degr(s) de libert.

iv) Homognit des variances Les variances locales sont dites homognes si on observe une dispersion quivalente des valeurs observes au sein de chaque groupe autour de la moyenne locale. Lhypothse dhomognit des variances joue un rle important dans le modle probabiliste de lanalyse discriminante car elle correspond une situation thorique intressante o le nombre de paramtres estimer est plus faible : k moyennes et une seule matrice de variance-covariance commune lensemble des classes contre k moyennes et k matrices de variance-covariance locales distinctes si on a htrognit des variances. En analyse multivarie, lhomognit des variances se traduit gomtriquement par des nuages de points aux formes similaires, cest dire avec une dispersion et des orientations semblables : Figure 6 : dispersion et orientation des classes dans une situation idale pour la discrimination.X2

g1

g2

Ug3

X1

En langage algbrique, lhomognit des variances se traduit dans lespace multidimensionnel des descripteurs par lgalit des matrices de variance-covariance de chacun des groupes.

La Revue MODULAD, 2003

- 27 -

Numro 30

Si le nombre des descripteurs nest pas trop lev, une matrice de nuages de points peut aider visualiser la forme des distributions de valeur au sein de chaque groupe. Figure 7 : matrice de graphiques de dispersion.

longueur spales

largeur spales

longueur ptales

type d'IrisVirginica largeur ptales Versicolor Setosa

On constate que les diffrences de dispersion et dorientation les plus notables sont celles existant entre le nuage des Setosa et ceux des Virginica et des Versicolor. Chacune des mesures permet de slectionner facilement les Setosa parmi l es autres Iris, par contre aucune des mesures ne permet de distinguer les Virginica des Versicolor sans risque de confusion. v) Dfinition des fonctions linaires discriminantes Le principe de lanalyse discriminante linaire est de former des combinaisons linaires des variables explicatives permettant daffecter les individus leur groupe dorigine avec un minimum derreur de classement. La fonction linaire discriminante u qui minimise le taux de mal-classs scrit comme une moyenne pondre des variables explicatives, rsumant ainsi en un seul indicateur linformation apporte par les q variables explicatives slectionnes parmi les descripteurs :

u = 0 + 1 X 1 + 2 X 2 + L + q X q Dans cette quation similaire celle de la rgression multiple, u est la variable prdire dont les valeurs doivent permettent de distinguer les trois espces dIris, les X j sont les variables explicativeset les j figurent les coefficients estimer daprs les valeurs observes sur lchantillon

dapprentissage. Les estimations des coefficients b j = j de cette quation sont choisies de manire minimiser les diffrences interindividuelles au sein de chaque groupe (groupes homognes) pour les valeurs de u h tout en maximisant les diffrences entre les groupes (groupes bien spars). Ces estimations maximisent donc le rapport des deux sommes de carrs (intergroupes sur intragroupes) : [3]

[ ]

j J

=j

[ ]

J

tel que

SCE B SCE B soit max imum = Arg max SCEW SCEW

La Revue MODULAD, 2003

- 28 -

Numro 30

III.2) Approche gomtrique i) Analyse factorielle discriminante Les mthodes factorielles danalyse multivarie reposent sur les concepts de la gomtrie euclidienne faisant intervenir la notion dinertie, produit de la masse (somme des pondrations des observations) par la distance au carr (variance des descripteurs), correspondant une somme pondre des carts au carr. Cherchant des combinaisons linaires u =

j =1

q

j

X j des descripteurs susceptibles de sparer

du mieux possible les k groupes, on slectionne celles prsentant le meilleur compromis entre deux objectifs distincts : reprsenter les groupes la fois comme homognes (minimiser linertie intraclasses) et comme bien spars (maximiser leur inertie interclasses). Daprs lquation matricielle [2], linertie du nuage de points se dcompose en inertie intraclasses et en inertie interclasses : [4] u Tu = u Wu + u Bu . La recherche de variables discriminantes revient trouver une combinaison linaire u qui maximise le rapport de ces deux inerties :

u Bu u Wu

ou, ce qui revient au mme compte tenu de lquation [4] :

f (u ) =

u Bu . u Tu

On montre que ce problme est quivalent la recherche du maximum de la forme quadratique u Bu sous la contrainte u Tu = 1 (cf. [Lebart, Morineau & Piron, 1995]) . En utilisant la technique des multiplicateurs de Lagrange pour rsoudre ce problme de recherche dun extremum Bu = Tu . sous contrainte, on obtient comme solution le vecteur u dfini par : En supposant que la matrice T de variance-covariance totale est inversible, le vecteur u, solution de cette quation : [5] T 1 Bu = u est le vecteur propre associ la plus grande valeur propre de loprateur T 1 B . Cette valeur propre = u Bu ralise le maximum recherch de la variance interclasses u Bu de la variable u et constitue le pouvoir discriminant de la variable u, appele alors fonction linaire discriminante ou facteur discriminant. Laxe factoriel discriminant a, associ au facteur discriminant u tel que u = T 1 a , est le vecteur propre associ pour loprateur BT 1 : BT 1 a = a . Le nombre daxes factoriels distincts que lon peut extraire est au plus gal au minimum du nombre q de variables explicatives et du nombre de groupes minor de 1 : min{q, k 1}. Le pouvoir discriminant dun axe factoriel varie entre 0 et 1 : le cas = 1 correspond une dispersion intraclasses nulle (les k sous-nuages de points correspondant aux groupes se situent dans un hyperplan orthogonal laxe factoriel discriminant a) et une discrimination parfaite si les k centres de gravits gl se projettent sur a en des points distincts ; le cas = 0 , les projections des centres de gravits gl sur laxe factoriel discriminant a sont confondues. Ainsi dfinie par la recherche daxes factoriels discriminants orthonorms pour la mtrique T 1 , lanalyse factorielle discriminante (AFD) nest rien dautre quune analyse en composantes principales du nuage des k centres de gravit gL , dot de la mtrique T 1 . Au lieu de la mtrique T 1 , lutilisation par la procdure DISCRIM de la mtrique W 1 , connue sous le nom de mtrique de Mahanalobis 1, conduit des rsultats quivalents. LaMahanalobis en proposant la mme anne que Fisher une notion de distance gnralise entre groupes, peut galement tre considr comme un des pres de lanalyse discriminante. La Revue MODULAD, 20031

- 29 -

Numro 30

u Bu selon un raisonnement similaire conduit la u Wu solution donne par lquation : [6] W 1 Bu = u On montre aisment que les vecteurs propres de W 1 B solutions de lquation [6] sont les mmes que ceux de T 1 B solutions de lquation [5].recherche des combinaisons linaires maximisant ii) Pouvoir discriminant des facteurs Les valeurs propres valeurs sur lintervalle [0;+[ sont dfinies par les valeurs propres

valeurs sur lintervalle [0;1] et rciproquement :

=

1

et

=

1+

Tableau 6 : valeurs propres associes aux fonctions linaires discriminantesValeurs propres % de la variance 99,1 ,9 Corrlation canonique ,985 ,478

Fonction 1 2

Valeur propre 31,857a ,297a

% cumul 99,1 100,0

a. Les 2 premires fonctions discriminantes canoniques ont t utilises pour l'analyse.

Les valeurs propres associes aux fonctions linaires discriminantes permettent de juger du pouvoir discriminant respectif de ces fonctions, en effet chaque valeur propre h de rang h est gale la variance interclasses de la fonction linaire discriminante de mme rang. Ainsi, la premire valeur propre est gale : 1 = 31,857 et la seconde valeur propre 2 = 0,297 . Le pourcentage de variance explique rapporte la valeur propre la somme totale des valeurs propres : le pourcentage de la variance intergroupe explique par la premire fonction discriminante est de

1 =

1

h =1

2

100 =h

31,857 * 100 = 99,076 99,1 32,154

tandis

que

la

seconde

fonction

discriminante, orthogonale la premire, nexplique que 2 = 0,9 % de la variabilit interclasse. Tableau 7 : analyse de variance des coordonnes factorielles sur le premier axe discriminant.ANOVA Scores discriminants de la fonction 1 pour l'analyse 1 Somme des carrs 4683,032 147,000 4830,032 ddl 2 147 149 Moyenne des carrs 2341,516 1,000 F 2341,516 Signification ,000

Inter-groupes Intra-groupes Total

Pour chaque fonction linaire discriminante, la valeur propre est gale au rapport de la sommes des carrs des carts interclasses sur la somme de carrs des carts intraclasses :

1 =

SCE B 4683,032 = 31,857 147 SCEW

La Revue MODULAD, 2003

- 30 -

Numro 30

Le coefficient de corrlation canonique est une mesure de la liaison entre les coordonnes factorielles discriminantes et la variable qualitative codant lappartenance aux groupes. Plus prcisment, le coefficient de corrlation canonique entre la fonction linaire discriminante et le sousespace engendr par les variables logiques yl, indicatrices de codage des groupes Gl est donn par :

h = h (1 + h ) = h .

Soit 1 = 31,857 32,857 = 0,9847 0,985 et 2 =

0,297 1,297 = 0,4785 0,478 .y

Le carr de la corrlation canonique est gal au rapport de corrlation u

de la variable

dpendante u que constitue la fonction linaire discriminante avec le facteur y codant lappartenance au groupe, soit pour la premire fonction discriminante u1. Rappelons que le carr du coefficient reprsente la part de variance explique par les diffrences entre groupes, soit le rapport entre la somme des carrs des carts intergroupes et la somme totale des carrs des carts, ce qui le rend complmentaire du lambda de Wilks univari (cf. tableau 2) : +2 = 1 Lanalogie pourrait tre poursuivie en montrant que lanalyse factorielle discriminante correspond lanalyse canonique entre le tableau (non centr) Y des variables logiques indicatrices des groupes de la typologie a priori et le tableau X des descripteurs quantitatifs (voir [Saporta, 1990]). Dans le cas particulier de deux groupes, on peut montrer que lanalyse discriminante est quivalente la rgression multiple, une transformation linaire prs. La variable qualitative expliquer y ne possdant que deux modalits, il suffit de prendre des valeurs c1 pour le groupe G1 et c2 pour le groupe G2 tel que n1c1 + n 2 c 2 = 0 ; par exemple, un vecteur y n composantes yi, recod comme suit: y i =

u

1

y

= SCE B SCET = 4683,032 4830,032 0,9847 = 1

c1 = n2 n1 = 1 c 2 = n1 n2 = 1

si si

i G1 i G2

proportionnel au vecteur b des coefficients de la rgression multiple, estimation des paramtres de. Cette proprit peut tre vrifie, lexception des constantes, sur les coefficients non standardiss par une analyse discriminante entre le groupe des Setosa et celui des Versicolor : Tableau 8 : quivalence entre rgression linaire et analyse discriminante pour deux groupes.Analyse discriminante linaire (Setosa / Versicolor) Coefficients des fonctions discriminantes canoniques Coefficients non standardiss F1 longueur des spales -0,025756 largeur des spales -0,175685 longueur des ptales 0,217398 largeur des ptales 0,289617 (Constante) -1,635420 Rgression linaire Modle Variable dpendante : type d'Iris Coefficients non standardiss B longueur des spales -0,002454 largeur des spales -0,016741 longueur des ptales 0,020715 largeur des ptales 0,027597 (constante) 1,344165 Rapport F1 / B 10,495 10,495 10,495 10,495

~ ~ 1 la rgression, dfini par : b = ( X ) X y X

Le vecteur y, le vecteur b des coefficients de la fonction linaire discriminante u est alors

Dans le cas de deux groupes (e.g. Setosa contre Versicolor), le coefficient de corrlation canonique de lanalyse discriminante (tableau 9) : Tableau 9 : corrlation canonique de lanalyse discriminante pour deux groupes.Valeurs propres % de la variance 100,0 Corrlation canonique ,981

Fonction 1

Valeur propre 26,057a

% cumul 100,0

a. Les 1 premires fonctions discriminantes canoniques ont t utilises pour l'analyse.

La Revue MODULAD, 2003

- 31 -

Numro 30

est gal au coefficient de corrlation multiple (tableau 10) de la rgression entre y et X. Tableau 10 : coefficient de corrlation et R2 du modle de rgression (deux groupes).Rcapitulatif du modle Erreur standard de l'estimation ,099

Modle 1

R ,981a

R-deux ,963

R-deux ajust ,961

a. Valeurs prdites : (constantes), largeur des ptales, largeur des spales, longueur des spales, longueur des ptales

Les autres indicateurs statistiques bass sur le modle probabiliste de la rgression ne sont gure utilisables puisque dans le contexte de lanalyse discriminante, y nest pas alatoire tandis que les vecteurs Xj le sont. iii) Coefficients et interprtation des fonctions discriminantes Les coefficients non standardiss b jh de chaque fonction discriminante de rang h sont les

estimations b jh = jh des coefficients de lquation :e

u h = 0 h + 1h X 1 + 2 h X 2 + L + qh X q

La constante b0h associe la h fonction discriminante est gale :

b0 h = b jh X . j .j =1

q

Tableau 11 : estimation des coefficients non standardiss des deux fonctions linaires discriminantesCoefficients des fonctions discriminantes canoniques Fonction 1 -,079 -,152 ,218 ,279 -2,274

longueur des spales largeur des spales longueur des ptales largeur des ptales (Constante)

2 -,002 ,216 -,095 ,292 -6,447

Coefficients non standardiss

Les valeurs des coefficients non standardiss de la fonction linaire discriminante permettent dutiliser directement les valeurs des variables explicatives pour calculer la coordonne factorielle u h (i ) , valeur2 de la fonction linaire discriminante u h dordre h pour lindividu i :

u1 (i ) 2,274 0,079 (lonsepal ) 0,152 (larsepal ) + 0,218 (lonpetal ) + 0,279 (larpetal ) u1 (2 ) 2,274 0,079 (64) 0,152 (28) + 0,218 (56 ) + 0,279 (22 ) 6,760

Ainsi la valeur de la premire fonction linaire discriminante u1 pour le second individu (iris n2) de notre chantillon dapprentissage est gale : De mme, la seconde fonction linaire discriminante u2 scrit : soit pour liris n2, la coordonne factorielle

u 2 (i ) 6,447 0,002 (lonsepal ) + 0,216 (larsepal ) 0,095 (lonpetal ) + 0,292 (larpetal )

u 2 (2) 6,447 0,002 (64) + 0,216 (28) 0,095 (56) + 0,292 (22 ) 0,577Dans la terminologie adopte par SPSS, ces coordonnes factorielles sont appeles scores discriminants .

2

La Revue MODULAD, 2003

- 32 -

Numro 30

Les coordonnes factorielles discriminantes sont centres (de moyenne nulle) relativement lensemble de lchantillon dapprentissage. Comme en rgression, les valeurs et les signes des coefficients non standardiss ne sont pas toujours directement interprtables. Pour interprter une fonction linaire discriminante, lanalyse des coefficients standardiss est plus pertinente. Tableau 12 : estimation des coefficients standardiss des deux fonctions linaires discriminantes.Coefficients des fonctions discriminantes canoniques standardises Fonction 1 2 -,409 -,008 -,517 ,735 ,939 -,409 ,571 ,597

longueur des spales largeur des spales longueur des ptales largeur des ptales

Pour la premire fonction linaire discriminante, les mesures sur les ptales sopposent aux mesures effectues sur les spales, tandis que longueur et largeur contribuent dans le mme sens que ce soit pour les ptales ou les spales. Pour la seconde fonction linaire discriminante, largeur des ptales et largeurs des spales sopposent la longueur des ptales, alors que la contribution de la longueur des spales est quasi-nulle. Notons que les signes sont arbitraires : seules les oppositions de signes ont un sens. Une autre faon dinterprter les contributions des variables prdictives aux fonctions linaires discriminantes est dtudier la matrice de structure donnant les corrlations intragroupes combines entre les variables explicatives et les fonctions discriminantes. Bien que les valeurs des corrlations totales soient plus importantes, les deux types de corrlation sont du mme ordre de grandeur. Tableau 13 : corrlations entre variables prdictives et fonctions linaires discriminantes.Matrice de structure Fonction 1 longueur des ptales largeur des spales largeur des ptales longueur des spales ,710* -,119 ,637 ,224 2 ,149 ,850* ,735* ,292*

Les corrlations intra-groupes combins entre variables discriminantes et les variables des fonctions discriminantes canoniques standardises sont ordonnes par tailles absolues des corrlations l'intrieur de la fonction. *. Plus grande corrlation absolue entre chaque variable et une fonction discriminante quelconque.

On note que la variable la plus corrle avec la premire fonction est la longueur des ptales suivie par la largeur des ptales, tandis que les variables les plus corrles avec la seconde fonction sont les largeurs, des ptales comme des spales. iv) Critres daffectation gomtriques Les coordonnes factorielles des barycentres de groupe sur les axes discriminants sont values comme valeurs moyennes des groupes :

g kh = b0 h + b jh X . jj =1

q

La Revue MODULAD, 2003

- 33 -

Numro 30

Tableau 14 : estimation des valeurs moyennes des groupesFonctions aux barycentres des groupes Fonction 1 2 -7,563 ,221 1,799 -,743 5,764 ,522

type d'Iris Setosa Versicolor Virginica

Fonctions discriminantes canoniques non standardises values aux moyennes des groupes

Daprs les valeurs de la premire fonction discriminante estime aux barycentres de chacun des groupes (tableau 14), la projection de liris n2 sur la premire fonction linaire discriminante le classe parmi les Virginica, groupe auquel il appartient effectivement. Cependant, le classement nest pas toujours aussi ais et linformation complmentaire apporte par la seconde fonction linaire discriminante peut alors tre utile. Les axes factoriels discriminants fournissent un systme de reprsentation maximisant la variance interclasses et minimisant la variance intraclasses de la partition des n individus en k groupes. Pour classer une observation x0 parmi les k groupes, laffectation gomtrique consiste projeter cette observation dans lespace dfini par les axes factoriels discriminants puis calculer la distance de cette observation chacun des k centres de gravit des groupes. La rgle daffectation est alors dfinie par la mtrique utilise, soit dans notre cas W-1 la mtrique de Mahanalobis. Pour q variables explicatives, la distance de Mahanalobis entre deux groupes G1 et G2, de barycentres respectifs l1 et l2 , de mme matrice de variance-covariance est dfinie par :

q (g1 , g 2 ) =

(

l1

l2 1 l1 l2 .q q

)

(

)

Le carr de la distance entre les deux groupes est appel le D2 de Mahanalobis2 ~ ~ Dq ( g1 , g 2 ) = (m k ) w jj (X . j1 X . j 2 )(X . j1 X . j 2 ) o w jj est llment (j,j) de laj =1 j =1

matrice W-1 . Pour trouver la classe Gl qui minimise la distance de Mahanalobis au carr

2 d q ( x0 ; g l ) = ( x0 g l ) W 1 ( x0 g l ) entre lobservation classer x0 et son barycentre gl, il faut g l W 1 g l 2 x0 W 1 g l chercher le minimum de la fonction x0 W 1 g l g l W 1 g l 2 , ou encore le maximum de la fonction [7] ce qui nous donne une fonction de classement linaire par rapport aux coordonnes de x0. On calcule donc la valeur en x0 de ces k fonctions de classement et lobservation x0 est affecte au groupe dont la fonction de classement est maximale en x0. Cette rgle gomtrique daffectation est appele la rgle de Mahanalobis-Fisher (cf. [Saporta, 1990]). Lquation de lhyperplan mdiateur entre les groupes Gl et Gl est le lieu des points qui annulent la fonction score f l / l ' ( x ) :

jeu de coefficients applicables aux valeurs observes, soit :

+ l f l / l ' ( x ) = ( l l )W 1 x l = 0. 2 Dans SPSS, les fonctions de classement pour chaque groupe l = 1,2, L , k sont dfinies par le~ blj = (m k ) w jj X . jl pour j = 1,L, qj =1 q

et avec pour constante bl 0 = ln

ml 1 q blj X . jl m 2 j=1

La Revue MODULAD, 2003

- 34 -

Numro 30

une constante prs, qui na pas dinfluence si les groupes ont des masses gales, on retrouve bien la rgle de Mahanalobis-Fisher. Tableau 15 : coefficients des fonctions de classement

Coefficients des fonctions de classement type d'Iris Versicolor 1,515 ,710 ,568 ,666 -72,388

longueur des spales largeur des spales longueur des ptales largeur des ptales (Constante)

Setosa 2,253 2,344 -1,566 -1,669 -84,044

Virginica 1,200 ,380 1,312 2,143 -104,408

Fonctions discriminantes linaires de Fisher

Si les dispersions des groupes sont trs diffrentes la fois en taille et en orientation, la rgle gomtrique de classement peut conduire des taux de mal-classs importants. Pour pallier ces insuffisances inhrentes au point de vue gomtrique, il est parfois ncessaire dadopter une dmarche probabiliste susceptible de fournir des rgles de classement optimales. III.3) Approche probabiliste i) Rgle baysienne de classement Lapproche dcisionnelle en analyse discriminante est construite sur un raisonnement probabiliste qualifi de baysien car il sappuie sur le thorme de Bayes utilisant les probabilits conditionnelles et les probabilits a priori pour calculer les probabilits a posteriori. La probabilit a priori, pl = P (Gl ) est la probabilit quun individu appartienne au groupe Gl en labsence de tout autre information. Les proportions observes dans lchantillon dapprentissage peuvent fournir une estimation de ces probabilits a priori. Ces probabilits a priori peuvent galement tre estimes daprs dautres sources statistiques comme par exemple le recensement de la population pour des classes dge ou bien le recensement de lagriculture pour les catgories dexploitation agricole. En labsence de toute information, on choisira les groupes quiprobables. Tableau 16 : probabilits a priori des groupesProbabilits priori des groupes

type d'Iris Setosa Versicolor Virginica Total

A priori ,333 ,333 ,333 1,000

Observations utilises dans l'analyse Non pondres Pondres 50 50,000 50 50,000 50 50,000 150 150,000

La probabilit conditionnelle, P ( x / Gl ) probabilit dun vecteur x = x1 , L , x j , L , x p , descriptif des observations, connaissant le groupe Gl dun individu i, permet de sappuyer sur linformation auxiliaire que constitue lappartenance au groupe pour dvelopper une rgle de classement base sur une estimation de cette probabilit conditionnelle. En effet, si lon suppose que la distribution des valeurs observes au sein de chacun des groupes est normale et si lon peut estimer les La Revue MODULAD, 2003

{

}

- 35 -

Numro 30

paramtres (moyenne et cart-type) de chacune de ces distributions, la connaissance pour chaque individu du groupe dappartenance permet de calculer la probabilit dobserver le descriptif x sachant que lindividu appartient au groupe Gl. Cependant, dans la dmarche de classement ou de discrimination le groupe dappartenance est inconnu. Connaissant par lobservation les valeurs des variables explicatives, on souhaite avoir une estimation de la probabilit dappartenance au groupe, soit P (Gl / x ) la probabilit a posteriori. Cette probabilit a posteriori peut tre calcule, en utilisant le thorme de Bayes, partir de la probabilit conditionnelle P (x / Gl ) et de la probabilit a priori P(Gl ) . Une fois ce calcul effectu pour chacun des groupes, lindividu i pourra alors tre affect au groupe G0 pour lequel la probabilit a posteriori P(G0 / x ) sera maximum. Soit k groupes distincts Gl de probabilit a priori pl = P(Gl ) . Daprs le thormes de Bayes, la probabilit dappartenance dun individu i au groupe l connaissant son vecteur des observations x est donne par la probabilit a posteriori :

P(Gl / x ) =

P( x / Gl )P(Gl )l

P(x / G )P(G )l =1 l

k

Si la distribution de probabilit du vecteur des observations est connue par lintermdiaire dune densit de probabilit ou dune distribution discrte f l ( x ) , on peut construire une rgle baysienne daffectation pour les individus en maximisant la probabilit a posteriori :

p f (x ) Max{P(Gl / x )} = Max k l l = Max{pl f l ( x )} . l l l pl f l (x ) l =1

N ( l , l ) desprance l, et de matrices de variance-covariance l, de densit : f l (x ) =

Chaque groupe Gl dobservations est suppos extrait dune population multinormale

(2 )

1q 2

1 exp ( x l ) l1 ( x l ) det ( l ) 2

Dans le cas gnral o les matrices de variance-covariance locales sont diffrentes, la rgle baysienne daffectation revient minimiser la fonction quadratique en x : [8]

QS l ( x ) = ( x l ) l1 ( x l ) + ln{det ( l )} 2 ln{pl }

Lorsque les matrices de variance-covariance des groupes sont toutes gales ( L = l ), la rgle baysienne daffectation aboutit maximiser la fonction linaire : [9]

1 1 l l + ln( pl ) 2 m W et si les probabilits a priori pl sont gales, la rgle Si la matrice est estime par (m k )

LS l ( x ) = x 1 l

baysienne correspond la rgle gomtrique de classement de Mahanalobis-Fisher qui est alors optimale dans ce cas particulier. Lquation de lhyperplan mdiateur entre les groupes Gl et Gl est le lieu des points qui annule la fonction score f l / l ' ( x ) :

p + l f l / l ' ( x ) = ( l l )W 1 x l ln l = 0 . p 2 lDans le cas de deux groupes, la rgle daffectation passe par le score ou statistique dAnderson :

S1 / 2 ( x ) = x 1 (1 2 )

1 (1 + 2 ) 1 (1 2 ) + ln p 2 p 2 1

La Revue MODULAD, 2003

- 36 -

Numro 30

Le point pivot P =

( 1 + 2 )2

reprsente le milieu du segment joignant les barycentres

des deux groupes. Si la statistique dAnderson est positive, lindividu est affect au groupe 1 ; si le score est ngatif, lindividu est affect au groupe 2, une valeur nulle entrane lindtermination. Ainsi, la rgle baysienne daffectation conduit une technique paramtrique base sur le modle normal multidimensionnel : distributions normales multivaries pour les q variables explicatives sur k populations distinctes. On vrifiera donc lhypothse de multinormalit des distributions pour chaque groupe et celle dhomognit en comparant les matrices de variance-covariance locales chaque groupe. ii) Test dhomognit des variances Dans un contexte de multinormalit, le test de Box fournit une procdure permettant de valider cette hypothse dgalit des matrices de variance-covariance. Il est bas sur la statistique M multivarie de Box qui constitue une adaptation au cas multivari de la statistique M de Bartlett :

M = (m k ) ln C (ml 1) ln C ll =1

k

Le dterminant des matrices de variance-covariance reprsente le volume des ellipsodes dinertie des groupes. La monotonie strictement croissante de la fonction logarithmique permet de comparer la matrice commune de variance-covariance intraclasses, moyenne arithmtique pondre de ces dterminants, et leur moyenne gomtrique. Si les matrices de variance-covariance locales sont gales, alors la moyenne gomtrique est gale la moyenne arithmtique et la valeur de M est nulle. Sinon, la valeur de M mesure lcart lhypothse dindpendance. Sous lhypothse nulle dgalit des matrices de variance-covariance locales 1 = 2 = L = k , le rapport :

M b si F = t 2 M t1 (b M ) siavec

e2 > e12 e2 < e12

t 2 = (t1 + 2 ) / e2 e12

k 1 1 2 p2 + 3p 1 e1 = m 1 m k 6(k 1)( p + 1) l =1 l k ( p 1)( p + 2 ) 1 1 e2 = 2 2 l =1 (m 1) (m k ) 6(k 1) l t1 = (k 1) p( p + 1) / 2 e2 > e12 e2 < e12

t (1 e1 t1 t 2 ) si b=1 t 2 (1 e1 + 2 t 2 ) si

suit une distribution de Fisher-Snedecor t1 et t2 degrs de liberts. Si e12 e2 est proche de 0, alors SPSS utilise la statistique de Bartlett2

(1 e1 )M

qui est

approximativement distribue comme un t1 degrs de liberts (cf. [Saporta, 1990]). Tableau 17 : Test de Box pour lgalit des matrices de variance-covariance localesDterminants Log Dterminant Log 5,416 7,650 9,494 8,503M de Box F Rsultats du test 144,520 Approximativement 6,942 ddl1 20 ddl2 77566,751 Signification ,000

type d'Iris Setosa Versicolor Virginica Intra-groupes combins

Rang 4 4 4 4

Les rangs et logarithmes naturels des dterminants imprims sont ceux des matrices de covariance du groupe.

Teste l'hypothse nulle de matrices de covariance gales populations.

La Revue MODULAD, 2003

- 37 -

Numro 30

Les valeurs du logarithme des dterminants des matrices de variance-covariance sinterprtent comme le volume de lellipsode dinertie relatif chacun des groupes dans lespace des variables explicatives de dimension 4. Iris Virginica apparat donc comme lespce prsentant le plus de variabilit relativement ces quatre mesures, tandis que Setosa apparat comme la plus homogne. Daprs les rsultats du tableau 17, nous sommes conduits rejeter lhypothse nulle dgalit des matrices de variance-covariance entre les trois espces dIris. Cependant, le test de Box tant rput sensible au dfaut de multinormalit, nous devons rester prudents par rapport la conclusion du test. Dautre part, vu la taille de nos chantillons relativement au nombre de paramtres estimer, les fonctions linaires peuvent savrer plus robustes que des fonctions quadratiques. iii) Affectation des individus selon la rgle baysienne Le calcul des probabilits sur lequel est base la rgle daffectation baysienne seffectue dans SPSS selon la procdure suivante. Soit, pour un individu classer i0, le vecteur ~ des q mesures x z slectionnes comme variables explicatives du classement. Le vecteur ~ des coordonnes factorielles discriminantes de lindividu i0 est obtenu par projection sur les h fonctions linaires discriminantes : ~ ~ = ~b . Soit g est le vecteur des h coordonnes factorielles du groupe G . Dans le sous-espace des h z x l l premires fonctions linaires discriminantes, sous lhypothse de multinormalit, le carr de la distance gnralise l2 = (~ g l ) Dl1 (~ g l ) entre lindividu i0 et le barycentre du groupe Gl, suit x ~ x ~ une distribution du 2 h degrs de liberts.

x La probabilit conditionnelle P ~ Gl

(

)

dobserver le vecteur ~ sachant que lindividu x

appartient au groupe Gl est le seuil de risque associ au quantile l2 = l2 .

x La probabilit a posteriori dappartenance P Gl ~ au groupe Gl est calcule selon la formule :

(

)

P(Gl ~ ) = x

pl Dlh j =1

1 2

e l e

2

pj Dj

1 2

2 j

o Dl est la matrice de variance-covariance locale au groupe Gl pour les h premires fonctions discriminantes et Dl son dterminant. Suivant loption destimation choisie, matrice de variance-covariance intraclasse commune ou matrices de variance-covariance locales chacun des groupes, le calcul du carr de la distance de Mahanalobis seffectue soit avec la mtrique W 1 , soit avec les mtriques locales Wl 1 chacun des groupes. La rgle daffectation baysienne conduit donc respectivement soit une rgle de classement quadratique (cf. la fonction QS en [8]) avec des matrices de variance-covariance Dl distinctes pour chaque groupe, soit une rgle de classement linaire (cf. la fonction LS en [9]) avec une matrice unique D = I , gale la matrice-identit puisque le calcul seffectue dans lespace des fonctions discriminantes. Lapplication de la rgle baysienne daffectation chaque individu de lchantillon dapprentissage selon cette procdure conduit aux rsultats lists dans le tableau 18. Dans le cas prsent, il sagit de la rgle linaire correspondant une mtrique unique W 1 . Ce tableau, intitul Diagnostic des observations donne les rsultats du classement pour chaque individu de lchantillon : La premire colonne donne le numro de squence i0 de lindividu permettant son identification ; La seconde colonne affiche le groupe effectif daffectation de lindividu i0, cest dire lespce laquelle il appartient rellement ; La troisime colonne propose le groupe prvu par la procdure de classement selon la rgle baysienne. Lindividu i0 est affect au groupe lmax possdant la plus forte probabilit

La Revue MODULAD, 2003

- 38 -

Numro 30

a posteriori P (G = l max / D = d ) connaissant la valeur d de la distance de Mahanalobis entre lindividu i0 et le barycentre gmax du groupe daffectation. Les individus mal classs (e.g. individus n 5 et 9) sont signals par une double astrisque ; Tableau 18 : affectation des individus aux groupes, probabilits et scores (extrait).

La quatrime colonne donne P (D > d / G = l max ) la probabilit conditionnelle dobserver une valeur au moins aussi extrme de la distance de Mahanalobis supposant lappartenance au groupe le plus probable ; La cinquime colonne affiche la probabilit a posteriori maximale, P (G = l max / D = d ) .2 La sixime colonne indique la valeur d q (x 0 ; g max ) du Carr de la distance de

Mahanalobis au barycentre du groupe le plus probable ; La septime colonne donne le numro du second groupe le plus probable ; La huitime colonne affiche la seconde plus forte probabilit a posteriori ; La neuvime colonne indique la valeur du carr de la distance de Mahanalobis au barycentre du second groupe le plus probable ; La dixime et onzime colonne indiquent les valeurs ( Scores discriminants ) des coordonnes factorielles pour les deux axes discriminants.

iv) Validation Les taux de bien-classs constituent une mesure immdiate des performances de RC la rgle de classement labore. On attend bien sr des rsultats meilleurs que ceux produit par une rgle alatoire, soit pour 3 groupes suprieurs 33 %. Lobjectif dun classement quasi-parfait, taux proche de 100 %, est difficile atteindre dans la plupart des contextes dapplication relle des mthodes de discrimination. Certains contextes supposent galement la recherche de taux de bien-classs qui soient quilibrs entre les groupes : une rgle optimale pour un groupe et dsastreuse pour les autres groupes peut se rvler dun intrt limit dans la pratique. Dautre part, la pertinence du classement obtenu doit tre contrle par des procdures de validation car des taux de bien-classs satisfaisants sur lchantillon dapprentissage ne garantissent pas la performance relle de la rgle de classement applique de nouveaux chantillons. Les taux de bien-classs et de mal-classs calculs sur lchantillon dapprentissage sont appels des taux de resubstitution ou taux apparents. Le taux rel de bien-classs TBC est la probabilit que la rgle RC classe correctement les individus dun nouvel chantillon extrait de la mme population et le taux rel de mal-classs TMC est la probabilit de classement incorrect. Les taux de resubstitution surestiment les taux rels de bien-classs et sous-estiment les taux rels de malclasss car les performances de la rgle de classement peuvent tre influences par les particularits de lchantillon dapprentissage. La Revue MODULAD, 2003 - 39 Numro 30

Dans le cas de distributions multinormales et homoscdastiques (homognit des matrices de variance-covariance des groupes), les taux thoriques de mal-classs peuvent tre estims (pour le cas de deux groupes, cf. [Bardos, 2001]). Cependant, dans la plupart des applications pratiques, on ne connat pas les lois de probabilit conditionnelles de la distribution des valeurs observes au sein des groupes. On est alors contraint dutiliser des procdures empiriques de validation. Une premire procdure de validation envisageable est celle de lchantillon-test, si lon dispose dun chantillon indpendant de lchantillon dapprentissage. Cette procdure, appele chantillon-test, a lavantage de fournir des estimations non biaises un pourcentage de bien-classs et de mal-classs. Sinon, on utilise la validation croise qui consiste partitionner lchantillon de base E en v sous-ensembles E1 , L , E l ,L , E v qui serviront tour tour dchantillons-tests. chaque pas l de la procdure de validation, le complmentaire E El sert dchantillon dapprentissage. Lestimation du taux de mal-classs est donne par la moyenne des taux de mal-classs obtenus chaque tape. La validation croise systmatique ( leave one out ) est un cas particulier o chacun des sousensembles tests E l est rduit un seul individu. On effectue alors n discriminations portant sur n-1 observations et excluant tour tour chacun des individus de lchantillon de base E. Cependant, pour n grand, les taux moyens de bien-classs convergent vers les taux de resubstitution. Tableau 19 : pourcentage de bien-classs et validation croiseb,c Rsultats du classement

Original

Effectif

%

Valid-croisa

Effectif

%

type d'Iris Setosa Versicolor Virginica Setosa Versicolor Virginica Setosa Versicolor Virginica Setosa Versicolor Virginica

Classe(s) d'affectation prvue(s) Setosa Versicolor Virginica 50 0 0 0 48 2 0 1 49 100,0 ,0 ,0 ,0 96,0 4,0 ,0 2,0 98,0 50 0 0 0 48 2 0 1 49 100,0 ,0 ,0 ,0 96,0 4,0 ,0 2,0 98,0

Total 50 50 50 100,0 100,0 100,0 50 50 50 100,0 100,0 100,0

a. La validation croises n'est effectue que pour les observations de l'analyse. Dans la validation croise, chaque observation est classe par les fonctions drives de toutes les autres observations. b. 98,0% des observations originales classes correctement. c. 98,0% des observations valides-croises classes correctement.

Les rsultats du classement effectu par la procdure DISCRIM de SPSS selon la rgle baysienne daffectation montrent un taux apparent global de bien-classs lev (98%), moyenne pondre du taux apparent de bien-classs pour chacun des groupes qui varie de 100% pour le groupe Setosa 96% pour le groupe Versicolor, comportant le plus derreur daffectation.. Le calcul des probabilits a posteriori utilises dans la rgle baysienne daffectation ntant fonction que de la valeur des distances gnralises des individus aux barycentres des groupes, la procdure DISCRIM propose une validation croise systmatique qui ne ncessite pas deffectuer n analyses discriminantes distinctes mais de rajuster le calcul des distances de Mahanalobis. Dans notre cas particulier, la validation croise systmatique aboutit aux mmes estimations que la resubstitution mais ce nest pas toujours le cas, a fortiori pour les petits chantillons.

La Revue MODULAD, 2003

- 40 -

Numro 30

v) Utilisation des graphiques factoriels discriminants Le graphique de la figure 8 produit par la procdure, intitul cartes des rgions daffectation , est une projection dans le premier plan factoriel croisant les deux premiers axes factoriels discriminants correspondant aux deux premires fonctions linaires discriminantes. Les projections des barycentres des groupes sont indiques par une toile et les rgions daffectation rsultant de lapplication de la rgle baysienne de dcision sont dlimites par le trac des hyperplans f l l (~ ) = 0 au moyen des numros des classes l et l. x Figure 8 : carte territoriale des rgions daffectation, discrimination linaire.Carte des rgions d'affectation Discriminant canonique Fonction 2 f1/2(x)=0 -12,0 -8,0 -4,0 ,0 4,0 8,0 12,0 +---------+---------+---------+---------+---------+---------+ 12,0 + 12 23 + I 12 23 I I 12 23 I I 12 23 I I 12 23 I I 12 23 I 8,0 + + + 12 + 23 + + + I 12 23 I I 12 23 I I 12 23 I I 12 23 I I 12 23 I 4,0 + + + 12 + 23 + + + I 12 23 I I 12 23 I I 12 23 I g I 12 23 3 I i=2 g1 I 12 23 * I i=3 ,0 + +* + 12 + 23 + + I 12 * 23 I i=1 I 12 23 I g2 I 12 23 I I 12 23 I I 12 23 I -4,0 + + + 12 + + 23 + + I 12 23 I I 12 23 I I 12 23 I I 12 23 I I 12 23 I -8,0 + + +12 + + 23 + + I 12 23 I I 12 23 I I 12 23 I I 12 23 I I 12 23 I -12,0 + 12 23 + +---------+---------+---------+---------+---------+---------+ -12,0 -8,0 -4,0 ,0 4,0 8,0 12,0 Discriminant canonique Fonction 1 f2/3(x)=0 Symboles utiliss dans la carte des rgions d'affectation Symb. Grpe Etiq. ----- ---- -----------------1 1 Setosa 2 2 Versicolor 3 3 Virginica * Indique un groupe barycentrique La Revue MODULAD, 2003 - 41 Numro 30

Par contre, pour la figure 9, les limites territoriales ne sont plus fournies par des hyperplans mdiateurs (par exemple, une droite dans un plan) issus dune discrimination linaire mais par des varits (par exemple, une courbe dans le plan) issues de la discrimination quadratique. Lutilisation des matrices locales de variance-covariance namliore pas les rsultats puisque nous obtenons des pourcentages de bien-classs identiques au niveau de lchantillon dapprentissage. Figure 9 : carte territoriale des rgions daffectation, discrimination quadratique.Carte des rgions d'affectation Discriminant canonique Fonction 2 -12,0 -8,0 -4,0

,0

4,0

8,0

12,0

12,0

8,0

4,0

,0

-4,0

-8,0

f1/2(x)=0

-12,0

13 13 13 13 13 13 13 13 13 133333 12222233333 12 222223333 12 222233 12 2233 12 2233 12 223 12 23 12 23 * * 12 23 12 * 23g3 12 23 g1 12 23 i=3 12 23 i=2 12 23 12 223 i=1 g2 233 1111 12 22221111 12 23 22221111 12 223 222211111 12 233 222221111112 223 222222 2233 2233 2233 22233 222333 22333 22233

-4,0 ,0 4,0 8,0 Discriminant canonique Fonction 1 Symboles utiliss dans la carte des rgions d'affectation Symb. Grpe Etiq. ----- ---- -----------------1 1 Setosa 2 2 f2/3(x)=0 Versicolor 3 3 Virginica * Indique un groupe barycentrique

-12,0

-8,0

12,0

La Revue MODULAD, 2003

- 42 -

Numro 30

La carte territoriale des rgions daffectation de la figure 8 illustre le fait quindividu ayant une coordonne factorielle sur le premier axe discriminant infrieure 4 sera class comme Iris Setosa (groupe G1) par la procdure daffectation. Par contre, si lindividu possde sur le premier axe discriminant une coordonne factorielle suprieure 8, il sera class comme Iris Virginica (groupe G3). Si cette coordonne est comprise entre 4 et 8, alors son classement dpend de la valeur de la coordonne factorielle sur le deuxime axe discriminant. Des projections graphiques des individus et du barycentre peuvent galement tre obtenues groupe par groupe sur le plan des deux premiers axes discriminants correspondant aux deux premires fonctions linaires discriminantes, comme pour le groupe des Iris Setosa en figure 10 : Figure 10 : projection locale dans le premier plan factoriel discriminant des individus et du barycentre du groupe des Iris Setosa.

Fonctions discriminantes canoniques type d'Iris = Setosa3

2

1

0

Fonction 2

Barycentres-1 Barycentres -2 -10 -9 -8 -7 -6 -5 Setosa

Fonction 1

On peut galement demander un graphique toutes classes combines projetant lensemble des individus et des barycentres de groupes dans le plan des deux premiers axes discriminants (cf. figure 11) : Figure 11 : projection globale dans le premier plan factoriel discriminant des individus et des barycentres des groupes de lchantillon dapprentissage.

Fonctions discriminantes canoniques3

2

1 Setosa 0

Virginica

Versicolor -1

type d'IrisBarycentres Virginica

Fonction 2

-2 Versicolor -3 -20 -10 0 10 Setosa

Fonction 1 La Revue MODULAD, 2003 - 43 Numro 30

IV)

Spcification des paramtres de lanalyse discriminante

i) Spcifications globales Pour effectuer une analyse discriminante, il convient de slectionner la procdure Analyse discriminante de loption Classification du menu Statistiques afin dobtenir la bote de dialogue permettant de spcifier les principaux paramtres de lanalyse discriminante : Figure 12 : spcification des variables de lanalyse discriminante.

Les spcifications requises concernent les descripteurs (Variables explicatives : larpetal, larsepal, lonpetal, lonsepal) et le critre qualitatif prdire indiquant le groupe dappartenance des individus (Critre de regroupement : espece). En cliquant sur le bouton Dfinir intervalle..., on spcifiera les modalits (? ?) qui doivent tre codes selon une squence ordonne de valeurs numriques (ici, de 1 3, soit les valeurs 1, 2 et 3). Les observations prsentant des valeurs du critre de regroupement situes en dehors de cet intervalle seront exclues de lanalyse. Il faut au moins deux groupes distincts non vides dobservations et au moins un descripteur pour que la procdure sexcute. Lanalyse discriminante dfinie par dfaut fournit les coefficients des fonctions discriminantes canoniques standardises, la matrice de structure des fonctions discriminantes et de tous les descripteurs (quils soient inclues ou non dans lquation) ainsi que les valeurs moyennes des fonctions discriminantes pour chacun des groupes. Les observations prsentant des valeurs manquantes pour les variables explicatives sont exclues des tapes destimation de lanalyse (calcul des coefficients et des indicateurs statistiques de base). On peut choisir entre les deux mthodes suivantes de slection des descripteurs comme variables explicatives : Entrer les variables simultanment. Slection a priori des descripteurs. Cest loption par dfaut. Toutes les variables satisfaisant le critre de tolrance sont inclues comme variables explicatives dans lquation ; Utiliser la mthode pas pas. Slection pas pas des descripteurs. Le critre de slection du pas pas minimise le lambda de Wilks global.

La Revue MODULAD, 2003

- 44 -

Numro 30

ii) Statistiques Pour obtenir des indicateurs statistiques complmentaires, tels que des statistiques descriptives, les coefficients de certaines fonctions ou la structure des matrices utilises, il suffit de cliquer sur le bouton Statistiques... pour valider vos choix dans la bote de dialogue correspondante de lanalyse discriminante : Figure 13 : spcification des statistiques complmentaires.

Caractristiques. Choix multiple concernant les indicateurs de statistique descriptive demands en complment : Moyennes. Moyennes et carts-types globaux (ensemble des donnes) et locales (par groupe) pour chacune des variables explicatives (cf. tableau 1) ; ANOVA 1 facteur. Tests danalyse de la variance un facteur sur lgalit des moyennes pour chacune des variables explicatives (cf. tableau 2) ; Test de Box. Test M de Box sur lgalit des matrices de variancecovariance locales chacun des groupes (cf. tableau 17). Coefficients de la fonction. Choix multiple concernant les coefficients standardiss ou non des fonctions linaires discriminantes : Fisher. Coefficients standardiss (cf. tableau 12) des fonctions linaires discriminantes permettant daffecter les observations chacun des groupes dans lespace des variables centres rduites au moyen dune quation sans constante ; Non standardiss. Coefficients non standardiss (cf. tableau 11) des fonctions linaires discriminantes pour le classement des observations dans lespace des variables dorigine au moyen dune quation avec constante. Matrices. Choix multiple concernant les matrices des diffrents oprateurs dinertie : Corrlation intraclasse. Matrice globale de corrlations intraclasses

(cf. tableau 4) ;Inertie intraclasse. Matrice globale dinertie intraclasses ou de variancecovariance intraclasses, dans le cas particulier de la pondration uniforme (cf. tableau 4) ; Inertie de chaque classe. Matrices locale dinertie (ou de variance-covariance, dans le cas particulier de la pondration uniforme) pour chacun des groupes (cf. tableau 5) ; Inertie totale. Matrice globale dinertie (ou de variance-covariance totale, dans le cas particulier de la pondration uniforme) calcule sur lensemble de lchantillon (cf. tableau 5).

La Revue MODULAD, 2003

- 45 -

Numro 30

iii) Slection des variables Si lon souhaite dfinir les options de la procdure de pas pas et contrler linclusion des variables exognes dans lquation de prdiction, il suffit de slectionner loption Utiliser la mthode pas pas, puis cliquer sur le bouton Mthodes... dans la bote de dialogue principale : Figure 14 : contrle des options du pas pas.

Mthode. On peut slectionner lune des mthodes suivantes : Lambda de Wilks. Slection chaque tape de la variable qui minimise

le lambda de Wilks ;Variance rsiduelle. Slection chaque tape de la variable qui minimise la variance rsiduelle (inexplique par les diffrences entre groupes) ; Distance de Mahanalobis. Slection chaque tape de la variable qui minimise la distance de Mahanalobis entre les deux groupes les plus proches ; Plus petit rapport F. Slection chaque tape de la variable qui minimise le rapport F sur lensemble des groupes pris deux deux ; V de Rao. Slection chaque tape de la variable qui minimise le V de Rao. V introduire. Par dfaut, la borne minimum du V pour introduire une variable est fixe 0. Il suffit dentrer une nouvelle valeur pour changer ce paramtrage. Critres. On peut slectionner lun des critres suivants : Choisir la valeur de F. Utilise comme critre la valeur du rapport F, avec une

valeur par dfaut pour la borne dintroduction (3,84) et pour la borne dlimination (2,71). Ce paramtrage peut tre chang en spcifiant de nouvelles valeurs strictement positives, la borne dintroduction devant tre suprieure la borne dlimination ; Choisir la probabilit de F. Utilise comme critre la probabilit du rapport F, avec une probabilit par dfaut pour la borne dintroduction (0,05) et pour la borne dlimination (0,10). Ce paramtrage peut tre chang en spcifiant de nouvelles valeurs comprises entre 0 et 1, la borne dintroduction devant tre suprieure la borne dlimination.

La Revue MODULAD, 2003

- 46 -

Numro 30

iv)

Affichage des rsultats

Afficher. On peut choisir lun des options suivantes : Rcapitulation des tapes.

Pour la mthode du pas pas, des rsultats rcapitulatifs sont produits chaque tape. Les statistiques rcapitulatives sont le lambda de Wilks, le pseudo-F, les degrs de libert et le niveau de signification du F. La tolrance, le F dlimination et la valeur de la statistique utilise pour slectionner la variable sont produites pour chaque variable incluse dans lquation. La tolrance, la tolrance minimum, le F dintroduction et la valeur de la statistique utilise pour slectionner la variable sont produites pour chaque variable exclue de lquation. Pour supprimer ce rcapitulatif, il suffit de dslectionner loption ; Test F des distances entre couples. Produit une matrice des rapports F pour les groupes pris deux deux. Ces rapports F permettent de tester la valeur de la distance de Mahanalobis entre deux groupes.

v) Options de classement Pour dfinir les options de classement (ou daffectation) et contrler linclusion des variables exognes dans lquation de prdiction, il suffit de cliquer sur le bouton Classement dans la bote de dialogue principale : Figure 15 : contrle des options de classement.

Probabilits a priori. On peut choisir lune des options suivantes : Egales pour toutes les classes. Les probabilits a priori dappartenance au

groupe sont supposes gales, option par dfaut ; A calculer selon les effectifs. Les probabilits a priori dappartenance au groupe sont estimes daprs les proportions dindividus dans chaque groupe, observes sur lchantillon.Afficher. On peut slectionner lun des choix daffichage suivants : Rsultats par observation. Affiche pour chaque observation les codes des

groupes observs et estims, les probabilits a posteriori et les scores discriminants (cf. tableau 18) ; Rcapitulatif. Affiche une table de classement rcapitulant les appartenances observes et estimes pour chacun des groupes (cf. tableau 19). Si un chantillon dapprentissage est slectionn deux tables seront affiches, lune pour les individus chantillonns, lautre pour le reste des individus ; Classification par limination. Affiche les rsultats du classement effectu selon la mthode de validation croise systmatique (leave one out) : pour chaque individu extrait de lchantillon, une fonction score est construite sur un chantillon dapprentissage comportant les (n-1) individus restants ; chacun de ces n scores est test sur lindividu limin. La Revue MODULAD, 2003

- 47 -

Numro 30

de variance-covariance intraclasses pour classer les individus, option par dfaut (cf. rgle de classement linaire [9]) ; De chaque classe. On utilise la matrice de variance-covariance locale chaque groupe pour classer les individus (cf. rgle de classement quadratique [8]). Le classement est bas sur les fonctions discriminantes et non sur les variables explicatives.Diagrammes. Choix multiple parmi les diagrammes suivants : Toutes classes combines. Projection

Utiliser la matrice dinertie. On peut choisir lune des options suivantes : Intraclasse. On utilise la matrice globale

graphique de lensemble des individus et des groupes dans le plan des deux premiers axes discriminants (cf. figure 11). Sil nexiste quune seule fonction discriminante, un histogramme remplace le diagramme ; Classe par classe. Production dun diagramme distinct pour chaque groupe dans le plan des deux premiers axes discriminants (cf. figure 10). Sil nexiste quune seule fonction discriminante, des histogrammes remplacent les diagrammes ; Carte des rgions daffectation. Une carte territoriale (cf. figure 8,9) dlimite les frontires utilises pour le classement et indique le barycentre de chaque groupe. Sil nexiste quune seule fonction discriminante, cette carte nest pas produite. Remplacer les valeurs manquantes par la moyenne. Lors du processus de classement, les moyennes sont substitues aux valeurs manquantes pour les descripteurs afin de pouvoir classer les individus avec des valeurs manquantes.

vi) Options denregistrement Pour dfinir les options de sauvegarde, il suffit de cliquer sur le bouton Enregistrer... dans la bote de dialogue principale : Figure 16 : contrle des options denregistrement.

Choix multiples concernant les options denregistrement : Classe(s) daffectation. Affectation au groupe possdant la plus grande probabilit a posteriori ; Valeur du facteur discriminant. Sauvegarde des scores pour chacune des fonctions discriminantes estimes ; Probabilits daffectation. Cration dune variable par groupe. La ke variable contient la probabilit a posteriori dappartenance au ke groupe.

La Revue MODULAD, 2003

- 48 -

Numro 30

V)

Rfrences bibliographiques

Bardos M. (2001). Analyse discriminante : application au risque et scoring financier, Dunod, Paris, 224 p. Blake, C.L. & Merz, C.J. (1998). UCI Repository of machine learning databases. University of California, Department of Information and Computer Science Irvine, CA, USA. Celeux G., Diday E., Govaert G., Lechevallier Y., Ralambondrainy H. (1989). Classification automatique des donnes. Environnement statistique et informatique, Bordas, Paris, 285 p. Dagnelie P. (1975) Analyse statistique plusieurs variables, Les Presses agronomiques de Gembloux, Gembloux, 362 p. Fisher, R. A.. (1936). The Use of Multiple Measurements in Taxonomic Problems , Ann. of Eugenics 7, Part II, pp. 179-188. Klecka W.R. (1980). Discriminant Analysis, Sage Publications, Beverly Hills, 88p. Lebart L., Morineau A., Piron M. (1995) Statistique exploratoire multidimensionnelle, Dunod, Paris, 439 p. Mahanalobis P.C. (1936) On the Generalised Distance in Statistics , Proc. Nat. Inst. Sci. India, 12, pp. 49-55. Romeder J.-M. (1973) Mthodes et programmes danalyse discriminante, Dunod, Paris, 274 p. SPSS Inc. (1994). SPSS 6.1 Professional Statistics, SPSS Inc., Chicago, 385 p. SPSS Inc. (1999). SPSS 10.0 Applications Guide, SPSS Inc., Chicago, 426 p. Saporta G. (1990). Probabilit, analyse des donnes et statistique, Technip, Paris, 493 p. Tomassone R. 1988, Comment interprter les rsultats dune analyse factorielle discriminante ? , ITCF, Paris, 56 p. Tomassone R., Danzart M., Daudin J.J., Masson J.P. (1988) Discrimination et classement, Masson, Paris, 174 p.

Figure 17 : portrait prsum du rvrend Thomas Bayes.

Rev. Thomas BAYES 1702-1761[extrait de History of Life Insurance in its Formative Years, par T O'Donnell, American Conservation Company Chicago, 1936]

La Revue MODULAD, 2003

- 49 -

Numro 30