101
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 04/04/2008 1 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Embed Size (px)

Citation preview

Page 1: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Stéphane Tufféry

DATA MINING& STATISTIQUE DÉCISIONNELLE

04/04/2008 1© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 2: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Plan du cours

• Qu’est-ce que le data mining ?• A quoi sert le data mining ?• Les 2 grandes familles de techniques• Le déroulement d’un projet de data mining• Coûts et gains du data mining• Facteurs de succès - Erreurs - Consulting• L’analyse et la préparation des données

04/04/2008 2© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• L’analyse et la préparation des données• Techniques descriptives de data mining• Techniques prédictives de data mining• Logiciels de statistique et de data mining• Informatique décisionnelle et de gestion• CNIL et limites légales du data mining• Le text mining• Le web mining

Page 3: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Techniques descriptives

04/04/2008 3© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Techniques descriptives

Page 4: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

20%

30%

40%

50%

60%

novembre 2003en % des votants

avril 2006 en %des votants

Sondages sur www.kdnuggets.com

04/04/2008 4© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

0%

10%

20%

Decis

ion T

rees

Clu

ste

ring

Sta

tistics

Neura

l nets

Regre

ssio

n

Vis

ualiz

ation

Assocation r

ule

s

Neare

st

neig

hbor

Bayesia

nS

equence /

tim

e s

eries

analy

sis

SV

M

Hybrid m

eth

ods

Genetic a

lgorith

ms

Boosting

Baggin

g

Oth

er

Page 5: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Les techniques descriptives

• Rappel : Les techniques descriptives :• visent à mettre en évidence des informations présentes mais

cachées par le volume des données• il n’y a pas de variable « cible » à prédire

• Analyse factorielle•

04/04/2008 5© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Analyse factorielle• Projection du nuage de points sur un espace de dimension

inférieure pour obtenir une visualisation de l’ensemble des liaisons entre variables tout en minimisant la perte d’information

• Classification• Trouver dans l’espace de travail des groupes homogènes

d’individus ou de variables • Détection d’associations entre des objets

Page 6: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Les 2 principales familles de méthodes descriptives

04/04/2008 6© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Source : Lebart-Morineau-Piron, Statistique exploratoire multidimensionnelle, page 10

carte de Kohonen

Page 7: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Techniques descriptives de data mining :

04/04/2008 7© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Techniques descriptives de data mining :

La classification

Page 8: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Qu’est-ce que la classification ?

• Regrouper des objets en groupes, ou classes, ou familles, ou segments, ou clusters, de sorte que :• 2 objets d’un même groupe se ressemblent le + possible• 2 objets de groupes distincts diffèrent le + possible• le nombre des groupes est parfois fixé

• Méthode descriptive :

04/04/2008 8© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Méthode descriptive :• pas de variable cible privilégiée• décrire de façon simple une réalité complexe en la résumant

• Utilisation en marketing, médecine, sciences humaines…• Les objets à classer sont :

• des individus• des variables

Page 9: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Complexité du problème !

• Le nombre de partitions (non recouvrantes) de n objets est le nombre de Bell :

• Exemple : pour n = 4 objets, on a Bn = 15, avec• 1 partition à 1 classe (abcd)• 7 partitions à 2 classes (ab,cd), (ac,bd), (ad,bc), (a,bcd),

∑∞

=

=1 !

1

k

n

nk

k

eB

04/04/2008 9© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• 7 partitions à 2 classes (ab,cd), (ac,bd), (ad,bc), (a,bcd), (b,acd), (c,bad), (d,abc)

• 6 partitions à 3 classes (a,b,cd), (a,c,bd), (a,d,bc), (b,c,ad), (b,d,ac), (c,d,ab)

• 1 partition à 4 classes (a,b,c,d)

• Exemple : pour n = 30 objets, on a B30 = 8,47.1023

• Bn > exp(n) ⇒ Nécessité de définir des critères de bonne classification et d’avoir des algorithmes performants

Page 10: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

La classification

nb de produits

04/04/2008 10© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

âge

revenus

Page 11: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Terminologie : de nombreux synonymes

• Classification, ou classification automatique, terme généralement employé par les auteurs français• attention : il est employé dans un autre sens par les anglo-

saxons (qui disent « classification » pour désigner la technique prédictive que les français appellent « classement »)

• Segmentation : terme employé en marketing (les

04/04/2008 11© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Segmentation : terme employé en marketing (les « segments de clientèle ») et assez explicite

• Typologie, ou analyse typologique• Clustering : terme anglo-saxon le plus courant• Taxinomie ou taxonomie (biologie, zoologie)• Nosologie (médecine)• Reconnaissance de forme non supervisée

• ...

Page 12: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Structure des données à classer

• Soit une matrice rectangulaire dont :• lignes = individus• colonnes = variables

• Cette structure permet de classer individus ou variables

• Soit une matrice carrée de similarités, distances entre :

04/04/2008 12© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Soit une matrice carrée de similarités, distances entre :• individus• ou variables (par exemple : la matrice des corrélations)

• Cette structure permet aussi de classer individus ou variables

Page 13: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Structure des classes obtenues

• Soit 2 classes sont toujours disjointes : méthodes departitionnement :• généralement, le nombre de classes est défini a priori• certaines méthodes permettent de s’affranchir de cette

contrainte (analyse relationnelle, méthodes paramétriquespar estimation de densité comme la proc SAS/MODECLUS)

04/04/2008 13© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

par estimation de densité comme la proc SAS/MODECLUS)

• Soit 2 classes sont disjointes ou l’une contient l’autre :méthodes hiérarchiques :• ascendantes (agglomératives : agglomération progressive d’éléments 2 à 2)• descendantes (divisives)

• Soit 2 classes peuvent avoir plusieurs objets en commun(classes « empiétantes » ou « recouvrantes ») :• analyse « floue », où chaque objet a une certaine

probabilité d’appartenir à une classe donnée

Page 14: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Les différentes méthodes

• Méthodes hiérarchiques• ascendantes (agglomératives)

• basées sur une notion de distance ou de densité

• descendantes (divisives)

• Méthodes de partitionnement• centres mobiles, k-means et nuées dynamiques

04/04/2008 14© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• centres mobiles, k-means et nuées dynamiques• k-modes, k-prototypes, k-représentants (k-medoids)• réseaux de Kohonen• méthodes basées sur une notion de densité• méthode « de Condorcet » (analyse relationnelle)

• Méthodes mixtes• Analyse floue (fuzzy clustering)

Page 15: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Applications de la classification

• Marketing : découper la clientèle en segments dotéschacun d’une offre et d’une communication spécifique

• Commercial : répartir l’ensemble des magasins d’uneenseigne en établissements homogènes du point de vuetype de clientèle, CA, CA par rayon (selon type d’article),taille du magasin…

04/04/2008 15© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

taille du magasin…• Médical : déterminer des groupes de patients

susceptibles d’être soumis à des protocolesthérapeutiques déterminés, chaque groupe regroupanttous les patients réagissant identiquement

• Sociologie : découper la population en groupeshomogènes du point de vue sociodémographique, stylede vie, opinions, attentes…

Page 16: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Classification générale de la clientèle

• Détection des profils :• clients dont on est la 2de banque• clients avec faibles encours mais 1ère banque chez nous• clients à tendance « épargne »• clients à tendance « crédit consommation »• clients à tendance « crédit habitat »•

04/04/2008 16© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• …

• Utilisation pour :• les ciblages des actions commerciales• l’évaluation du potentiel commercial• l’affectation des clients aux différents types de commerciaux

Page 17: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

0

5

10

P

C

R

2

Représentation des classes

patrimoine - âge

04/04/2008 17© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

0 5 10

PCR1

-5

forts revenusfaibles revenus

crédit conso - CB

S1 : rouge

S2 : vert

S3 : rose

S4 : orange

S5 : bleu

S6 : noir

Page 18: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Interprétation des classes

• Statistiques descriptives des classes (comparaison des moyenne ou des modalités par un test statistique)

• Analyse factorielle représentant les classes obtenues et les variables initiales

04/04/2008 18© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

variables initiales

• Arbre de décision avec la classe obtenue comme variable cible

• Classification des variables : variables initiales + indicatrices des classes obtenues

Page 19: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Représentation des classes

Catégorie % n

6 42,55 71577

2 11,80 19848

3 11,03 18560

4 6,99 11766

1 20,22 34011

5 7,40 12450

Total (100,00) 168212

Noeud 0

Catégorie % n

6 6,58 6806

2 19,19 19848

3 17,94 18560

4 11,37 11766

1 32,88 34011

5 12,04 12450

Total (61,49) 103441

Noeud 2

Catégorie % n

6 7,36 5072

2 28,74 19794

3 26,95 18557

Noeud 4

Catégorie % n

6 5,02 1734

2 0,16 54

3 0,01 3

Noeud 3

Catégorie % n

6 100,00 64771

2 0,00 0

3 0,00 0

4 0,00 0

1 0,00 0

5 0,00 0

Total (38,51) 64771

Noeud 1

Identification des classes par

04/04/2008 19© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

3 26,95 18557

4 16,90 11639

1 2,10 1448

5 17,94 12358

Total (40,94) 68868

Catégorie % n

6 4,73 1710

2 2,31 835

3 51,29 18557

4 4,54 1643

1 2,97 1075

5 34,16 12358

Total (21,51) 36178

Noeud 6

Catégorie % n

6 5,94 944

2 3,35 532

3 75,43 11992

4 3,69 586

1 0,00 0

5 11,60 1844

Total (9,45) 15898

Noeud 10

Catégorie % n

6 3,78 766

2 1,49 303

3 32,37 6565

4 5,21 1057

1 5,30 1075

5 51,84 10514

Total (12,06) 20280

Noeud 9

Catégorie % n

6 10,28 3362

2 57,00 18959

3 0,00 0

4 30,58 9996

1 1,14 373

5 0,00 0

Total (19,43) 32690

Noeud 5

Catégorie % n

6 15,88 1139

2 0,01 1

3 0,00 0

4 84,11 6033

1 0,00 0

5 0,00 0

Total (4,26) 7173

Noeud 8

Catégorie % n

6 8,71 2223

2 74,30 18958

3 0,00 0

4 15,53 3963

1 1,46 373

5 0,00 0

Total (15,17) 25517

Noeud 7

3 0,01 3

4 0,37 127

1 94,19 32563

5 0,27 92

Total (20,55) 34573

des classes par un arbre de décision

Page 20: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Techniques de classification :

04/04/2008 20© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Techniques de classification :

La classification d’individus

Page 21: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Intérêt de la classification pour la prédiction

• Classification⇓

• Homogénéité des groupes d’individus⇓

04/04/2008 21© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Moins de variables discriminantes(éventuellement, valeurs manquantes complétées)

• + grande fiabilité des prédictions

Page 22: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Critères de bon algorithme

• Détecter les structures présentes dans les données• Permettre de déterminer le nombre optimal de classes• Fournir des classes bien différenciées• Fournir des classes stables vis-à-vis de légères

modifications des données• Traiter efficacement les grands volumes de données•

04/04/2008 22© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Traiter efficacement les grands volumes de données• Traiter tous les types de variables (quantitatives et

qualitatives)• Ce point est rarement obtenu sans transformation

• Mais pas de critère universel de qualité semblable àl’aire sous la courbe ROC des méthodes de scoring• ⇒ de nombreuses techniques existent

Page 23: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Classification avec des variables continues

• Il faut choisir une distance entre individus, le plussouvent la distance euclidienne

• Nécessité de standardiser les variables si elles ne sontpas toutes mesurées dans la même unité et ont desmoyennes ou des variances dissemblables

04/04/2008 23© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

moyennes ou des variances dissemblables

• Préférable d’isoler les « outliers » (individus hors-norme)• Voir exemple plus loin des 2 ellipses avec CAH single linkage

• Quand on a des variables qualitatives ⇒ se ramener àune classification de variables continues par une ACM

Page 24: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Inertie d’un nuage d’individus

• Inertie totale ITOT de la population : moyenne (pondéréepar le poids de chaque individu – généralement 1/effectif)des carrés des distances des individus au barycentre

• Inertie intraclasse IA : somme des inerties totales dechaque classe

• Inertie interclasse IR : moyenne (pondérée par la somme

04/04/2008 24© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Inertie interclasse IR : moyenne (pondérée par la sommedes poids de chaque classe) des carrés des distances desbarycentres de chaque classe au barycentre global

• Formule de Huygens : ITOT = IA + IR

( )222 )()( xxpxxpxxp j

classesj Ii

i

classesj Ii

jii

Ii

ii

jj

+

−=− ∑ ∑∑ ∑∑

∈ ∈∈ ∈∈

Page 25: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Inertie et qualité d’une classification

• Une classe est homogène ⇔ son inertie est faible• Deux critères de bonne classification : grande IR, petite IA

• Ces deux critères sont équivalents d’après la formule de Huygens : ITOT = IA + IR

04/04/2008 25© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

inertie totale=

inertie interclasse +

inertie intraclasse

Page 26: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Mesures de qualité d’une classification

• R² = proportion de la variance expliquée par les classes• rapport IR / ITOT

• être le plus proche possible de 1sans avoir trop de classes

• s’arrêter après le dernier sautimportant

R-Squared

0. 2

0. 3

0. 4

0. 5

0. 6

0. 7

0. 8

0. 9

1. 0

4 classes

04/04/2008 26© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

important

• Pseudo F = mesure la séparation entre toutes les classes• rechercher une grande valeur• avec n = nb d’observations• et c = nb de classes• on a pseudo F =

cn

Rc

R

−−

²11

²

0. 0

0. 1

Number of Cl usters

1 2 3 4 5 6 7 8 9

Page 27: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Mesures de qualité d’une classification

• Cubic clustering criterion (CCC)• > 2 : bonne classification• entre 0 et 2 : classification peut-être OK mais à vérifier• < 0 : présence d’outliers gênants (surtout si CCC < - 30)

Cubi c Cl ust er i ng Cr i t er i on

4

5

un creux pour k classes suivi d’un pic

04/04/2008 27© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Ne pas utiliser CCC et pseudo F avec single linkage

-9

-8

-7

-6

-5

-4

-3

-2

-1

0

1

2

3

Number of Cl ust ers

1 2 3 4 5 6 7 8 9

classes suivi d’un pic pour k+1 classes indique une bonne classification en k+1 classes (surtout si on a une � ou une �douce à partir de k+2 classes)

4 classes

Page 28: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Mesures de qualité d’une CAH

• R² semi-partiel (SPRSQ) = mesure la perte d’inertieinterclasse provoquée en regroupant 2 classes• le but étant d’avoir une inertie interclasse maximum, on

recherche un faible SPRSQ suivi d’un fort SPRSQ àl’agrégation suivante � un pic pour k classes et un creuxpour k+1 classes indique une bonne classification en k+1classes

04/04/2008 28© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

classes Semi -Par t i al R-Squared

0. 010. 020. 030. 040. 050. 060. 070. 080. 090. 100. 110. 120. 130. 140. 150. 160. 170. 180. 190. 200. 210. 220. 230. 240. 250. 260. 270. 280. 290. 300. 310. 320. 330. 340. 35

Number of Cl usters

1 2 3 4 5 6 7 8 9

4 classes

Page 29: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Classification ascendante hiérarchique

• Utilisables dès que l’on dispose d’une distance : dansun espace des individus ou des variables

• Schéma de l’algorithme :1) les classes initiales sont les observations2) on calcule les distances entre classes3) les 2 classes les plus proches sont fusionnées et

04/04/2008 29© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

3) les 2 classes les plus proches sont fusionnées etremplacées par une seule

4) on reprend en 2) jusqu’à n’avoir plus qu’une seule classe,qui contient toutes les observations

• Résultat sous forme d’un arbre appelé dendrogramme :• le niveau où l’on coupe l’arbre détermine le nb de classes• la hauteur d’une branche est proportionnelle à la perte

d’inertie interclasse (R² semi-partiel)

Page 30: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Classification ascendante hiérarchique

04/04/2008 30© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

couper ici avant une forte perte d’inertie interclasse

en passant de 4 à 3 classes

Page 31: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Les différentes distances utilisées 1/3

• Distance minimale entre 2 observations a ∈ A et b ∈ B• sait détecter les classes allongées/irrégulières voire

sinueuses• sensible à « l’effet de chaîne » : 2 classes bien distinctes

mais reliées par une série de points isolés vont seretrouver regroupées

04/04/2008 31© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

retrouver regroupées• moins adaptée pour détecter les classes sphériques• bonnes propriétés théoriques• fréquemment utilisée• « saut minimum » ou « single linkage »

Page 32: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Les différentes distances utilisées 2/3

• Distance maximale entre 2 observations a ∈ A et b ∈ B• tend à produire des classes de diamètres égaux• très sensible aux outliers !• peu utilisée• « saut maximum » ou « critère du diamètre » ou « complete

linkage »• Distance moyenne entre 2 observations a ∈ A et b ∈ B

04/04/2008 32© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Distance moyenne entre 2 observations a ∈ A et b ∈ B• intermédiaire entre « saut minimum » et « saut maximum »• tend à produire des classes de variances égales• « saut moyen » ou « average linkage »

• Distance entre les barycentres (« centroïdes ») de A et B• plus simple à calculer mais moins précise• « distance des barycentres » ou « centroid method »

Page 33: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Les différentes distances utilisées 3/3

• Critère de Ward (baisse d’inertie interclasse résultant de la fusiondes 2 classes)• correspond à l’objectif d’avoir la plus forte inertie interclasse

possible ⇒ avoir la plus faible baisse d’inertie en fusionnant 2classes

• la distance de 2 classes A et B, de barycentres a et b, etd’effectifs nA et nB, vaut :

badBAd

)²,(),( =

04/04/2008 33© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• c’est une fonction de la distance des barycentres• tend à produire des classes sphériques et de mêmes effectifs –

peu efficace sur les classes allongées• très sensible aux outliers• méthode la plus utilisée (fonctionne bien sur les pbs réels)

BA nn

badBAd

11

)²,(),(

+

=

Page 34: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Influence du choix de la distance

A B

A B

04/04/2008 34© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

C D

C D

distance minimale(A,B) = distance minimale(C,D) = 3 distance minimale(A,C) = distance minimale(B,D) = 4 distance minimale(A,D) = distance minimale(B,C) = 5

distance maximale(A,B) = distance maximale(C,D) = 7 distance maximale(A,C) = distance maximale(B,D) = 4,4 distance maximale(A,D) = distance maximale(B,C) = 8,0

Page 35: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Effet de chaîne

04/04/2008 35© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 36: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Illustration de la CAH

04/04/2008 36© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 37: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Illustration de la CAH (autre cas)

04/04/2008 37© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 38: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Avantages de la CAH

• Permet de classer : des individus, des variables, desmoyennes de classes obtenues en sortie d’un algorithmedes centres mobiles• si on classe des moyennes, on améliore les résultats si on

connaît non seulement les moyennes des classes, maisaussi les inerties intraclasses et les effectifs des classes

• S’adapte aux diverses formes de classes, par le choix de

04/04/2008 38© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• S’adapte aux diverses formes de classes, par le choix dela distance

• Permet de choisir le nombre de classes de façon optimale,grâce à des indicateurs de qualité de la classification enfonction du nombre de classes• R² semi-partiel et pseudo t²

Page 39: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Méthode des centres mobiles

• 1) On choisit k individus comme centres initiaux des classes

• 2) On calcule les distances entre chaque individu et chaque centre ci de l’étape précédente, et on affecte chaque individu au centre le plus proche, ce qui définit k classes

• 3) On remplace les k centres c par les barycentres des k

04/04/2008 39© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• 3) On remplace les k centres ci par les barycentres des k classes définies à l’étape 2

• 4) On regarde si les centres sont restés suffisamment stables ou si un nombre fixé d’itérations a été atteint :• si oui, on arrête (en général, après au moins une dizaine

d’itérations)• si non, on revient à l’étape 2

Page 40: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Centres mobiles : illustration

04/04/2008 40© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Source : Ludovic Lebart – Analyse des données appliquée - 2002

Page 41: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Variantes

• k-means• le barycentre de chaque groupe est recalculé à chaque

nouvel individu introduit dans le groupe, au lieu d’attendrel’affectation de tous les individus

• la convergence est parfois possible en une seule itération⇒ plus grande rapidité

04/04/2008 41© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

⇒ plus grande rapidité• les résultats risquent de dépendre de l’ordre du fichier !

• Nuées dynamiques• chaque classe n’est plus représentée par son barycentre

(éventuellement extérieur à la population), mais par unsous-ensemble de la classe, appelé noyau, qui, s’il estbien composé (des individus les plus centraux, parexemple), sera plus représentatif de la classe que sonbarycentre

Page 42: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Avantages des centres mobiles

• Rapidité (complexité en n)• on ne compare pas toutes les observations entre elles• mais par rapport aux centres de classes

• SAS permet de détecter les outliers et de les isoler ou non• les outliers sont des classes réduites à un élément• on peut les supprimer de l’ensemble des centres initiaux et

04/04/2008 42© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• on peut les supprimer de l’ensemble des centres initiaux etutiliser une option (« strict=s » dans la proc FASTCLUS deSAS) qui attribue le n° de classe –k à toute observation plusproche de la ke classe que des autres, mais séparée decette classe par une distance supérieure au seuil s indiqué

• choix du seuil en regardant les rayons (_radius_) des classesd’effectifs élevés et en choisissant s légèrement supérieur

Page 43: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Inconvénients de ces techniques

• Centres mobiles :• obligation de fixer a priori le nombre de classes

• possibilité de s’aider d’une ACP• dépendance au choix des centres initiaux• ne détecte bien que les formes convexes

• surtout sphériques de même taille

• Classification ascendante hiérarchique :

04/04/2008 43© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Classification ascendante hiérarchique :• complexité algorithmique non linéaire (en n2 ou n3, parfois

n2log(n))• l’algorithme des voisins réciproques permet de passer de n3 en

n2, en regroupant judicieusement plus de 2 observations – passeulement les 2 plus proches – à chaque itération

• 2 observations placées dans des classes différentes ne sontjamais plus comparées

• pas d’optimisation globale ⇒ même défaut que les arbres dedécision

Page 44: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Influence du choix des centres initiaux

04/04/2008 44© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 45: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

CAH versus nuées dynamiques 1/2

04/04/2008 45© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 46: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

CAH versus nuées dynamiques 2/2

04/04/2008 46© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 47: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Méthodes mixtes

• Combiner les avantages de CAH et des k-means• effectuer une 1ère classification sur les n observations par

les centres mobiles ou les k-means, en fixant le nombre declasses entre 10 et 100 (ou limite de Wong : n0,3)

• valeur assez grande pour limiter le risque de fusion declasses naturelles

04/04/2008 47© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

classes naturelles• puis effectuer la CAH sur les centres de ces pré-classes

• Exemples• la méthode par estimation de densité de Wong est

obligatoirement précédée d’une procédure k-means• les autres méthodes par estim. de densité ne sont pas mixtes

• les CAH « Ward » ou « average linkage » ou « centroid »peuvent être précédées d’une procédure k-means

• algorithme BIRCH (= 2-step cluster component dans SPSS)

Page 48: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Méthodes mixtes avec SAS 1/12 :première phase de standardisation

• Standardiser les variables :• proc standard data=dbscan out=test mean=0 std=1;

• var &var;

• run;

• Cette étape est vivement recommandée si les variablesont des variances sensiblement inégales

04/04/2008 48© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

ont des variances sensiblement inégales

• Utiliser une ACM si les variables sont qualitatives et nonquantitatives

Page 49: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Méthodes mixtes avec SAS 2/12

• Lancer une procédure des centres mobiles pour obtenir :• (au +) maxc (ici 10) classes, dont le no est dans « cluster »• en (au +) maxiter (ici 50) itérations (sauf si convergence avant)

• valeur par défaut = 1• valeur conseillée ≥ 10• valeur = 0 ⇒ chaque individu est directement affecté à l’un des

04/04/2008 49© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• valeur = 0 ⇒ chaque individu est directement affecté à l’un descentres initiaux et on obtient aussitôt les classes finales

• « converge=0.02 » ⇒ les itérations s’arrêtent quand plusaucun centre ne se déplace d’une distance > 0.02

• option sans objet si maxiter ≤ 1

• chaque individu est affecté dans le fichier OUT à une classe• ces (ici 10) classes sont décrites dans le fichier MEAN• « delete=2 » supprime les centres avec ≤ 2 individus

rattachés (pour éviter d’avoir pour centre un « outlier »)

Page 50: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Méthodes mixtes avec SAS 3/12 :requête pour les centres mobiles

• Code SAS :• proc fastclus data=test summary maxc=10

maxiter=50 converge=0.02 mean=centres out=presegm

cluster=presegm delete=2;

• var &var; run;

• Autres options :•

limite les statistiques affichées

(autre option : « short »)

04/04/2008 50© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

•• « drift » : pour remplacer la méthode des centres mobiles

par celle des k-means (convergence plus rapide)• « radius=d » : spécifie la distance minimale entre 2 centres

initiaux (= 0 par défaut)• « replace=none » : accélère la phase de sélection des

centres initiaux en empêchant les substitutions des centresles plus proches (choisir alors « radius » assez grand) –mieux vaut laisser l’option par défaut « replace=full »

Page 51: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Méthodes mixtes avec SAS 4/12 :données écrites en sortie

• Le fichier MEAN contient des infos sur les classes :

• _FREQ_ : effectif de la classe• _RMSSTD_ : inertie intra-classe• _NEAR_ : no de la classe la + proche

données utilisées par la CAH ultérieure

Obs presegm _FREQ_ _RMSSTD_ _RADIUS_ _NEAR_ _GAP_ X Y

1 1 21 0.26371 0.62286 7 0.90908 -0.03354 -0.78624

2 2 31 0.22412 0.45198 6 1.23883 1.25483 1.60977

Une

ligne

par

classe

04/04/2008 51© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• _NEAR_ : no de la classe la + proche• _GAP_ : distance entre le centre et l’autre centre le + proche• _RADIUS_ : distance max entre 1 individu et son centre• X, Y : coordonnées du centre de la classe

• Le fichier OUT contient les var. initiales + les variables :• CLUSTER = presegm : no de la classe• DISTANCE : séparant l’individu du centre de sa classe

Obs X Y N presegm DISTANCE

1 -1.92073 -1.49419 1 9 0.38436

2 -1.88339 -1.36798 1 9 0.33055

Une

ligne

par

individu

Page 52: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Méthodes mixtes avec SAS 5/12 :qualité de la classification

• Vérifier que R² >> 0 et CCC > 2• Exemple :

Pseudo F Statistic = 401.74

Observed Over-All R-Squared = 0.94535

Approximate Expected Over-All R-Squared = 0.90858

04/04/2008 52© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• calculé en supposant les variables non corrélées• non calculé si le nb de classes > 20 % du nb d’observations

• calculé en supposant les variables non corrélées

• Maximiser ces valeurs en testant différentes valeurs du nbde classes

Cubic Clustering Criterion = 8.533

Page 53: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Méthodes mixtes avec SAS 6/12 :FASTCLUS en 2 temps pour éliminer des outliers

• Première FASTCLUS pour créer un fichier de centres• proc fastclus data=test summary maxc=10 maxiter=50

converge=0.02 outseed=centres delete=2;

• var &var; run;

• Suppression des centres n’ayant au plus que 2 individus• data centres;set centres;where _freq_ > 2;run;

04/04/2008 53© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• data centres;set centres;where _freq_ > 2;run;

• Nouvelle FASTCLUS sur le fichier des centres épurés avecoption « strict=0.6 » pour écarter les individus éloignésd’une distance > 0.6 de toute classe• proc fastclus data=test seed=centres summary

maxc=10 maxiter=50 converge=0.02 strict=0.6

• mean=centres2 out=presegm cluster=presegm ;

• var &var;run;102 -0.59774 -1.05012 4 -1 0.65400

103 -0.80046 -0.97533 4 -3 0.64009

Page 54: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Méthodes mixtes avec SAS 7/12 :visualisation des classes

Plot of _GAP_*_FREQ_. Symbol used is 'G'. Plot of _RADIUS_*_FREQ_. Symbol used is 'R'. ‚ ‚ 1.4 ˆ D ‚ i ‚ s ‚ t ‚ a ‚ G n 1.2 ˆ c ‚ e ‚ ‚ G t ‚ o ‚

proc gplot data=centres;

plot _gap_*_freq_='G' _radius_*_freq_='R' / overlay;

run;

04/04/2008 54© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

o ‚ 1.0 ˆ N ‚ G e ‚ G G a ‚ G G G r ‚ G G e ‚ s 0.8 ˆ t ‚ ‚ C ‚ l ‚ u ‚ R s 0.6 ˆ R R t ‚ R R e ‚ R r ‚ R R ‚ R ‚ 0.4 ˆ R ‚ Šƒƒˆƒƒƒƒƒˆƒƒƒƒƒˆƒƒƒƒƒˆƒƒƒƒƒˆƒƒƒƒƒˆƒƒƒƒƒˆƒƒƒƒƒˆƒƒƒƒƒˆƒƒƒƒƒˆƒƒƒƒƒˆƒƒƒƒƒˆƒƒƒƒƒˆƒƒƒƒƒˆƒƒ 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Frequency of Cluster

fixer « strict » proche des _radius_ des grands clusters

Page 55: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Méthodes mixtes avec SAS 8/12 :classification ascendante hiérarchique

• CAH par la méthode de Ward appliquée aux centres ensortie de la procédure FASTCLUS :• proc cluster data=centres outtree=tree

method=ward ccc pseudo print=10;

• var &var;

• copy presegm; pour recopier la variable « presegm » dans le fichier OUTTREE

04/04/2008 55© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• run;

• CAH par la méthode de Wong appliquée aux centres ensortie de la procédure FASTCLUS :• proc cluster data=centres outtree=tree

method=density hybrid ccc pseudo print=10…

• proc cluster data=centres outtree=tree

method=twostage hybrid ccc pseudo print=10…

• Structure hiérarchique décrite dans le fichier OUTTREE

dans le fichier OUTTREE

Page 56: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Méthodes mixtes avec SAS 9/12 :historique des dernières fusions de classes

ex aequo

Cluster History

NCL Clusters Joined FREQ SPRSQ RSQ ERSQ CCC PSF PST2

T

i

e

9 OB6 OB8 37 0.0160 .931 .906 5.04 350 51.2

8 CL9 OB7 56 0.0181 .913 .893 3.38 312 31.2

7 OB1 OB5 43 0.0198 .893 .877 2.41 292 69.4

04/04/2008 56© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

6 OB3 OB10 38 0.0199 .873 .855 2.37 290 62.0

5 CL7 OB4 65 0.0315 .842 .824 1.95 281 56.3

4 CL6 CL8 94 0.0739 .768 .778 -.88 235 84.1

3 CL5 CL4 159 0.1980 .570 .700 -8.2 142 140

2 CL3 OB9 186 0.2255 .344 .530 -7.4 113 98.0

1 CL2 OB2 217 0.3442 .000 .000 0.00 . 113

Page 57: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Méthodes mixtes avec SAS 10/12 :fichier OUTTREE et dendrogramme

Obs _NAME_ _PARENT_ _NCL_ _FREQ_ _HEIGHT_ _RMSSTD_ _SPRSQ_ _RSQ_ _PSF_ _PST2_ _ERSQ_

1 OB6 CL9 10 19 0.00000 0.26769 0.00000 0.94681 . . .

2 OB8 CL9 10 18 0.00000 0.25155 0.00000 0.94681 . . .

3 CL9 CL8 9 37 0.01599 0.40234 0.01599 0.93081 349.798 51.224 0.90621

04/04/2008 57© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

couper ici avant une forte perte d’inertie interclasse (SPRSQ)

CL5

CL4

CL6 CL8

CL3

Page 58: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Méthodes mixtes avec SAS 11/12 :choix du nombre de classes

• Les classes sont notées CLn sauf les singletons notés OBn• FREQ : nb d’individus dans la nouvelle classe• SPRSQ (R² semi-partiel = perte d’inertie interclasse)• PST2 (pseudo t²)

• un pic pour k classes et un creux pour k+1 classes indiqueque la classification en k+1 classes est bonne

04/04/2008 58© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

que la classification en k+1 classes est bonne

• RSQ (proportion de la variance expliquée par les classes)• le R² doit s’approcher de 1

• CCC (cubic clustering criterion)• éviter CCC << 0 (présence d’outliers)

• PSF (pseudo F)• rechercher une grande valeur

les petites classes isolées expliquent ici un CCC légèrement négatif

Page 59: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Méthodes mixtes avec SAS 12/12 :fin de la requête

• La proc TREE sert à :• proc tree data=tree ncl=4 out=segmhier;

• copy presegm;run;

• afficher le dendrogramme (dans le sens – ou |)• créer un fichier OUT contenant le no (CLUSTER) et le nom

(CLUSNAME) de la classe de chaque individu (noté OBn)

horizontal

04/04/2008 59© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

(CLUSNAME) de la classe de chaque individu (noté OBn)• pour la classification ayant le nb de classes spécifié par NCL

• Il ne reste plus qu’à croiser :• le fichier PRESEGM contenant la pré-classe PRESEGM de

chaque individu• le fichier SEGMHIER contenant la classe définitive CLUSTER

de chaque pré-classe• data segm;

• merge presegm segmhier; by presegm; run;

Page 60: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Les méthodes non paramétriques en CAH (estimation de densité)

• 3 étapes :• estimation de la densité selon une certaine méthode :

• plus proches voisins (la densité en un point x = nbd’observations dans une sphère centrée sur x, divisé par levolume de la sphère)

• méthode des noyaux uniformes

04/04/2008 60© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• méthode hybride de Wong (utilise les k-means dans uneanalyse préliminaire)

• on définit une distance dP entre 2 classes commeinversement proportionnelle à la densité au milieu de ces 2classes (ou dP = ∞ si les 2 classes sont non adjacentes)

• CAH selon la méthode du saut minimum appliquée à dP

• La densité de probabilité est un paysage vallonné dont lesmontagnes sont les classes et les fonds des vallées sontles frontières

Page 61: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Méthodes par estimation de densité

• Principe : une classe est une région entourant unmaximum local de la fonction de densité de probabilité

• Détecte bien tous les types de classes, en particulier lesclasses de formes irrégulières et de tailles et devariances inégales

• Mieux vaut standardiser les variables continues et

04/04/2008 61© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Mieux vaut standardiser les variables continues etécarter les outliers

• Réclame des effectifs suffisamment importants• On ne fixe pas le nb de classes, mais un paramètre de

lissage (« smoothing parameter ») qui est :• le nombre k de voisins de chaque point x• ou le rayon r de la sphère entourant x• ou le nb de classes des k-means préliminaires (Wong)

Page 62: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Estimation de densité avec SAS

• Hormis la méthode de Wong, aucune méthode parestimation de densité n’est précédée de FASTCLUS

• Exemple de classification par les 5 plus proches voisins :• proc cluster data=test outtree=tree

method=density k=5 ccc pseudo print=10;

• var &var;run;

04/04/2008 62© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• var &var;run;

• proc tree data=tree ncl=4 out=segmhier;run;

• Variante empêchant la fusion des grosses classes avant que les petites classes n’aient fusionné avec les grosses• appelée algorithme « two stage »• proc cluster data=test outtree=tree

method=two k=5 ccc pseudo print=10;

Page 63: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Comparaison des méthodes avec k = 10

méthode « density »

méthode « twostage »

04/04/2008 63© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Remarque : avec k = 5, les 2 méthodes découvrent les bonnes classes

Page 64: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Efficacité des méthodes par estimation de densité 1/3

04/04/2008 64© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Seules les méthodes par estimation de densité détectent ces classes. Wong et les + proches voisins donnent les mêmes résultats (avec 10 classes préliminaires ou 10 voisins)

Page 65: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Efficacité des méthodes par estimation de densité 2/3

04/04/2008 65© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Seules les méthodes Ward et par estimation de densité détectent ces classes. Ward, Wong et les + proches voisins donnent les mêmes résultats (avec 10 classes préliminaires ou 10 voisins)

Page 66: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Efficacité des méthodes par estimation de densité 3/3

04/04/2008 66© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Seules les méthodes single linkage et par estimation de densité détectent ces classes. Single linkage, Wong et les + proches voisins donnent les mêmes résultats (avec 10 classes prélim. ou 10 voisins)

Page 67: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Importance du paramètre de lissage

04/04/2008 67© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 68: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Comparaison de méthodes par densité(single linkage est la seule autre méthode efficace ici)

04/04/2008 68© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 69: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Comparaison de méthodes par densité(single linkage est la seule autre méthode efficace ici)

04/04/2008 69© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 70: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Le réseau de Kohonen

•Les nœuds de la couche d’entrée correspondent aux variables de classification et servent à présenter les individus

•Les nœuds de la couche de sortie sont disposés sur une grille

couche de sortie

p ijk

04/04/2008 70© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

sont disposés sur une grille

•La forme et la taille (par ex : rectangulaire de taille lxm) de la grille sont généralement choisies par l’utilisateur mais peuvent aussi évoluer au cours de l’apprentissage

•Chaque nœud d’entrée est connecté à tous les nœuds de sortie, avec une pondération pijk

Le + utilisé des réseaux de neurones à apprentissage non supervisé

individu 1

individu 2

individu N

couche d’entrée …

Page 71: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Activation d’un nœud

•La réponse d’un nœud (i,j) à un individu (xk)k∈[1,n] est la distance euclidienne :

•Le nœud retenu pour représenter (x ) est le nœud

( ) ( )∑=

= −n

k

kijijk

pxxd1

2couche de sortie

p ijk

04/04/2008 71© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

représenter (xk) est le nœud pour lequel dij(x) est minimum•(i,j) et tous les nœuds voisins(I,J) voient leurs poids ajustéspIJk + Θ.f(i,j;I,J).(xk – pIJk) pourles rapprocher de (xk)

•Θ = taux d’apprentissage•f(i,j;I,J) = fct décroissante de ladistance entre (i,j) et (I,J)•f(i,j;i,j) = 1

individu 1

individu 2

individu N

couche d’entrée …

•Initialisation aléatoire des poids pijk

Page 72: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Apprentissage du réseau

•Pour chaque individu, un seul nœud de sortie est activé (« le gagnant »)

•Le gagnant et ses voisins voient leurs poids ajustés

•En rapprochant les voisins,

(i-1,j+1) (i,j+1) (i+1,j+1)

(i-1,j) (i,j) (i+1,j)

04/04/2008 72© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

•En rapprochant les voisins, l’ajustement fait en sorte qu’à deux individus proches correspondent deux nœuds proches en sortie

•Des groupes (clusters) de nœuds se forment en sortie

(i-1,j-1) (i,j-1) (i+1,j-1)

âge revenusnombre

d’enfants…

Page 73: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Application d’un réseau de Kohonen

• Tout se passe comme si la grille du réseau était encaoutchouc et si on la déformait pour lui faire traverser lenuage des individus en s’approchant au plus près desindividus.• ≠ avec un plan factoriel : c’est une projection non-linéaire• ≠ avec les autres méthodes de classification : réduction de

04/04/2008 73© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• ≠ avec les autres méthodes de classification : réduction dela dimension

• Une fois que tous les individus de l’échantillonnaged’apprentissage ont été présentés au réseau et que tousles poids ont été ajustés, l’apprentissage est achevé.

• En phase d’application, le réseau de Kohonen fonctionneen représentant chaque individu en entrée par le nœuddu réseau qui lui est le plus proche au sens de la distancedéfinie ci-dessus. Ce nœud sera la classe de l’individu.

Page 74: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Représentation d’une carte de Kohonen

04/04/2008 74© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 75: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Utilisation des réseaux de Kohonen

• Synonymes : 1) carte de Kohonen 2) SOM (SelfOrganizing Map)

• Utilisation comme une « ACP » non linéaire• pour représenter sur une carte les groupes d’individus et

comparer les groupes s’opposant sur la carte

• Utilisation comme pré-classification avant une CAH (voir

04/04/2008 75© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Utilisation comme pré-classification avant une CAH (voirla classification mixte)• on construit une carte de taille au moins 10 x 10 nœuds• on regroupe ensuite les 100 nœuds en un nb plus petit de

classes qui doivent être connexes dans le plan

• Utilisation pour placer les prototypes d’un réseau deneurones RBF

• Éviter d’utiliser directement pour obtenir qq classes• voir les exemples suivants

Page 76: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Kohonen à peine mieux que k-means(moins bien que single-linkage ou Wong ou + proches voisins)

04/04/2008 76© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 77: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Kohonen pas mieux que k-means(moins bien que Ward ou Wong ou + proches voisins)

04/04/2008 77© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 78: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Kohonen pas mieux que k-means(moins bien que single-linkage ou + proches voisins)

04/04/2008 78© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 79: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Analyse relationnelle

• Définition d’un critère de similarité : le critère deCondorcet

• Critère de Condorcet de deux individus A et B• c(A,B) := (nb de variables ayant même valeur pour A et

B) – (nb de variables ayant des valeurs différentes pour A

04/04/2008 79© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

B) – (nb de variables ayant des valeurs différentes pour Aet B)

• on considère que deux variables continues ont la « mêmevaleur » si elles sont dans le même décile

• Critère de Condorcet d’un individu A et d’une classe S• c(A,S) = Σ c(A,Bi), la somme étant sur tous les Bi ∈ S.

Page 80: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

La classification relationnelle

• On commence la constitution des classes en plaçantchaque individu A dans la classe S telle que c(A,S) soitmaximum et ≥ 0. Si c(A,S) < 0 pour tout S existant, Aconstitue le 1er élément d’une nouvelle classe. Cetteétape constitue la 1ère itération.

04/04/2008 80© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• On peut réaliser une 2de itération, en reprenant chaqueindividu et en le réaffectant éventuellement à une autreclasse, parmi ceux définis lors de la 1ère itération.

• On réalise ainsi plusieurs itérations, jusqu'à ce que soitatteint le nb max d’itérations ou de classes spécifié.

Page 81: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Illustration de l’analyse relationnelle 1/2

04/04/2008 81© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 82: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Illustration de l’analyse relationnelle 2/2

04/04/2008 82© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 83: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Utilisation de l’analyse relationnelle

• Faiblesse de l’analyse relationnelle sur les variablescontinues• la discrétisation fait perdre la relation d’ordre dans R, que

ne gère pas l’analyse relationnelle• le principe de la méthode conduit à rassembler les individus

qui sont proches sur une majorité de variables

04/04/2008 83© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

qui sont proches sur une majorité de variables• dans le cas de 2 variables, on verra par exemple que si :

– deux individus x et y sont dans le même décile de la 1ère

variable, et très différents sur la 2de variable– x et un autre individu z sont « assez proches », car dans le

même quintile (mais pas le même décile) pour les 2 variables– alors x sera agrégé avec y et non avec z !

• sensibilité aux variables binaires et aux variables redondantes

• Conseil : réserver l’analyse relationnelle aux variablesqualitatives

Page 84: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Techniques de classification :

04/04/2008 84© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Techniques de classification :

La classification de variables

Page 85: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Classification de variables numériques

• Classification ascendante hiérarchique sur variables• remplacer la distance

euclidienne par le coefficient de corrélation de Pearson

• utiliser la méthode single linkage car il suffit que 2

04/04/2008 85© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

linkage car il suffit que 2 groupes V et W de variables contiennent v ∈ V et w ∈ W suffisamment corrélées pour que les groupes soient proches

• Classification descendante hiérarchique (combinée avec ACP oblique) : procédure VARCLUS de SAS

• Ces méthodes s’appliquent à des variables numériques• éventuellement binaires

Page 86: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Algorithme VARCLUS de SAS 1/2(option « maxeigen » par défaut)

1) On part de l’ensemble des variables2) On fait une ACP et on retient les 2 premiers axes, de

valeurs propres λ1 et λ2 (on a λ1 ≥ λ2) :• si λ2 > 1 (critère de Kaiser – on peut remplacer la valeur

« 1 » par une autre), on effectue une rotation quartimax oblique et on répartit les variables dans le groupe V1 des

04/04/2008 86© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

oblique et on répartit les variables dans le groupe V1 des var plus corrélées avec le 1er axe et le groupe V2 des var plus corrélées avec le 2d axe• ensuite on réaffecte chaque var dans V1 ou V2 pour tenter de

maximiser encore plus la variance expliquée par la 1ère

composante principale de chacun de ces groupes (non orthogonales entre elles)

• si λ2 ≤ 1, l’ensemble des variables n’est pas divisé

Page 87: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Procédure VARCLUS de SAS 2/2

3) On reprend en 2) avec chacune des classes V1 et V2

4) On s’arrête quand on n’a plus de classes avec λ2 > 1• ou quand un nb de classes spécifié a été atteint• ou quand les scissions produisent des classes vides après

réaffectation

04/04/2008 87© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

réaffectation

Page 88: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Remarques sur VARCLUS

• Pour chaque classe, la « variable-classe » est (par défaut) la 1ère composante principale de la classe

• Le but de VARCLUS est de maximiser la somme (sur l’ensemble des classes) des variances de ces variables-classe

• VARCLUS exprime la variable-classe comme combinaison linéaire des variables contenues dans la classe

04/04/2008 88© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

linéaire des variables contenues dans la classe• Du fait des rotations obliques de VARCLUS, les

différentes variables-classe sont (faiblement) corrélées• On peut limiter la réaffectation de variables à l’intérieur

d’un découpage de classes, pour ne pas affecter une variable à une classe anciennement formée, ce qui détruirait la structure d’arbre de la classification• option « hierarchy » - permet de limiter le temps de calcul

Page 89: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Différence entre VARCLUS et une ACP standard

• Dans une ACP, toutes les composantes principales sont calculées à partir des mêmes variables (variables initiales)

• Dans VARCLUS• les variables initiales sont séparées itérativement en sous-

groupes (par quartimax)• et les composantes principales sont calculées sur ces sous-

groupes et non l’ensemble des variables

04/04/2008 89© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

groupes et non l’ensemble des variables• Si on limite à k le nb de classes de variables, de sorte que

l’on ne retient que k composantes par VARCLUS, ces k composantes expliquent peut-être moins de variance que les k premières composantes de l’ACP, mais elles sont plus faciles à interpréter

• VARCLUS est une méthode performante de classification• mais plus consommatrice en temps de calcul que l’ACP :

attention si plus de 30 variables

Page 90: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Techniques de data mining :

04/04/2008 90© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Techniques de data mining :

Recherche d’associations

(analyse du ticket de caisse)

Page 91: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Les recherches d’associations

• Rechercher les associations consisteà rechercher les règles du type :• « Si pour un individu, la variable A

= xA, la variable B = xB, etc, alors,dans 80% des cas, la variable Z =xZ, cette configuration serencontrant pour 20 % des

T26 A B C D E

T1245 B C E F

T156 B E

04/04/2008 91© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

rencontrant pour 20 % desindividus »

• La valeur de 80% est appelée indicede confiance et la valeur de 20%est appelée indice de support

• Par exemple, dans l’ensemble detransactions ci-contre :• l’indice de confiance de « B ⇒ E »

=3/4• l’indice de support de « B ⇒ E » =3/5

T2356 A B D

T145 C D

Page 92: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Les associations : définitions

• Une règle est donc une expression de la forme :>Si Condition alors Résultat.

• Exemple :>Si couches et samedi, alors bière.

04/04/2008 92© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• L’indice de support est la probabilité :>p (condition et résultat).

• Il ne doit pas être trop petit.

• L’indice de confiance est la probabilité :>p (condition et résultat) / p (condition).

Page 93: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Intérêt d’une règle d’association

• Dans l’exemple précédent, on a :• indice de confiance de l’association C ⇒ B est 2/3• indice de support = 2/5.

• Or, probabilité (B) = 0,8• B est présent dans presque tous les tickets de caisse.

• Cette probabilité est supérieure à l’indice de confiance

04/04/2008 93© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Cette probabilité est supérieure à l’indice de confiance de C ⇒ B, ce qui fait que l’on ne gagne rien à utiliser la règle C ⇒ B pour prédire B.

• Si l’on suppose aléatoirement qu’un ticket de caisse contient B, on n’a qu’1 chance / 5 de se tromper, contre 1 chance / 3 en appliquant la règle C ⇒ B.

Page 94: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Lift d’une règle : mesure son intérêt

• L’amélioration apportée par une règle, par rapport à uneréponse au hasard est appelée « lift » et vaut :• lift (règle) = confiance (règle) / p (résultat)• = p (condition et résultat) / [ p (condition) x p (résultat) ].

• Quand le lift est < 1, la règle n’apporte rien.

04/04/2008 94© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Quand le lift est < 1, la règle n’apporte rien.

• Exemples :• lift (C ⇒ B) = 5/6 (règle inutile)• lift (B ⇒ E) = 5/4 (règle utile).

Page 95: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Lift de la règle inverse

• Il faut noter que si le lift de la règle• Si Condition alors Résultat

• est < 1, alors le lift de la règle inverse, c.a.d. de :• Si Condition alors NON Résultat

• est > 1, puisque :• confiance (règle inverse) = 1 - confiance (règle)

04/04/2008 95© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• confiance (règle inverse) = 1 - confiance (règle)

• et• p (NON résultat) = 1 - p (résultat).

• Si une règle n’est pas utile, on peut donc essayer larègle inverse… en espérant que cette dernière soitintéressante en termes de métier ou de marketing.

Page 96: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Taxinomie : définition

• Les produits peuvent être définies avec un niveau plusou moins fin de détail.

• On peut par exemple considérer :• les produits d’épargne bancaire, financière…• parmi les produits d’épargne bancaire, les comptes de

chèques, les livrets…

04/04/2008 96© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

chèques, les livrets…• parmi les livrets, les livrets A, les Codevi, les LEP…

• La taxinomie des produits est l’ensemble de cesniveaux.

Page 97: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Taxinomie : utilisation

• Le niveau le plus fin permet d’entreprendre des actions commerciales plus précises• Mais travailler au niveau le plus fin multiplie les règles,

parmi lesquelles un grand nombre n’auront qu’un faible support et seront peut-être éliminées

• Travailler au niveau le plus général permet d’obtenir

04/04/2008 97© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• Travailler au niveau le plus général permet d’obtenir des règles plus fortes

>Les 2 points de vue ont leurs avantages et leurs inconvénients

>Il faut adapter le niveau de généralité à chaque produit, en fonction notamment de sa rareté

Page 98: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Taxinomie : intérêt

• Les articles les plus rares et les plus chers (exemple : micro-informatique ou HIFI dans un grand magasin) seront codifiés au niveau le plus fin

• Les articles les plus courants (exemple : produits alimentaires) seront codifiés à un niveau plus général.

• On regroupera par exemple tous les yaourts, fromages blancs, flancs… en « produits laitiers », tout en

04/04/2008 98© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

blancs, flancs… en « produits laitiers », tout en distinguant un téléviseur d’un magnétoscope ou d’un caméscope.

• L’intérêt de cette façon de procéder est d’obtenir des règles plus pertinentes, dans lesquelles les articles les plus courants ne dissimulent pas, par leur fréquence, les articles les moins courants.

Page 99: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Illustration avec ®Clementine

04/04/2008 99© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Page 100: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Le panier de la ménagère

• Cette technique est très utilisée dans la grande distribution :>d’où les termes d’analyse du ticket de caisse ou du panier de la ménagère pour désigner la recherche d’associations

• Autres usages :• associations d’options retenues dans

04/04/2008 100© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

• associations d’options retenues dans les produits packagés (banque, téléphonie, assurance…)

• web mining (analyse de la navigation sur un site internet)

• Difficultés :• volumes de données importants• trouver des règles intéressantes

noyées parmi les règles triviales ou non utilisables

Page 101: Data Mining et Scoring - Techniques descriptives …data.mining.free.fr/cours/Descriptives.pdf · •Marketing : découper la clientèle en segments dotés chacund’uneoffreetd’unecommunicationspécifique

Utilisation de variables supplémentaires

• En ajoutant des variables temporelles (jour et heure de la transaction), on pourra rechercher l’ensemble des événements qui débouchent sur l’acquisition d’un nouveau produit, sur le départ du client…

• En ajoutant le nom du fabricant, on pourra détecter des phénomènes d’attachement à une marque

04/04/2008 101© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

phénomènes d’attachement à une marque• Autres variables supplémentaires :

• canal de distribution• mode de paiement• …

• Le développement des cartes de fidélité permet de croiser les achats avec de nombreuses autres données : âge, adresse…