Optimisation de la technique de RBC pour la classification dans un processus de data mining

Optimisation de la technique de RBC pour la classification dans un

processus de data mining

Mounir Ben Ayed(1,2) – Issam Féki(2) – Adel Alimi(2)

(1)Faculté des Sciences de Sfax - Dept d’Informatique et des

Com. (2)

Research Group for intelligent machines (REGIM - ENIS)

FDC - Lille 17 Janvier 2006

2

Contexte

Dans le domaine médical -> RBC

Algorithme standards Kppv (k plus proche voisins) .

Les bases de + en + grande (Entrepôt de données)

Temps d’exécution de l’algorithme Kppv de + en + long

Objectif :

diminuer le temps nécessaire pour la classification d’un nouveau cas

3

Plan de la présentation

Data Mining (techniques)

Le raisonnement à base de cas

Approche proposée

Évaluation des performances

Conclusion et perspectives

4

Généralité sur le Data MiningTechniques

Data Mining

Raisonnement à base de cas

Les arbres de décision

Les réseaux de neurones

Les algorithmes génétiques

Autres …

5

Raisonnement à base de cas

-Technique qui provient des travaux en sciences cognitive (1980)

-La similarité entre les descriptions de problèmes est une indication de l’utilité des solutions antécédentes.

Principe :

-Utilisation des expériences passées pour résoudre de nouveaux problèmes.

-L’ensemble des expériences forme une base de cas.

6

Raisonnement à base de casK plus proches voisins (Kppv)

-Algorithme de recherche des cas les plus proches similaires à un nouveau cas

-Convertir les enregistrements en des points et calculer les distances entre ces points.

A a un plus proche voisin B,

B a de nombreux voisins proches autres que A

7

Raisonnement à base de casKppv

-La classification d’un nouveau cas nécessite le calcul des distances entre ce cas est tous les cas de la base

Classification très coûteuse en temps

Plus la taille de la base est importante plus le temps d’exécution (par Kppv) est long

8

Les améliorations du Kppv

-Représenter tous les cas d’une classe par un cas unique.Exemple: les moyennes des données associées à une classe

Base de cas original

Calcul de la moyenne de

chaque classe

Distinction des cas représentant les

classes

Base de cas des

représentants des classes

Exécution K ppv

Nouveau cas

Cas classé

Category-Based Search

La méthode ‘’Category_Based Search’’ (Iwayama,1995)

9

-Pas de comparaison de tous les cas avec le nouveau cas

Gain de temps

10

-Utilisation d’un algorithme de classification non supervisé

Distinction automatique d’un représentant pour chaque classe

-Comparaison du nouveau cas seulement avec les représentant générés

-pas de comparaison du nouveau cas avec tous les cas

Gain de temps

La méthode: ‘’Cluster Based search’’ (Salton,1983)

11

Approche proposéeRéduction des bases de donnéesRecherche du plus proches voisinsAffectation des poids:

Pondérer la similarité globale entre deux cas

-Des valeurs affectées par un expert aux attributs de la base de données : Degrés d’importance aux attributs les plus «importants »

12

Approche proposée

Processus de classification proposé

Affectation des poids

Normalisation des données

Base de cas originale

Base de cas réduite

Réduction

Exécution Kppv

Nouveau cas

Cas classé

-Analyse des données (types des valeurs d’attributs de poids fort). -Calcul des moyennes des champs variables. -Formulation de la requête. -Filtration de la base de cas.

13

Approche proposéeRéduction des bases de données

-Construction de la requête :

Select all

From heart

where(type de douleur=4) and (electro=0)

Valeurs des attributs de fort poids du nouveau cas

14

Attr age sexe

type de douleur

tension

sérum sucre

électro

fréquence

angine

dépression

pente

nombre navire

Résultat

Les cas

60 0 4 0,1 0,21 0 2 0,132 0,1 0,2 4,2 0,2 0,7

54 1 4 0,1 0,24 0 0 0,126 0,1 0,2 8,2 0,1 0,7

54 1 4 0,1 0,29 0 2 0,116 0,1 0,3 2,2 0,2 0,3

52 1 4 0,1 0,26 0 0 0,161 0,1 0 0,1 0,1 0,7

68 0 3 0,2 0,27 1 2 0,15 0,1 0,1 6,2 0 0,7

42 0 4 0,1 0,32 0 0 0,125 0,1 0,1 8,2 0 0,6

47 1 4 0,1 0,28 0 2 0,118 0,1 0,1 0,2 0,1 0,3

Poids 8 0 10 9 7 9 10 8 1 4 1 4

Approche proposée

Réduction des bases de données

Base de données ‘’Anomalie cardiaque’’

15

Approche proposée


-Affectation des mêmes poids pour les attributs du nouveau cas

Analyse des données et distinction des attributs de poids fort:

Nom attribut poids

Type de douleur 10

Résultat d’électro-cardiogra. 10

Poids 8 0 10 9 7 9 10 8 1 4 1 4

Attr age sexetype de douleur

tension

sérum sucre

électro

fréquenc

angine

dépression pente

nombre navire

Résultat

cas

44 0 4 0,1 0,32 0 0 0,112 0,1 0 6,1 0,1 ?

16

Approche proposée


-Exécution de la requête

-Génération d’une base de données réduite:

40 enregistrements au lieu de 270

Réduction de 85,19% du nombre d’enregistrements

17

Approche proposéeRecherche du plus proche voisins

Même résultat:

-Algorithme standard Kppv (toute la base) et après réduction

Résultat

0,6

Poids 8 0 10 9 7 9 10 8 1 4 1 4


tension

sérum sucre

électro

fréquenc

angine

dépression pente

nombre navire

cas

44 0 4 0,1 0,32 0 0 0,112 0,1 0 6,1 0,1

18

Évaluation des performancesInfluence du contenue de la base de données-La base de données ‘Breast’

-Le nouveau cas à classer

poids 10 10 9 8 4 4 0 0 1

attrcode

épaisseur Taille forme

Adhésion Taille S

N Noyaux

Chromatin Nucleoli Mitoses Class

Lecas

1295327 4 3 2 1 2 1 3 1 1 ?

10 10

Épaisseur en mm

Taille en mm

1 1

5 7

5 3

3 1

3 1

1 1

poids

attr

code

Lescas

1365328

242970

1133041

183936

1168278

1059552

9 8 4 4 0 0 1

forme Adhesion Taille S

N Noyaux

Chromatin Nucleoli Mitoses Class

2 1 2 1 2 1 1 Bénin

7 1 5 8 3 4 1 Bénin

1 2 2 1 2 1 1 Bénin

1 1 2 1 2 1 1 Bénin

1 1 2 1 2 1 1 Bénin

1 1 2 1 3 1 1 Malin

19


Influence du contenue de la base de données

Select all From Breast where (‘forme’=2)

20


Influence des poids des attributs

Le résultat d’exécution de la requête est une table vide

Poids 10 10 10 10 10 10 10 10 10 10 10 10


tension

sérum sucre

électro

fréquence

angine

dépression

pente

nombre navire

Résultat

Les cas

60 0 4 0,1 0,21 0 2 0,132 0,1 0,2 4,2 0,2 0,7

54 1 4 0,1 0,24 0 0 0,126 0,1 0,2 8,2 0,1 0,7

54 1 4 0,1 0,29 0 2 0,116 0,1 0,3 2,2 0,2 0,3

52 1 4 0,1 0,26 0 0 0,161 0,1 0 0,1 0,1 0,7

68 0 3 0,2 0,27 1 2 0,15 0,1 0,1 6,2 0 0,7

42 0 4 0,1 0,32 0 0 0,125 0,1 0,1 8,2 0 0,6

47 1 4 0,1 0,28 0 2 0,118 0,1 0,1 0,2 0,1 0,3

Poids 10 10

Poids 10 10 10

Poids 10 10 10 10

21


Influence de la taille de base de cas

Configurations

Bases de Données

Cancer Cœur Véhicule Hépatite

Nbr Tot Attr 10 12 17 19

Nbr Attr P Fort 2 1 4 6

Nbr Enreg 699 270 846 155

Temps de réduction 12s 10s 19s 27s

22

Évaluation des performancesÉtude comparative entre les deux approches:

Approche standard:

Approche proposée:

Temps de class. par K ppv classique 571s 220s 691s 126s

Configurations

Bases de Données




Nbr Enreg 699 270 846 155

Nbr Enreg 61

Temps de classement par K ppv 52s

Nbr Enreg 61 40

Temps de classement par K ppv 52s 33s

Nbr Enreg 61 40 112

Temps de classement par K ppv 52s 33s 92s

Nbr Enreg 61 40 112 65

Temps de classement par K ppv 52s 33s 92s 54s

Configurations

Bases de Données




23

Évaluation des performancesComparaison du temps:

0100200300400500600700800

Approchestandards

Temps approcheproposée

Temps

Bases de données

Approche standards

Cancer 571

Cœur 220

Véhicule 691

Hépatite 126

Temps approche proposée

64

43

107

71

Temps de réduction

Temps d’exécution

12 52

10 33

19 92

27 54

Pourcentage de réduction

88%

80%

84%

43%

24

Conclusion et perspectives

• Approche basée sur la réduction des bases de données selon les poids accordés aux attributs.

Performances satisfaisantes en terme de qualité et de temps d’exécution.

Perspectives :

• Comparaison avec le Category_Based Search ET le Cluster Based search

•Rendre le système plus intelligent (Apprentissage de ses résultats antérieurs).

• Nouvelle méthode de réduction des bases de données de valeurs de poids d’attributs égaux.

25

Merci de votre attention.

Documents

Optimisation de la technique de RBC pour la classification dans un processus de data mining