25
Optimisation de la technique de RBC pour la classification dans un processus de data mining Mounir Ben Ayed (1,2) – Issam Féki (2) Adel Alimi (2) (1) Faculté des Sciences de Sfax - Dept d’Informatique et des Com. (2) Research Group for intelligent machines (REGIM - ENIS) FDC - Lille 17 Janvier 2006

Optimisation de la technique de RBC pour la classification dans un processus de data mining

  • Upload
    cate

  • View
    20

  • Download
    0

Embed Size (px)

DESCRIPTION

Optimisation de la technique de RBC pour la classification dans un processus de data mining. Mounir Ben Ayed (1,2) – Issam Féki (2) – Adel Alimi (2) (1) Faculté des Sciences de Sfax - Dept d’Informatique et des Com. (2) Research Group for intelligent machines (REGIM - ENIS). - PowerPoint PPT Presentation

Citation preview

Page 1: Optimisation de la technique de RBC pour la classification dans un processus de data mining

Optimisation de la technique de RBC pour la classification dans un

processus de data mining

Mounir Ben Ayed(1,2) – Issam Féki(2) – Adel Alimi(2)

(1)Faculté des Sciences de Sfax - Dept d’Informatique et des

Com. (2)

Research Group for intelligent machines (REGIM - ENIS)

FDC - Lille 17 Janvier 2006

Page 2: Optimisation de la technique de RBC pour la classification dans un processus de data mining

2

Contexte

Dans le domaine médical -> RBC

Algorithme standards Kppv (k plus proche voisins) .

Les bases de + en + grande (Entrepôt de données)

Temps d’exécution de l’algorithme Kppv de + en + long

Objectif :

diminuer le temps nécessaire pour la classification d’un nouveau cas

Page 3: Optimisation de la technique de RBC pour la classification dans un processus de data mining

3

Plan de la présentation

Data Mining (techniques)

Le raisonnement à base de cas

Approche proposée

Évaluation des performances

Conclusion et perspectives

Page 4: Optimisation de la technique de RBC pour la classification dans un processus de data mining

4

Généralité sur le Data MiningTechniques

Data Mining

Raisonnement à base de cas

Les arbres de décision

Les réseaux de neurones

Les algorithmes génétiques

Autres …

Page 5: Optimisation de la technique de RBC pour la classification dans un processus de data mining

5

Raisonnement à base de cas

-Technique qui provient des travaux en sciences cognitive (1980)

-La similarité entre les descriptions de problèmes est une indication de l’utilité des solutions antécédentes.

Principe :

-Utilisation des expériences passées pour résoudre de nouveaux problèmes.

-L’ensemble des expériences forme une base de cas.

Page 6: Optimisation de la technique de RBC pour la classification dans un processus de data mining

6

Raisonnement à base de casK plus proches voisins (Kppv)

-Algorithme de recherche des cas les plus proches similaires à un nouveau cas

-Convertir les enregistrements en des points et calculer les distances entre ces points.

A a un plus proche voisin B,

B a de nombreux voisins proches autres que A

Page 7: Optimisation de la technique de RBC pour la classification dans un processus de data mining

7

Raisonnement à base de casKppv

-La classification d’un nouveau cas nécessite le calcul des distances entre ce cas est tous les cas de la base

Classification très coûteuse en temps

Plus la taille de la base est importante plus le temps d’exécution (par Kppv) est long

Page 8: Optimisation de la technique de RBC pour la classification dans un processus de data mining

8

Les améliorations du Kppv

-Représenter tous les cas d’une classe par un cas unique.Exemple: les moyennes des données associées à une classe

Base de cas original

Calcul de la moyenne de

chaque classe

Distinction des cas représentant les

classes

Base de cas des

représentants des classes

Exécution K ppv

Nouveau cas

Cas classé

Category-Based Search

La méthode ‘’Category_Based Search’’ (Iwayama,1995)

Page 9: Optimisation de la technique de RBC pour la classification dans un processus de data mining

9

-Pas de comparaison de tous les cas avec le nouveau cas

Gain de temps

Page 10: Optimisation de la technique de RBC pour la classification dans un processus de data mining

10

-Utilisation d’un algorithme de classification non supervisé

Distinction automatique d’un représentant pour chaque classe

-Comparaison du nouveau cas seulement avec les représentant générés

-pas de comparaison du nouveau cas avec tous les cas

Gain de temps

La méthode: ‘’Cluster Based search’’ (Salton,1983)

Page 11: Optimisation de la technique de RBC pour la classification dans un processus de data mining

11

Approche proposéeRéduction des bases de donnéesRecherche du plus proches voisinsAffectation des poids:

Pondérer la similarité globale entre deux cas

-Des valeurs affectées par un expert aux attributs de la base de données : Degrés d’importance aux attributs les plus «importants »

Page 12: Optimisation de la technique de RBC pour la classification dans un processus de data mining

12

Approche proposée

Processus de classification proposé

Affectation des poids

Normalisation des données

Base de cas originale

Base de cas réduite

Réduction

Exécution Kppv

Nouveau cas

Cas classé

-Analyse des données (types des valeurs d’attributs de poids fort). -Calcul des moyennes des champs variables. -Formulation de la requête. -Filtration de la base de cas.

Page 13: Optimisation de la technique de RBC pour la classification dans un processus de data mining

13

Approche proposéeRéduction des bases de données

-Construction de la requête :

Select all

From heart

where(type de douleur=4) and (electro=0)

Valeurs des attributs de fort poids du nouveau cas

Page 14: Optimisation de la technique de RBC pour la classification dans un processus de data mining

14

 Attr age sexe

type de douleur

tension

sérum sucre

électro

fréquence

angine

dépression

pente

nombre navire

Résultat

      Les   cas

60 0 4 0,1 0,21 0 2 0,132 0,1 0,2 4,2 0,2 0,7

54 1 4 0,1 0,24 0 0 0,126 0,1 0,2 8,2 0,1 0,7

54 1 4 0,1 0,29 0 2 0,116 0,1 0,3 2,2 0,2 0,3

52 1 4 0,1 0,26 0 0 0,161 0,1 0 0,1 0,1 0,7

68 0 3 0,2 0,27 1 2 0,15 0,1 0,1 6,2 0 0,7

42 0 4 0,1 0,32 0 0 0,125 0,1 0,1 8,2 0 0,6

47 1 4 0,1 0,28 0 2 0,118 0,1 0,1 0,2 0,1 0,3

Poids 8 0 10 9 7 9 10 8 1 4 1 4

Approche proposée

Réduction des bases de données

Base de données ‘’Anomalie cardiaque’’

Page 15: Optimisation de la technique de RBC pour la classification dans un processus de data mining

15

Approche proposée

Réduction des bases de données

-Affectation des mêmes poids pour les attributs du nouveau cas

Analyse des données et distinction des attributs de poids fort:

Nom attribut poids

Type de douleur 10

Résultat d’électro-cardiogra. 10

Poids 8 0 10 9 7 9 10 8 1 4 1 4 

Attr age sexetype de douleur

tension

sérum sucre

électro

fréquenc

angine

dépression pente

nombre navire

Résultat

  cas 

44 0 4 0,1 0,32 0 0 0,112 0,1 0 6,1 0,1 ?

Page 16: Optimisation de la technique de RBC pour la classification dans un processus de data mining

16

Approche proposée

Réduction des bases de données

-Exécution de la requête

-Génération d’une base de données réduite:

40 enregistrements au lieu de 270

Réduction de 85,19% du nombre d’enregistrements

Page 17: Optimisation de la technique de RBC pour la classification dans un processus de data mining

17

Approche proposéeRecherche du plus proche voisins

Même résultat:

-Algorithme standard Kppv (toute la base) et après réduction

 Résultat

0,6

Poids 8 0 10 9 7 9 10 8 1 4 1 4 

Attr age sexetype de douleur

tension

sérum sucre

électro

fréquenc

angine

dépression pente

nombre navire

  cas 

44 0 4 0,1 0,32 0 0 0,112 0,1 0 6,1 0,1

Page 18: Optimisation de la technique de RBC pour la classification dans un processus de data mining

18

Évaluation des performancesInfluence du contenue de la base de données-La base de données ‘Breast’

-Le nouveau cas à classer

poids  10  10  9  8  4  4  0  0  1  

attrcode

épaisseur Taille forme

Adhésion Taille S

N Noyaux

Chromatin Nucleoli Mitoses Class

Lecas

1295327 4 3 2 1 2 1 3 1 1 ?

 10  10

Épaisseur en mm

Taille en mm

1 1

5 7

5 3

3 1

3 1

1 1

poids

attr

code

   

Lescas

 

1365328

242970

1133041

183936

1168278

1059552

 9  8  4  4  0  0  1  

forme Adhesion Taille S

N Noyaux

Chromatin Nucleoli Mitoses Class

2 1 2 1 2 1 1 Bénin

7 1 5 8 3 4 1 Bénin

1 2 2 1 2 1 1 Bénin

1 1 2 1 2 1 1 Bénin

1 1 2 1 2 1 1 Bénin

1 1 2 1 3 1 1 Malin

Page 19: Optimisation de la technique de RBC pour la classification dans un processus de data mining

19

Évaluation des performances

Influence du contenue de la base de données

Select all From Breast where (‘forme’=2)

Page 20: Optimisation de la technique de RBC pour la classification dans un processus de data mining

20

Évaluation des performances

Influence des poids des attributs

Le résultat d’exécution de la requête est une table vide

Poids 10 10 10 10 10 10 10 10 10 10 10 10 

Attr age sexetype de douleur

tension

sérum sucre

électro

fréquence

angine

dépression

pente

nombre navire

Résultat

      Les   cas

60 0 4 0,1 0,21 0 2 0,132 0,1 0,2 4,2 0,2 0,7

54 1 4 0,1 0,24 0 0 0,126 0,1 0,2 8,2 0,1 0,7

54 1 4 0,1 0,29 0 2 0,116 0,1 0,3 2,2 0,2 0,3

52 1 4 0,1 0,26 0 0 0,161 0,1 0 0,1 0,1 0,7

68 0 3 0,2 0,27 1 2 0,15 0,1 0,1 6,2 0 0,7

42 0 4 0,1 0,32 0 0 0,125 0,1 0,1 8,2 0 0,6

47 1 4 0,1 0,28 0 2 0,118 0,1 0,1 0,2 0,1 0,3

Poids 10 10

Poids 10 10 10

Poids 10 10 10 10

Page 21: Optimisation de la technique de RBC pour la classification dans un processus de data mining

21

Évaluation des performances

Influence de la taille de base de cas

Configurations

Bases de Données

Cancer Cœur Véhicule Hépatite

Nbr Tot Attr 10 12 17 19

Nbr Attr P Fort 2 1 4 6

Nbr Enreg 699 270 846 155

Temps de réduction 12s 10s 19s 27s

Page 22: Optimisation de la technique de RBC pour la classification dans un processus de data mining

22

Évaluation des performancesÉtude comparative entre les deux approches:

Approche standard:

Approche proposée:

Temps de class. par K ppv classique 571s 220s 691s 126s

Configurations

Bases de Données

Cancer Cœur Véhicule Hépatite

Nbr Tot Attr 10 12 17 19

Nbr Attr P Fort 2 2 4 6

Nbr Enreg 699 270 846 155

Nbr Enreg 61

Temps de classement par K ppv 52s

Nbr Enreg 61 40

Temps de classement par K ppv 52s 33s

Nbr Enreg 61 40 112

Temps de classement par K ppv 52s 33s 92s

Nbr Enreg 61 40 112 65

Temps de classement par K ppv 52s 33s 92s 54s

Configurations

Bases de Données

Cancer Cœur Véhicule Hépatite

Nbr Tot Attr 10 12 17 19

Nbr Attr P Fort 2 2 4 6

Page 23: Optimisation de la technique de RBC pour la classification dans un processus de data mining

23

Évaluation des performancesComparaison du temps:

0100200300400500600700800

Approchestandards

Temps approcheproposée

  Temps

Bases de données

Approche standards

Cancer 571

Cœur 220

Véhicule 691

Hépatite 126

Temps approche proposée

64

43

107

71

Temps de réduction

Temps d’exécution

12 52

10 33

19 92

27 54

Pourcentage de réduction

88%

80%

84%

43%

Page 24: Optimisation de la technique de RBC pour la classification dans un processus de data mining

24

Conclusion et perspectives

• Approche basée sur la réduction des bases de données selon les poids accordés aux attributs.

Performances satisfaisantes en terme de qualité et de temps d’exécution.

Perspectives :

• Comparaison avec le Category_Based Search ET le Cluster Based search

•Rendre le système plus intelligent (Apprentissage de ses résultats antérieurs).

• Nouvelle méthode de réduction des bases de données de valeurs de poids d’attributs égaux.

Page 25: Optimisation de la technique de RBC pour la classification dans un processus de data mining

25

Merci de votre attention.