32
1 Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications Rakesh Agrawal et al. 1998 Hajer TRABELSI Master de recherche MR2-IMD/ISAMM 12 Décembre 2014

Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Embed Size (px)

Citation preview

Page 1: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

1

Automatic Subspace Clustering of High

Dimensional Data for DataMining Applications

Rakesh Agrawal et al. 1998Hajer TRABELSI

Master de recherche MR2-IMD/ISAMM

12 Décembre 2014

Page 2: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

2

Plan

Introduction Clustering Haute dimensionnalité des données CLIQUE Expérimentation Conclusion

Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Page 3: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

3

Plan

Introduction Clustering Haute dimensionnalité des données CLIQUE Expérimentation Conclusion

Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Page 4: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

4

Introduction

L’objectif de la classification non supervisée (clustering) est d’identifier un ensemble d’individu.

La majorité des algorithmes de clustering ne possèdent pas de solution pour gérer un volume de données et un nombre de dimensions si importants !

Pour pallier à ces problèmes, la recherche dans ce domaine a donné naissance aux méthodes fondées sur le clustering par sous-espace.

Une solution a été proposée c’est l’algorithme CLIQUE (CLustering In QUest, [Agrawal et al. 1998]).

Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Page 5: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Introduction

Quelques définitions basiques: Unité: Après la formation d'une structure de grille sur

l'espace, chaque cellule rectangulaire est appelé une unité.

Dense: Une unité est dense, si la fraction de points de données au total contenu dans l'unité dépasse le paramètre de modèle d'entrée.

Cluster: Un cluster est défini comme un ensemble maximal d'unités denses connectées.

5Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 6: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

6

Plan

Introduction Clustering Haute dimensionnalité des données CLIQUE Expérimentation Conclusion

Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Page 7: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Clustering

L’objectif du clustering est d’identifier un ensemble d’individu et donc d’affecter à chaque observation une "étiquette de classe" qui matérialise l’appartenance de l’observation à une classe. [7]

Il existe de nombreux algorithmes de clustering. Il y’a quatre méthodes de clustering :

Les méthodes hiérarchiques Les méthodes de clustering par partition Les méthodes basées sur la densité Les méthodes basées sur les grilles

7Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 8: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Clustering - Les méthodes hiérarchiques

L’objectif: Grouper les données sous une forme hiérarchique c’est

à dire sous forme d’arbre ou d’un "Dendrogramme" composés de clusters.

Le nœud de l’arbre constitue l’ensemble des données de la base.

Un parcours de l’arbre vers le bas nous montre des clusters de plus en plus spécifiques à un groupe d’objets qui se caractérisent par une notion de similitude.

8Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 9: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Clustering - Les méthodes de clustering par partition

L’objectif: Grouper les données de façon optimale pour un critère

de partitionnement donné et un nombre de cluster défini par avance.

Plusieurs moyens existent pour obtenir une bonne partition proche de la partition « optimale ».

Première technique : représenter chaque cluster par son centre (centroïde) Exemple : K-means.

Deuxième technique : représenter chaque groupe par un objet qui correspond au membre le plus proche du centre (médoïde). Exemple : K-medoids et PAM.

9Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 10: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Clustering - Les méthodes basées sur la densité

L’objectif: Gérer les clusters de forme sphérique. (ce qui n’est pas le

cas des 2 premières méthodes). Gérer le bruit qui peut exister dans les données.

Exemple : DBSCAN

10Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 11: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Clustering - Les méthodes basées sur les grilles

Basées sur 3 étapes : Diviser l’espace en un nombre fini cellules rectangulaires

qui forment une structure de grille Supprimer les cellules de basse densité Combiner les cellules adjacentes ayant une forte densité

pour former des clusters.

La force de cette approche est qu’elle à une complexité linéaire de O(n).

Exemple : CLIQUE (Agrawal, 1998).

11Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 12: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Clustering

12Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Répartition des méthodes de classification [Thierry Urruty,2007]

Page 13: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

13

Plan

Introduction Clustering Haute dimensionnalité des données CLIQUE Expérimentation Conclusion

Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Page 14: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Haute dimensionnalité des donnéesChallenges: Plusieurs dimensions non pertinentes peuvent masquer

les clusters. À chaque fois qu’on ajoute une dimension à nos k

dimensions dans l’espace, les données sont étirées à travers de la kème +1 dimension.

« De quelle manière pouvons-nous traiter un volume conséquent de données avec des centaines de dimensions ? »

14Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 15: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Haute dimensionnalité des données - Subspatial clustering

Naissance des méthodes clustering par sous-espace.

Consistent à : Rechercher des clusters dans les sous-espaces

existants.

Un sous-espace est défini en tant que un sous-ensemble d’objets similaires entre eux dans l’espace.

Pour déterminer de manière optimale les sous-espaces, des heuristiques qui sont regroupées en deux catégories sont alors développées.

15Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 16: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Haute dimensionnalité des données - Subspatial clustering

Méthode de recherche ascendante : Les algorithmes commencent leur recherche dans des sous-espaces à petites dimensions, puis sont en quête de sous-espaces plus grands susceptibles de contenir des clusters.

CLIQUE utilise cette approche !

Méthode de recherche descendante : La recherche effectuée par les algorithmes englobe tout l’espace et cette fouille continue dans des sous-espaces de plus en plus petits.

16Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 17: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

17

Plan

Introduction Clustering Haute dimensionnalité des données CLIQUE Expérimentation Conclusion

Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Page 18: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

CLIQUE

CLIQUE (CLustering In QUest, [Agrawal et al. 1998]) est un algorithme de classification basé sur la densité et sur la grille [8].

Basé sur 3 étapes: Identification des sous-espaces qui contiennent des

clusters Identification des clusters Description minimale des clusters

18Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 19: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

CLIQUE - Etape 1 Identification des sous-espaces

Elle consiste à repérer des régions denses dans les sous-espaces dans l’espace de dimension d.

CLIQUE divise l’espace en unités rectangulaire. Il partitionne chaque dimension en un nombre identique

d’intervalles de même taille.

L’algorithme commence par déterminer la densité des régions sur une seule dimension. Lorsque des unités denses sont déterminées dans K-1 dimension, l’algorithme génère des unités denses sur K dimension, itérativement jusqu’à ce qu’il n’y ait plus de dimension candidate.

La génération d’un ensemble d’unités denses sur K dimensions à partir d’une dimension DK-1 et d’un ensemble d’unités denses sur K-1 dimensions repose sur l’approche bottom-up

19Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 20: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

CLIQUE - Etape 2 Identification des clusters

Des unités denses ont été déterminés (étape 1). L’algorithme explore ces régions à la recherche de

clusters. C’est comme si une recherche des composants

connexes dans un graphe (Agrawal, 1998).

20Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 21: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

CLIQUE - Etape 3 Description minimale des clusters

L’objectif consiste à déterminer : Un ensemble de régions maximales qui soit une

couverture de l’ensemble des unités denses sur un espace de K dimension.

Cette étape est assurée par un algorithme glouton.

Une couverture minimale calculée grâce à des heuristiques.

21Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 22: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Exemple

Soit un espace à 2-Dimention contenant plusieurs points éparpillés (point = donnée).

On suppose que chaque unité contenant plus de 5 points est considéré comme dense.

22Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 23: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Exemple – Etape 1-

Unité dense à 1-Dimention:

D1={u21, u31, u41, u51, u81, u91, u12, u22, u32, u52, u62}

Unité dense à 2-Dimention:

D2={u21, u22, u32, u33, u83, u93}

23Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 24: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Exemple – Etape 2 -

24Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 25: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Exemple – Etape 3 -

C1={(x1): 1≤x1<5} C2={(x1): 7≤x2<9} C3={(x2): 0≤x2<3} C4={(x2): 4≤x1<6} C5={(x1, x2): 1≤x1<2,

0≤x2<2} ∪ {(x1, x2): 2≤ x1<3, 1≤x2<3}

C6={(x1, x2): 7≤x1≤9, 2≤x2<3}

25Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 26: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

CLIQUE

Avantages : Peut faire un clustering si on

a une haute dimensionnalité de données.

Repose sur une idée simple et intuitive.

La recherche des sous-espaces susceptibles de contenir des régions denses se fait automatiquement

Inconvénients: Obtenir un cluster de

bonne qualité dépend du réglage de la taille de la grille et du seuil de densité, or, ces valeurs s’utilisent au travers de toutes les dimensions. [1]

26Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 27: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

27

Plan

Introduction Clustering Haute dimensionnalité des données CLIQUE Expérimentation Conclusion

Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Page 28: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Expérimentation

La figure (A) montre une évolutivité avec le nombre d'enregistrements de données (quand la taille de la base de données est passée de 100 000 à 500 000 enregistrements).

La figure (B) montre une évolutivité avec la dimensionnalité de l’espace de donnée.

La figure (C) montre une évolutivité avec la dimensionnalité des clusters cachés.

Pour plus de détail, voir [Agrawal et al. 1998].28

Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Page 29: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

29

Plan

Introduction Clustering Haute dimensionnalité des données CLIQUE Expérimentation Conclusion

Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Page 30: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Conclusion

Quatre méthodes de clustering. Le problème: la majorité des algorithmes de

clustering ne peuvent pas étudier le cas si on a une haute dimensionnalité de données.

Naissance de CLIQUE ! C’une méthode fondée sur le clustering par sous-

espace. On peut trouver plusieurs variantes de CLIQUE. ENCLUS (ENtropy-based CLUStering) une

approche semblable à CLIQUE.

30Automatic Subspace Clustering of High Dimensional Data for Data

Mining Applications

Page 31: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Merci pour votre attention

31

Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Page 32: Automatic Subspace Clustering of High Dimensional Data for DataMining Applications

Bibliographie

[1] Le clustering de données, Nicolas Sola Mathieu Schmitt [2] Nouvelle Approche Scalable par Classification des Charges de

Requêtes Volumineuses pour la Sélection d’un Schéma de Fragmentation, Amina Gacem, 2012

[3] Développement et mise en place d’une méthode de classification multi-bloc Application aux données de l’OQAI, Mory OUATTARA, 2014

[4] Une méthode de classification non-supervisée pour l’apprentissage de règles et la recherche d’information, Guillaume Cleuziou , 2006

[5] Connaissances et clustering collaboratif d’objets complexes multisources, Germain Forester, 2010

[6] Optimisation de l’indexation multidimentionnelle : application aux descripteurs multimédia ,Thierry Urruty,2007

[7] Classification non supervisée, E. Lebarbier, T. Mary-Huard [8] http ://fr.slideshare.net/skklms/clique

32La complexité des algorithmes récursives

Géométrie algorithmique