41
Un modèle général pour la classification non supervisée sous contraintes d’utilisateur Thi-Bich-Hanh DAO, Khanh-Chuong DUONG, Christel VRAIN LIFO Université d’Orléans JFPC 2013 DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 1 / 41

Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Un modèle général pour la classificationnon supervisée sous contraintes d’utilisateur

Thi-Bich-Hanh DAO, Khanh-Chuong DUONG,Christel VRAIN

LIFOUniversité d’Orléans

JFPC 2013

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 1 / 41

Page 2: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 2 / 41

Page 3: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 3 / 41

Page 4: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Classification non supervisée

O = {o1, . . . , on

}: n objets. d(oi

, oj

): dissimilarité entre o

i

et o

j

.Tâche: Regrouper n objets en k groupes.Le problème peut être formulé comme un problème d’optimisationavec un critère E :

Minimisation du diamètre maximalMaximisation du séparateur minimalMinimisation de la somme de dissimilaritésMinimisation des moindres carrésMinimisation de l’erreur absolue...

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 4 / 41

Page 5: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Classification non supervisée

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 5 / 41

Page 6: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Critère: Minimisation du diamètre maximal

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 6 / 41

Page 7: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Critère: Maximisation du séparateur minimal

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 7 / 41

Page 8: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Critère: Minimisation de la somme de dissimilarités

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 8 / 41

Page 9: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 9 / 41

Page 10: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Contraintes d’utilisateur

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 10 / 41

Page 11: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Contraintes portant sur les clusters

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 11 / 41

Page 12: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Contrainte: Diamètre Maximal

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 12 / 41

Page 13: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Contrainte: Séparation Minimale

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 13 / 41

Page 14: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Contraintes: Must-link et Cannot-link

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 14 / 41

Page 15: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 15 / 41

Page 16: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Motivation

Ce problème d’optimisation est NP-difficile. Les algorithmesclassiques trouvent un optimum local.Ils doivent être adaptés pour chaque type de contraintes.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 16 / 41

Page 17: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Motivation

Un modèle général qui cherche l’optimum global.Intégration avec des contraintes définies par l’utilisateur.Choix des critères d’optimisation:

minimisation du diamètre maximal.maximisation de la séparation entre les clusters.minimisation de la somme des dissimilarités intracluster.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 17 / 41

Page 18: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 18 / 41

Page 19: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Variables : représentants

Chaque groupe est identifié par un représentant.Pour casser la symétrie, le représentant d’un cluster est le pointdu plus petit indice.k variables: I[1], . . . , I[k ] avec le domaine [1, n].8c 2 [1, k ], I[c] est le représentant du cluster c

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 19 / 41

Page 20: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Variables : points aux clusters

Pour chaque point, son cluster est donné par l’indice dureprésentant.G[1], . . . ,G[n] avec le domaine [1, n].8i 2 [1, n], G[i] est la valeur du représentant associé.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 20 / 41

Page 21: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Variables du critère à optimiser

D : diamètre maximal.V : somme des dissimilarités intra-cluster.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 21 / 41

Page 22: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 22 / 41

Page 23: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Modélisation d’une partition

Le représentant d’un représentant est lui-même:

8c 2 [1, k ], G[I[c]] = I[c]

Le représentant d’un point doit être parmi les représentants:

8i 2 [1, n], #{c | G[i]= I[c]} = 1

Le représentant doit être d’indice minimal:

8i 2 [1, n], G[i] i

Les représentants sont en ordre croissant:

8c < c

0 2 [1, k ], I[c] < I[c0]

Le représentant du premier cluster est le premier point:

G[1] = 1, I[1] = 1

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 23 / 41

Page 24: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Contraintes du diamètre maximal

Les contraintes réifiées du diamètre:

8i < j 2 [1, n] : d(i , j) > D ! (G[i] 6= G[j])

minimise D.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 24 / 41

Page 25: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Contrainte de la somme des dissimilarités

Contrainte linéaire de la somme des dissimilarités intra-clusters

V =X

i<j2[1,n]

(G[i] == G[j])d(i , j)2

minimise V .

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 25 / 41

Page 26: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Modélisation des contraintes définies par l’utilisateur

Pour les contraintes portant sur les clusters:Capacité minimale ↵ des clusters:

8c 2 [1, k ], #{i | G[i]= I[c]} � ↵

Capacité maximale � des clusters:

8c 2 [1, k ], #{i | G[i]= I[c]} �

Séparation minimale ✓ des clusters:

8i < j 2 [1, n], d(i , j) < ✓ : G[i] = G[j]

Diamètre maximal � des clusters:

8i < j 2 [1, n], d(i , j) > � : G[i] 6= G[j]

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 26 / 41

Page 27: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Modélisation des contraintes définies par l’utilisateurGénéralisation de la ✏-contrainte:

#{j | d(i , j) ✏,G[j]=G[i]} � MinPts

Pour les contraintes sur les couples de points:Une contrainte must-link sur i , j :

G[i] = G[j]

Une contrainte cannot-link sur i , j :

G[i] 6= G[j]

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 27 / 41

Page 28: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 28 / 41

Page 29: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Stratégie de recherche

Ordre de choix des variables: I puis G.Choix des variables de I: I[1] à I[k ]

Choix des variables de G: sur la taille du domaine restant.Choix de valeur pour chaque G[i]: l’indice du représentant le plusproche.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 29 / 41

Page 30: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Amélioration du modèle

Utilisation d’une heuristique fondée sur l’algorithme FPF [F.Gonzalez, 1985] pour réordonner les points.Amélioration des contraintes réifiées du diamètre prenant encompte le diamètre trouvé par FPF.Un filtrage supplémentaire pour la somme de dissimilarités.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 30 / 41

Page 31: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Amélioration de la recherche en réordonnant lespoints

Importance des indices des points.FPF est utilisé pour réordonner les points.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 31 / 41

Page 32: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Amélioration de la recherche en réordonnant lespoints

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 32 / 41

Page 33: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Un filtrage supplémentaire pour la somme

V =X

i<j2[1,n]

(G[i] == G[j])d(i , j)2

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 33 / 41

Page 34: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 34 / 41

Page 35: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Clustering sans contraintes d’utilisateur

Base de données #Objets #Classes Diamètre Séparationiris 150 3 0.1s 0.3sionosphere 351 2 0.8s 7.4ssynthetic control 600 6 24.6s 102.8svehicle 846 4 36.7s 308.6syeast 1484 10 4211.2s > 2 heurs

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 35 / 41

Page 36: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Clustering sans contraintes d’utilisateur

30 32 34 36 38 40

0

20

40

60

80

100

n

te

mp

s(s)

Avec le filtrage supplémentaireSans filtrage supplémentaire

Critère de la somme des dissimilarités:

V =X

i<j2[1,n]

(G[i] == G[j])d(i , j)2

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 36 / 41

Page 37: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Plan

1 MotivationClassification non superviséeContraintes d’utilisateurMotivation

2 ModèleVariablesContraintesStratégie de recherche

3 ExpérimentationClustering sans contraintes d’utilisateurClustering avec contraintes d’utilisateur

4 Conclusion

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 37 / 41

Page 38: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Performance avec contraintes d’utilisateur

0 0.2 0.4 0.6 0.8 1

100

200

300

400

500

#must-link (%)

#noe

uds

sans contrainte de capacitécapacité � 5%n

capacité � 10%n

capacité � 15%n

critère de diamètre + contraintes de Must-link + contrainte de capacité.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 38 / 41

Page 39: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Qualité de la solution

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 39 / 41

Page 40: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Conclusion

ConclusionUn modèle générique en PPC pour la classification nonsupervisée avec contraintes d’utilisateur.Un filtrage supplémentaire pour la somme des dissimilarités.Le modèle s’adapte à différents critères de classification.Intégration directe des contraintes d’utilisateur.

PerspectiveAmélioration de l’efficacité.Renforcer la généralité du modèle.

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 40 / 41

Page 41: Un modèle général pour la classification non supervisée sous … · 2013-06-20 · Un modèle général pour la classification non supervisée sous contraintes d’utilisateur

Amélioration pour le critère du diamètre maximal

D

optimal

D

FPF

2 ⇥ D

optimal

Contrainte de diamètre est modifié:d(i , j) D

FPF

/2:

d(i , j) > D

FPF

:

DAO, DUONG, VRAIN (LIFO) Un modèle général pour le clustering JFPC 2013 41 / 41