34
Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008 Lehrstuhl für Angewandte Informatik in den Kultur-, Geschichts- und Geowissenschaften Otto-Friedrich-Universität Bamberg

Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Embed Size (px)

DESCRIPTION

Lehrstuhl für Angewandte Informatik in den Kultur-, Geschichts- und Geowissenschaften. Otto-Friedrich-Universität Bamberg. Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008. - PowerPoint PPT Presentation

Citation preview

Page 1: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Reading Club - Similarity

Cluster Analysis - the Basics

Sebastian Matyas

04. Juni 2008

Lehrstuhl für Angewandte Informatik in denKultur-, Geschichts- und Geowissenschaften

Otto-Friedrich-Universität Bamberg

Page 2: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-2Reading Club - Similarity

Angela Schwering (2008). Approaches to Semantic Similarity Measurement for Geo-Spatial Data: A Survey, Transactions in GIS Vol. 12 Issue 1 Page 5 February 2008

Page 3: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-3Reading Club - Similarity

Teil 1Similarity: Geometrisches Modell

Teil 2Verfahren zur Clusteranalysen

Teil 3Kritische Schlussbemerkungen

Page 4: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-4

Allgemeine Eigenschaften

Koordinatensystem Objekte (Instanzen) als

Punkte in einem n-dimensionalen Raum (Koordinatensystem)

Ähnlichkeit definiert als nicht-negative Zahl einer metrischen Distanzfunktion (a,b)

Axiome Minimality

(a,b) ≥ (a,a) = 0

Symmetry

(a,b) = (b,a)

Triangle inequality

(a,b) + (b,c) ≥ (a,c)

Reading Club - Similarity

Page 5: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-5

Distanzmaße

Metrische Merkmale Minkowski-Metrik:

Euklidischer Abstand (r = 2) City Block-Distanz/

Manhattan-Distanz (r=1)

(intervall- und verhältnisskalierte Merkmale)

Nicht-metrische Merkmale Variablen werden in binäre

Form transformiert Z.B. ordinalskalierte

Variablen: Werte unterhalb des Medians die 0 und oberhalb 1

(nominale und ordinale Merkmale)

Reading Club - Similarity

rm

l

r

jlilrij xxd

1

1)(

Page 6: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-6

Nicht-Metrische Merkmale

Distanzmaß Konstanten Tanimoto: = 0, = 1 Dice: = 0, = 1/2 Simple Matching (M): = 1, = 1

Russel-Rao (RR)

Usw.

Reading Club - Similarity

)( cbda

daSij

cbda

aSij

Page 7: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-7Reading Club - Similarity

Teil 1Similarity: Geometrisches Modell

Teil 2Verfahren zur Clusteranalysen

Teil 3Kritische Schlussbemerkungen

Page 8: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-8

Partitionierende Clusteranalysen

Allgemein Feste Zielgröße von k

Cluster Optimierungskriterium, so

dass möglichst gute Partition der n Objekte in die k Cluster erfolgt

Zufällige Anfangsverteilung der n Objekte zu den k Clustern

Iterative Verfahren Clusterzugehörigkeit

revidierbar

Optimierungskriterium Global Partiell

Reading Club - Similarity

Page 9: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-9

Iterativ-globale Verfahren

Allgemein 1.) Anfangspartition mit k

Cluster (Initiierungsphase) 2.) Prüfe, ob sich durch

verschieben jedes einzelnen Objektes die Zielfunktion verbessert. Berechne Centroide neu. (Iterationsphase)

3.) Wiederhole Schritt zwei so lange bis sich keine Verbesserung der Zielfunktion mehr ergibt (Iterationsphase)

Initiierungsphase Zuordnung nach

Eingabereihenfolge Erste k oder zufällige

Stichprobe an Objekten als Startzentren; Zuordnung anschließend nach euklidischer Distanz

Ergebnis einer Clusteranalyse als Startpunkt für eine Zweite

Usw.

Reading Club - Similarity

Page 10: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-10

Globale Optimierungskriterien

Totale Streuungsmatrix T (totale Dispersionsmatrix) Varianz der m Variablen,

bzw. die Kovarianz zwischen je zwei Variablen der n Objekte

T ist vom Typ m x m

Innerhalb eines Clusters:

Zwischen Cluster:

T = W + B

Reading Club - Similarity

Tii

n

i

ii xxxxT )()(1

Tri

n

i

ri

k

r

xxxxWr

)()(11

Tr

k

irr xxxxnB )()(

1

Page 11: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-11

Skalarbildende Transformation

Spur W z(P) = Spur(W) Minimum Summer der

Diagonalelemente der Matrix W für eine Partition P

Spur T = Spur W + Spur B Varianzkriterium, Spur W-

Kriterium, Abstabds-quadratkriterium

Determinante W z(P) = Det(W) Minimum Maß der Heterogenität der

einzelnen Cluster Skaleninvariant Berücksichtigt

Variablenkorrelation

Reading Club - Similarity

k

r

n

i

ri

r

xxSpurW1 1

2)(

Page 12: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-12Reading Club - Similarity

Page 13: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-13

Iterativ-partielle Verfahren

Allgemein 1.) Anfangspartition 2.) Berechne Clusterzentren 3.) Verschiebe jedes Objekt

in ein Cluster mit minimaler Entfernung (Distanz)

4.) Fahre bei Schritt zwei fort oder Beende nach einem Abbruchkriterium

Clusterzentren berechnen Abhängig vom verwendeten

Distanzmaß Quadrierte euklidische

Distanz = Clustercentroid City-Block-Metrik = Vektor

der Mediane der Meßwerteverteilung auf den m Merkmalen

Reading Club - Similarity

Page 14: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-14

Neuberechnung der Schwerpunkte

Varianten Alle Objekte dem nächsten

Cluster zugewiesen (voller Iterationszyklus)

Bei jeder Zuweisung eines Objekts zum nächsten Cluster

K-means Algorithmus Berechnung der Centroide

nach jeder Neuzuweisung Ausreißer und Objekte

zwischen zwei benachbarten Clustern problematisch

Variante (MacQueen, 1967) mit Parameter C („coarsening“) und R („refinment“)

Reading Club - Similarity

Page 15: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-15

Ashbrook/Starner - k-means

Reading Club - Similarity

Ashbrook, D. and Starner, T. 2003. Using GPS to learn significant locations and predict movement across multiple users. Personal Ubiquitous Comput. 7, 5 (Oct. 2003), 275-286.

Page 16: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-16

K-mediods Algorithmus

Allgemein Clusterzentren sind jetzt

nicht mehr „künstliche“ Centroide sondern echte Objekte in der untersuchenden Datenmenge

Medoid: Objekt mit dem geringsten Abstand zu allen anderen Objekten in einem Cluster

Z.B. Partitioning Around Medoids (PAM)

1.) Anfangspartition 2.) Berechne Medoide 3.) Verschiebe jedes Objekt

in ein Cluster mit minimaler Entfernung (Distanz)

4.) Fahre bei Schritt zwei fort oder Beende anhand eines Abbruchkriteriums

Reading Club - Similarity

Page 17: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-17

Beispiel

Reading Club - Similarity

Tung, A. K., Hou, J., and Han, J. 2001. Spatial Clustering in the Presence of Obstacles. In Proceedings of the 17th international Conference on Data Engineering (April 02 - 06, 2001). IEEE Computer Society, Washington, DC, 359-367.

Page 18: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-18

Hierarchische Clusteranalysen

Allgemein Optimierung der

Clusterbildung, d.h. eine optimale Aufteilung der Objekte auf Cluster wird angestrebt

Nicht-Revidierbarkeit eines Objektes zu einem Cluster

Hierarchische Struktur darstellbar in einem Dendrogramm

Reading Club - Similarity

Page 19: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-19

Hierarchisch-agglomerative Verfahren

Allgemein 0.) Distanzmatrix 1.) Feinste Partition; Jedes

Objekt ein Cluster 2.) Suche die Cluster mit

der kleinsten Distanz 3.) Fusioniere die zwei

gefundenen Cluster 4.) Berechne die

Distanzmatrix neu 5.) Beende n-1 Fusion (alle

Objekte in einem Cluster) oder gehe zu Schritt zwei

Inter-Cluster-Distanz Allgemein Formel:

Distanz des durch die Fusion der Cluster p und q entstandenen Clusters t zu einem beliebigen Cluster r

Reading Club - Similarity

qrprpqqrqprptr dddddd

Page 20: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-20

Fusionsstrategien (1)

Single-Linkage

Complete-Linkage

Reading Club - Similarity

qrprqrprtr ddddd 2

1)(

2

1

qrprqrprtr ddddd 2

1)(

2

1

),min( qrprtr ddd

),max( qrprtr ddd

Page 21: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-21

Beispiel: Single-Linkage

Reading Club - Similarity

=

Page 22: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-22

Fusionsstrategien (2)

Centroid-Verfahren

Group-Average

Reading Club - Similarity

pqt

qpqr

t

qpr

t

ptr d

n

nnd

n

nd

n

nd

2

m

l

lrltxx xxd rt

1

22 )(

qrt

qpr

t

ptr d

n

nd

n

nd

t rn

i

n

jij

rttr d

nnd

1 1

1

Inversionsproblem

Page 23: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-23

Fusionsstrategien (3)

Median-Verfahren

Flexible Strategie

Reading Club - Similarity

pqqrprtr dddd4

1)(

2

1

pqqrprtr dddd )21()(

Page 24: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-24

Fusionsstrategien (4)

Wards-Verfahren

Reading Club - Similarity

])()[(1

pqrqrqrprprrt

tr dndnndnnnn

d

m

l

n

i

lrilrr

r

xxE1 1

2)(

k

rrw EE

1

qptpq EEEE

m

l

lqlp

qp

qppq xx

nn

nnE

1

2)(

1

1)(

n

stsw EEE

1

1)( 0

n

ssTB EEE

Page 25: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-25Reading Club - Similarity

Page 26: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-26

Fusionsstrategien (5)

Entropieanalyse

Reading Club - Similarity

m

llrr HH

1

k

rrw HH

1

qptpq HHHH

Page 27: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-27

Hierarchisch-divise Verfahren

Anmerkungen Idee: Cluster auf geschickte

Art und Weise zu zerteilen Nur für kleine Datenmengen

praktikabel

Divisiv-polythetische Verfahren Alle Variablen werden

simultan betrachtet

Divisiv-monothetische Verfahren Nur eine Variable wird

betrachtet Meistens binäre Variablen

Reading Club - Similarity

Page 28: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-28

Divisiv-polythetische Verfahren

Dissimilarity Analysis 1.) Für jedes Objekt wird die

Distanz zu dem aus den übrigen n-1 Objekten bestehenden Cluster (Cr) berechnet ( )

2.) Das Objekt mit dem größten Distanzwert bildet den Anfang neues Cluster (Cs)

3.) Für jedes der n-1 Objekte in Cr wird die Distanz zu den n-2 in Cr verbliebenen Objekten und Cs bestimmt

4.) Objekt mit Maximalem kommt von Cr nach Cs

5.) Wiederhole bis kein Objekt mehr in Cr vorhanden ist

6.) Beginne bei Schritt drei oder Abbruchkriterium

Reading Club - Similarity

ird

isir dd

0 isir dd

Page 29: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-29

Divisiv-monothetische Verfahren

Assoziationsanalyse Für binäre Variablen Nimm jenes Merkmal, dass

den größten Anteil an der Gesamtvarianz aller Merkmale besitzt

1.) Bestimme für jedes Paar von Variablen und eine 2 x 2 Kontingenzmatrix und berechne:

2.) Division nach dem Merkmal für das gilt:

Reading Club - Similarity

))()()((

)( 22

dbcadcba

bcadlh

Maximumlh 2

lX hX

Page 30: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-30

Sonstiges (1)

Graphentheoretische Verfahren Menge A von Objekten wird

als vollständiger Graph betrachtet, dessen Kanten (oi, oj) mit Distanzen dij bewertet sind

Entferne aus dem Minimalgerüst dieses Graphen für d > 0 die Kanten mit einer Bewertung dij > d

Vergleichbar mit Single-Linkage

Reading Club - Similarity

Page 31: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-31

Sonstiges (2)

Statistische Modellansätze …

Reading Club - Similarity

Page 32: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-32Reading Club - Similarity

Teil 1Similarity: Geometrisches Modell

Teil 2Verfahren zur Clusteranalysen

Teil 3Kritische Schlussbemerkungen

Page 33: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-33

Allgemeines Geometrisches Modell

Axiome Minimality

(a,b) ≥ (a,a) = 0

Symmetry

(a,b) = (b,a)

Triangle inequality

(a,b) + (b,c) ≥ (a,c)

Gegenbeispiele Gilmore, Hersh, Camarazza

and Griffin (1979) Buchstabe M wurde öfter als H erkannt als als M

„North Korea is like Red China“ - „Red China is like North Korea “

Tversky (1977): Jamaica is similar to Cuba (geographisch); Cuba is similar to Russia (politisch), but Jamaica and Russia are not similar at all

Reading Club - Similarity

Page 34: Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-34

Vielen Dank für die Aufmerksamkeit!

Fragen?

Reading Club - Similarity