Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008

Reading Club - Similarity

Cluster Analysis - the Basics

Sebastian Matyas

04. Juni 2008

Lehrstuhl für Angewandte Informatik in denKultur-, Geschichts- und Geowissenschaften

Otto-Friedrich-Universität Bamberg

Lehrstuhl für Angewandte Informatik in den

Kultur-, Geschichts- und Geowissenschaften

Seite 1-2Reading Club - Similarity

Angela Schwering (2008). Approaches to Semantic Similarity Measurement for Geo-Spatial Data: A Survey, Transactions in GIS Vol. 12 Issue 1 Page 5 February 2008




Teil 1Similarity: Geometrisches Modell

Teil 2Verfahren zur Clusteranalysen

Teil 3Kritische Schlussbemerkungen



Seite 1-4

Allgemeine Eigenschaften

Koordinatensystem Objekte (Instanzen) als

Punkte in einem n-dimensionalen Raum (Koordinatensystem)

Ähnlichkeit definiert als nicht-negative Zahl einer metrischen Distanzfunktion (a,b)

Axiome Minimality

(a,b) ≥ (a,a) = 0

Symmetry

(a,b) = (b,a)

Triangle inequality

(a,b) + (b,c) ≥ (a,c)




Seite 1-5

Distanzmaße

Metrische Merkmale Minkowski-Metrik:

Euklidischer Abstand (r = 2) City Block-Distanz/

Manhattan-Distanz (r=1)

(intervall- und verhältnisskalierte Merkmale)

Nicht-metrische Merkmale Variablen werden in binäre

Form transformiert Z.B. ordinalskalierte

Variablen: Werte unterhalb des Medians die 0 und oberhalb 1

(nominale und ordinale Merkmale)


rm

l

r

jlilrij xxd

1

1)(



Seite 1-6

Nicht-Metrische Merkmale

Distanzmaß Konstanten Tanimoto: = 0, = 1 Dice: = 0, = 1/2 Simple Matching (M): = 1, = 1

Russel-Rao (RR)

Usw.


)( cbda

daSij

cbda

aSij









Seite 1-8

Partitionierende Clusteranalysen

Allgemein Feste Zielgröße von k

Cluster Optimierungskriterium, so

dass möglichst gute Partition der n Objekte in die k Cluster erfolgt

Zufällige Anfangsverteilung der n Objekte zu den k Clustern

Iterative Verfahren Clusterzugehörigkeit

revidierbar

Optimierungskriterium Global Partiell




Seite 1-9

Iterativ-globale Verfahren

Allgemein 1.) Anfangspartition mit k

Cluster (Initiierungsphase) 2.) Prüfe, ob sich durch

verschieben jedes einzelnen Objektes die Zielfunktion verbessert. Berechne Centroide neu. (Iterationsphase)

3.) Wiederhole Schritt zwei so lange bis sich keine Verbesserung der Zielfunktion mehr ergibt (Iterationsphase)

Initiierungsphase Zuordnung nach

Eingabereihenfolge Erste k oder zufällige

Stichprobe an Objekten als Startzentren; Zuordnung anschließend nach euklidischer Distanz

Ergebnis einer Clusteranalyse als Startpunkt für eine Zweite

Usw.




Seite 1-10

Globale Optimierungskriterien

Totale Streuungsmatrix T (totale Dispersionsmatrix) Varianz der m Variablen,

bzw. die Kovarianz zwischen je zwei Variablen der n Objekte

T ist vom Typ m x m

Innerhalb eines Clusters:

Zwischen Cluster:

T = W + B


Tii

n

i

ii xxxxT )()(1

Tri

n

i

ri

k

r

xxxxWr

)()(11

Tr

k

irr xxxxnB )()(

1



Seite 1-11

Skalarbildende Transformation

Spur W z(P) = Spur(W) Minimum Summer der

Diagonalelemente der Matrix W für eine Partition P

Spur T = Spur W + Spur B Varianzkriterium, Spur W-

Kriterium, Abstabds-quadratkriterium

Determinante W z(P) = Det(W) Minimum Maß der Heterogenität der

einzelnen Cluster Skaleninvariant Berücksichtigt

Variablenkorrelation


k

r

n

i

ri

r

xxSpurW1 1

2)(






Seite 1-13

Iterativ-partielle Verfahren

Allgemein 1.) Anfangspartition 2.) Berechne Clusterzentren 3.) Verschiebe jedes Objekt

in ein Cluster mit minimaler Entfernung (Distanz)

4.) Fahre bei Schritt zwei fort oder Beende nach einem Abbruchkriterium

Clusterzentren berechnen Abhängig vom verwendeten

Distanzmaß Quadrierte euklidische

Distanz = Clustercentroid City-Block-Metrik = Vektor

der Mediane der Meßwerteverteilung auf den m Merkmalen




Seite 1-14

Neuberechnung der Schwerpunkte

Varianten Alle Objekte dem nächsten

Cluster zugewiesen (voller Iterationszyklus)

Bei jeder Zuweisung eines Objekts zum nächsten Cluster

K-means Algorithmus Berechnung der Centroide

nach jeder Neuzuweisung Ausreißer und Objekte

zwischen zwei benachbarten Clustern problematisch

Variante (MacQueen, 1967) mit Parameter C („coarsening“) und R („refinment“)




Seite 1-15

Ashbrook/Starner - k-means


Ashbrook, D. and Starner, T. 2003. Using GPS to learn significant locations and predict movement across multiple users. Personal Ubiquitous Comput. 7, 5 (Oct. 2003), 275-286.



Seite 1-16

K-mediods Algorithmus

Allgemein Clusterzentren sind jetzt

nicht mehr „künstliche“ Centroide sondern echte Objekte in der untersuchenden Datenmenge

Medoid: Objekt mit dem geringsten Abstand zu allen anderen Objekten in einem Cluster

Z.B. Partitioning Around Medoids (PAM)

1.) Anfangspartition 2.) Berechne Medoide 3.) Verschiebe jedes Objekt

in ein Cluster mit minimaler Entfernung (Distanz)

4.) Fahre bei Schritt zwei fort oder Beende anhand eines Abbruchkriteriums




Seite 1-17

Beispiel


Tung, A. K., Hou, J., and Han, J. 2001. Spatial Clustering in the Presence of Obstacles. In Proceedings of the 17th international Conference on Data Engineering (April 02 - 06, 2001). IEEE Computer Society, Washington, DC, 359-367.



Seite 1-18

Hierarchische Clusteranalysen

Allgemein Optimierung der

Clusterbildung, d.h. eine optimale Aufteilung der Objekte auf Cluster wird angestrebt

Nicht-Revidierbarkeit eines Objektes zu einem Cluster

Hierarchische Struktur darstellbar in einem Dendrogramm




Seite 1-19

Hierarchisch-agglomerative Verfahren

Allgemein 0.) Distanzmatrix 1.) Feinste Partition; Jedes

Objekt ein Cluster 2.) Suche die Cluster mit

der kleinsten Distanz 3.) Fusioniere die zwei

gefundenen Cluster 4.) Berechne die

Distanzmatrix neu 5.) Beende n-1 Fusion (alle

Objekte in einem Cluster) oder gehe zu Schritt zwei

Inter-Cluster-Distanz Allgemein Formel:

Distanz des durch die Fusion der Cluster p und q entstandenen Clusters t zu einem beliebigen Cluster r


qrprpqqrqprptr dddddd



Seite 1-20

Fusionsstrategien (1)

Single-Linkage

Complete-Linkage


qrprqrprtr ddddd 2

1)(

2

1

qrprqrprtr ddddd 2

1)(

2

1

),min( qrprtr ddd

),max( qrprtr ddd



Seite 1-21

Beispiel: Single-Linkage


=



Seite 1-22


Centroid-Verfahren

Group-Average


pqt

qpqr

t

qpr

t

ptr d

n

nnd

n

nd

n

nd

2

m

l

lrltxx xxd rt

1

22 )(

qrt

qpr

t

ptr d

n

nd

n

nd

t rn

i

n

jij

rttr d

nnd

1 1

1

Inversionsproblem



Seite 1-23


Median-Verfahren

Flexible Strategie


pqqrprtr dddd4

1)(

2

1

pqqrprtr dddd )21()(



Seite 1-24


Wards-Verfahren


])()[(1

pqrqrqrprprrt

tr dndnndnnnn

d

m

l

n

i

lrilrr

r

xxE1 1

2)(

k

rrw EE

1

qptpq EEEE

m

l

lqlp

qp

qppq xx

nn

nnE

1

2)(

1

1)(

n

stsw EEE

1

1)( 0

n

ssTB EEE






Seite 1-26


Entropieanalyse


m

llrr HH

1

k

rrw HH

1

qptpq HHHH



Seite 1-27

Hierarchisch-divise Verfahren

Anmerkungen Idee: Cluster auf geschickte

Art und Weise zu zerteilen Nur für kleine Datenmengen

praktikabel

Divisiv-polythetische Verfahren Alle Variablen werden

simultan betrachtet

Divisiv-monothetische Verfahren Nur eine Variable wird

betrachtet Meistens binäre Variablen




Seite 1-28

Divisiv-polythetische Verfahren

Dissimilarity Analysis 1.) Für jedes Objekt wird die

Distanz zu dem aus den übrigen n-1 Objekten bestehenden Cluster (Cr) berechnet ( )

2.) Das Objekt mit dem größten Distanzwert bildet den Anfang neues Cluster (Cs)

3.) Für jedes der n-1 Objekte in Cr wird die Distanz zu den n-2 in Cr verbliebenen Objekten und Cs bestimmt

4.) Objekt mit Maximalem kommt von Cr nach Cs

5.) Wiederhole bis kein Objekt mehr in Cr vorhanden ist

6.) Beginne bei Schritt drei oder Abbruchkriterium


ird

isir dd

0 isir dd



Seite 1-29

Divisiv-monothetische Verfahren

Assoziationsanalyse Für binäre Variablen Nimm jenes Merkmal, dass

den größten Anteil an der Gesamtvarianz aller Merkmale besitzt

1.) Bestimme für jedes Paar von Variablen und eine 2 x 2 Kontingenzmatrix und berechne:

2.) Division nach dem Merkmal für das gilt:


))()()((

)( 22

dbcadcba

bcadlh

Maximumlh 2

lX hX



Seite 1-30

Sonstiges (1)

Graphentheoretische Verfahren Menge A von Objekten wird

als vollständiger Graph betrachtet, dessen Kanten (oi, oj) mit Distanzen dij bewertet sind

Entferne aus dem Minimalgerüst dieses Graphen für d > 0 die Kanten mit einer Bewertung dij > d

Vergleichbar mit Single-Linkage




Seite 1-31

Sonstiges (2)

Statistische Modellansätze …










Seite 1-33

Allgemeines Geometrisches Modell

Axiome Minimality

(a,b) ≥ (a,a) = 0

Symmetry

(a,b) = (b,a)

Triangle inequality

(a,b) + (b,c) ≥ (a,c)

Gegenbeispiele Gilmore, Hersh, Camarazza

and Griffin (1979) Buchstabe M wurde öfter als H erkannt als als M

„North Korea is like Red China“ - „Red China is like North Korea “

Tversky (1977): Jamaica is similar to Cuba (geographisch); Cuba is similar to Russia (politisch), but Jamaica and Russia are not similar at all




Seite 1-34

Vielen Dank für die Aufmerksamkeit!

Fragen?


Documents

Reading Club - Similarity Cluster Analysis - the Basics Sebastian Matyas 04. Juni 2008