Upload
hildebrand-stolt
View
125
Download
0
Embed Size (px)
Citation preview
Self Organizing Tree Algorithm
Bastian JarzembinskiEnrico Bade
Tobias Aagard
2
Gliederung
Theorie
Hintergrund
Lernverfahren
Experimente
Attributskalierung
Wachstumssteuerung
Bewertung
Vergleich mit anderen Verfahren
Einsatz
3
Theorie Hintergrund Lernverfahren
4
Theorie Hintergrund
Bioinformatik
Microarrays
Ähnliches Aussehen = Ähnliche Funktion?
5
Theorie Lernverfahren
n-dimensionale Vektoren mit metrischen Attributen
Knoten bilden Clusterzentren
Knoten mit größter Varianz wird geteilt
6
Theorie Lernverfahren
Inputvektor
Repräsentant
Distanz
Lernrate
Fehler
7
Theorie Lernverfahren
Wurzel
Blatt
Zuordnung
8
Theorie Lernverfahren
Ressource /mittlere Abweichung
Variability /Spannweite
9
Theorie Lernverfahren
10
Theorie Lernverfahren
?
11
Theorie Lernverfahren
Ancestor / Vorfahre
Sister / Schwester
12
Experimente Attributskalierung Fallbeispiel
Experimente Attributskalierung
Parameter in KNIME können das zyklisches Wachsen des Treesbeeinflussen:
Lerningrates
min. variablity und min. ressource nur bei „Use variablity“ berücksichtigt
min. Error
Distance: Euclid. Oder Cosinus
Clustern ohne Zielattribut
Experimente Fallbeispiel
IRIS-Datenset
4 Attribute, metrisch skaliert
Zielattribut mit 3 Klassen
LIVE DEMO
Quantitativer Vergleich zu Klassifikationsalgorithmen
i.d.F. k-Means
Keine signifikanten Unterschiede
Anwendung des SOTA auf Daten mit und ohne Zielattribut
Keine signifikanten Unterschiede
15
Bewertung Vergleich mit anderen Verfahren Einsatz
16
Bewertung Vergleich mit anderen Verfahren
Eigenschaften k-Means
Wenige Iterationen
Einfaches Verfahren
Anfällig für Rauschen / Ausreißer
Ergebnis von initialen Zerlegung abhängig
17
Bewertung Vergleich mit anderen Verfahren
Eigenschaften k-Means
Wenige Iterationen
Einfaches Verfahren
Anfällig für Rauschen / Ausreißer
Ergebnis von initialen Zerlegung abhängig
Annähernd lineares Laufzeitverhalten
Punkt für k-Means
Resistent
Unabhängig
Eigenschaften SOTA
18
Bewertung Vergleich mit anderen Verfahren
Hierarchisches Clustern
Divisiv oder agglomerativ
Knoten sind einfache Darstellung der Teilmengen
Zwischenschritte sind irreversibel
19
Hierarchisches Clustern
Divisiv oder agglomerativ
Knoten sind einfache Darstellung der Teilmengen
Zwischenschritte sind irreversibel
Bewertung Vergleich mit anderen Verfahren
Divisives Verfahren
Knoten sind Mittelwerte sämtlicher folgenden Knoten
Zuordnung wird ständig angepasst
Eigenschaften SOTA
20
Bewertung Vergleich mit anderen Verfahren
Self Organizing Map (Kohonen Map)
Ähnliches Verfahren, aber andere Topologie
SOM: vorgegebenes Netz, wird bestmöglich an den Eingaberaum angepasst
SOTA: wächst dynamisch, um den Eingaberaum bestmöglich darzustellen; Hierarchie vorhanden
21
Bewertung Einsatz
Methodisch vielversprechend
Erfolge nicht reproduzierbar
Mögliche Ursachen
Ungeeignete Daten
Ungeeignete Parameterjustierung
Mangelndes (Aufgaben-)Verständnis
Weitere Untersuchung
Hintergrundwissen Bioinformatik
Microarray-Datensätze wählen
22
Fin
23
Theorie Hintergrund
24
Theorie Hintergrund