Self Organizing Tree Algorithm Bastian Jarzembinski Enrico Bade Tobias Aagard

Preview:

Citation preview

Self Organizing Tree Algorithm

Bastian JarzembinskiEnrico Bade

Tobias Aagard

2

Gliederung

Theorie

Hintergrund

Lernverfahren

Experimente

Attributskalierung

Wachstumssteuerung

Bewertung

Vergleich mit anderen Verfahren

Einsatz

3

Theorie Hintergrund Lernverfahren

4

Theorie Hintergrund

Bioinformatik

Microarrays

Ähnliches Aussehen = Ähnliche Funktion?

5

Theorie Lernverfahren

n-dimensionale Vektoren mit metrischen Attributen

Knoten bilden Clusterzentren

Knoten mit größter Varianz wird geteilt

6

Theorie Lernverfahren

Inputvektor

Repräsentant

Distanz

Lernrate

Fehler

7

Theorie Lernverfahren

Wurzel

Blatt

Zuordnung

8

Theorie Lernverfahren

Ressource /mittlere Abweichung

Variability /Spannweite

9

Theorie Lernverfahren

10

Theorie Lernverfahren

?

11

Theorie Lernverfahren

Ancestor / Vorfahre

Sister / Schwester

12

Experimente Attributskalierung Fallbeispiel

Experimente Attributskalierung

Parameter in KNIME können das zyklisches Wachsen des Treesbeeinflussen:

Lerningrates

min. variablity und min. ressource nur bei „Use variablity“ berücksichtigt

min. Error

Distance: Euclid. Oder Cosinus

Clustern ohne Zielattribut

Experimente Fallbeispiel

IRIS-Datenset

4 Attribute, metrisch skaliert

Zielattribut mit 3 Klassen

LIVE DEMO

Quantitativer Vergleich zu Klassifikationsalgorithmen

i.d.F. k-Means

Keine signifikanten Unterschiede

Anwendung des SOTA auf Daten mit und ohne Zielattribut

Keine signifikanten Unterschiede

15

Bewertung Vergleich mit anderen Verfahren Einsatz

16

Bewertung Vergleich mit anderen Verfahren

Eigenschaften k-Means

Wenige Iterationen

Einfaches Verfahren

Anfällig für Rauschen / Ausreißer

Ergebnis von initialen Zerlegung abhängig

17

Bewertung Vergleich mit anderen Verfahren

Eigenschaften k-Means

Wenige Iterationen

Einfaches Verfahren

Anfällig für Rauschen / Ausreißer

Ergebnis von initialen Zerlegung abhängig

Annähernd lineares Laufzeitverhalten

Punkt für k-Means

Resistent

Unabhängig

Eigenschaften SOTA

18

Bewertung Vergleich mit anderen Verfahren

Hierarchisches Clustern

Divisiv oder agglomerativ

Knoten sind einfache Darstellung der Teilmengen

Zwischenschritte sind irreversibel

19

Hierarchisches Clustern

Divisiv oder agglomerativ

Knoten sind einfache Darstellung der Teilmengen

Zwischenschritte sind irreversibel

Bewertung Vergleich mit anderen Verfahren

Divisives Verfahren

Knoten sind Mittelwerte sämtlicher folgenden Knoten

Zuordnung wird ständig angepasst

Eigenschaften SOTA

20

Bewertung Vergleich mit anderen Verfahren

Self Organizing Map (Kohonen Map)

Ähnliches Verfahren, aber andere Topologie

SOM: vorgegebenes Netz, wird bestmöglich an den Eingaberaum angepasst

SOTA: wächst dynamisch, um den Eingaberaum bestmöglich darzustellen; Hierarchie vorhanden

21

Bewertung Einsatz

Methodisch vielversprechend

Erfolge nicht reproduzierbar

Mögliche Ursachen

Ungeeignete Daten

Ungeeignete Parameterjustierung

Mangelndes (Aufgaben-)Verständnis

Weitere Untersuchung

Hintergrundwissen Bioinformatik

Microarray-Datensätze wählen

22

Fin

23

Theorie Hintergrund

24

Theorie Hintergrund