View
218
Download
3
Category
Preview:
Citation preview
Data-Mining: Ausgewählte Verfahren und Werkzeuge
Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl Technische Informationssysteme
Vortragender: Jia MuBetreuer: Dipl.-Inf. Denis SteinDresden, den 15.01.2009
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 2 von 29
Gliederung
1. Einordnung der Data-Mining-Verfahren
2. Data-Mining-Verfahren
3. Data-Mining-Werkzeuge
4. Zusammenfassung
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 3 von 29
Gliederung
1. Einordnung der Data-Mining-Verfahren1.1 Verschiedene Einordnungen in der Literatur1.2 Meine Klassifikation
1.2.1 Statistische Verfahren1.2.2 Maschinelles Lernen
2. Data-Mining-Verfahren
3. Data-Mining-Werkzeuge
4. Zusammenfassung
1. Einordnung der Data-Mining-Verfahren 1.1 Verschiedene Einordnungen in der Literatur
a. Nach Otte, Otte und Kaiser „DataMining für die industrielle Praxis“:
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 4 von 29
b. Nach Krahl, Windheuser und Zick „Data Mining Einsatz in der Praxis“:
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 5 von 29
1. Einordnung der Data-Mining-Verfahren
1.2 Meine Klassifikation:
Regression Korrelationsanal. Entscheidungsbäume AssoziationDiskriminanzanal. Faktoranalyse k-means Clustering k-nächste-Nachbarn Varianzanalyse Clusteranalyse usw. usw.Kontingenzanalyse
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 6 von 29
Data-Mining
Statistische Verfahren
maschinelles Lernen
Prüfende Verfahren
EntdeckendeVerfahren
Unüberwachtes Lernen
Überwachtes Lernen
1. Einordnung der Data-Mining-Verfahren
1.2.1 Statistische Verfahren:a. Prüfende Analyseverfahren:
-Um die genaue Regel herauszufinden-Verfahren für verschiedene Wertebereiche der unabhängigen Variablen:
Regressionsanalyse und Diskriminanzanalyse: metrisch (Zahlen, Vergleiche)Varianzanalyse und Kontingenzanalyse : nominal (Aufzählungen)
- hier betrachtet: lineare Regressionsanalyse
b. Entdeckende Analyseverfahren:-Abhängigkeit testen (Korrelationsanalyse)-Reduzierung von Variablen (Faktoranalyse)-Gruppierung (Clusteranalyse)-hier betrachtet: lineare Korrelationsanalyse
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 7 von 29
1. Einordnung der Data-Mining-Verfahren
1.2.2 Maschinelles Lernena. Überwachtes Lernen
z.B.: Klassifikation-basiert auf einem Klassifikator
Ein Klassifikator ist ein System, welches Objekte in vorgegebene Kategorie eingeordnet. (Quelle: Krahl, Windheuser und Zick „Data Mining Einsatz in der Praxis“)
-Verfahren: neuronale Netze, Entscheidungsbäume, Regelinduktion,k nächste Nachbarn usw.
-hier betrachtet: k nächste Nachbarn
b. Unüberwachtes Lernen-Entdeckung interessanter Strukturen in einem noch unstrukturierten Datenbestand-Verfahren: Assoziationen, neuronale Netze, demographisches Clustern,
k-means-Clustering usw.-hier betrachtet: k-means-Clustering
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 8 von 29
1. Einordnung der Data-Mining-Verfahren
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 9 von 29
1. Einordnung der Data-Mining-Verfahren
2. Data-Mining-Verfahren2.1 Korrelationsanalyse2.2 Regressionsanalyse2.3 k nächste Nachbarn2.4 k-means-Clustering2.5 Vergleich
3. Data-Mining-Werkzeuge
4. Zusammenfassung
Gliederung
2. Data-Mining-Verfahren2.1 Lineare Korrelationsanalyse:
a. Ziel: Untersuchung der Zusammenhänge zwischen Zufallsvariablen anhand einer Stichprobe.
b. Korrelationskoeffizient r und Bestimmtheitsmaß r2
- r und r2 sind Parameter zum Test der linearen Abhängigkeit.- Für den Korrelationskoeffizient r der Merkmale (Zufallsvariablen) x und y gilt:
Wertebreich:
Ein Beispiel werde ich nach der Vorstellung der linearen Regressionsanalyse angeben.
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 10 von 29
2. Data-Mining-Verfahren2.2 Lineare Regressionsanalyse:a. Ziel: Bestimmung eines Modells für die Abhängigkeit zwischen
Zufallsvariablen x und y.
b. Parameter:y = a + b * x a, b : zu berechnende Parameter
x, y : Zufallsvariablen
c. Berechnung der Parameter a und b:
1.Testen mit der lin. Korrelationsanalyse, ob x und y linear abhängig sind.
2.Berechnung der Parameter a und b :
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 11 von 29
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 12 von 29
Beispiel für lin. Korrelationsanalyse und lin. Regressionsanalyse:
Aufgabe:
x y
1 2
2 3.5
3 6.5
4 8.5
5 10
2. Data-Mining-Verfahren
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 13 von 29
2. Data-Mining-Verfahren
2. Data-Mining-Verfahren2.3 k nächste Nachbarn:
a.Ziel : Klassifizieren von Daten mit Hilfe eines Modells
b. Idee : Zuordnung analog der k nächsten Nachbarn.
Quelle: Krahl, Windheuser und Zick “Data Mining: Einsatz in der Praxis“
c.Schritte: 1. Bestimmung des Parameters k (Anzahl der zu betrachtenden Nachbarn)2. Berechnung der Distanz zwi. zu klassifizierendem Objekt und allen Daten.3. Sortieren dieser Distanzen.4. Auswahl der ersten k Daten
Finden der Gruppe,zu der die meisten Daten gehören.5. Das zu klassifizierende Objekt gehört zu dieser Gruppe.
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 14 von 29
d. Beispiel: (Quelle: Kardi Teknomo „KNN Numerical Example“)
-Aufgabe:Eine Fabrik produziert Papier. Mittels einer Umfrage hat sie eine Gruppierung der derzeitigen Produkte gemacht. Jetzt produziert sie ein neues Papier und möchte dieses Produkt klassifizieren.
-Input:Daten (Gruppierung der alten Produkten):
Zu klassifizierendes Objekt (neues Produkt) :X1 = 3, X2 = 7 (3,7)
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 15 von 29
2. Data-Mining-Verfahren
-Klassifizierung mit KNN:1.wähle k = 32.Berechnung der Distanz zwi. zu klassifizierendes Objekt und die Daten
3. Sortieren dieser Distanzen und finden 3 nähesten Daten
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 16 von 29
2. Data-Mining-Verfahren
2. Data-Mining-Verfahren4. Finden der Gruppe, zu der die meisten 3 nähesten Daten gehören.
Das zu klassifizierendes Objekt hat 2 Nachbarn, die zu Good Gruppe gehören, und 1 Nachbar, der zu Bad Gruppe gehört. Deswegen gehört das zu klassifizierende Objekt zu der Gruppe Good.
- Output:X1=3 , X2=7 , Y=Good (3,7,Good)
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 17 von 29
2.4 k-means-Clustering:a. Ziel : Klassifizierung der Daten ohne vorhandenes Modell
b. Idee : Vergleich des Datenbestandes mit ausgewählten Repräsentanten
c. Schritte:1.Auswahl von k Repräsentanten.
Diese Repräsentanten sollten möglichst repräsentativ sein.
2.Zuordnung der Objekten.Ordnen Objekte mit großer Ähnlichkeit den Repräsentanten zu.
Iter.
3.Anpassung der RepräsentantenVergleich der Repräsentanten und Objekte, dann ggf. Auswahl besserer Repräsentanten.
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 18 von 29
2. Data-Mining-Verfahren
2. Data-Mining-Verfahrend.Beispiel:
Quelle: Krahl, Windheuser und Zick „Data Mining: Einsatz in der Praxis“
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 19 von 29
2.5 Vergleich:a. lin. Regression und lin. Korrelation:
-Häufig benutzt in vielen Bereichen (z.B.: Signalverarbeitung)-Beschränkungen ist auch deutlich (z.B.: die Kurve)-Es gibt noch Multiple Regression.
b. k nächste Nachbarn:-Einfach zu implementieren-Aber man muss ein schon klassifiziertes Modell haben.-Bestimmung von k nach Erfahrungen.
c. k-means-Clustering:-Das am längsten eingesetzte Verfahren zur Segmentierung.(Quelle: Krahl, Windheuser und Zick „Data Mining: Einsatz in der Praxis“)
-Viele Abwandlungen und Variationen-Problem: die Bestimmung von k ist schwer.-Um optimale k zu bekommen mehrere Durchläufe
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 20 von 29
2. Data-Mining-Verfahren
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 21 von 29
1. Einordnung der Data-Mining-Verfahren
2. Data-Mining-Verfahren
3. Data-Mining-Werkzeuge3.1 Allgemein3.2 RapidMiner3.3 Knime3.4 Gait-CAD3.5 Vergleich
4. Zusammenfassung
Gliederung
3.Data-Mining-Werkzeuge3.1 Allgemein:
-Auswahl kommerzieller Data-Mining-Werkzeuge (teilweise nicht weiterentwickelt):
Data Cockpit (DeltaMaster)Knowledge StudioNeuroModelEnterprise 6D-MinerIBM Intelligent MinerPolyanalyst von MetaputerDataEngine von MITSAS Enterprise MinerSPSS Clementine
-Auswahl hier betrachteter freier Data-Mining-Werkzeuge:Rapidminer (1. Platz bei KDNuggets)Knime (4. Platz bei KDNuggets)Gait-CAD
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 22 von 29
3.Data-Mining-Werkzeuge3.2 RapidMiner:
-Ein Data-Mining-Tool von RAPID-I in Dortmund (vorher YALE genannt, Uni Dortmund)
-Java-Applikation (plattformunabhängig), weka-kompatibelweka : Waikato Environment for Knowledge Analysis
-Community-Version ist kostenlos
-ca. 150 unterstützte Verfahren: Entscheidungsbäume und RegellernerLazy LearnersBayes'sche LernerLogistische LernerGauss'sche Prozesse Meta LearningAssociation Rule MiningClusteringund mehr
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 23 von 29
3.Data-Mining-Werkzeuge3.3 KNIME:
-Ein Data-Mining-Tool von der Universität Konstanz
-Eine Eclipse-RCP-Anwendung, weka-kompatibelweka : Waikato Environment for Knowledge Analysis
-Base Version ist kostenlos
-ca. 100 bis 150 unterstützte Verfahren für data I/O, preprocessing, cleansing, modelling, analysis und data mining ,various interactive views usw.
- API, d.h.: Man kann eigene Programm darauf schreiben.
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 24 von 29
3.Data-Mining-Werkzeuge3.4 Gait-CAD:
-Ein Data-Mining-Tool vom Forschungszentrum Karlsruhe
-Eine MATLAB-TOOLBOX
-Kostenlos, open source
-ca. 50 Algorithmen zur Lösung von Data-Mining-Problemen:Datentupelselektion, Merkmalsextraktion, Merkmalsbewertung und –selektion, Merkmalstransformation, überwachte bzw. unüberwachte Klassifikation, Validierung
-Update sehr langsam (letztes Update im Januar 2008)
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 25 von 29
3.Data-Mining-Werkzeuge3.5 Vergleich:-RapidMiner:
Die beste Graphendarstellungsfähigkeit.Vorgehensweise ist nicht bequem.Dokumentation für DM-Algorithmen ist nicht gut.Erweiterbarkeit ist gut. (API)
-KNIME:Graphendarstellung ist nicht so gut, aber geht.Vorgehensweise ist sehr bequem.Gut dokumentiert.Erweiterbarkeit ist gut. (API)
-Gait-CAD:Graphendarstellung ist schlecht.Vorgehensweise ist nicht bequem.weil auf MATLAB basiert, z.B.: für Elektrotechniker sehr gut.
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 26 von 29
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 27 von 29
1. Einordnung der Data-Mining-Verfahren
2. Data-Mining-Verfahren
3. Data-Mining-Werkzeuge
4. Zusammenfassung
Gliederung
4.Zusammenfassung
- Data-Mining-Klassifikation vorgestellt, um eine Übersicht über alle Data-Mining-Verfahren zu geben.
- 4 Verfahren aus verschiedenen Data-Mining-Verfahren beispielhaft erklärt.lin. Regression und Korrelation, k nächste Nachbarn und k-means-Clustering.
- 3 Werkzeuge kurz gezeigt, um praktische Übersicht zu geben.
- 3 Werkzeuge verglichen.
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 28 von 29
Literaturverzeichnis
[1] Otte, Otte, Kaiser, “Data Mining für die industrielle Praxis“,ISBN 3-446-22465-3
[2] Krahl, Windheuser, Zick, “Data Mining Einsatz in der Praxis“,ISBN 3-8273-1349-X
[3] Teknomo, “KNN Numerical Example (hand computation) “,http://people.revoledu.com/kardi/tutorial/KNN/KNN_Numerical-example.htmlStand: 13.01.2009
[4] Wikipedia, “Regressionsanalyse“, http://de.wikipedia.org/wiki/RegressionsanalyseStand: 13.01.2009
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 29 von 29
FRAGEN?
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 30 von 29
DANKESCHÖN!
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 31 von 29
Berechnung eines Korrelationskoeffizientenr = 0 : kein Zusammenhang
-1<- r ->1 : stärkere lineare Abhängigkeit
- Häufig wird Bestimmtheitsmaß r2 statt r benutzt.r2 = r * rr2 = 0 : kein Zusammenhang r2 -> 1 : stark linear abhängig
- Berechnung von r
x,y : Zufallsvariablen : Anzahl der Stichprobenr : Korrelationskoeffizient
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 32 von 29
Berechnung der lin. Regressionsparameter
y = a + bx a,b : zu berechnende Parameterx,y : Zufallsvariablen
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 33 von 29
Beispiel für Lin. Korrelation und Regressionc. Beispiel für lin. Korrelationsanalyse und lin. Regressionsanalyse:
1. Korrelationsanalyse: 2. Regressionsanalyse:
3. Ergebnis:y = -0,2 + 2,1x
mitr = 0,99327 oder r2 = 0,9866
r2 = 0,9866
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 34 von 29
Kurze Erklärung zu Entscheidungsbäumen- Ist eine spezielle Darstellungsform von Entscheidungsregeln
- Knoten : Abfrage der Attribute, Treffen der EntscheidungBlatt : Ein Knoten, an dem es keine weitere Verzweigung gibt.
- Schritt : 1. An jedem Knoten wird ein Attribut abgefragt 2. Entscheidung3. Wiederholung dieses Prozess bis dem Erreichen eines Blatt
- Beispiel: <35 >35
<40000 >40000 <50000 >50000
TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge
Folie 35 von 29
Alter
Gehalt Gehalt
Bezahlung schlecht
Bezahlung schlecht
Bezahlung gut
Bezahlung gut
Recommended