Data-Mining: Ausgewählte Verfahren und Werkzeuge

Fakultät Informatik – Institut für Angewandte Informatik – Lehrstuhl Technische Informationssysteme

Vortragender: Jia MuBetreuer: Dipl.-Inf. Denis SteinDresden, den 15.01.2009

TU Dresden, 15.01.2009 Data-Mining: Ausgewählte Verfahren und Werkzeuge

Folie 2 von 29

Gliederung

1. Einordnung der Data-Mining-Verfahren

2. Data-Mining-Verfahren

3. Data-Mining-Werkzeuge

4. Zusammenfassung

Folie 3 von 29

Gliederung

1. Einordnung der Data-Mining-Verfahren1.1 Verschiedene Einordnungen in der Literatur1.2 Meine Klassifikation

1.2.1 Statistische Verfahren1.2.2 Maschinelles Lernen

4. Zusammenfassung

1. Einordnung der Data-Mining-Verfahren 1.1 Verschiedene Einordnungen in der Literatur

a. Nach Otte, Otte und Kaiser „DataMining für die industrielle Praxis“:

Folie 4 von 29

b. Nach Krahl, Windheuser und Zick „Data Mining Einsatz in der Praxis“:

Folie 5 von 29

1.2 Meine Klassifikation:

Regression Korrelationsanal. Entscheidungsbäume AssoziationDiskriminanzanal. Faktoranalyse k-means Clustering k-nächste-Nachbarn Varianzanalyse Clusteranalyse usw. usw.Kontingenzanalyse

Folie 6 von 29

Data-Mining

Statistische Verfahren

maschinelles Lernen

Prüfende Verfahren

EntdeckendeVerfahren

Unüberwachtes Lernen

Überwachtes Lernen

1.2.1 Statistische Verfahren:a. Prüfende Analyseverfahren:

-Um die genaue Regel herauszufinden-Verfahren für verschiedene Wertebereiche der unabhängigen Variablen:

Regressionsanalyse und Diskriminanzanalyse: metrisch (Zahlen, Vergleiche)Varianzanalyse und Kontingenzanalyse : nominal (Aufzählungen)

- hier betrachtet: lineare Regressionsanalyse

b. Entdeckende Analyseverfahren:-Abhängigkeit testen (Korrelationsanalyse)-Reduzierung von Variablen (Faktoranalyse)-Gruppierung (Clusteranalyse)-hier betrachtet: lineare Korrelationsanalyse

Folie 7 von 29

1.2.2 Maschinelles Lernena. Überwachtes Lernen

z.B.: Klassifikation-basiert auf einem Klassifikator

Ein Klassifikator ist ein System, welches Objekte in vorgegebene Kategorie eingeordnet. (Quelle: Krahl, Windheuser und Zick „Data Mining Einsatz in der Praxis“)

-Verfahren: neuronale Netze, Entscheidungsbäume, Regelinduktion,k nächste Nachbarn usw.

-hier betrachtet: k nächste Nachbarn

b. Unüberwachtes Lernen-Entdeckung interessanter Strukturen in einem noch unstrukturierten Datenbestand-Verfahren: Assoziationen, neuronale Netze, demographisches Clustern,

k-means-Clustering usw.-hier betrachtet: k-means-Clustering

Folie 8 von 29

Folie 9 von 29

2. Data-Mining-Verfahren2.1 Korrelationsanalyse2.2 Regressionsanalyse2.3 k nächste Nachbarn2.4 k-means-Clustering2.5 Vergleich

4. Zusammenfassung

Gliederung

2. Data-Mining-Verfahren2.1 Lineare Korrelationsanalyse:

a. Ziel: Untersuchung der Zusammenhänge zwischen Zufallsvariablen anhand einer Stichprobe.

b. Korrelationskoeffizient r und Bestimmtheitsmaß r2

- r und r2 sind Parameter zum Test der linearen Abhängigkeit.- Für den Korrelationskoeffizient r der Merkmale (Zufallsvariablen) x und y gilt:

Wertebreich:

Ein Beispiel werde ich nach der Vorstellung der linearen Regressionsanalyse angeben.

Folie 10 von 29

2. Data-Mining-Verfahren2.2 Lineare Regressionsanalyse:a. Ziel: Bestimmung eines Modells für die Abhängigkeit zwischen

Zufallsvariablen x und y.

b. Parameter:y = a + b * x a, b : zu berechnende Parameter

x, y : Zufallsvariablen

c. Berechnung der Parameter a und b:

1.Testen mit der lin. Korrelationsanalyse, ob x und y linear abhängig sind.

2.Berechnung der Parameter a und b :

Folie 11 von 29

Folie 12 von 29

Beispiel für lin. Korrelationsanalyse und lin. Regressionsanalyse:

Aufgabe:

Folie 13 von 29

2. Data-Mining-Verfahren2.3 k nächste Nachbarn:

a.Ziel : Klassifizieren von Daten mit Hilfe eines Modells

b. Idee : Zuordnung analog der k nächsten Nachbarn.

Quelle: Krahl, Windheuser und Zick “Data Mining: Einsatz in der Praxis“

c.Schritte: 1. Bestimmung des Parameters k (Anzahl der zu betrachtenden Nachbarn)2. Berechnung der Distanz zwi. zu klassifizierendem Objekt und allen Daten.3. Sortieren dieser Distanzen.4. Auswahl der ersten k Daten

Finden der Gruppe,zu der die meisten Daten gehören.5. Das zu klassifizierende Objekt gehört zu dieser Gruppe.

Folie 14 von 29

d. Beispiel: (Quelle: Kardi Teknomo „KNN Numerical Example“)

-Aufgabe:Eine Fabrik produziert Papier. Mittels einer Umfrage hat sie eine Gruppierung der derzeitigen Produkte gemacht. Jetzt produziert sie ein neues Papier und möchte dieses Produkt klassifizieren.

-Input:Daten (Gruppierung der alten Produkten):

Zu klassifizierendes Objekt (neues Produkt) :X1 = 3, X2 = 7 (3,7)

Folie 15 von 29

-Klassifizierung mit KNN:1.wähle k = 32.Berechnung der Distanz zwi. zu klassifizierendes Objekt und die Daten

3. Sortieren dieser Distanzen und finden 3 nähesten Daten

Folie 16 von 29

2. Data-Mining-Verfahren4. Finden der Gruppe, zu der die meisten 3 nähesten Daten gehören.

Das zu klassifizierendes Objekt hat 2 Nachbarn, die zu Good Gruppe gehören, und 1 Nachbar, der zu Bad Gruppe gehört. Deswegen gehört das zu klassifizierende Objekt zu der Gruppe Good.

- Output:X1=3 , X2=7 , Y=Good (3,7,Good)

Folie 17 von 29

2.4 k-means-Clustering:a. Ziel : Klassifizierung der Daten ohne vorhandenes Modell

b. Idee : Vergleich des Datenbestandes mit ausgewählten Repräsentanten

c. Schritte:1.Auswahl von k Repräsentanten.

Diese Repräsentanten sollten möglichst repräsentativ sein.

2.Zuordnung der Objekten.Ordnen Objekte mit großer Ähnlichkeit den Repräsentanten zu.

3.Anpassung der RepräsentantenVergleich der Repräsentanten und Objekte, dann ggf. Auswahl besserer Repräsentanten.

Folie 18 von 29

2. Data-Mining-Verfahrend.Beispiel:

Quelle: Krahl, Windheuser und Zick „Data Mining: Einsatz in der Praxis“

Folie 19 von 29

2.5 Vergleich:a. lin. Regression und lin. Korrelation:

-Häufig benutzt in vielen Bereichen (z.B.: Signalverarbeitung)-Beschränkungen ist auch deutlich (z.B.: die Kurve)-Es gibt noch Multiple Regression.

b. k nächste Nachbarn:-Einfach zu implementieren-Aber man muss ein schon klassifiziertes Modell haben.-Bestimmung von k nach Erfahrungen.

c. k-means-Clustering:-Das am längsten eingesetzte Verfahren zur Segmentierung.(Quelle: Krahl, Windheuser und Zick „Data Mining: Einsatz in der Praxis“)

-Viele Abwandlungen und Variationen-Problem: die Bestimmung von k ist schwer.-Um optimale k zu bekommen mehrere Durchläufe

Folie 20 von 29

Folie 21 von 29

3. Data-Mining-Werkzeuge3.1 Allgemein3.2 RapidMiner3.3 Knime3.4 Gait-CAD3.5 Vergleich

4. Zusammenfassung

Gliederung

3.Data-Mining-Werkzeuge3.1 Allgemein:

-Auswahl kommerzieller Data-Mining-Werkzeuge (teilweise nicht weiterentwickelt):

Data Cockpit (DeltaMaster)Knowledge StudioNeuroModelEnterprise 6D-MinerIBM Intelligent MinerPolyanalyst von MetaputerDataEngine von MITSAS Enterprise MinerSPSS Clementine

-Auswahl hier betrachteter freier Data-Mining-Werkzeuge:Rapidminer (1. Platz bei KDNuggets)Knime (4. Platz bei KDNuggets)Gait-CAD

Folie 22 von 29

3.Data-Mining-Werkzeuge3.2 RapidMiner:

-Ein Data-Mining-Tool von RAPID-I in Dortmund (vorher YALE genannt, Uni Dortmund)

-Java-Applikation (plattformunabhängig), weka-kompatibelweka : Waikato Environment for Knowledge Analysis

-Community-Version ist kostenlos

-ca. 150 unterstützte Verfahren: Entscheidungsbäume und RegellernerLazy LearnersBayes'sche LernerLogistische LernerGauss'sche Prozesse Meta LearningAssociation Rule MiningClusteringund mehr

Folie 23 von 29

3.Data-Mining-Werkzeuge3.3 KNIME:

-Ein Data-Mining-Tool von der Universität Konstanz

-Eine Eclipse-RCP-Anwendung, weka-kompatibelweka : Waikato Environment for Knowledge Analysis

-Base Version ist kostenlos

-ca. 100 bis 150 unterstützte Verfahren für data I/O, preprocessing, cleansing, modelling, analysis und data mining ,various interactive views usw.

- API, d.h.: Man kann eigene Programm darauf schreiben.

Folie 24 von 29

3.Data-Mining-Werkzeuge3.4 Gait-CAD:

-Ein Data-Mining-Tool vom Forschungszentrum Karlsruhe

-Eine MATLAB-TOOLBOX

-Kostenlos, open source

-ca. 50 Algorithmen zur Lösung von Data-Mining-Problemen:Datentupelselektion, Merkmalsextraktion, Merkmalsbewertung und –selektion, Merkmalstransformation, überwachte bzw. unüberwachte Klassifikation, Validierung

-Update sehr langsam (letztes Update im Januar 2008)

Folie 25 von 29

3.Data-Mining-Werkzeuge3.5 Vergleich:-RapidMiner:

Die beste Graphendarstellungsfähigkeit.Vorgehensweise ist nicht bequem.Dokumentation für DM-Algorithmen ist nicht gut.Erweiterbarkeit ist gut. (API)

-KNIME:Graphendarstellung ist nicht so gut, aber geht.Vorgehensweise ist sehr bequem.Gut dokumentiert.Erweiterbarkeit ist gut. (API)

-Gait-CAD:Graphendarstellung ist schlecht.Vorgehensweise ist nicht bequem.weil auf MATLAB basiert, z.B.: für Elektrotechniker sehr gut.

Folie 26 von 29

Folie 27 von 29

4. Zusammenfassung

Gliederung

4.Zusammenfassung

- Data-Mining-Klassifikation vorgestellt, um eine Übersicht über alle Data-Mining-Verfahren zu geben.

- 4 Verfahren aus verschiedenen Data-Mining-Verfahren beispielhaft erklärt.lin. Regression und Korrelation, k nächste Nachbarn und k-means-Clustering.

- 3 Werkzeuge kurz gezeigt, um praktische Übersicht zu geben.

- 3 Werkzeuge verglichen.

Folie 28 von 29

Literaturverzeichnis

[1] Otte, Otte, Kaiser, “Data Mining für die industrielle Praxis“,ISBN 3-446-22465-3

[2] Krahl, Windheuser, Zick, “Data Mining Einsatz in der Praxis“,ISBN 3-8273-1349-X

[3] Teknomo, “KNN Numerical Example (hand computation) “,http://people.revoledu.com/kardi/tutorial/KNN/KNN_Numerical-example.htmlStand: 13.01.2009

[4] Wikipedia, “Regressionsanalyse“, http://de.wikipedia.org/wiki/RegressionsanalyseStand: 13.01.2009

Folie 29 von 29

FRAGEN?

Folie 30 von 29

DANKESCHÖN!

Folie 31 von 29

Berechnung eines Korrelationskoeffizientenr = 0 : kein Zusammenhang

-1<- r ->1 : stärkere lineare Abhängigkeit

- Häufig wird Bestimmtheitsmaß r2 statt r benutzt.r2 = r * rr2 = 0 : kein Zusammenhang r2 -> 1 : stark linear abhängig

- Berechnung von r

x,y : Zufallsvariablen : Anzahl der Stichprobenr : Korrelationskoeffizient

Folie 32 von 29

Berechnung der lin. Regressionsparameter

y = a + bx a,b : zu berechnende Parameterx,y : Zufallsvariablen

Folie 33 von 29

Beispiel für Lin. Korrelation und Regressionc. Beispiel für lin. Korrelationsanalyse und lin. Regressionsanalyse:

1. Korrelationsanalyse: 2. Regressionsanalyse:

3. Ergebnis:y = -0,2 + 2,1x

mitr = 0,99327 oder r2 = 0,9866

r2 = 0,9866

Folie 34 von 29

Kurze Erklärung zu Entscheidungsbäumen- Ist eine spezielle Darstellungsform von Entscheidungsregeln

- Knoten : Abfrage der Attribute, Treffen der EntscheidungBlatt : Ein Knoten, an dem es keine weitere Verzweigung gibt.

- Schritt : 1. An jedem Knoten wird ein Attribut abgefragt 2. Entscheidung3. Wiederholung dieses Prozess bis dem Erreichen eines Blatt

- Beispiel: <35 >35

<40000 >40000 <50000 >50000

Folie 35 von 29

Gehalt Gehalt

Bezahlung schlecht

Bezahlung gut

Data-Mining: Ausgewählte Verfahren und Werkzeuge · PDF fileData-Mining: Ausgewählte...

Documents

KOMPLEXE STATISTISCHE VERFAHREN - … · Wofür braucht man komplexe statistische Verfahren? (= multivariate Verfahren)

Klausur des Klagsverbands 23. September 2013 Ausgewählte Verfahren Andrea Ludwig

Werkzeuge 06 2013

Seminar1 Werkzeuge und Verfahren zur Optimierung von ...publications.eas.iis.fraunhofer.de/papers/1999/040/slides.pdf1 Fraunhofer Institut Integrierte Schaltungen IIS 8. GMM-Workshop

Verfahren und Werkzeuge zur Gestaltung der Zusammenarbeit

BG/BGIA-Report Arbeitsschutzlösungen für ausgewählte Stoffe … · 2019-12-10 · Arbeitsschutzlösungen für ausgewählte Stoffe und Verfahren Kurzfassung Mit dem Entfallen zahlreicher

Hydraulik-Werkzeuge - cwalter.de · III - 02 Hydraulik-Werkzeuge Hydraulic tools Hydraulische Werkzeuge Einsatzgebiete: Kraftwerke Chemische Industrie Bergbau / Ölindustrie Maschinenbau

WERKZEUGE - Steinbacher Energie

Verbindungstechnik - hettich.com · einzelner Werkzeuge in der CNC-Fertigung bis hin zur vollautoma-tischen Fertigungsstraße und fer-tigen Konzepten für den Durchlauf kann das Verfahren

Reinraumtechnik rundlagen...Maschinen Werkzeuge Personal Ausgangsstoffe Reinraum Verfahren Kleidung Schleusen Transfersysteme Reinraumanlagen RR-Reinigung Verbrauchsmat. Seite 12 11.03.2013/Sc

Atlas Copco Werkzeuge - Druckluft EVERS€¦ · Atlas Copco Werkzeuge Ausgewählte Top-Modelle der PRO- und Saltus-Serie zu Top-Konditionen Gültig vom 1. April bis zum 31. Juli Wir

Wälzlager-Montage und Demontage - Schaeffler Group · Wälzlager-Montage und Demontage Werkzeuge · Geräte · Verfahren Rillenkugellager Kegel-rollenlager Schrägkugellager Spindellager

Verdrahtungstechnik - PK Elektronik · 3 Inhalt Seite Wire-Wrap Verdrahtungstechnik 4-10 Wire-Wrap Werkzeuge 11-19 Elektro-Werkzeuge 11-13 Batterie-Werkzeuge 14 Druckluft-Werkzeuge

Ausgewählte funktionale Themen

26.02.2020 VS Net, Kleinmachnow Schädlingsprävention im ... · Bioakustik Fallen physikalische Verfahren chemische Verfahren biologische Verfahren biotechnische Verfahren im ökologischen

Die Kunst präziser Oberflächen - galvanoform.de · Nickel werkzeuge oder Nickel -Kupfer-Werkzeuge für Kunststoffformteile. Dabei haben wir Dabei haben wir sowohl die Verfahren

Ausgewählte Werkzeuge speziell für FANUC Robodrill Maschinen

Berufe Und Werkzeuge

Wendeschneidplatten-Werkzeuge - Meusburger

Abrasax_ Ausgewählte Papyri