Upload
dachs-rathke
View
116
Download
0
Embed Size (px)
Citation preview
Oberseminar DatenbankenCarsten Severin Tobias Sorgatz
Datamining
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
ÜberblickÜberblick 1. Einleitung 2. Eingaben 3. Ausgaben 4. Algorithmen 5. Glaubwürdigkeit 6. Maschinelles
Lernen in der Praxis
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.0. Beispiele1.0. Beispiele
Beispiel 1: Künstliche Befruchtung Eigenschaften definieren, die größte
Überlebenschance garantieren
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.1. Beispiele1.1. Beispiele
Beispiel 2: Vieh wird geschlachtet Gesundheit Lebenserwartung Fruchtbarkeit Gewicht
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.2. Situation1.2. Situation
Immer mehr Daten werden gespeichert Internet Preiswerte Speichermedien Mehr Anwendungen: Bilder, Filme Alle 20 Monate Verdopplung
der Daten
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.3. Lösung: Data Mining1.3. Lösung: Data Mining
Es ist eine Möglichkeit gesucht, dieDatenflut zu analysieren
Daten sollen ausgewertet werden Lösung: Data Mining
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.4.1. Datamining1.4.1. Datamining
Verarbeitung elektronisch gespeicherter Daten
Lernen: Wissen durch Studium aneignen Prozess der autom. oder halbautom.
Mustererkennung Maschinelles Lernen: Lernen
automatisieren
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.4.2. Data Mining1.4.2. Data Mining
Aneignen von Wissen Fähigkeit es zu verwenden Gezielte Suche in Datenbanken Analyse bereits vorhandener Daten Suche nach Mustern Ergebnisse ein weiteres Handeln
einbeziehen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.5. Data Mining und Ethik1.5. Data Mining und Ethik
problematisch sind rassische und sexuelle Informationen
Undurchschaubarkeit von Daten (unvorhersehbare Auswertungen)
Viele Daten werden für neue Analysen zusammengefasst
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
1.6. Bias: Lernverfahren1.6. Bias: Lernverfahren
Zur Bestimmung des Lernverfahrens Sprachbias:
Ist die Beschreibung universal? Wird domänenwissen genutzt
Suchbias: bestmögliche Beschreibung finden
Bias zur Vermeidung der Überanpassung
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2. Eingabe2. Eingabe
Wie werden die Daten zur Analyse eingegeben?
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.1. Eingabe der Daten2.1. Eingabe der Daten
Konzepte Instanzen Attribute
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.1.1. Konzepte2.1.1. Konzepte
Unabhängig von Art des Lernens Beschreibt was gelernt werden soll
Ausgabe des Lernverfahrens: Baum Regelmenge
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.1.2. Instanzen2.1.2. Instanzen
Jede Instanz ist ein eigenes Beispiel Zeile in einer Tabelle
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.1.3.1. Attribute2.1.3.1. Attribute
Attribut ist Spalte einer Tabelle Problem: Instanzen mit unterschiedlichen
Attributen -> Möglichst viele Attribute
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.1.3.2. Attribute2.1.3.2. Attribute
Numerische Attribute Nominale Attribute Ordinale Attribute
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.2. Beispiel2.2. Beispiel
Wie sehen einzulesende Datenmengen aus? Wie sehen Regelmengen aus?
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.2.1. Beispiel: Datensatz2.2.1. Beispiel: Datensatz
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.2.2. Beispiel: Baum2.2.2. Beispiel: Baum
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.2.3. Beispiel: Regelmenge2.2.3. Beispiel: Regelmenge
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.3. Aufbereitung 2.3. Aufbereitung
Aufbereitung der Eingabedaten Integration von verschiedenen Datenquellen Datacleaning Data Warehousing ARFF-Dateien
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.3.1. Data Warehousing2.3.1. Data Warehousing
Zusammenfassung von Datenquellen Unternehmensweite Datenbankintegration Keine Abteilungsgrenzen Aggregation von Daten
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.4. Eingabe: Fehlende Daten2.4. Eingabe: Fehlende Daten
Einträge außerhalb Gültigkeit (-1) Unterscheidung von fehlenden Daten(-1,-2) Wegen verändertes Experiment Wegen Messfehlern Wegen Verweigerung Ist Auftreten zufällig oder wichtig für
Analyse?
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.5. Eingabe: Genauigkeit2.5. Eingabe: Genauigkeit
Daten für andere Zwecke gespeichert Ungenauigkeiten plötzlich von anderer
Bedeutung Schreibfehler (sind Daten gleich?) Bewusste Manipulation
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
2.6. Arten des Lernens2.6. Arten des Lernens
Klassifizierendes Lernen Vorhandene Daten in Klassen fassen
Numerische Vorhersage Numerische statt diskrete Werte
Clustering Gruppieren von Instanzen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3. Ausgabe3. Ausgabe
3.1 Entscheidungstabellen
3.2 Entscheidungsbäume
3.3 Klassifikationsregeln
3.4 Assoziationsregeln
3.5 Regeln mit Ausnahmen
3.6 Bäume für numerische Vorhersage
3.7 Instanzbasierte Darstellung
3.8 Cluster
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.1 Entscheidungstabellen3.1 Entscheidungstabellen
Einfachste, elementarste Methode weniger einfach bei spezieller Auswahl von
Attributen Kompliziert: Auswahl der die Entscheidung
nicht beeinflussenden Attribute
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.2 Entscheidungsbäume3.2 Entscheidungsbäume
Ansatz: Teile und Herrsche Knoten eines Baumes bedingen
Auswertung eines Attributs Blätter stellen Klassifikationen dar
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.3 Klassifikationsregeln3.3 Klassifikationsregeln
Anwendung einer Regel verlangt Auswertung einer Menge von Attributen
Allgemein logische UND Verknüpfung der Bedingungen
Aus Baum: pro Blatt eine Regel, Auswertung jeder Regel eines Knotens auf dem Pfad von Wurzel zu Blatt
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.4 Assoziationsregeln3.4 Assoziationsregeln
Können nicht nur Klassen vorhersagen, sondern auch Attribute
Damit Vorhersage beliebiger Attributkombinationen
if temperatur =kalt then luftfeuchtigkeit = normal
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.5 Regeln mit Ausnahmen3.5 Regeln mit Ausnahmen
Vermeidung falscher Klassifikation durch Zulassen von Ausnahmen
Schaffen einer neuen Entscheidungsebene Bei Fortsetzung erhält man Baumstruktur if stimme = hoch then Frau except if eunuch then Mann
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.6 Bäume für numerische 3.6 Bäume für numerische VorhersagenVorhersagen
Auswertung eines numerischen Attributes
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.7 Instanzbasierte 3.7 Instanzbasierte DarstellungDarstellung
Auswendiglernen durch Merken von Trainingsinstanzen
Neue Instanz wird mit vorhandenen verglichen und der Klasse der ähnlichsten vorhandenen Instanz zugeordnet
BSP: Buchstabenerkennung
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
3.8 Cluster3.8 Cluster
Ausgabe eines Diagramms: Anzeige der in die Cluster eingeordneten Instanzen
Einfachster Fall: Zuweisung einer Clusternummer zu jeder Instanz
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
4. Algorithmen4. Algorithmen
4.1 Ableitung elementarer Regeln
4.2 statistische Modellierung
4.3 Teile und Herrsche
4.4 Abdeckungs- algorithmen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
4.1 Ableitung elementarer 4.1 Ableitung elementarer RegelnRegeln
Baum auf einer Ebene Auswertung einer Regelmenge eines
Attributes für jedes attribut für jeden wert des attributes
zählen, wie oft jede klasse erscheint klasse mit häufigsten auftreten ermitteln regel aufstellen die diesem attributwert klasse zuordenet
fehlerrate der regeln berechnen regelmenge mit kleinsten fehler auswählen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
4.2 Statistische Modellierung4.2 Statistische Modellierung
Nutzung aller Attribute Gewichtung für alle Attribute gleich Attribute werden als unabhängig
voneinander angesehen Rechnen mit Wahrscheinlichkeiten Auswertung von Hypothesen und
zugehörigen Ereignissen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
4.3 Teile und Herrsche4.3 Teile und Herrsche Wahl eines Wurzelattributes Anlegen einer Verzweigung für jeden Wert Zerlegung der Beispielmenge in
Untermengen, eine für jeden Wert des Attr. Rekursive Anwendung für jede Verzweigung,
nur Instanzen die Verzweigung erreichen Alle Instanzen eines Knotens gleiche Klasse:
Konstruktion des Baumabschn. fertig
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
4.4 Abdeckungs-Algorithmen4.4 Abdeckungs-Algorithmen
Betrachtung einzelner Klassen nacheinander
Abdeckung aller Instanzen Auschluss klassenfremder Instanzen Ableitung einer Regel in jedem Schritt die
einige Instanzen abdeckt
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
5. Glaubwürdigkeit5. Glaubwürdigkeit
5.1 Trainieren und Testen 5.2 Leistungsvorhersage 5.3 Kreuzvalidierung 5.3.1 Leave one out 5.4 Vorhersage von Wahrscheinlichkeiten
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
5.1 Trainieren und Testen5.1 Trainieren und Testen
Bei richtiger Klassifikation: Erfolg Andernfalls : Fehler Angabe des Verhältnisses zwischen Erfolg
und Fehler: Gesamtleistung des Klassifizierers
Nicht effektiv, da mit alten Daten gearbeitet wird, Vorhersage schwer möglich
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
5.2 Leistungsvorhersage5.2 Leistungsvorhersage
Fehlerrate (fr) sei bestimmt (5.1) Bestimmung von Erfolgsrate (er): 1-fr Mit Mitteln der
Wahrscheinlichkeitsrechnung Bestimmung der Wahrscheinlichkeit von er.
Bei grossen Testreihen: Normalverteilung
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
5.35.3 KreuzvalidierungKreuzvalidierung
Aufteilung der Datenmenge in Test und Trainingsmenge, feste Partitionen (Bsp3)
Garantiert beste Mischung der Beispiele aller Klassen
Nacheinander Ausführung von: Testen einer Partition, trainieren mit den zwei
Anderen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
5.3.1 Leave-one-out5.3.1 Leave-one-out N-fache Kreuzvalidierung N ist Anzahl der Instanzen in der
Datenmenge Nacheinander:
Weglassen einer Instanz Training mit restlichen Instanzen
Auswertung aller N Ergebnisse durch Mittelwertbildung
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
5.4 Vorhersage von 5.4 Vorhersage von WahrscheinlichkeitenWahrscheinlichkeiten
Bisheriges Ziel: hohe Erfolgsrate für Vorhersage
Nicht mehr wahr oder falsch (Vorhersage hat tatsächlichen Wert der Instanz)
Einführung beliebig vieler Abstufungen Verschiedene Gewichtung von
unterschiedlichen Vorhersageergebnissen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6. Maschinelles Lernen in der 6. Maschinelles Lernen in der PraxisPraxis
Algorithmen sind in Praxis viel komplexer Behandlung realer Probleme Schwerpunkte: numerische Attribute
Fehlerbehandlung Anwendung von Statistiken
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.1 Entscheidunsbäume6.1 Entscheidunsbäume
Erweiterung des Teile-und-herrsche Algo: Behandlung numerischer und fehlender Werte Beschneidung (wegen Überanpassung) Umwandlung der Entscheidungsäume in
Klassifikationsregeln
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.1.1 Numerische Werte6.1.1 Numerische Werte
Anpassung an nominale (boolsche) Struktur Beispiel: Temperaturabfrage
noyesyesnonoyesnoyesyesyesnoyes
858381807572717069686564
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.1.2 Fehlende Werte6.1.2 Fehlende Werte
Zerlegung der Instanz, unter Verwendung numerischer Gewichtung, und Bearbeitung mit allen Verzweigungen des Baumes
Bei Erreichen eines Blattknotens: Zusammenfügen der Entscheidungen des Blattknotens unter Verwendung der Gewichtung, die mit “durchgesickert” ist
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.1.3 Pruning6.1.3 Pruning
6.1.3.1 Postpruning:Nachträgliches Beschneiden des fertigen
Baumes („usammengehörige Attribute“
6.1.3.2 Prepruning Beschneidung während der Baumbildung (Arbeitseinsparung)
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.1.4 Von Bäumen zu Regeln6.1.4 Von Bäumen zu Regeln
Pro Blatt eine Regel Alle Auswertungen von Wurzel zum Blatt
werden UND-verknüpft Löschen von Bedingungen, die keinen, oder
schlechten, Einfluß auf Regel haben Entfernen von Regelduplikaten
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.2 Clustering6.2 Clustering
Ziel: Einteilung der Instanzen in natürliche Gruppen
Arten von Clustern: Ausschliessende Überlappende Wahrscheinlichkeitsverteilte Hierarchisch (Vererbungsebenen)
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.2.1 k-Mittelwert Clustering6.2.1 k-Mittelwert Clustering
Bildung von k Clustern in numerischen Domänen, durch Aufteilung der Instanzen in disjunkte (elementefremd) Cluster
Wahl von Zentren und Zuweisung der Instanzen zum nächstliegenden Zentrum
Mittelwertbildung aller Instanzen-neues Zentrum Wiederholung bis keine neuen Zentren entstehen
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.2.2 inkrementelles 6.2.2 inkrementelles ClusteringClustering
Hierarchische Gruppierung der Instanzen aufgrund eines „Quallitätsmasses
“(auch Kategorienützlichkeit) für Cluster Inkrementell (feinere Aufteilung Instanz für
Instanz)
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
6.2.3 Statistisches Clustering6.2.3 Statistisches Clustering
Mischmodell aus verschiedenen Wahrscheinlichkeitsverteilungen
Eine Verteilung pro Cluster Jede Verteilung gibt Wahrscheinlichkeit für
Clusterzugehörigkeit einer Instanz an (jede Instanz genau zu einem Cluster)
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
Vielen Dank für die Vielen Dank für die AufmerksamkeitAufmerksamkeit
Wir wünschen ein allseits schönes Wochenende.
Noch Fragen? (rhetorische Frage)
Oberseminar Datenbanken: Datamining, Severin, Sorgatz
QuellenQuellen
Titel: Data Mining Praktische Werkzeuge und Techniken
für das maschinelles Lernen
Autoren: Ian H. Witten, Eibe Frank