4. Klassifikation · 4 Anwendungen von Klassifikationsverfahren § Klassifikation von...

4. Klassifikation

Inhalt§ 4.1 Motivation

§ 4.2 Evaluation

§ 4.3 Logistische Regression

§ 4.4 k-Nächste Nachbarn

§ 4.5 Naïve Bayes

§ 4.6 Entscheidungsbäume

§ 4.7 Support Vector Machines

§ 4.8 Neuronale Netze

§ 4.9 Ensemble-Methoden

Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation

4.1 Motivation§ Regressionsverfahren erklären metrisches Merkmal

anhand unabhängiger metrischer Merkmale

§ Beispiel: Sage Verbrauch (in l/100km) anhand Gewicht, PS, Hubraum, Zylinder, Beschleunigung und Jahr voraus

§ Klassifikationsverfahren erklären nominales Merkmalanhand unabhängiger metrischer Merkmale

§ Beispiel: Sage Herkunft (Europa, Japan, U.S.A.) anhandVerbrauch, Gewicht, Hubraum, Zylinder und Jahr voraus

Anwendungen von Klassifikationsverfahren§ Klassifikation von Zeitungsartikeln oder Blogposts

in Politik, Sport, Kultur, Reise und Auto

§ Klassifikation von E-Mailsin Spam und Nicht-Spam

§ Segmentierung von Kundenin Schnäppchenjäger, Normalos und Luxusliebhaber

§ Produktempfehlungen für bestimmten Kunden durch Klassifikation in Interessant und Nicht-Interessant

§ Handschrifterkennung auf Überweisungsträgern durch Klassifikation der gescannten Zeichen in Klassen 0-9

Überwachtes vs. unüberwachtes Lernen§ Verfahren des maschinellen Lernens lassen sich in

verschiedene Kategorien einteilen; zwei wichtige sind

§ überwachtes Lernen (supervised learning) mit Klassifikationsverfahren als typischem Beispiel nutzt Trainingsdaten (z.B. klassifizierte Datenpunkte) aus

§ unüberwachtes Lernen (unsupervised learning) mitClusteringverfahren als typischem Beispiel erkenntZusammenhänge in den gegebenen Daten

Überwachtes vs. unüberwachtes Lernen§ Beispiel: Betrachten wir Zeitungsartikel als Anwendung

§ Klassifikationsverfahren, als überwachtes Lernen, lernt anhand von bereits manuell klassifizierten Zeitungsartikeln, vorher unbekannte Zeitungsartikel in Politik, Sport, Kultur, Reise und Auto einzuteilen

§ Clusteringverfahren, als unüberwachtes Lernen, teilt eine gegebene Menge von Zeitungsartikeln anhand ihres Inhalts in möglichst homogene Gruppen (cluster) auf; diese Gruppen sind vorab nicht festgelegt und müssen nichtden manuell bestimmten Klassen Politik etc. entsprechen

Binäre vs. Mehrklassen Klassifikation§ Klassifikationsverfahren lassen sich nach der Ausprägung

des zu erklärenden nominalen Merkmals unterscheiden

§ binäre Klassifikationsverfahren (z.B. Spam vs. Nicht-Spam)wenn es zwei Werte des zu erklärenden Merkmals gibt

§ Mehrklassen Klassifikationsverfahren (z.B. Sport vs. Politik vs. Kultur) wenn es mehr als zwei Werte des zu erklärenden Merkmals gibt

Binäre vs. Mehrklassen Klassifikation§ Binäre Klassifikationsverfahren z.B.

§ logistische Regression

§ Support Vector Machines

§ Mehrklassen Klassifikationsverfahren z.B.

§ Entscheidungsbäume

§ k-Nächste Nachbarn

§ Naïve Bayes

Binäre vs. Mehrklassen Klassifikation§ Binäre Klassifikationsverfahren lassen sich durch „Trick“

zur Klassifikation in mehr als zwei Klassen einsetzen

§ bestimme für jede Klasse einen Klassifikator, der die Klassen von allen anderen Klassen unterscheidet(z.B. Sport vs. Nicht-Sport als Vereinigung anderer Klassen)

§ klassifiziere vorher unbekannten Datenpunkt mit jedem der zuvor bestimmten Klassifikatoren (z.B. Sport vs. Nicht-Sport, Politik vs. Nicht-Politik, Kultur vs. Nicht-Kultur)und weise dem Datenpunkt die Klasse des Klassifikatorsmit dem höchsten Konfidenz-Wert zu

4.2 Evaluation§ Systematische Vorgehensweise, um die Güte eines

Klassifikationsverfahrens zu messen bzw. verschiedeneVerfahren miteinander zu vergleichen

§ Analog zur Evaluation von Regressionsverfahren, ist eine Aufteilung der manuell klassifizierten Daten in Trainings- und Testdaten ggf. mitKreuzvalidierung sinnvoll

Konfusionsmatrix§ Wenden wir einen Klassifikator auf unsere Testdaten an,

so erhalten wir als Ergebnis eine Konfusionsmatrix

§ Spalten entsprechen wirklichen Klassen der Testdaten; Zeilen geben Vorhersage des Klassifikators wieder

§ Beispiel: Klassifikation in Sport, Kultur und Politik

§ je Klasse wurden 10 von 20 Daten-punkten korrekt klassifiziert

§ 3 der Datenpunkte aus Politik wurdenfälschlicherweise als Sport klassifiziert

S K PS 10 4 3K 5 10 7P 5 6 10

Gütemaße§ Konfusionsmatrix bildet Grundlage zur Berechnung

verschiedener Gütemaße eines Klassifikators

§ Präzision (precision) als Maß der Fähigkeit,eine bestimmte Klasse genau zu erkennen

§ Ausbeute (recall) als Maß der Fähigkeit,alle Datenpunkte einer Klasse zu erkennen

§ F-Maß (f-measure) als harmonisches Mittelvon Precision und Recall

Präzision (precision)

§ Präzision (precision) eines Klassifikators für eine bestimmte Klasse ist definiert als

§ #TP (true positives) als Zahl der Datenpunkte aus der betrachteten Klasse, die korrekt in die betrachtete Klasse eingeordnet wurden

§ #FP (false positives) als Zahl der Datenpunkte aus anderen Klassen, die fälschlicherweise in die betrachtete Klasseeingeordnet wurden

Precision =

#TP + #FP

Präzision (precision)

§ Betrachte jede Zeile der Konfusionsmatrix

§ Sport: #TP ist 10 #FP ist 7 und Präzision damit 10 / 17

§ Kultur: #TP ist 10 #FP ist 12 und Präzision damit 10 / 22

§ Politik: #TP ist 10 #FP ist 11 und Präzision damit 10 / 21

S K PS 10 4 3K 5 10 7P 5 6 10

Ausbeute (recall)

§ Ausbeute (recall) eines Klassifikators für einebestimmte Klasse ist definiert als

§ #TP (true positives) als Zahl der Datenpunkte aus der betrachteten Klasse, die korrekt in die betrachtete Klasse eingeordnet wurden

§ #FN (false negatives) als Zahl der Datenpunkte aus der betrachteten Klasse, die fälschlicherweise in eine andere Klasse eingeordnet wurden

Recall = #TP#TP + #FN

Ausbeute (recall)

§ Betrachte jede Spalte der Konfusionsmatrix

§ Sport: #TP ist 10 #FN ist 10 und Ausbeute damit 10 / 20

§ Kultur: #TP ist 10 #FN ist 10 und Ausbeute damit 10 / 20

§ Politik: #TP ist 10 #FN ist 10 und Ausbeute damit 10 / 20

S K PS 10 4 3K 5 10 7P 5 6 10

Micro- vs. Macro-Average§ Bisher haben wir Präzision und Ausbeute nur für eine

bestimmte Klasse definiert; man möchte diese jedoch auch über alle Klassen hinweg angeben können

§ Macro-averaged Precision und Recall als Mittelwertüber Präzision und Ausbeute je Klasse

S K PS 10 4 3K 5 10 7P 5 6 10

Precision =

Recall = 13

31020 + 10

20 + 1020

Micro- vs. Macro-Average§ Micro-averaged Precision aggregiert zuerst #TP, #FP

über alle Klassen hinweg

S K PS 10 4 3K 5 10 7P 5 6 10

Precision =

#TPS + #TPK + #TPP#TPS + #TPK + #TPP + #FPS + #FPK + #FPP

= 10 + 10 + 1010 + 10 + 10 + 7 + 12 + 11

Micro- vs. Macro-Average§ Micro-averaged Recall aggregiert zuerst #TP und #FN

über alle Klassen hinweg

S K PS 10 4 3K 5 10 7P 5 6 10

Recall = #TPS + #TPK + #TPP#TPS + #TPK + #TPP + #FNS + #FNK + #FNP

= 10 + 10 + 1010 + 10 + 10 + 10 + 10 + 10

F-Maß (f-measure)

§ F-Maß (f-measure) als harmonisches Mittel zwischenPrecision und Recall kombiniert die beiden Maße

und nimmt einen Wert in [0,1] an

F1 = 2 · Precision · Recall

Precision + Recall

4.3 Logistische Regression§ Logistische Regression ist ein Klassifikationsverfahren,

welches auf linearer Regression aufbaut, jedochein binäres nominales Merkmal erklärt

§ Rückblick: Multiple lineare Regression erklärt abhängiges metrisches Merkmal y als lineare Kombination unabhängiger metrischer Merkmale x(,j)

mit Vorhersage

yi = —0 + —1x(i,1) + —2x(i,2) + . . . + —mx(i,m)

yi œ R

Logistische Regression§ Daten stehen in Form von n Beobachtungen zur Verfügung

§ Jeder Datenpunkt (x(i,1), …, x(i,m), yi) besteht aus

§ als Werte der unabhängigen Merkmale x(,j)

§ als Wert des abhängigen Merkmals y

§ Logistische Regression verwendet eine lineare Kombination der unabhängigen Merkmale,transformiert den Wert der Vorhersagejedoch derart, dass er in [0,1] liegt

(x(1,1), . . . , x(1,m), y1), . . . , (x(n,1), . . . , x(n,m), yn)

yi œ {0, 1}

x(i,j) œ R

Logistische Funktion§ Logistische Funktion (auch: Sigmoidfunktion) bildet einen

Wert auf einen Wert ab

z œ R f(z) œ [0, 1]

f(z) = 11 + e≠z

-5 0 5

Logistische Regression§ Logistische Regression erklärt das abhängige nominale

Merkmal anhand der unabhängigen metrischenMerkmale als

§ Vorhersage kann als Wahrscheinlichkeit P[yi=1|xi]interpretiert werden dass der Datenpunkt xi

zur Klasse yi = 1 gehört und lässt sichdurch Runden in einen binären Wertin {0,1} transformieren

= 11 + e≠(—0+—1x(i,1)+—2x(i,2)+...+—mx(i,m))

Logistische Regression§ Logistische Regression als Optimierungsproblem

§ Optimaler Parametervektor β ist mittels stochastischem Gradientenverfahren bestimmbar

arg min

i=1≠ (yi · log(yi) + (1 ≠ yi) · log(1 ≠ yi))

Logistische Regression in R§ Beispiel: Binäre Klassifikation von Autos nach Herkunft

U.S.A vs. Japan/Europa anhand aller anderen Merkmale

1 # Modell ausgeben

2 autos $HK <- 03 autos $HK[ autos$ Herkunft == "U.S.A."] <- 14

5 # Trainings - (70%) und Testdaten (30%) erzeugen

6 train <- sample (nrow(autos), 0.7*nrow(autos ))7 autos. train <- autos[train ,]8 autos.test <- autos[-train ,]9

10 # Logistische Regression

11 fit <- glm(HK ˜ Gewicht +PS+ Verbrauch + Beschleunigung +Jahr+ Zylinder +Hubraum ,12 data=autos.train , family = binomial ())13

14 # Vorhersagen auf Testdaten berechnen

15 prob <- predict (fit , autos.test , type=" response ")16 pred <- factor (prob > 0.5, levels =c(FALSE ,TRUE), labels =c("0","1"))17

18 # Konfusionsmatrix berechnen

19 perf <- table(pred , autos.test$HK , dnn=c(" Vorhersage "," Daten"))

Logistische Regression in R

1 # Konfusionsmatrix ausgeben

2 perf3

4 Daten5 Vorhersage 0 16 0 42 127 1 3 618

9 # Modell ausgeben

11 fit12

13 Call: glm( formula = HK ˜ Gewicht + PS + Verbrauch + Beschleunigung +14 Jahr + Zylinder + Hubraum , family = binomial (), data = autos.train)15

16 Coefficients :17 ( Intercept ) Gewicht PS18 -23.689858 -0.011688 -0.00622119 Verbrauch Beschleunigung Jahr20 0.523234 0.193104 0.28884121 Zylinder Hubraum22 -1.878439 7.271401

Logistische Regression§ Parameter βj können bezüglich der Chancen (odds)

interpretiert werden

§ Erhöhung des Merkmals x(,j) um eine Einheit verändertdie Chance, dass der Datenpunkt zur Klasse yi = 1 gehörtum einen Faktor exp(βj)

§ Beispiel: Auto mit einem Liter höheren Hubraum stammt mitum Faktor 1438 = exp(7.2714) höheren Wahrscheinlichkeitaus U.S.A.

P [yi = 1]P [yi = 0] = P [yi = 1]

(1 ≠ P [yi = 1])

Zusammenfassung§ Klassifikationsverfahren haben viele Anwendungen

§ Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar

§ Konfusionsmatrix stellt Vorhersagen und Daten gegenüber und erlauft Berechnung von Präzision,Ausbeute und F-Maß als Gütemaße

§ Logistische Regression zur binären Klassifikation basierend auf linearer Regression

Literatur[1] L. Fahrmeir, R. Künstler, I. Pigeot und G. Tutz:

Statistik – Der Weg zur Datenanalyse,Springer 2012

[2] R. Kabacoff: R In Action,Manning 2015 [Kapitel 17]

[3] N. Zumel und J. Mount: Practical Data Science with R,Manning 2014 [Kapitel 7]

4. Klassifikation · 4 Anwendungen von Klassifikationsverfahren § Klassifikation von...

Documents

3.1 Grundwasser und Aquifere 3.1 Definitionen und ... · 3.3 3.2.2 Aquifere und Aquitards 3.2.2.1 Hydrologische Klassifikation Bei der hydrologische Klassifikation von Grundwasser-Aquiferen

Tumorerfassung: Thorakale Tumoren/Lunge · Anatomie Art der Klassifikation Symbol Art der Klassifikation c klinische Klassifikation p pathologische Klassifikation a Autopsie y während/nach

Holzschuh BZB Muster Politik · Ein Beitrag von Dr. Barbara Holzschuh, Bergen Abb. 1: Klassifikation und Beschreibung von Zahnhartsubstanzverletzungen. Detaillierte Behandlungsprotokolle

Instrumentenkunde Klassifikation von Instrumenten Klaus Frieler Übung 56.809, SoSe 2008 Musikwissenschaftliches Institut Universität Hamburg

A Klassifikation von Böden - gb.bgu.tum.de · PDF fileGrundbau und Bodenmechanik Seite Übung Klassifikation von Böden 3 A.2 Wasser im Boden A.2.1 Bestimmung des Wassergehalts (DIN

BACHELORARBEIT - monami.hs-mittweida.de · Die neuste Klassifikation von Diabetes mellitus wurde 1997 von der amerikanischen Diabetesgesellschaft (ADA) vorgeschlagen und in Zusammenar-

EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest

foeldes.eufoeldes.eu/sites/default/files/Komparative_Phraseme.pdf · sifikationsvorschläge zum phraseologischen ... Typen und Arten von Klassifikation Sind abhängig von Kriterien

Zusammengestellt: Paul Kleimann Nach Vorlagen von Michael F. Schuntermann Die Internationale Klassifikation der Funktionsfähigkeit,

Klassifikation von Web-2.0-Diensten aus Schulperspektive

10.5 Maximum-Likelihood Klassifikation (I) · DATABASE SYSTEMS 10.5 Maximum-Likelihood Klassifikation (I) GROUP Klassifikation (I) Idee • Für die Klassifikation sind wir interessiert

Das System der Geographie und die Dezimal-Klassifikation · DAS SYSTEM DER GEOGRAPHIE UND DIE DEZIMAL¬ KLASSIFIKATION Von Ernst Winkler Den folgenden Versuch einer neuen erdkundlichen

Die Klassifikation von Reparaturen Nach Willem J.M. Levelt Referenten: Claudia Sieber, Eva-Maria Nunnemann

Nizza Klassifikation - Liste der Waren nach Klassen · LISTE DER WAREN NACH KLASSEN Kl. 01 Klassifikation von Nizza 5 10. Ausgabe, Version 2013 Klasse Basis-Nr. WAREN (Deutsche Bezeichnung)

Große dsDNA-Viren II: Pockenviren und Baculoviren · Klassifikation von Viren nach der Art der mRNA-Synthese (Baltimore-Klassifikation) Gruppe I: dsDNA. Genomform aller Lebewesen

Kapitel 3: KlassifikationKapitel 3: Klassifikation · DATABASE SYSTEMS GROUP 3.1 Grundbegriffe der Klassifikation Das Klassifikationsproblem Gegeben: Eine Menge O von Objekten des

Klassifikation von Fernerkund ungsdaten zur Früherkennung von … · Maschinellen Lernen basieren. Zur Klassifikatio n wurde der effektive Klassifikator Random Forest eingesetzt

Die phonetische Klassifikation von Konsonanten Jonathan Harrington Alle Dokumente sowie die Abbildung von dieser Vorlesung hier herunterladen:

2. Klassifikation von Mehrrechner-DBSlgis.informatik.uni-kl.de/archiv/... · 2-1 2. Klassifikation von Mehrrechner-DBS Ziel: Einsatz mehrerer Prozessoren oder DBVS zur DB-Verarbeitung

WHO-Klassifikation zum Altern von Menschen