View
219
Download
0
Category
Preview:
Citation preview
Universität Potsdam Institut für Informatik
Lehrstuhl Maschinelles Lernen
Bayes‘sches Lernen
Niels Landwehr
Inte
lligente
Date
nanaly
se
Überblick
Grundkonzepte des Bayes‘schen Lernens
Wahrscheinlichstes Modell gegeben Daten
Münzwürfe
Lineare Regression
Logistische Regression
Bayes‘sche Vorhersage
Münzwürfe
Lineare Regression
2
Inte
lligente
Date
nanaly
se
Überblick
Grundkonzepte des Bayes‘schen Lernens
Wahrscheinlichstes Modell gegeben Daten
Münzwürfe
Lineare Regression
Logistische Regression
Bayes‘sche Vorhersage
Münzwürfe
Lineare Regression
3
Inte
lligente
Date
nanaly
se
4
Statistik & Maschinelles Lernen
Maschinelles Lernen: eng verwandt mit (induktiver)
Statistik
Zwei Gebiete in der Statistik:
Deskriptive Statistik: Beschreibung, Untersuchung von
Eigenschaften von Daten.
Induktive Statistik: Welche Schlussfolgerungen über die
Realität lassen sich aus Daten ziehen?
Mittelwerte Unterschiede zwischen
Populationen Varianzen
Modellbildung
Erklärungen für
Beobachtungen
Zusammenhänge,
Muster in Daten
Inte
lligente
Date
nanaly
se
5
Thomas Bayes
1702-1761
„An essay towards solving a
problem in the doctrine of
chances“, 1764 veröffentlicht.
Arbeiten von Bayes grundlegend
für induktive Statistik.
„Bayessche Wahrscheinlichkeiten“ wichtige Sichtweise
auf Unsicherheit & Wahrscheinlichkeit
Inte
lligente
Date
nanaly
se
6
Frequentistische / Bayessche Wahrscheinlichkeit
Frequentistische Wahrscheinlichkeiten
Beschreiben die Möglichkeit des Eintretens intrinsisch
stochastischer Ereignisse (z.B. Münzwurf).
Definition über relative Häufigkeiten möglicher Ergebnisse
eines wiederholbaren Versuches
„Wenn man eine faire Münze 1000 Mal wirft,
wird etwa 500 Mal Kopf fallen“
„In 1 Gramm Potassium-40 zerfallen pro Sekunde
ca. 260.000 Atomkerne“
Inte
lligente
Date
nanaly
se
7
Frequentistische / Bayessche Wahrscheinlichkeit
Bayessche, „subjektive“ Wahrscheinlichkeiten
Grund der Unsicherheit ein Mangel an Informationen
Wie wahrscheinlich ist es, dass der Verdächtige X das
Opfer umgebracht hat?
Neue Informationen (z.B. Fingerabdrücke) können diese
subjektiven Wahrscheinlichkeiten verändern.
Bayessche Sichtweise im maschinellen Lernen wichtiger
Frequentistische Sichtweise auch manchmal verwendet,
mathematisch äquivalent
Inte
lligente
Date
nanaly
se
Bayessche Wahrscheinlichkeiten im Maschinellen Lernen
Modellbildung: Erklärungen für Beobachtungen finden
Was ist das „wahrscheinlichste“ Modell? Abwägen
zwischen
Vorwissen (a-priori Verteilung über Modelle)
Evidenz (Daten, Beobachtungen)
Bayessche Sichtweise:
Evidenz (Daten) verändert „subjektive“
Wahrscheinlichkeiten für Modelle (Erklärungen)
A-posteriori Modellwahrscheinlichkeit, MAP Hypothese
8
Inte
lligente
Date
nanaly
se
9
Modellvorstellung beim Lernen
Viele Verfahren des maschinellen Lernens basieren auf
probabilistischen Überlegungen
Wir wollen Modelle der Form aus Trainingsdaten
lernen.
Modellvorstellung beim Lernen:
Jemand hat echtes Modell f* nach A-Priori Verteilung
(„Prior“) p(f) gezogen
f* ist nicht bekannt, aber p(f) reflektiert Vorwissen (was sind
wahrscheinliche Modelle?)
Trainingseingaben xi werden gezogen (unabhängig von f*).
Klassenlabels yi werden nach gezogen (zum
Beispiel: , Rauschterm).
Fragestellung Lernen: Gegeben L und p(f), was ist
wahrscheinlichstes „echtes“ Modell?
→ Versuche, f* (ungefähr) zu rekonstruieren
*( | , )i ip y fx
( )y f x
1 1, ),..., ( , ){( }N NyL y xx
*( )ii iy f x 2~ ( | 0, )i
Inte
lligente
Date
nanaly
se
Bayessche Regel:
Beweis einfach:
Wichtige Grundeinsicht für das maschinelle Lernen: Erlaubt
den Rückschluss auf Modellwahrscheinlichkeiten gegeben
Wahrscheinlichkeiten von Beobachtungen
Bayessche Regel
( | ) ( )( | )
( )
p Y X p Xp X Y
p Y
( , ) ( | ) ( )( | )
( ) ( )
p X Y p Y X p Xp X Y
p Y p Y
Definition bedingte
Verteilung Produktregel
Inte
lligente
Date
nanaly
se
Modellwahrscheinlichkeit gegeben Daten und Vorwissen
Bayessche Regel
( | ) ( )( | )
( )
( | ) ( )
p Daten Modell p Modellp Modell Daten
p Daten
p Daten Modell p Modell
( ) konstant,
unabhängig von
p Daten
Modell
Likelihood: wie gut erklärt
Modell die Daten?
Prior: wie wahrscheinlich
ist Modell a priori?
Inte
lligente
Date
nanaly
se
Zentrale Problemstellung: wahrscheinlichstes Modell gegeben Daten.
Gegeben sind
angenommene a priori Verteilung p(f)
beobachtete Daten
Frage: was ist das wahrscheinlichste Modell, gegeben die
angenomme a priori Verteilung und die Daten?
Sogenanntes MAP („maximum a posteriori“) Modell.
Wahrscheinlichstes Modell gegeben Daten
1 1, ),..., ( , ){( }N NyL y xx
* arg max ( | )
( | ) ( ) arg max
( )
arg max ( | ) ( )
f
f
f
f p f L
p L f p f
p L
p L f p f
Bayes'sche Regel
( ) unabhängig von fp L
Inte
lligente
Date
nanaly
se
Um MAP Modell ausrechnen zu können, brauchen wir zwei Terme:
Likelihood : Wahrscheinlichkeit der Daten
gegeben Modell. Folgt aus Modelldefinition.
Prior : A-priori Verteilung über Modelle. Annahme, soll meist
Vorwissen ausdrücken.
Beispiel Entscheidungsbaumlernen: „Kleine Bäume sind oft
besser als große Bäume“.
Wir sehen gleich verschiedene Beispiele.
Wahrscheinlichstes Modell gegeben Daten
( | )p L f
( )p f
Inte
lligente
Date
nanaly
se
Überblick
Grundkonzepte des Bayes‘schen Lernens
Wahrscheinlichstes Modell gegeben Daten
Münzwürfe
Lineare Regression
Logistische Regression
Bayes‘sche Vorhersage
Münzwürfe
Lineare Regression
14
Inte
lligente
Date
nanaly
se
15
Modell für Münzwürfe schätzen
Anwendung Bayes‘sche Regel an einfachem Beispiel: Modell
für Münzwürfe („binomialverteilte Daten“) schätzen.
Münzwurf-Modell
N Mal Münze werfen.
Ergebnis des i-ten Münzwurfs: „Kopf“ oder “Zahl“,
Zufallsvariable .
folgen Bernoulli-Verteilung:
Daten heissen auch „binomialverteilt“, weil die Anzahl der
Kopfwürfe in N Münzwürfen binomialverteilt ist.
{0,1}iy
iy
1~ Bern( | ) (1 )i iy
i i
yy y
( 1)ip y
( 0) 1ip y
Bernoulli-Verteilung
Wahrscheinlichkeit für „Kopf“
Wahrscheinlichkeit für „Zahl“
Inte
lligente
Date
nanaly
se
16
Modell für Münzwürfe schätzen
Das Münzwurf-Modell sagt vorher, mit welcher
Wahrscheinlichkeit bei einem Münzwurf „Kopf“ fällt.
Modell ist festgelegt durch einen einzigen Parameter:
Wahrscheinlichkeit für Kopfwurf.
Abweichend von unserer Standardproblemstellung gibt es
keine Instanzmerkmale .
Wir möchten ein Münzwurfmodell aus Beobachtungen
schätzen.
Die „echte“ Wahrscheinlichkeit für einen Kopfwurf kennen
wir nie.
Aber mit der Bayes‘schen Regel können wir probabilistische
Aussagen über diese echte Wahrscheinlichkeit machen,
gegeben Daten.
[0,1]
ix
1,... },{ NL y y
Inte
lligente
Date
nanaly
se
17
Bayes‘sche Regel Münzwürfe
Ansatz mit Bayes‘scher Regel:
( | (( | )
( )
p L pp L
p L
A-posteriori Verteilung
über Modelle, charakterisiert
wahrscheinliche Parameterwerte
und verbleibende Ungewissheit
A-priori Verteilung über Modelle,
repräsentiert Vorwissen: für wie
wahrscheinlich halten wir
faire/unfaire Münzen?
Wahrscheinlichkeit der Daten, nur
Normalisierer
Likelihood: wie wahrscheinlich sind Daten
gegeben Modell ? 1,... },{ NL y y
Recommended