Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen...

Universität Potsdam Institut für Informatik

Lehrstuhl Maschinelles Lernen

Bayes‘sches Lernen

Niels Landwehr

lligente

nanaly

Überblick

Grundkonzepte des Bayes‘schen Lernens

Wahrscheinlichstes Modell gegeben Daten

Münzwürfe

Lineare Regression

Logistische Regression

Bayes‘sche Vorhersage

Münzwürfe

Lineare Regression

lligente

nanaly

Überblick

Münzwürfe

Lineare Regression

Münzwürfe

Lineare Regression

lligente

nanaly

Statistik & Maschinelles Lernen

Maschinelles Lernen: eng verwandt mit (induktiver)

Statistik

Zwei Gebiete in der Statistik:

Deskriptive Statistik: Beschreibung, Untersuchung von

Eigenschaften von Daten.

Induktive Statistik: Welche Schlussfolgerungen über die

Realität lassen sich aus Daten ziehen?

Mittelwerte Unterschiede zwischen

Populationen Varianzen

Modellbildung

Erklärungen für

Beobachtungen

Zusammenhänge,

Muster in Daten

lligente

nanaly

Thomas Bayes

1702-1761

„An essay towards solving a

problem in the doctrine of

chances“, 1764 veröffentlicht.

Arbeiten von Bayes grundlegend

für induktive Statistik.

„Bayessche Wahrscheinlichkeiten“ wichtige Sichtweise

auf Unsicherheit & Wahrscheinlichkeit

lligente

nanaly

Frequentistische / Bayessche Wahrscheinlichkeit

Frequentistische Wahrscheinlichkeiten

Beschreiben die Möglichkeit des Eintretens intrinsisch

stochastischer Ereignisse (z.B. Münzwurf).

Definition über relative Häufigkeiten möglicher Ergebnisse

eines wiederholbaren Versuches

„Wenn man eine faire Münze 1000 Mal wirft,

wird etwa 500 Mal Kopf fallen“

„In 1 Gramm Potassium-40 zerfallen pro Sekunde

ca. 260.000 Atomkerne“

lligente

nanaly

Frequentistische / Bayessche Wahrscheinlichkeit

Bayessche, „subjektive“ Wahrscheinlichkeiten

Grund der Unsicherheit ein Mangel an Informationen

Wie wahrscheinlich ist es, dass der Verdächtige X das

Opfer umgebracht hat?

Neue Informationen (z.B. Fingerabdrücke) können diese

subjektiven Wahrscheinlichkeiten verändern.

Bayessche Sichtweise im maschinellen Lernen wichtiger

Frequentistische Sichtweise auch manchmal verwendet,

mathematisch äquivalent

lligente

nanaly

Bayessche Wahrscheinlichkeiten im Maschinellen Lernen

Modellbildung: Erklärungen für Beobachtungen finden

Was ist das „wahrscheinlichste“ Modell? Abwägen

zwischen

Vorwissen (a-priori Verteilung über Modelle)

Evidenz (Daten, Beobachtungen)

Bayessche Sichtweise:

Evidenz (Daten) verändert „subjektive“

Wahrscheinlichkeiten für Modelle (Erklärungen)

A-posteriori Modellwahrscheinlichkeit, MAP Hypothese

lligente

nanaly

Modellvorstellung beim Lernen

Viele Verfahren des maschinellen Lernens basieren auf

probabilistischen Überlegungen

Wir wollen Modelle der Form aus Trainingsdaten

lernen.

Modellvorstellung beim Lernen:

Jemand hat echtes Modell f* nach A-Priori Verteilung

(„Prior“) p(f) gezogen

f* ist nicht bekannt, aber p(f) reflektiert Vorwissen (was sind

wahrscheinliche Modelle?)

Trainingseingaben xi werden gezogen (unabhängig von f*).

Klassenlabels yi werden nach gezogen (zum

Beispiel: , Rauschterm).

Fragestellung Lernen: Gegeben L und p(f), was ist

wahrscheinlichstes „echtes“ Modell?

→ Versuche, f* (ungefähr) zu rekonstruieren

*( | , )i ip y fx

( )y f x

1 1, ),..., ( , ){( }N NyL y xx

*( )ii iy f x 2~ ( | 0, )i

lligente

nanaly

Bayessche Regel:

Beweis einfach:

Wichtige Grundeinsicht für das maschinelle Lernen: Erlaubt

den Rückschluss auf Modellwahrscheinlichkeiten gegeben

Wahrscheinlichkeiten von Beobachtungen

Bayessche Regel

( | ) ( )( | )

p Y X p Xp X Y

( , ) ( | ) ( )( | )

( ) ( )

p X Y p Y X p Xp X Y

p Y p Y

Definition bedingte

Verteilung Produktregel

lligente

nanaly

Modellwahrscheinlichkeit gegeben Daten und Vorwissen

Bayessche Regel

( | ) ( )( | )

( | ) ( )

p Daten Modell p Modellp Modell Daten

p Daten

p Daten Modell p Modell

( ) konstant,

unabhängig von

p Daten

Modell

Likelihood: wie gut erklärt

Modell die Daten?

Prior: wie wahrscheinlich

ist Modell a priori?

lligente

nanaly

Zentrale Problemstellung: wahrscheinlichstes Modell gegeben Daten.

Gegeben sind

angenommene a priori Verteilung p(f)

beobachtete Daten

Frage: was ist das wahrscheinlichste Modell, gegeben die

angenomme a priori Verteilung und die Daten?

Sogenanntes MAP („maximum a posteriori“) Modell.

1 1, ),..., ( , ){( }N NyL y xx

* arg max ( | )

( | ) ( ) arg max

arg max ( | ) ( )

f p f L

p L f p f

Bayes'sche Regel

( ) unabhängig von fp L

lligente

nanaly

Um MAP Modell ausrechnen zu können, brauchen wir zwei Terme:

Likelihood : Wahrscheinlichkeit der Daten

gegeben Modell. Folgt aus Modelldefinition.

Prior : A-priori Verteilung über Modelle. Annahme, soll meist

Vorwissen ausdrücken.

Beispiel Entscheidungsbaumlernen: „Kleine Bäume sind oft

besser als große Bäume“.

Wir sehen gleich verschiedene Beispiele.

( | )p L f

( )p f

lligente

nanaly

Überblick

Münzwürfe

Lineare Regression

Münzwürfe

Lineare Regression

lligente

nanaly

Modell für Münzwürfe schätzen

Anwendung Bayes‘sche Regel an einfachem Beispiel: Modell

für Münzwürfe („binomialverteilte Daten“) schätzen.

Münzwurf-Modell

N Mal Münze werfen.

Ergebnis des i-ten Münzwurfs: „Kopf“ oder “Zahl“,

Zufallsvariable .

folgen Bernoulli-Verteilung:

Daten heissen auch „binomialverteilt“, weil die Anzahl der

Kopfwürfe in N Münzwürfen binomialverteilt ist.

{0,1}iy

1~ Bern( | ) (1 )i iy

( 1)ip y

( 0) 1ip y

Bernoulli-Verteilung

Wahrscheinlichkeit für „Kopf“

Wahrscheinlichkeit für „Zahl“

lligente

nanaly

Modell für Münzwürfe schätzen

Das Münzwurf-Modell sagt vorher, mit welcher

Wahrscheinlichkeit bei einem Münzwurf „Kopf“ fällt.

Modell ist festgelegt durch einen einzigen Parameter:

Wahrscheinlichkeit für Kopfwurf.

Abweichend von unserer Standardproblemstellung gibt es

keine Instanzmerkmale .

Wir möchten ein Münzwurfmodell aus Beobachtungen

schätzen.

Die „echte“ Wahrscheinlichkeit für einen Kopfwurf kennen

wir nie.

Aber mit der Bayes‘schen Regel können wir probabilistische

Aussagen über diese echte Wahrscheinlichkeit machen,

gegeben Daten.

1,... },{ NL y y

lligente

nanaly

Bayes‘sche Regel Münzwürfe

Ansatz mit Bayes‘scher Regel:

( | (( | )

p L pp L

A-posteriori Verteilung

über Modelle, charakterisiert

wahrscheinliche Parameterwerte

und verbleibende Ungewissheit

A-priori Verteilung über Modelle,

repräsentiert Vorwissen: für wie

wahrscheinlich halten wir

faire/unfaire Münzen?

Wahrscheinlichkeit der Daten, nur

Normalisierer

Likelihood: wie wahrscheinlich sind Daten

gegeben Modell ? 1,... },{ NL y y

Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen...

Documents

Generalised linear mixed models (GLMM) und die logistische

Logistische Herausforderung zur Implementierung von

Het adequate gebruik van Multivariabele Logistische

Logistische Regression und Diskriminanzanalyse · PDF file09.07.2010 1 Logistische Regression und Diskriminanzanalyse Seminar: multivariate Verfahren Seminarleiter: Dr. Thomas Schäfer

Grundkonzepte OOP PS 1 Teil 1 Helmut Paulus MPG Trier Speyer, 14.04.08 Grundkonzepte der OOP

Logistische Regression - - - - - 24. Juni 2011 - bibb.de · PDF fileLogistische Regression • Die logistische Regression ist ein Verfahren zur multivariaten Analyse nicht-metrischer

Grundkonzepte Psychotherapien Von Steffen Schnieders

Grundkonzepte der objektorientierten Programmierung Teil 3 Klaus Becker 2006

Logistische Prozesse Berufe der Lagerlogistik · Gerd Baumann, Michael Baumgart, Werena Busker, Alfred Geltinger, Axel Jähring, Volker Kähler, Kay Sanmann, Inka Schliebner Logistische

Grundkonzepte der Optik - uni-jena.deder... · Optik in Medizin und Lebenswissenschaften Script "Grundkonzepte der Optik", FSU Jena, Prof . T. Pertsch, GdO13_Script_2014-06-02s.docx

Grundkonzepte der objektorientierten Programmierung Klaus Becker 2004

Klinik für Anästhesiologie Technische Universität ...mediatum.ub.tum.de/doc/645846/645846.pdf · Abbildung 9: Logistische Regressionanalyse für Narcotrend Abbildung 10: Logistische

CPU-Scheduling - Grundkonzepte · Shortest Remaining Time First (SRTF)

Emotionale Voraussetzungen des Lernens

Psychosoziale Bedingungen des Lernens

Die logistische Kette - prolog.univie.ac.at€¦ · AC Solutions Wien, Österreich 3 Lehrstuhl für Produktion & Logistik der Universität Wien Gesamtablauf Die logistische Kette

1 Multivariate Statistische Verfahren Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität

Logistische Leistungsdiff erenzierung im Supply Chain ... · Band 9 Hrsg.: Frank Straube, Helmut Baumgarten, Raimund Klinkner Stefan Alexander Doch Logistische Leistungsdiff erenzierung

Prinzip kooperativen Lernens Nach Brüning/Saum. Prinzip kooperativen Lernens Denken (Think) Austauschen (Pair) Vorstellen (Share)

METHODEN FALLBASIERTEN LERNENS