Seite 111/3/2013| Vergleich eines restriktiven Modells mit einem flexiblen Modell: Das wahre Modell sei die Standardnormalverteilung. Aus ihm werden Stichproben

Seite 104/11/23|

Vergleich eines restriktiven Modells mit einem flexiblen Modell:

Das wahre Modell sei die Standardnormalverteilung. Aus ihm werden Stichproben gewisser Größe n gezogen.

Es werden zwei Modellräume (oft auch „Modellierungsmethoden“ genannt) miteinander verglichen:

a) „Flexibles Modell“: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert als auch Std.Abw. ( zwei Parameter müssen geschätzt werden: μ,σ )

b) „Restriktives Modell“: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert und fester Std.Abw. σguess ( nur ein Parameter, μ, muss geschätzt werden)

Die Güte der Modellanpassung wird vermöge der Kolmogoroff-Smirnov-Statistik bewertet (= L1-Norm auf dem Raum aller Wahrscheinlichkeitsdichten)

Nachtrag: Simulation zum Bias-Variance Tradeoff

Seite 204/11/23|


anzahl = c(3,5,10,20,50,100,200,500,1000) # gibt die Stichprobengrößen an, für die simuliert werden sollrepeats = 1000 # die Modellidentifikation (Schätzung der Parameter/des Parameters)# soll für jede Stichprobengröße repeats Mal durchgeführt werden

mureal = 0sigmareal = 1# dies sind die tatsächlichen Parameter der Normalverteilung,# aus der die Stichproben gezogen werdensigmaguess = 0.9# dies ist die im restriktiven Modell angenommene (falsche bzw.# ungenaue) Standardabweichung. Hier kann experimentiert werden!

xval = seq(-8,8,length=500)yval = dnorm(xval)abstand1 = numeric(repeats)abstand2 = numeric(repeats)# rein technische Dinge

Seite 304/11/23|


x11() # öffnet einen Grafikbildschirmpar(mfrow=c(3,3)) # teilt den Grafikbildschirm in

# 3x3 kleine Fenster auffor (n in anzahl){

for (r in 1:repeats){

daten = rnorm(n,mureal,sigmareal)# ziehung der Stichprobemuhat = mean(daten)# ML-Schätzung des Erwartungswerts (beide Modelle)sigmahat = sd(daten)# ML-Schätzung der Std.Abw (flexibles Modell)abstand1[r] = mean(abs(yval-

dnorm(xval,muhat,sigmaguess)))abstand2[r] = mean(abs(yval-

dnorm(xval,muhat,sigmahat)))# Berechnung der Kolmogoroff-Smirnoff-Statistik# für beide geschätzten Modelle

} # end for r

Seite 404/11/23|


plot(density(abstand1),main=paste("Datengroesse :",n),xlim=c(0,0.05),lwd=2)

points(density(abstand2),col="red",type="l",lwd=2)abline(v=mean(abstand1),col="black",lty=3)abline(v=mean(abstand2),col="red",lty=3)cat(n," Beobachtungen: ",

mean(abstand1),„ vs.",mean(abstand2),"\n")# grafische und textuelle Ausgabe der Ergebnisse

} # end for n

Preisfrage: Für welche Stichprobenumfänge n erwartet man, dass das flexible Modell besser abschneidet, für welche wird eher das restriktive Modell gewinnen? (Die Antwort hängt quantitativ, aber nicht qualitativ von σguess und dessen Abweichung vom tatsächlichen σ (= Bias) ab)

Seite 504/11/23|

0.00 0.01 0.02 0.03 0.04 0.05

010

2030

40

Datengroesse : 3

N = 10000 Bandw idth = 0.002293

Den

sity

0.00 0.01 0.02 0.03 0.04 0.05

010

3050

Datengroesse : 5

N = 10000 Bandw idth = 0.001773

Den

sity

0.00 0.01 0.02 0.03 0.04 0.05

020

4060

80

Datengroesse : 10

N = 10000 Bandw idth = 0.001215

Den

sity

0.00 0.01 0.02 0.03 0.04 0.05

050

100

150

Datengroesse : 20

N = 10000 Bandw idth = 0.0007698

Den

sity

0.00 0.01 0.02 0.03 0.04 0.05

010

020

030

0

Datengroesse : 50

N = 10000 Bandw idth = 0.0003618

Den

sity

0.00 0.01 0.02 0.03 0.04 0.05

020

040

060

0

Datengroesse : 100

N = 10000 Bandw idth = 0.0001966

Den

sity

0.00 0.01 0.02 0.03 0.04 0.05

040

080

012

00

Datengroesse : 200

N = 10000 Bandw idth = 9.787e-05

Den

sity

0.00 0.01 0.02 0.03 0.04 0.05

010

0020

0030

00

Datengroesse : 500

N = 10000 Bandw idth = 3.996e-05

Den

sity

0.00 0.01 0.02 0.03 0.04 0.050

2000

4000

6000

Datengroesse : 1000

N = 10000 Bandw idth = 2.04e-05

Den

sity

Simulation zum Bias-Variance TradeoffRestriktives ModellFlexibles Modell

Dimensionsreduktion:Hauptkomponentenanalyse (PCA)

Lineare Diskriminanzanalyse (LDA)

Maschinelles Lernen

Seite 704/11/23|

Principal Components Analyse

Gegeben: Hochdimensionale Daten x1,…,xn∊ℝp (p groß).

Aufgabe: Finde eine Projektion P auf einen eindimensionalen Raum, die möglichst viel „Information“ aus den Daten transportiert.

Der eindimensionale Raum sei gegeben durch x = m+ae , e ∊ℝp , a ∊ℝ,

m sei der Schwerpunkt der Daten,

Wir suchen eine Projektion xj → m+aje, die folgendes Zielkriterium minimiert:

n

jj

n

jj

tj

n

jj

n

jjjjj

n

jjjn

xmxmeaea

xmeaxmea

xeameaaJ

1

2

11

22

1

2

11

)(2

)(),(

)( ),,...,(

n

jjxm

1

Seite 804/11/23|


)(22),,...,(0 1!

kt

knk

xmeaeaaJa

Partielles Ableiten und Nullsetzen liefert (oBdA ||e|| = 1) :

)( mxea kt

k

m

xk

m+ake

e

.

m+ake ist die orthogonale Projektion von xk auf die Gerade m+ae, a ∊ℝ.

Seite 904/11/23|

n

jj

t

n

jj

tj

n

jj

t

n

jj

n

jj

t

n

jj

n

jj

tj

tn

jj

t

xmSee

xmemxmxe

xmmxe

xmxmemxemxeeJ

1

2

1

2

1

1

2

1

2

1

2

11

2

)()(

))((

)()(2))(( )(

Setze in J(a1,…,an,e) ein : )( mxea kt

k

n

j

tjj mxmxS

1

))((mit der Streumatrix


Seite 1004/11/23|


Minimiere J(e), d.h. maximiere etSe unter der Nebenbedingung ||e|| = 1:

Lagrange Multiplikator - Methode:

)1( eSeeL t

eSee

L 22 0 !

eSe

See

eSeSee

SeeSeeee

LSeSee

See

LeSee

e

LSee

e

L

tk

kt

k

t

k

tt

k

t

k

tk

tk

tk

tk

2

)(

, denn

Somit muss

gelten, und wegen etSe = etλe = λ ist λ der maximale Eigenwert von S.

Seite 1104/11/23|


Definition Principal Components Analyse: Projiziere die Datenpunkte orthogonal auf die Gerade, welche durch den Schwerpunkt der Daten verläuft und deren Richtung durch den Eigenvektor der Streumatrix gegeben ist, welcher den größten Eigenwert hat.

Erweiterung: Projiziere auf einen d-dimensionalen (affinen) Raum, d>1, welcher von ek, k=1,…,d aufgespannt wird und welcher den Schwerpunkt der Daten enthält. Die zu optimierende Zielfunktion lautet dann

2

1

11111 )...( ),...,,,...,(

n

jj

ddjj

ddn xeaeameeaaJ

n

jj

d

k

ktkd xmSeeeeJ1

2

1

1 )( ),...,(

Wie zuvor zeigt man, dass die ajk die orthogonale Projektion der xj auf den durch

m,e1,…,ed gegebenen Raum definieren. Die Zielfunktion vereinfacht sich dann zu

Es folgt mit den gleichen Argumenten, dass ek der Eigenvektor der Streumatrix mit dem k.-größten Eigenwert ist.

Seite 1204/11/23|


Da die Streumatrix S symmetrisch ist, folgt, dass die Eigenvektoren von S paarweise senkrecht aufeinander stehen:

21222121 vvvvSvv ttt

211121112

12122121 )(

vvvvvv

SvvvSvSvvSvvttt

tttttt

Für λ1≠ λ2 folgt daraus

Somit ist 0)( 2121 vvt

021 vvt

(Die Eigenvektoren innerhalb eines Eigenraumes können stets paarweise senkrecht gewählt werden, z.B. Schmidtsches Orthogonalisierungsverfahren).

Seite 1304/11/23|

Lineare Diskriminanzanalyse (Fisher)

Sir Ronald Aylmer Fisher (1890-1962)

Nachteile der PCA: Falls Information über die Klassenzugehörigkeit von Datenpunkten vorliegt, wird diese bei der PCA ignoriert. Die so gefundene Projektion kann u.U. die entscheidende Information vernichten!

Seite 1404/11/23|

Lineare Diskriminanzanalyse

Seite 1504/11/23|


Streuung der projizierten Gruppenmittel ist groß

Streuung innerhalb der proji-zierten Gruppen ist klein

Idee der LDA:Streuung innerhalb der projizierten Gruppen:

wSw

wmxmxw

mxws

jt

tj

jKlassexj

t

jKlassexj

tj

)()(

))((

22

w

jKlassex

j xjKlasse

m | |

1

21 SSSw

tj

jKlassexjj mxmxS )()(

Setze Dann ist wSwsss wt 2

221

2

Seite 1604/11/23|


Streuung der projizierten Gruppenmittel ist groß

Streuung innerhalb der proji-zierten Gruppen ist klein

Idee der LDA:Streuung zwischen den projizierten Gruppen:

wSw

wmmmmwmmw

bt

ttt

))(())(( 21212

21

w

tb mmmmS ))(( 2121

Die zu maximierende Zielfunktion lautet:

wSw

wSwwJ

wtb

t

)(

Seite 1704/11/23|

Somit muss gelten


wSw

wSwwJ

wtb

t

)(

J(w) ist invariant gegenüber Skalierung von w. Daher ist Maximierung von J(w) äquivalent zur Minimierung von wtSww unter der Nebenbedingung wtSbw = 1.

Analog zum Vorgehen bei der PCA verwenden wir Lagrange-Multiplikatoren:

)1( wSwwSwL bt

wt

wSwSw

Lbw 22 0 !

wSwS bw

Nehmen wir vereinfachend an, Sw sei invertierbar. Dann folgt

Beachte, dass ein Vielfaches von m1-m2 ist.

)(' 2111 mmSwSSw wbw

wmmmmwS tb ))(( 2121

also maximiert die Zielfunktion J(w).

)( 211 mmSw w

Documents

Seite 111/3/2013| Vergleich eines restriktiven Modells mit einem flexiblen Modell: Das wahre Modell sei die Standardnormalverteilung. Aus ihm werden Stichproben