Upload
malger-hempfling
View
105
Download
1
Embed Size (px)
Citation preview
Seite 104/11/23|
Vergleich eines restriktiven Modells mit einem flexiblen Modell:
Das wahre Modell sei die Standardnormalverteilung. Aus ihm werden Stichproben gewisser Größe n gezogen.
Es werden zwei Modellräume (oft auch „Modellierungsmethoden“ genannt) miteinander verglichen:
a) „Flexibles Modell“: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert als auch Std.Abw. ( zwei Parameter müssen geschätzt werden: μ,σ )
b) „Restriktives Modell“: Die Menge aller Normalverteilungen mit unbekanntem Erw.wert und fester Std.Abw. σguess ( nur ein Parameter, μ, muss geschätzt werden)
Die Güte der Modellanpassung wird vermöge der Kolmogoroff-Smirnov-Statistik bewertet (= L1-Norm auf dem Raum aller Wahrscheinlichkeitsdichten)
Nachtrag: Simulation zum Bias-Variance Tradeoff
Seite 204/11/23|
Nachtrag: Simulation zum Bias-Variance Tradeoff
anzahl = c(3,5,10,20,50,100,200,500,1000) # gibt die Stichprobengrößen an, für die simuliert werden sollrepeats = 1000 # die Modellidentifikation (Schätzung der Parameter/des Parameters)# soll für jede Stichprobengröße repeats Mal durchgeführt werden
mureal = 0sigmareal = 1# dies sind die tatsächlichen Parameter der Normalverteilung,# aus der die Stichproben gezogen werdensigmaguess = 0.9# dies ist die im restriktiven Modell angenommene (falsche bzw.# ungenaue) Standardabweichung. Hier kann experimentiert werden!
xval = seq(-8,8,length=500)yval = dnorm(xval)abstand1 = numeric(repeats)abstand2 = numeric(repeats)# rein technische Dinge
Seite 304/11/23|
Nachtrag: Simulation zum Bias-Variance Tradeoff
x11() # öffnet einen Grafikbildschirmpar(mfrow=c(3,3)) # teilt den Grafikbildschirm in
# 3x3 kleine Fenster auffor (n in anzahl){
for (r in 1:repeats){
daten = rnorm(n,mureal,sigmareal)# ziehung der Stichprobemuhat = mean(daten)# ML-Schätzung des Erwartungswerts (beide Modelle)sigmahat = sd(daten)# ML-Schätzung der Std.Abw (flexibles Modell)abstand1[r] = mean(abs(yval-
dnorm(xval,muhat,sigmaguess)))abstand2[r] = mean(abs(yval-
dnorm(xval,muhat,sigmahat)))# Berechnung der Kolmogoroff-Smirnoff-Statistik# für beide geschätzten Modelle
} # end for r
Seite 404/11/23|
Nachtrag: Simulation zum Bias-Variance Tradeoff
plot(density(abstand1),main=paste("Datengroesse :",n),xlim=c(0,0.05),lwd=2)
points(density(abstand2),col="red",type="l",lwd=2)abline(v=mean(abstand1),col="black",lty=3)abline(v=mean(abstand2),col="red",lty=3)cat(n," Beobachtungen: ",
mean(abstand1),„ vs.",mean(abstand2),"\n")# grafische und textuelle Ausgabe der Ergebnisse
} # end for n
Preisfrage: Für welche Stichprobenumfänge n erwartet man, dass das flexible Modell besser abschneidet, für welche wird eher das restriktive Modell gewinnen? (Die Antwort hängt quantitativ, aber nicht qualitativ von σguess und dessen Abweichung vom tatsächlichen σ (= Bias) ab)
Seite 504/11/23|
0.00 0.01 0.02 0.03 0.04 0.05
010
2030
40
Datengroesse : 3
N = 10000 Bandw idth = 0.002293
Den
sity
0.00 0.01 0.02 0.03 0.04 0.05
010
3050
Datengroesse : 5
N = 10000 Bandw idth = 0.001773
Den
sity
0.00 0.01 0.02 0.03 0.04 0.05
020
4060
80
Datengroesse : 10
N = 10000 Bandw idth = 0.001215
Den
sity
0.00 0.01 0.02 0.03 0.04 0.05
050
100
150
Datengroesse : 20
N = 10000 Bandw idth = 0.0007698
Den
sity
0.00 0.01 0.02 0.03 0.04 0.05
010
020
030
0
Datengroesse : 50
N = 10000 Bandw idth = 0.0003618
Den
sity
0.00 0.01 0.02 0.03 0.04 0.05
020
040
060
0
Datengroesse : 100
N = 10000 Bandw idth = 0.0001966
Den
sity
0.00 0.01 0.02 0.03 0.04 0.05
040
080
012
00
Datengroesse : 200
N = 10000 Bandw idth = 9.787e-05
Den
sity
0.00 0.01 0.02 0.03 0.04 0.05
010
0020
0030
00
Datengroesse : 500
N = 10000 Bandw idth = 3.996e-05
Den
sity
0.00 0.01 0.02 0.03 0.04 0.050
2000
4000
6000
Datengroesse : 1000
N = 10000 Bandw idth = 2.04e-05
Den
sity
Simulation zum Bias-Variance TradeoffRestriktives ModellFlexibles Modell
Dimensionsreduktion:Hauptkomponentenanalyse (PCA)
Lineare Diskriminanzanalyse (LDA)
Maschinelles Lernen
Seite 704/11/23|
Principal Components Analyse
Gegeben: Hochdimensionale Daten x1,…,xn∊ℝp (p groß).
Aufgabe: Finde eine Projektion P auf einen eindimensionalen Raum, die möglichst viel „Information“ aus den Daten transportiert.
Der eindimensionale Raum sei gegeben durch x = m+ae , e ∊ℝp , a ∊ℝ,
m sei der Schwerpunkt der Daten,
Wir suchen eine Projektion xj → m+aje, die folgendes Zielkriterium minimiert:
n
jj
n
jj
tj
n
jj
n
jjjjj
n
jjjn
xmxmeaea
xmeaxmea
xeameaaJ
1
2
11
22
1
2
11
)(2
)(),(
)( ),,...,(
n
jjxm
1
Seite 804/11/23|
Principal Components Analyse
)(22),,...,(0 1!
kt
knk
xmeaeaaJa
Partielles Ableiten und Nullsetzen liefert (oBdA ||e|| = 1) :
)( mxea kt
k
m
xk
m+ake
e
.
m+ake ist die orthogonale Projektion von xk auf die Gerade m+ae, a ∊ℝ.
Seite 904/11/23|
n
jj
t
n
jj
tj
n
jj
t
n
jj
n
jj
t
n
jj
n
jj
tj
tn
jj
t
xmSee
xmemxmxe
xmmxe
xmxmemxemxeeJ
1
2
1
2
1
1
2
1
2
1
2
11
2
)()(
))((
)()(2))(( )(
Setze in J(a1,…,an,e) ein : )( mxea kt
k
n
j
tjj mxmxS
1
))((mit der Streumatrix
Principal Components Analyse
Seite 1004/11/23|
Principal Components Analyse
Minimiere J(e), d.h. maximiere etSe unter der Nebenbedingung ||e|| = 1:
Lagrange Multiplikator - Methode:
)1( eSeeL t
eSee
L 22 0 !
eSe
See
eSeSee
SeeSeeee
LSeSee
See
LeSee
e
LSee
e
L
tk
kt
k
t
k
tt
k
t
k
tk
tk
tk
tk
2
)(
, denn
Somit muss
gelten, und wegen etSe = etλe = λ ist λ der maximale Eigenwert von S.
Seite 1104/11/23|
Principal Components Analyse
Definition Principal Components Analyse: Projiziere die Datenpunkte orthogonal auf die Gerade, welche durch den Schwerpunkt der Daten verläuft und deren Richtung durch den Eigenvektor der Streumatrix gegeben ist, welcher den größten Eigenwert hat.
Erweiterung: Projiziere auf einen d-dimensionalen (affinen) Raum, d>1, welcher von ek, k=1,…,d aufgespannt wird und welcher den Schwerpunkt der Daten enthält. Die zu optimierende Zielfunktion lautet dann
2
1
11111 )...( ),...,,,...,(
n
jj
ddjj
ddn xeaeameeaaJ
n
jj
d
k
ktkd xmSeeeeJ1
2
1
1 )( ),...,(
Wie zuvor zeigt man, dass die ajk die orthogonale Projektion der xj auf den durch
m,e1,…,ed gegebenen Raum definieren. Die Zielfunktion vereinfacht sich dann zu
Es folgt mit den gleichen Argumenten, dass ek der Eigenvektor der Streumatrix mit dem k.-größten Eigenwert ist.
Seite 1204/11/23|
Principal Components Analyse
Da die Streumatrix S symmetrisch ist, folgt, dass die Eigenvektoren von S paarweise senkrecht aufeinander stehen:
21222121 vvvvSvv ttt
211121112
12122121 )(
vvvvvv
SvvvSvSvvSvvttt
tttttt
Für λ1≠ λ2 folgt daraus
Somit ist 0)( 2121 vvt
021 vvt
(Die Eigenvektoren innerhalb eines Eigenraumes können stets paarweise senkrecht gewählt werden, z.B. Schmidtsches Orthogonalisierungsverfahren).
Seite 1304/11/23|
Lineare Diskriminanzanalyse (Fisher)
Sir Ronald Aylmer Fisher (1890-1962)
Nachteile der PCA: Falls Information über die Klassenzugehörigkeit von Datenpunkten vorliegt, wird diese bei der PCA ignoriert. Die so gefundene Projektion kann u.U. die entscheidende Information vernichten!
Seite 1404/11/23|
Lineare Diskriminanzanalyse
Seite 1504/11/23|
Lineare Diskriminanzanalyse
Streuung der projizierten Gruppenmittel ist groß
Streuung innerhalb der proji-zierten Gruppen ist klein
Idee der LDA:Streuung innerhalb der projizierten Gruppen:
wSw
wmxmxw
mxws
jt
tj
jKlassexj
t
jKlassexj
tj
)()(
))((
22
w
jKlassex
j xjKlasse
m | |
1
21 SSSw
tj
jKlassexjj mxmxS )()(
Setze Dann ist wSwsss wt 2
221
2
Seite 1604/11/23|
Lineare Diskriminanzanalyse
Streuung der projizierten Gruppenmittel ist groß
Streuung innerhalb der proji-zierten Gruppen ist klein
Idee der LDA:Streuung zwischen den projizierten Gruppen:
wSw
wmmmmwmmw
bt
ttt
))(())(( 21212
21
w
tb mmmmS ))(( 2121
Die zu maximierende Zielfunktion lautet:
wSw
wSwwJ
wtb
t
)(
Seite 1704/11/23|
Somit muss gelten
Lineare Diskriminanzanalyse
wSw
wSwwJ
wtb
t
)(
J(w) ist invariant gegenüber Skalierung von w. Daher ist Maximierung von J(w) äquivalent zur Minimierung von wtSww unter der Nebenbedingung wtSbw = 1.
Analog zum Vorgehen bei der PCA verwenden wir Lagrange-Multiplikatoren:
)1( wSwwSwL bt
wt
wSwSw
Lbw 22 0 !
wSwS bw
Nehmen wir vereinfachend an, Sw sei invertierbar. Dann folgt
Beachte, dass ein Vielfaches von m1-m2 ist.
)(' 2111 mmSwSSw wbw
wmmmmwS tb ))(( 2121
also maximiert die Zielfunktion J(w).
)( 211 mmSw w