Upload
others
View
13
Download
0
Embed Size (px)
Citation preview
Inferenza Statistica Classica:Verosimiglianza e Stima Puntuale
Patrizio Frederic
Dipartimento di Economia Politica,Universita di Modena e Reggio Emilia,
Eco.Progr.
Frederic (Dip.Econom) Inferenza Eco.Progr. 1 / 94
Indice
1 Fatti e congetture
2 Stimatori e Stima
3 Misure di verosimiglianza
4 Modelli multiparametrici
5 Misure di informazione
6 Modelli lineari
7 Modelli Lineari Generalizzati (GLM)Un modello logitIl modello di Poisson
8 Alta dimensionalita
Frederic (Dip.Econom) Inferenza Eco.Progr. 2 / 94
Fatti e congetture
Inferenza diretta e inferenza inversa.
“Uscira “6” dal lancio di questo dado”
“Questo dado e truccato.”
“Sapendo che A ha contratto la patologia X, A ha la febbre.”
“Sapendo che A ha la febbre, A ha contratto X.”
“L’indice Down Jones tra 3 ore quotera 13.100”
“La riduzione del costo del denaro incide del p% sul Down Jones.”
“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”
“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”
Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94
Fatti e congetture
Inferenza diretta e inferenza inversa.
“Uscira “6” dal lancio di questo dado”
“Questo dado e truccato.”
“Sapendo che A ha contratto la patologia X, A ha la febbre.”
“Sapendo che A ha la febbre, A ha contratto X.”
“L’indice Down Jones tra 3 ore quotera 13.100”
“La riduzione del costo del denaro incide del p% sul Down Jones.”
“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”
“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”
Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94
Fatti e congetture
Inferenza diretta e inferenza inversa.
“Uscira “6” dal lancio di questo dado”
“Questo dado e truccato.”
“Sapendo che A ha contratto la patologia X, A ha la febbre.”
“Sapendo che A ha la febbre, A ha contratto X.”
“L’indice Down Jones tra 3 ore quotera 13.100”
“La riduzione del costo del denaro incide del p% sul Down Jones.”
“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”
“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”
Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94
Fatti e congetture
Inferenza diretta e inferenza inversa.
“Uscira “6” dal lancio di questo dado”
“Questo dado e truccato.”
“Sapendo che A ha contratto la patologia X, A ha la febbre.”
“Sapendo che A ha la febbre, A ha contratto X.”
“L’indice Down Jones tra 3 ore quotera 13.100”
“La riduzione del costo del denaro incide del p% sul Down Jones.”
“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”
“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”
Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94
Fatti e congetture
Inferenza diretta e inferenza inversa.
“Uscira “6” dal lancio di questo dado”
“Questo dado e truccato.”
“Sapendo che A ha contratto la patologia X, A ha la febbre.”
“Sapendo che A ha la febbre, A ha contratto X.”
“L’indice Down Jones tra 3 ore quotera 13.100”
“La riduzione del costo del denaro incide del p% sul Down Jones.”
“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”
“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”
Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94
Fatti e congetture
Inferenza diretta e inferenza inversa.
“Uscira “6” dal lancio di questo dado”
“Questo dado e truccato.”
“Sapendo che A ha contratto la patologia X, A ha la febbre.”
“Sapendo che A ha la febbre, A ha contratto X.”
“L’indice Down Jones tra 3 ore quotera 13.100”
“La riduzione del costo del denaro incide del p% sul Down Jones.”
“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”
“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”
Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94
Fatti e congetture
Inferenza diretta e inferenza inversa.
“Uscira “6” dal lancio di questo dado”
“Questo dado e truccato.”
“Sapendo che A ha contratto la patologia X, A ha la febbre.”
“Sapendo che A ha la febbre, A ha contratto X.”
“L’indice Down Jones tra 3 ore quotera 13.100”
“La riduzione del costo del denaro incide del p% sul Down Jones.”
“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”
“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”
Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94
Fatti e congetture
Inferenza diretta e inferenza inversa.
“Uscira “6” dal lancio di questo dado”
“Questo dado e truccato.”
“Sapendo che A ha contratto la patologia X, A ha la febbre.”
“Sapendo che A ha la febbre, A ha contratto X.”
“L’indice Down Jones tra 3 ore quotera 13.100”
“La riduzione del costo del denaro incide del p% sul Down Jones.”
“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”
“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”
Frederic (Dip.Econom) Inferenza Eco.Progr. 3 / 94
Stimatori e Stima
Stimatore e stima
Siano X = (X1, ..., Xn) n VA IID, Xi ∼ L (θ) e sia h una funzione,
h : X→ Θ, h(X) = θ
Allora h e detto uno stimatore per θ.Sia x = (x1, ..., xn) realizzazione di X e sia h uno stimatore allora h(x) edetta la stima di θ.Esempio Siano X = (X1, ..., Xn) n VA IID, X ∼ Ber(θ), con θ incognito
h(X) =X1 + ...+Xn
n
Se n = 5, x = (0, 1, 1, 0, 1) allora
h(x) =3
5= 0.6
Frederic (Dip.Econom) Inferenza Eco.Progr. 4 / 94
Stimatori e Stima
Correttezza di uno stimatore
Siano X = (X1, ..., Xn) n VA IID, Xi ∼ L (θ) e sia h uno stimatore per θ.Si dice che h e corretto se
E(h(X)) = θ
Frederic (Dip.Econom) Inferenza Eco.Progr. 5 / 94
Stimatori e Stima
Correttezza di uno stimatoreEsempio
Siano X = (X1, ..., Xn) n VA IID, X ∼ Ber(θ), con θ incognito. Siano
h(X) =X1 + ...+Xn
n; h∗(X) =
X2 + ...+Xn−2
n
Se n = 5, x = (0, 1, 1, 0, 1) allora
h(x) =3
5= 0.6; h∗(x) =
2
5= 0.4
Il valore atteso
E(h(X)) = E
(X1 + ...+Xn
n
)=
1
nE(X1 + ...+Xn)
=1
n(E(X1) + ...+ E(Xn)) = θ
E(h∗(X)) = E
(X2 + ...+Xn−1
n
)=
1
nE(X2 + ...+Xn−1)
=1
n(E(X1) + ...+ E(Xn−1)) =
n− 2
nθ
Frederic (Dip.Econom) Inferenza Eco.Progr. 6 / 94
Stimatori e Stima
Efficienza di uno stimatore
Siano X = (X1, ..., Xn) n VA IID, Xi ∼ L (θ) e sia h uno stimatore per θ.Si definisce il Mean Square Error, MSE, la quantita
MSE(h) = E((h(X)− θ)2)
= V (h(X)) +B2(h(X))
doveB2(h(X)) =
(E(h(X)
)− θ)2
Siano h e h∗ due stimatori, diremo che h e piu efficiente di h∗ se
MSE(h) < MSE(h∗)
Frederic (Dip.Econom) Inferenza Eco.Progr. 7 / 94
Stimatori e Stima
Efficienza di uno stimatoreEsempio
Siano X = (X1, ..., Xn) n VA IID, X ∼ Ber(θ), con θ incognito. Siano
h(X) =X1 + ...+Xn
n; h∗(X) =
X2 + ...+Xn−2
n
L’efficienza:
MSE(h(X)) = V
(X1 + ...+Xn
n
)=
1
n2V (X1 + ...+Xn)
=1
n2(V (X1) + ...+ V (Xn)) =
θ(1− θ)n
MSE(h∗(X)) = V
(X2 + ...+Xn−1
n
)+B2(h∗(X))
=1
n2V (X2 + ...+Xn−1) +
(θ − n− 2
nθ
)=
n− 2
n2θ(1− θ) + (2θ/n)2
Frederic (Dip.Econom) Inferenza Eco.Progr. 8 / 94
Stimatori e Stima
Confronto efficienza.
0.0 0.2 0.4 0.6 0.8 1.0
0.00
0.05
0.10
0.15
pi
MS
E
Frederic (Dip.Econom) Inferenza Eco.Progr. 9 / 94
Stimatori e Stima
Consistenza di uno stimatore
Siano X = (X1, ..., Xn) n VA IID, Xi ∼ L (θ) e sia h uno stimatore per θ.Si dice che h e consistente per θ, se
h(X)L2
−→ θ
Teorema SeMSE(h(X))→ 0, per n→∞
allora h e consistente.
Frederic (Dip.Econom) Inferenza Eco.Progr. 10 / 94
Stimatori e Stima
Consistenza di uno stimatoreEsempio
Siano X = (X1, ..., Xn) n VA IID, X ∼ Ber(θ), con θ incognito. Siano
h(X) =X1 + ...+Xn
n; h∗(X) =
X2 + ...+Xn−2
n
L’efficienza:
MSE(h(X)) =θ(1− θ)
n→ 0, se n→∞
MSE(h∗(X)) =n− 2
n2θ(1− θ) + (2θ/n)2 → 0, se n→∞
Frederic (Dip.Econom) Inferenza Eco.Progr. 11 / 94
Misure di verosimiglianza
Esiste lo stimatore piu efficiente?
Siano X = (X1, ..., Xn) n VA IID. Ci chiediamo se esiste uno stimatore htale che
MSE(h) < MSE(h∗), per ogni h∗ 6= h
Per rispondere dobbiamo introdurre il concetto di verosimiglianza.Sia X = (X1, ..., Xn) n VA IID Xi ∼ L (θ) si definisce funzione diverosimiglianza la funzione in θ
L(θ; x) = Const.P (X = x; θ)
∝n∏i=1
P (Xi = xi; θ)
Nota la funzione di verosimiglianza non e una probabilita su θ ma alla lucedi x mi dice quando e verosimile un valore di θ.Tanto piu e alta la probabilita che P (X = x; θ) tanto piu θ e verosimile
Frederic (Dip.Econom) Inferenza Eco.Progr. 12 / 94
Misure di verosimiglianza
Probabilita e Inferenza
Problema di probabilita
So com’e fatta l’urna (conosco θ = θ0), con quale probabilita estraggoSn = sn?
P (Sn = sn; θ = θ0)
Problema di Inferenza
Ho ottenuto Sn = sn, quanto e verosimile θ = θ0?
L(θ0;Sn = sn)
Frederic (Dip.Econom) Inferenza Eco.Progr. 13 / 94
Misure di verosimiglianza
Esempio binomiale
Supponiamo n = 10, Xi ∼ Ber(θ), e x = (0, 1, 1, 0, 1, 1, 1, 1, 0, 1)
Nota che in ipotesi IID x e equivalente a sn =∑xi = 7
Definiamo L(θ;Sn) = L(θ) la funzione di verosimiglianza per θ
L(θ) = Const · P (Sn = sn; θ)
Posto Sn = 7, n = 10, la verosimiglianza per alcuni valori di θ
L(θ = 0.00;Sn = 7) = 0
L(θ = 0.10;Sn = 7) < 10−5
L(θ = 0.50;Sn = 7) = 0.1172
L(θ = 0.70;Sn = 7) = 0.2668
L(θ = 0.95;Sn = 7) = 0.0105
L(θ = 1.00;Sn = 7) = 0.
Frederic (Dip.Econom) Inferenza Eco.Progr. 14 / 94
Misure di verosimiglianza
Esempio binomiale
Supponiamo n = 10, Xi ∼ Ber(θ), e x = (0, 1, 1, 0, 1, 1, 1, 1, 0, 1)
Nota che in ipotesi IID x e equivalente a sn =∑xi = 7
Definiamo L(θ;Sn) = L(θ) la funzione di verosimiglianza per θ
L(θ) = Const · P (Sn = sn; θ)
Posto Sn = 7, n = 10, la verosimiglianza per alcuni valori di θ
L(θ = 0.00;Sn = 7) = 0
L(θ = 0.10;Sn = 7) < 10−5
L(θ = 0.50;Sn = 7) = 0.1172
L(θ = 0.70;Sn = 7) = 0.2668
L(θ = 0.95;Sn = 7) = 0.0105
L(θ = 1.00;Sn = 7) = 0.
Frederic (Dip.Econom) Inferenza Eco.Progr. 14 / 94
Misure di verosimiglianza
Esempio binomiale
Supponiamo n = 10, Xi ∼ Ber(θ), e x = (0, 1, 1, 0, 1, 1, 1, 1, 0, 1)
Nota che in ipotesi IID x e equivalente a sn =∑xi = 7
Definiamo L(θ;Sn) = L(θ) la funzione di verosimiglianza per θ
L(θ) = Const · P (Sn = sn; θ)
Posto Sn = 7, n = 10, la verosimiglianza per alcuni valori di θ
L(θ = 0.00;Sn = 7) = 0
L(θ = 0.10;Sn = 7) < 10−5
L(θ = 0.50;Sn = 7) = 0.1172
L(θ = 0.70;Sn = 7) = 0.2668
L(θ = 0.95;Sn = 7) = 0.0105
L(θ = 1.00;Sn = 7) = 0.
Frederic (Dip.Econom) Inferenza Eco.Progr. 14 / 94
Misure di verosimiglianza
Esempio binomiale
Supponiamo n = 10, Xi ∼ Ber(θ), e x = (0, 1, 1, 0, 1, 1, 1, 1, 0, 1)
Nota che in ipotesi IID x e equivalente a sn =∑xi = 7
Definiamo L(θ;Sn) = L(θ) la funzione di verosimiglianza per θ
L(θ) = Const · P (Sn = sn; θ)
Posto Sn = 7, n = 10, la verosimiglianza per alcuni valori di θ
L(θ = 0.00;Sn = 7) = 0
L(θ = 0.10;Sn = 7) < 10−5
L(θ = 0.50;Sn = 7) = 0.1172
L(θ = 0.70;Sn = 7) = 0.2668
L(θ = 0.95;Sn = 7) = 0.0105
L(θ = 1.00;Sn = 7) = 0.
Frederic (Dip.Econom) Inferenza Eco.Progr. 14 / 94
Misure di verosimiglianza
La funzione di verosimiglianza con Const = 1
theta
lik (x)
0.0 0.5 0.7 1.0
0.000
00.0
005
0.001
00.0
015
0.002
0
Frederic (Dip.Econom) Inferenza Eco.Progr. 15 / 94
Misure di verosimiglianza
Lo stimatore di massima verosimiglianza
Definiamo:θ = argmax
θ∈ΘL(θ)
Qui Θ = [0, 1]
Nel caso Bernoulli:
θ =snn
=7
10= 0.7
Frederic (Dip.Econom) Inferenza Eco.Progr. 16 / 94
Misure di verosimiglianza
Lo stimatore di massima verosimiglianza
Definiamo:θ = argmax
θ∈ΘL(θ)
Qui Θ = [0, 1]
Nel caso Bernoulli:
θ =snn
=7
10= 0.7
Frederic (Dip.Econom) Inferenza Eco.Progr. 16 / 94
Misure di verosimiglianza
Lo stimatore di massima verosimiglianza
Definiamo:θ = argmax
θ∈ΘL(θ)
Qui Θ = [0, 1]
Nel caso Bernoulli:
θ =snn
=7
10= 0.7
Frederic (Dip.Econom) Inferenza Eco.Progr. 16 / 94
Misure di verosimiglianza
La funzione di verosimiglianza con L−1(θ)
0.0 0.2 0.4 0.6 0.8 1.0
0.00.2
0.40.6
0.81.0
x
likn (x
)
Frederic (Dip.Econom) Inferenza Eco.Progr. 17 / 94
Misure di verosimiglianza
La log-verosimiglianza e misure collegate
Definiamo la funzione di log-verosimiglianza:
`(θ) = logL(θ)
Notaθ = argmax
θ∈ΘL(θ) = argmax
θ∈Θ`(θ)
definiamo la funzione score
s(θ) =d
dθ`(θ) = `′(θ)
definiamo l’informazione di Fisher osservata:
I = −(d2
dθ2`(θ)
∣∣∣∣θ=θ
)= (`′′(θ))
Frederic (Dip.Econom) Inferenza Eco.Progr. 18 / 94
Misure di verosimiglianza
La log-verosimiglianza e misure collegate
Definiamo la funzione di log-verosimiglianza:
`(θ) = logL(θ)
Notaθ = argmax
θ∈ΘL(θ) = argmax
θ∈Θ`(θ)
definiamo la funzione score
s(θ) =d
dθ`(θ) = `′(θ)
definiamo l’informazione di Fisher osservata:
I = −(d2
dθ2`(θ)
∣∣∣∣θ=θ
)= (`′′(θ))
Frederic (Dip.Econom) Inferenza Eco.Progr. 18 / 94
Misure di verosimiglianza
La log-verosimiglianza e misure collegate
Definiamo la funzione di log-verosimiglianza:
`(θ) = logL(θ)
Notaθ = argmax
θ∈ΘL(θ) = argmax
θ∈Θ`(θ)
definiamo la funzione score
s(θ) =d
dθ`(θ) = `′(θ)
definiamo l’informazione di Fisher osservata:
I = −(d2
dθ2`(θ)
∣∣∣∣θ=θ
)= (`′′(θ))
Frederic (Dip.Econom) Inferenza Eco.Progr. 18 / 94
Misure di verosimiglianza
La log-verosimiglianza e misure collegate
Definiamo la funzione di log-verosimiglianza:
`(θ) = logL(θ)
Notaθ = argmax
θ∈ΘL(θ) = argmax
θ∈Θ`(θ)
definiamo la funzione score
s(θ) =d
dθ`(θ) = `′(θ)
definiamo l’informazione di Fisher osservata:
I = −(d2
dθ2`(θ)
∣∣∣∣θ=θ
)= (`′′(θ))
Frederic (Dip.Econom) Inferenza Eco.Progr. 18 / 94
Misure di verosimiglianza
La funzione di log-verosimiglianza
x
llikn (
x)
0.0 0.5 0.7 1.0
−25
−20
−15
−10
−50
log−liks(0.5)l(thetahat)
Frederic (Dip.Econom) Inferenza Eco.Progr. 19 / 94
Misure di verosimiglianza
Verosimiglianza, log verosimiglianza, e score nel caso Bernoulli
La verosimiglianza:
L(θ) ∝(n
sn
)θsn(1− θ)n−sn
∝ Const θsn(1− θ)n−sn
La log-verosimiglianza:
`(θ) = logConst+ sn log θ + (n− sn) log(1− θ)
La score function
s(θ) = `′(θ) =snθ− n− sn
1− θ
Frederic (Dip.Econom) Inferenza Eco.Progr. 20 / 94
Misure di verosimiglianza
Verosimiglianza, log verosimiglianza, e score nel caso Bernoulli
La verosimiglianza:
L(θ) ∝(n
sn
)θsn(1− θ)n−sn
∝ Const θsn(1− θ)n−sn
La log-verosimiglianza:
`(θ) = logConst+ sn log θ + (n− sn) log(1− θ)
La score function
s(θ) = `′(θ) =snθ− n− sn
1− θ
Frederic (Dip.Econom) Inferenza Eco.Progr. 20 / 94
Misure di verosimiglianza
Verosimiglianza, log verosimiglianza, e score nel caso Bernoulli
La verosimiglianza:
L(θ) ∝(n
sn
)θsn(1− θ)n−sn
∝ Const θsn(1− θ)n−sn
La log-verosimiglianza:
`(θ) = logConst+ sn log θ + (n− sn) log(1− θ)
La score function
s(θ) = `′(θ) =snθ− n− sn
1− θ
Frederic (Dip.Econom) Inferenza Eco.Progr. 20 / 94
Misure di verosimiglianza
Informazione nel caso Bernoulli
La derivata seconda:
`′′(θ) = −snθ2
+n− sn
(1− θ)2
L’informazione di Fisher osservata e:
I = −`′′(θ)
= − −(nθ2 − 2snθ + sn)
θ2(1− θ)2
∣∣∣∣θ=θ
= n1
θ(1− θ)= nvar−1(x)
Se sn = 7 e n = 10, allora
I =10
0.7 · (1− 0.7)= 47.61905
Frederic (Dip.Econom) Inferenza Eco.Progr. 21 / 94
Misure di verosimiglianza
Informazione nel caso Bernoulli
La derivata seconda:
`′′(θ) = −snθ2
+n− sn
(1− θ)2
L’informazione di Fisher osservata e:
I = −`′′(θ)
= − −(nθ2 − 2snθ + sn)
θ2(1− θ)2
∣∣∣∣θ=θ
= n1
θ(1− θ)= nvar−1(x)
Se sn = 7 e n = 10, allora
I =10
0.7 · (1− 0.7)= 47.61905
Frederic (Dip.Econom) Inferenza Eco.Progr. 21 / 94
Misure di verosimiglianza
Informazione nel caso Bernoulli
La derivata seconda:
`′′(θ) = −snθ2
+n− sn
(1− θ)2
L’informazione di Fisher osservata e:
I = −`′′(θ)
= − −(nθ2 − 2snθ + sn)
θ2(1− θ)2
∣∣∣∣θ=θ
= n1
θ(1− θ)= nvar−1(x)
Se sn = 7 e n = 10, allora
I =10
0.7 · (1− 0.7)= 47.61905
Frederic (Dip.Econom) Inferenza Eco.Progr. 21 / 94
Misure di verosimiglianza
Se n cresce e sn/n rimane costante...
Si considerino le seguenti situazioni:
sn = 7 n = 10
sn = 70 n = 100
sn = 700 n = 1000
la stima di massima verosimiglianza rimane invariata
θ = sn/n = 0.7
L’informazione di Fisher cambia:
sn = 7 n = 10 I = 10 · (0.7 · 0.3)−1 = 47.6372
sn = 70 n = 100 I = 100 · (0.7 · 0.3)−1 = 476.372
sn = 700 n = 1000 I = 1000 · (0.7 · 0.3)−1 = 4763.72
Frederic (Dip.Econom) Inferenza Eco.Progr. 22 / 94
Misure di verosimiglianza
Se n cresce e sn/n rimane costante...
Si considerino le seguenti situazioni:
sn = 7 n = 10
sn = 70 n = 100
sn = 700 n = 1000
la stima di massima verosimiglianza rimane invariata
θ = sn/n = 0.7
L’informazione di Fisher cambia:
sn = 7 n = 10 I = 10 · (0.7 · 0.3)−1 = 47.6372
sn = 70 n = 100 I = 100 · (0.7 · 0.3)−1 = 476.372
sn = 700 n = 1000 I = 1000 · (0.7 · 0.3)−1 = 4763.72
Frederic (Dip.Econom) Inferenza Eco.Progr. 22 / 94
Misure di verosimiglianza
La funzione di log-verosimiglianza a parita di sn con n crescente
0.0 0.2 0.4 0.6 0.8 1.0
−25
−20
−15
−10
−50
x
llikn (
x)
Frederic (Dip.Econom) Inferenza Eco.Progr. 23 / 94
Misure di verosimiglianza
Ricapitoliamo
x = (X1, ..., Xn) VC e x = (x1, ..., xn) sua realizzazione
p(x; θ) distribuzione congiunta di x, ovvero:
p(x; θ) =
{P (X1 = x1 ∩ ... ∩Xn = xn; θ), Se X discreta
fX(x1, ..., xn; θ), Se X continua, fX densita
Se X IID allora Xi ∼ X
p(x; θ) =n∏i=1
p(xi)
La verosimiglianza per θ e data
L(θ) ∝ p(x; θ); `(θ) = log p(x; θ)
e se X IID allora
L(θ) ∝n∏i=1
p(xi); `(θ) =
n∑i=1
log p(xi; θ)
Frederic (Dip.Econom) Inferenza Eco.Progr. 24 / 94
Misure di verosimiglianza
Ricapitoliamo
x = (X1, ..., Xn) VC e x = (x1, ..., xn) sua realizzazionep(x; θ) distribuzione congiunta di x, ovvero:
p(x; θ) =
{P (X1 = x1 ∩ ... ∩Xn = xn; θ), Se X discreta
fX(x1, ..., xn; θ), Se X continua, fX densita
Se X IID allora Xi ∼ X
p(x; θ) =n∏i=1
p(xi)
La verosimiglianza per θ e data
L(θ) ∝ p(x; θ); `(θ) = log p(x; θ)
e se X IID allora
L(θ) ∝n∏i=1
p(xi); `(θ) =
n∑i=1
log p(xi; θ)
Frederic (Dip.Econom) Inferenza Eco.Progr. 24 / 94
Misure di verosimiglianza
Ricapitoliamo
x = (X1, ..., Xn) VC e x = (x1, ..., xn) sua realizzazionep(x; θ) distribuzione congiunta di x, ovvero:
p(x; θ) =
{P (X1 = x1 ∩ ... ∩Xn = xn; θ), Se X discreta
fX(x1, ..., xn; θ), Se X continua, fX densita
Se X IID allora Xi ∼ X
p(x; θ) =
n∏i=1
p(xi)
La verosimiglianza per θ e data
L(θ) ∝ p(x; θ); `(θ) = log p(x; θ)
e se X IID allora
L(θ) ∝n∏i=1
p(xi); `(θ) =
n∑i=1
log p(xi; θ)
Frederic (Dip.Econom) Inferenza Eco.Progr. 24 / 94
Misure di verosimiglianza
Ricapitoliamo
x = (X1, ..., Xn) VC e x = (x1, ..., xn) sua realizzazionep(x; θ) distribuzione congiunta di x, ovvero:
p(x; θ) =
{P (X1 = x1 ∩ ... ∩Xn = xn; θ), Se X discreta
fX(x1, ..., xn; θ), Se X continua, fX densita
Se X IID allora Xi ∼ X
p(x; θ) =
n∏i=1
p(xi)
La verosimiglianza per θ e data
L(θ) ∝ p(x; θ); `(θ) = log p(x; θ)
e se X IID allora
L(θ) ∝n∏i=1
p(xi); `(θ) =
n∑i=1
log p(xi; θ)
Frederic (Dip.Econom) Inferenza Eco.Progr. 24 / 94
Misure di verosimiglianza
Ricapitoliamo
Lo stimatore di massima verosimiglianza e
θ = argmaxθ∈Θ
`(θ) = argminθ∈Θ
− `(θ)
L’informazione di Fisher osservata
I = −`′′(θ)
Informazione di Fisher
Supposto θ sia il vero parametro si definisce
I(θ) = −EX(`′′(θ))
= EX((`′(θ))2)
Frederic (Dip.Econom) Inferenza Eco.Progr. 25 / 94
Misure di verosimiglianza
Ricapitoliamo
Lo stimatore di massima verosimiglianza e
θ = argmaxθ∈Θ
`(θ) = argminθ∈Θ
− `(θ)
L’informazione di Fisher osservata
I = −`′′(θ)
Informazione di Fisher
Supposto θ sia il vero parametro si definisce
I(θ) = −EX(`′′(θ))
= EX((`′(θ))2)
Frederic (Dip.Econom) Inferenza Eco.Progr. 25 / 94
Misure di verosimiglianza
Ricapitoliamo
Lo stimatore di massima verosimiglianza e
θ = argmaxθ∈Θ
`(θ) = argminθ∈Θ
− `(θ)
L’informazione di Fisher osservata
I = −`′′(θ)
Informazione di Fisher
Supposto θ sia il vero parametro si definisce
I(θ) = −EX(`′′(θ))
= EX((`′(θ))2)
Frederic (Dip.Econom) Inferenza Eco.Progr. 25 / 94
Misure di verosimiglianza
log-likelihood, repeated samples
x
l(x, 1
)
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
−150
−100
−50
0
Frederic (Dip.Econom) Inferenza Eco.Progr. 26 / 94
Misure di verosimiglianza
Fisher Information
se X IID allora, Xi ∼ X,
I(θ) = −n∑i=1
EXi(`′′(θ;Xi)) = ni(θ), i(θ) = EX(p′′(X; θ))
Cramer-Rao Inequality
Sia h uno stimatore per θ, tale che E(h) = ξ(θ), allora
V (h) ≥ (ξ′(θ))2I−1(θ)
se h e corretto E(h) = θ, e dunque
V (h) ≥ I−1(θ) = n−1i−1(θ)
Frederic (Dip.Econom) Inferenza Eco.Progr. 27 / 94
Misure di verosimiglianza
Proprieta asintotiche
Stimatori di massima verosimiglianza
E(θ)→ θ
V (θ)→ I−1(θ)
θd−→ N(θ, I−1(θ))
θP−→ θ
IP−→ I(θ)
Sia ψ una trasformazione monotona allora:
ψ(θ) = ψ(θ)
Frederic (Dip.Econom) Inferenza Eco.Progr. 28 / 94
Misure di verosimiglianza
Proprieta asintotiche
Stimatori di massima verosimiglianza
E(θ)→ θ
V (θ)→ I−1(θ)
θd−→ N(θ, I−1(θ))
θP−→ θ
IP−→ I(θ)
Sia ψ una trasformazione monotona allora:
ψ(θ) = ψ(θ)
Frederic (Dip.Econom) Inferenza Eco.Progr. 28 / 94
Misure di verosimiglianza
Proprieta asintotiche
Stimatori di massima verosimiglianza
E(θ)→ θ
V (θ)→ I−1(θ)
θd−→ N(θ, I−1(θ))
θP−→ θ
IP−→ I(θ)
Sia ψ una trasformazione monotona allora:
ψ(θ) = ψ(θ)
Frederic (Dip.Econom) Inferenza Eco.Progr. 28 / 94
Misure di verosimiglianza
Proprieta asintotiche
Stimatori di massima verosimiglianza
E(θ)→ θ
V (θ)→ I−1(θ)
θd−→ N(θ, I−1(θ))
θP−→ θ
IP−→ I(θ)
Sia ψ una trasformazione monotona allora:
ψ(θ) = ψ(θ)
Frederic (Dip.Econom) Inferenza Eco.Progr. 28 / 94
Misure di verosimiglianza
Proprieta asintotiche
Stimatori di massima verosimiglianza
E(θ)→ θ
V (θ)→ I−1(θ)
θd−→ N(θ, I−1(θ))
θP−→ θ
IP−→ I(θ)
Sia ψ una trasformazione monotona allora:
ψ(θ) = ψ(θ)
Frederic (Dip.Econom) Inferenza Eco.Progr. 28 / 94
Misure di verosimiglianza
Proprieta asintotiche
Stimatori di massima verosimiglianza
E(θ)→ θ
V (θ)→ I−1(θ)
θd−→ N(θ, I−1(θ))
θP−→ θ
IP−→ I(θ)
Sia ψ una trasformazione monotona allora:
ψ(θ) = ψ(θ)
Frederic (Dip.Econom) Inferenza Eco.Progr. 28 / 94
Misure di verosimiglianza
Nel caso Bernoulli
Informazione di Fisher
I(θ) = −E(snθ2
+n− sn
(1− θ)2
)=
n
θ(1− θ)
Normalita dello ML:
θd−→ N(θ, θ(1− θ)/n)
θ − θ√θ(1− θ)/n
d−→ N(0, 1)
Proprieta
P (θ − zα/2√I(θ) ≤ θ ≤ θ + zα/2
√I(θ)) = 1− α,
con zα/2 : P (Z ≤ zα/2) = α/2, e Z ∼ N(0, 1).
Frederic (Dip.Econom) Inferenza Eco.Progr. 29 / 94
Misure di verosimiglianza
Nel caso Bernoulli
Informazione di Fisher
I(θ) = −E(snθ2
+n− sn
(1− θ)2
)=
n
θ(1− θ)
Normalita dello ML:
θd−→ N(θ, θ(1− θ)/n)
θ − θ√θ(1− θ)/n
d−→ N(0, 1)
Proprieta
P (θ − zα/2√I(θ) ≤ θ ≤ θ + zα/2
√I(θ)) = 1− α,
con zα/2 : P (Z ≤ zα/2) = α/2, e Z ∼ N(0, 1).
Frederic (Dip.Econom) Inferenza Eco.Progr. 29 / 94
Misure di verosimiglianza
Nel caso Bernoulli
Informazione di Fisher
I(θ) = −E(snθ2
+n− sn
(1− θ)2
)=
n
θ(1− θ)
Normalita dello ML:
θd−→ N(θ, θ(1− θ)/n)
θ − θ√θ(1− θ)/n
d−→ N(0, 1)
Proprieta
P (θ − zα/2√I(θ) ≤ θ ≤ θ + zα/2
√I(θ)) = 1− α,
con zα/2 : P (Z ≤ zα/2) = α/2, e Z ∼ N(0, 1).
Frederic (Dip.Econom) Inferenza Eco.Progr. 29 / 94
Misure di verosimiglianza
Distribuzione di θ con n crescente, se θ = 0.5
Histogram of rbinom(10000, 10, 0.5)/10
rbinom(10000, 10, 0.5)/10
Dens
ity
0.0 0.2 0.4 0.6 0.8 1.0
0.00.5
1.01.5
2.02.5
Histogram of rbinom(10000, 50, 0.5)/50
rbinom(10000, 50, 0.5)/50
Dens
ity
0.0 0.2 0.4 0.6 0.8 1.0
01
23
45
6
Histogram of rbinom(10000, 100, 0.5)/100
rbinom(10000, 100, 0.5)/100
Dens
ity
0.0 0.2 0.4 0.6 0.8 1.0
02
46
8
Histogram of rbinom(10000, 200, 0.5)/200
rbinom(10000, 200, 0.5)/200
Dens
ity
0.0 0.2 0.4 0.6 0.8 1.0
02
46
810
Frederic (Dip.Econom) Inferenza Eco.Progr. 30 / 94
Misure di verosimiglianza
Distribuzione di θ con n crescente, se θ = 0.7
Histogram of rbinom(10000, 10, 0.7)/10
rbinom(10000, 10, 0.7)/10
Dens
ity
0.0 0.2 0.4 0.6 0.8 1.0
0.00.5
1.01.5
2.02.5
Histogram of rbinom(10000, 50, 0.7)/50
rbinom(10000, 50, 0.7)/50
Dens
ity
0.0 0.2 0.4 0.6 0.8 1.0
01
23
45
6
Histogram of rbinom(10000, 100, 0.7)/100
rbinom(10000, 100, 0.7)/100
Dens
ity
0.0 0.2 0.4 0.6 0.8 1.0
02
46
8
Histogram of rbinom(10000, 200, 0.7)/200
rbinom(10000, 200, 0.7)/200
Dens
ity
0.0 0.2 0.4 0.6 0.8 1.0
02
46
810
12
Frederic (Dip.Econom) Inferenza Eco.Progr. 31 / 94
Misure di verosimiglianza
Intervalli di confidenza asintotici
Poiche
P (θ − zα/2√I(θ)−1 ≤ θ ≤ θ + zα/2
√I(θ)−1) = 1− α,
allora
P (θ − zα/2√I−1 ≤ θ ≤ θ + zα/2
√I−1) = 1− α,
Ovvero l’intervallo Iα = [θ − zα/2√I−1, θ + zα/2
√I−1] e detto
intervallo di confidenza asintotico per θ al livello α.
Nel nostro caso, posto 1− α = 0.95 abbiamon min Iα esatto (asintotico) max Iα esatto (asintotico)
10 0.3537 (0.4160) 0.9190 (0.9840)100 0.6102 (0.5989) 0.7898 (0.7855)
1000 0.6716 (0.6704) 0.7284 (0.7281)
Frederic (Dip.Econom) Inferenza Eco.Progr. 32 / 94
Misure di verosimiglianza
Intervalli di confidenza asintotici
Poiche
P (θ − zα/2√I(θ)−1 ≤ θ ≤ θ + zα/2
√I(θ)−1) = 1− α,
allora
P (θ − zα/2√I−1 ≤ θ ≤ θ + zα/2
√I−1) = 1− α,
Ovvero l’intervallo Iα = [θ − zα/2√I−1, θ + zα/2
√I−1] e detto
intervallo di confidenza asintotico per θ al livello α.
Nel nostro caso, posto 1− α = 0.95 abbiamon min Iα esatto (asintotico) max Iα esatto (asintotico)
10 0.3537 (0.4160) 0.9190 (0.9840)100 0.6102 (0.5989) 0.7898 (0.7855)
1000 0.6716 (0.6704) 0.7284 (0.7281)
Frederic (Dip.Econom) Inferenza Eco.Progr. 32 / 94
Misure di verosimiglianza
Test asintotici
Formuliamo le ipotesi: {H0 : θ = 0.5H1 : θ 6= 0.5
,
e consideriamo la statistica test
T =θ − θ√I−1(θ)
, θ stimatore,
definiamo
tobs =θ − θ√I−1(θ)
, θ stima
Frederic (Dip.Econom) Inferenza Eco.Progr. 33 / 94
Misure di verosimiglianza
Test asintotici
definiamopvalue = PH0(|T | > |tobs|)
pvalue puo essere rivisto come una misura di allontananza da H0
pvalue ≤ 0.050 tobs significativamente diverso da zero *pvalue ≤ 0.010 tobs significativamente diverso da zero **pvalue ≤ 0.001 tobs significativamente diverso da zero ***
Nel nostro caso,n pvalue esatto (asintotico)
10 0.3428 (0.2059)100 9.e-05 (6.e-05)
1000 2.e-16 (0.0000)
Frederic (Dip.Econom) Inferenza Eco.Progr. 34 / 94
Misure di verosimiglianza
Test asintotici
definiamopvalue = PH0(|T | > |tobs|)
pvalue puo essere rivisto come una misura di allontananza da H0
pvalue ≤ 0.050 tobs significativamente diverso da zero *pvalue ≤ 0.010 tobs significativamente diverso da zero **pvalue ≤ 0.001 tobs significativamente diverso da zero ***
Nel nostro caso,n pvalue esatto (asintotico)
10 0.3428 (0.2059)100 9.e-05 (6.e-05)
1000 2.e-16 (0.0000)
Frederic (Dip.Econom) Inferenza Eco.Progr. 34 / 94
Misure di verosimiglianza
Test asintotici
definiamopvalue = PH0(|T | > |tobs|)
pvalue puo essere rivisto come una misura di allontananza da H0
pvalue ≤ 0.050 tobs significativamente diverso da zero *
pvalue ≤ 0.010 tobs significativamente diverso da zero **pvalue ≤ 0.001 tobs significativamente diverso da zero ***
Nel nostro caso,n pvalue esatto (asintotico)
10 0.3428 (0.2059)100 9.e-05 (6.e-05)
1000 2.e-16 (0.0000)
Frederic (Dip.Econom) Inferenza Eco.Progr. 34 / 94
Misure di verosimiglianza
Test asintotici
definiamopvalue = PH0(|T | > |tobs|)
pvalue puo essere rivisto come una misura di allontananza da H0
pvalue ≤ 0.050 tobs significativamente diverso da zero *pvalue ≤ 0.010 tobs significativamente diverso da zero **
pvalue ≤ 0.001 tobs significativamente diverso da zero ***
Nel nostro caso,n pvalue esatto (asintotico)
10 0.3428 (0.2059)100 9.e-05 (6.e-05)
1000 2.e-16 (0.0000)
Frederic (Dip.Econom) Inferenza Eco.Progr. 34 / 94
Misure di verosimiglianza
Test asintotici
definiamopvalue = PH0(|T | > |tobs|)
pvalue puo essere rivisto come una misura di allontananza da H0
pvalue ≤ 0.050 tobs significativamente diverso da zero *pvalue ≤ 0.010 tobs significativamente diverso da zero **pvalue ≤ 0.001 tobs significativamente diverso da zero ***
Nel nostro caso,n pvalue esatto (asintotico)
10 0.3428 (0.2059)100 9.e-05 (6.e-05)
1000 2.e-16 (0.0000)
Frederic (Dip.Econom) Inferenza Eco.Progr. 34 / 94
Misure di verosimiglianza
Test asintotici
definiamopvalue = PH0(|T | > |tobs|)
pvalue puo essere rivisto come una misura di allontananza da H0
pvalue ≤ 0.050 tobs significativamente diverso da zero *pvalue ≤ 0.010 tobs significativamente diverso da zero **pvalue ≤ 0.001 tobs significativamente diverso da zero ***
Nel nostro caso,n pvalue esatto (asintotico)
10 0.3428 (0.2059)100 9.e-05 (6.e-05)
1000 2.e-16 (0.0000)
Frederic (Dip.Econom) Inferenza Eco.Progr. 34 / 94
Misure di verosimiglianza
Esempio con Xi ∼ Exp(λ)
Sia X = (X1, ..., Xn) n VA IID Xi ∼ Exp(λ)
f(xi;λ) = λe−λxi
la Likelihood:
L(λ; x) ∝n∏i=1
λe−λxi
= λnn∏i=1
e−λxi
= λne−λ∑ni=1 xi
Frederic (Dip.Econom) Inferenza Eco.Progr. 35 / 94
Misure di verosimiglianza
Esempio con Xi ∼ Exp(λ)
Sia X = (X1, ..., Xn) n VA IID Xi ∼ Exp(λ)
f(xi;λ) = λe−λxi
la Likelihood:
L(λ; x) ∝n∏i=1
λe−λxi
= λnn∏i=1
e−λxi
= λne−λ∑ni=1 xi
Frederic (Dip.Econom) Inferenza Eco.Progr. 35 / 94
Misure di verosimiglianza
Esempio con Xi ∼ Exp(λ)
la log-likelihood
`(θ) = n log λ− λn∑i=1
xi
la derivata prima (la score function)
`′(λ) =n
λ−
n∑i=1
xi
che eguagliata a zero porta:
λ =n∑ni=1 xi
Frederic (Dip.Econom) Inferenza Eco.Progr. 36 / 94
Misure di verosimiglianza
Esempio con Xi ∼ Exp(λ)
la log-likelihood
`(θ) = n log λ− λn∑i=1
xi
la derivata prima (la score function)
`′(λ) =n
λ−
n∑i=1
xi
che eguagliata a zero porta:
λ =n∑ni=1 xi
Frederic (Dip.Econom) Inferenza Eco.Progr. 36 / 94
Misure di verosimiglianza
Esempio con Xi ∼ Exp(λ)
la log-likelihood
`(θ) = n log λ− λn∑i=1
xi
la derivata prima (la score function)
`′(λ) =n
λ−
n∑i=1
xi
che eguagliata a zero porta:
λ =n∑ni=1 xi
Frederic (Dip.Econom) Inferenza Eco.Progr. 36 / 94
Misure di verosimiglianza
Esempio con Xi ∼ Exp(λ)
la derivata seconda`′′(θ) = − n
λ2
l’informazione osservata
I = −`′′(λ) =n
λ2=
(∑n
i=1 xi)2
n
lo SE stimato
SE =√I−1 =
√λ2
n=
√n∑n
i=1 xi
Frederic (Dip.Econom) Inferenza Eco.Progr. 37 / 94
Misure di verosimiglianza
Esempio con Xi ∼ Exp(λ)
la derivata seconda`′′(θ) = − n
λ2
l’informazione osservata
I = −`′′(λ) =n
λ2=
(∑n
i=1 xi)2
n
lo SE stimato
SE =√I−1 =
√λ2
n=
√n∑n
i=1 xi
Frederic (Dip.Econom) Inferenza Eco.Progr. 37 / 94
Misure di verosimiglianza
Esempio con Xi ∼ Exp(λ)
la derivata seconda`′′(θ) = − n
λ2
l’informazione osservata
I = −`′′(λ) =n
λ2=
(∑n
i=1 xi)2
n
lo SE stimato
SE =√I−1 =
√λ2
n=
√n∑n
i=1 xi
Frederic (Dip.Econom) Inferenza Eco.Progr. 37 / 94
Misure di verosimiglianza
Esempio con ψ = 1/λ
Poniamo la riparemetrizzazione:
ψ =1
λ,→ E(Xi) = ψ, V (Xi) = ψ2
in visrtu della proprieta 6
ψ =1
λ=
∑ni=1 xin
e dunque
E(ψ) = n−1E
(n∑i=1
xi
)= ψ; V (ψ) =
ψ2
n
Frederic (Dip.Econom) Inferenza Eco.Progr. 38 / 94
Misure di verosimiglianza
Esempio con ψ = 1/λ
Poniamo la riparemetrizzazione:
ψ =1
λ,→ E(Xi) = ψ, V (Xi) = ψ2
in visrtu della proprieta 6
ψ =1
λ=
∑ni=1 xin
e dunque
E(ψ) = n−1E
(n∑i=1
xi
)= ψ; V (ψ) =
ψ2
n
Frederic (Dip.Econom) Inferenza Eco.Progr. 38 / 94
Misure di verosimiglianza
Esempio con ψ = 1/λ
Poniamo la riparemetrizzazione:
ψ =1
λ,→ E(Xi) = ψ, V (Xi) = ψ2
in visrtu della proprieta 6
ψ =1
λ=
∑ni=1 xin
e dunque
E(ψ) = n−1E
(n∑i=1
xi
)= ψ; V (ψ) =
ψ2
n
Frederic (Dip.Econom) Inferenza Eco.Progr. 38 / 94
Modelli multiparametrici
Il modello normale
sia X n VA IID, Xi ∼ N(µ, σ2) ovvero
f(xi;µ, σ2) =
1√2θσ2
e−1
2σ2(xi−µ)2
la Likelihood:
L(µ, σ2) ∝n∏i=1
1√2θσ2
e−1
2σ2(xi−µ)2
∝ σ−2ne−1
2σ2
∑ni=1(xi−µ)2
la log-likelihood
`(µ, σ2) = −n2
log σ2 − 1
2σ2
n∑i=1
(xi − µ)2
Frederic (Dip.Econom) Inferenza Eco.Progr. 39 / 94
Modelli multiparametrici
Il modello normale
sia X n VA IID, Xi ∼ N(µ, σ2) ovvero
f(xi;µ, σ2) =
1√2θσ2
e−1
2σ2(xi−µ)2
la Likelihood:
L(µ, σ2) ∝n∏i=1
1√2θσ2
e−1
2σ2(xi−µ)2
∝ σ−2ne−1
2σ2
∑ni=1(xi−µ)2
la log-likelihood
`(µ, σ2) = −n2
log σ2 − 1
2σ2
n∑i=1
(xi − µ)2
Frederic (Dip.Econom) Inferenza Eco.Progr. 39 / 94
Modelli multiparametrici
Il modello normale
sia X n VA IID, Xi ∼ N(µ, σ2) ovvero
f(xi;µ, σ2) =
1√2θσ2
e−1
2σ2(xi−µ)2
la Likelihood:
L(µ, σ2) ∝n∏i=1
1√2θσ2
e−1
2σ2(xi−µ)2
∝ σ−2ne−1
2σ2
∑ni=1(xi−µ)2
la log-likelihood
`(µ, σ2) = −n2
log σ2 − 1
2σ2
n∑i=1
(xi − µ)2
Frederic (Dip.Econom) Inferenza Eco.Progr. 39 / 94
Modelli multiparametrici
Il modello normale
mettiamo a sistema{ d`dµ = 1
σ2
∑ni=1(xi − µ)
d`dσ2 = − n
2σ2 − 12σ4
∑ni=1(xi − µ)2
uguagliando a zero le derivate parziali si ottiene:{µ = n−1
∑ni=1 xi
σ2 = n−1∑n
i=1(xi − µ)2
Attenzione alla correttezza:{E(µ) = µE(σ2) = n−1
n σ2
Frederic (Dip.Econom) Inferenza Eco.Progr. 40 / 94
Modelli multiparametrici
Il modello normale
mettiamo a sistema{ d`dµ = 1
σ2
∑ni=1(xi − µ)
d`dσ2 = − n
2σ2 − 12σ4
∑ni=1(xi − µ)2
uguagliando a zero le derivate parziali si ottiene:{µ = n−1
∑ni=1 xi
σ2 = n−1∑n
i=1(xi − µ)2
Attenzione alla correttezza:{E(µ) = µE(σ2) = n−1
n σ2
Frederic (Dip.Econom) Inferenza Eco.Progr. 40 / 94
Modelli multiparametrici
Il modello normale
mettiamo a sistema{ d`dµ = 1
σ2
∑ni=1(xi − µ)
d`dσ2 = − n
2σ2 − 12σ4
∑ni=1(xi − µ)2
uguagliando a zero le derivate parziali si ottiene:{µ = n−1
∑ni=1 xi
σ2 = n−1∑n
i=1(xi − µ)2
Attenzione alla correttezza:{E(µ) = µE(σ2) = n−1
n σ2
Frederic (Dip.Econom) Inferenza Eco.Progr. 40 / 94
Modelli multiparametrici
Correzione della varianza
La stima della varianza ML in media sottostima σ2
Si consideri il seguente stimatore:
S2 =1
n− 1
n∑i=1
(xi − µ)2 =n
n− 1σ2
succede che:
E(S2) =n
n− 1E(σ2) =
n
n− 1
n− 1
nσ2 = σ2
Un’importante risultato
µ− µS2/n
∼ tn−1 → N(0, 1)
Frederic (Dip.Econom) Inferenza Eco.Progr. 41 / 94
Modelli multiparametrici
Correzione della varianza
La stima della varianza ML in media sottostima σ2
Si consideri il seguente stimatore:
S2 =1
n− 1
n∑i=1
(xi − µ)2 =n
n− 1σ2
succede che:
E(S2) =n
n− 1E(σ2) =
n
n− 1
n− 1
nσ2 = σ2
Un’importante risultato
µ− µS2/n
∼ tn−1 → N(0, 1)
Frederic (Dip.Econom) Inferenza Eco.Progr. 41 / 94
Modelli multiparametrici
Correzione della varianza
La stima della varianza ML in media sottostima σ2
Si consideri il seguente stimatore:
S2 =1
n− 1
n∑i=1
(xi − µ)2 =n
n− 1σ2
succede che:
E(S2) =n
n− 1E(σ2) =
n
n− 1
n− 1
nσ2 = σ2
Un’importante risultato
µ− µS2/n
∼ tn−1 → N(0, 1)
Frederic (Dip.Econom) Inferenza Eco.Progr. 41 / 94
Modelli multiparametrici
Correzione della varianza
La stima della varianza ML in media sottostima σ2
Si consideri il seguente stimatore:
S2 =1
n− 1
n∑i=1
(xi − µ)2 =n
n− 1σ2
succede che:
E(S2) =n
n− 1E(σ2) =
n
n− 1
n− 1
nσ2 = σ2
Un’importante risultato
µ− µS2/n
∼ tn−1 → N(0, 1)
Frederic (Dip.Econom) Inferenza Eco.Progr. 41 / 94
Misure di informazione
La divergenza Kullback-Leibler
Sia π la distribuzione ’vera’ di Y e sia pθ = p(·;θ) un modelloparametrico. Definiamo la divergenza di Kullback-Leibler di pθ da π
DKL(π||pθ) = EY
(log(π(Y )/p(Y ;θ)
))= EY (log π(Y ))− EY (log p(Y ;θ))
valgono la seguente proprieta:
DKL(π||pθ) = 0, sse π = pθ
DKL(π||pθ) > 0, altrimenti
Nota: EY (π(Y )) non dipende da θ e dunque DKL
Nota: Dalla Legge dei Grandi Numeri, abbiamo
n−1n∑i=1
log p(yi;θ) = n−1`(θ) →n→∞
EY (log p(Y ;θ))
Il θ che rende massima EY (log p(Y ;θ)) e il θ che minimizza DKL
Frederic (Dip.Econom) Inferenza Eco.Progr. 42 / 94
Misure di informazione
AIC: Akaike Information Criterion
Si noti che n−1`(θ) e stimatore distorto di EY (log p(Y ; θ)) e che:
EY (log p(Y ; θ))− EY (n−1`(θ)) ≈ −k/n
dove k = dim(Θ)
Cioe:EY (−`(θ) + k) ≈ −nEY (log p(Y ; θ))
si definisce Akaike Indormation Criterion:
AIC = −2`(θ) + 2k
lo stimatore della divergenza KL di pθ da π.
Siano pθ e p′θ′ due modelli per Y avremo che:
EY (AIC) < EY (AIC ′), sse DKL(π||pθ) < DKL(π||p′θ′)
Frederic (Dip.Econom) Inferenza Eco.Progr. 43 / 94
Modelli lineari
Modelli lineari
In forma stocastica
Yi = β0 + β1Xi + εi, εi ∼ N(0, σ2), IID
dalle proprieta della normale segue che
Yi|Xi ∼ N(β0 + β1Xi, σ2)
ovvero
f(yi|xi;β0, β1, σ2) =
1√2πσ2
exp
{− 1
2σ2(yi − (β0 + β1xi))
2
}
Frederic (Dip.Econom) Inferenza Eco.Progr. 44 / 94
Modelli lineari
Modelli lineari
In forma stocastica
Yi = β0 + β1Xi + εi, εi ∼ N(0, σ2), IID
dalle proprieta della normale segue che
Yi|Xi ∼ N(β0 + β1Xi, σ2)
ovvero
f(yi|xi;β0, β1, σ2) =
1√2πσ2
exp
{− 1
2σ2(yi − (β0 + β1xi))
2
}
Frederic (Dip.Econom) Inferenza Eco.Progr. 44 / 94
Modelli lineari
Modelli lineari
In forma stocastica
Yi = β0 + β1Xi + εi, εi ∼ N(0, σ2), IID
dalle proprieta della normale segue che
Yi|Xi ∼ N(β0 + β1Xi, σ2)
ovvero
f(yi|xi;β0, β1, σ2) =
1√2πσ2
exp
{− 1
2σ2(yi − (β0 + β1xi))
2
}
Frederic (Dip.Econom) Inferenza Eco.Progr. 44 / 94
Modelli lineari
Modelli lineari
Siano (x,y) = ((x1, y1), ..., (xn, yn)) realizzazioni IID della coppia(X,Y) = ((X1, Y1)..., (Xn, Yn)). Il modello
Yi|Xi ∼ N(β0 + β1Xi, σ2)
porge verosimiglianza
L(β0, β1, σ2; x,y) ∝
n∏i=1
1√2πσ2
exp
{− 1
2σ2(yi − (β0 + β1xi))
2
}
∝(
1√σ2
)nexp
{− 1
2σ2
n∑i=1
(yi − (β0 + β1xi))2
}
la log-likelihood
`(β0, β1, σ2; x,y) = −n
2log(σ2)− 1
2σ2
n∑i=1
(yi − (β0 + β1xi))2
Frederic (Dip.Econom) Inferenza Eco.Progr. 45 / 94
Modelli lineari
Modelli lineari
Siano (x,y) = ((x1, y1), ..., (xn, yn)) realizzazioni IID della coppia(X,Y) = ((X1, Y1)..., (Xn, Yn)). Il modello
Yi|Xi ∼ N(β0 + β1Xi, σ2)
porge verosimiglianza
L(β0, β1, σ2; x,y) ∝
n∏i=1
1√2πσ2
exp
{− 1
2σ2(yi − (β0 + β1xi))
2
}
∝(
1√σ2
)nexp
{− 1
2σ2
n∑i=1
(yi − (β0 + β1xi))2
}
la log-likelihood
`(β0, β1, σ2; x,y) = −n
2log(σ2)− 1
2σ2
n∑i=1
(yi − (β0 + β1xi))2
Frederic (Dip.Econom) Inferenza Eco.Progr. 45 / 94
Modelli lineari
Modelli lineari
Siano (x,y) = ((x1, y1), ..., (xn, yn)) realizzazioni IID della coppia(X,Y) = ((X1, Y1)..., (Xn, Yn)). Il modello
Yi|Xi ∼ N(β0 + β1Xi, σ2)
porge verosimiglianza
L(β0, β1, σ2; x,y) ∝
n∏i=1
1√2πσ2
exp
{− 1
2σ2(yi − (β0 + β1xi))
2
}
∝(
1√σ2
)nexp
{− 1
2σ2
n∑i=1
(yi − (β0 + β1xi))2
}
la log-likelihood
`(β0, β1, σ2; x,y) = −n
2log(σ2)− 1
2σ2
n∑i=1
(yi − (β0 + β1xi))2
Frederic (Dip.Econom) Inferenza Eco.Progr. 45 / 94
Modelli lineari
Rappresentazione del modello di regressione
xgrid0ygrid0
zmat
Frederic (Dip.Econom) Inferenza Eco.Progr. 46 / 94
Modelli lineari
Modelli lineari (nei parametri)
Siano (x,y) = ((x1, y1), ..., (xn, yn)) realizzazioni IID della coppia(X,Y) = ((X1, Y1)..., (Xn, Yn)). Il modello
Yi|Xi ∼ N(β0 + β1Xi, σ2)
supponiamo ora che
Xi = sin(Wi), ∀i
AlloraYi|Wi ∼ N(β0 + β1 sin(Wi), σ
2)
E’ sempre un modello lineare, la linearita e nei parametri
Frederic (Dip.Econom) Inferenza Eco.Progr. 47 / 94
Modelli lineari
Modelli lineari (nei parametri)
Siano (x,y) = ((x1, y1), ..., (xn, yn)) realizzazioni IID della coppia(X,Y) = ((X1, Y1)..., (Xn, Yn)). Il modello
Yi|Xi ∼ N(β0 + β1Xi, σ2)
supponiamo ora che
Xi = sin(Wi), ∀i
AlloraYi|Wi ∼ N(β0 + β1 sin(Wi), σ
2)
E’ sempre un modello lineare, la linearita e nei parametri
Frederic (Dip.Econom) Inferenza Eco.Progr. 47 / 94
Modelli lineari
Modelli lineari (nei parametri)
Siano (x,y) = ((x1, y1), ..., (xn, yn)) realizzazioni IID della coppia(X,Y) = ((X1, Y1)..., (Xn, Yn)). Il modello
Yi|Xi ∼ N(β0 + β1Xi, σ2)
supponiamo ora che
Xi = sin(Wi), ∀i
AlloraYi|Wi ∼ N(β0 + β1 sin(Wi), σ
2)
E’ sempre un modello lineare, la linearita e nei parametri
Frederic (Dip.Econom) Inferenza Eco.Progr. 47 / 94
Modelli lineari
Modelli lineari (nei parametri)
Siano (x,y) = ((x1, y1), ..., (xn, yn)) realizzazioni IID della coppia(X,Y) = ((X1, Y1)..., (Xn, Yn)). Il modello
Yi|Xi ∼ N(β0 + β1Xi, σ2)
supponiamo ora che
Xi = sin(Wi), ∀i
AlloraYi|Wi ∼ N(β0 + β1 sin(Wi), σ
2)
E’ sempre un modello lineare, la linearita e nei parametri
Frederic (Dip.Econom) Inferenza Eco.Progr. 47 / 94
Modelli lineari
Rappresentazione del modello di regressione
xgrid0ygrid0
zmat
Frederic (Dip.Econom) Inferenza Eco.Progr. 48 / 94
Modelli lineari
Modelli lineari multivariati
Siano (w,y) = ((w1, y1), ..., (wn, yn)) realizzazioni IID della coppia(W,Y) = ((W1, Y1)..., (Wn, Yn)). Dove dim(W) = k.Il modello in forma stocastica e:
Yi = β0 + β1W1i + ...+ β1Wki + εi, εi ∼ N(0, σ2), IID
osserviamo la matrice w dei dati
w =
w11 w12 · · · w1k
w21 w22 · · · w2k
......
. . ....
wn1 wn2 · · · wnk
Definiamo il vettore dei β:
β = (β0, β1, ..., βk) ∈ Rk+1
Frederic (Dip.Econom) Inferenza Eco.Progr. 49 / 94
Modelli lineari
Modelli lineari multivariati
Siano (w,y) = ((w1, y1), ..., (wn, yn)) realizzazioni IID della coppia(W,Y) = ((W1, Y1)..., (Wn, Yn)). Dove dim(W) = k.Il modello in forma stocastica e:
Yi = β0 + β1W1i + ...+ β1Wki + εi, εi ∼ N(0, σ2), IID
osserviamo la matrice w dei dati
w =
w11 w12 · · · w1k
w21 w22 · · · w2k
......
. . ....
wn1 wn2 · · · wnk
Definiamo il vettore dei β:
β = (β0, β1, ..., βk) ∈ Rk+1
Frederic (Dip.Econom) Inferenza Eco.Progr. 49 / 94
Modelli lineari
Modelli lineari multivariati
Siano (w,y) = ((w1, y1), ..., (wn, yn)) realizzazioni IID della coppia(W,Y) = ((W1, Y1)..., (Wn, Yn)). Dove dim(W) = k.Il modello in forma stocastica e:
Yi = β0 + β1W1i + ...+ β1Wki + εi, εi ∼ N(0, σ2), IID
osserviamo la matrice w dei dati
w =
w11 w12 · · · w1k
w21 w22 · · · w2k
......
. . ....
wn1 wn2 · · · wnk
Definiamo il vettore dei β:
β = (β0, β1, ..., βk) ∈ Rk+1
Frederic (Dip.Econom) Inferenza Eco.Progr. 49 / 94
Modelli lineari
Modelli lineari multivariati
Definiamo la matrice disegno x = (1n; w) ∈ Rn×k dei dati
x = (1n; w) =
1 w11 w12 · · · w1k
1 w21 w22 · · · w2k
......
.... . .
...1 wn1 wn2 · · · wnk
e osserviamo che
y =
y1
y2
...yn
=
β0 + β1W11 + ...+ β1W1k + ε1β0 + β1W21 + ...+ β1W2k + ε2
...β0 + β1Wn1 + ...+ β1Wnk + εn
= xβ + ε
doveε = (ε1, ..., εn)
Frederic (Dip.Econom) Inferenza Eco.Progr. 50 / 94
Modelli lineari
Modelli lineari multivariati
Definiamo la matrice disegno x = (1n; w) ∈ Rn×k dei dati
x = (1n; w) =
1 w11 w12 · · · w1k
1 w21 w22 · · · w2k
......
.... . .
...1 wn1 wn2 · · · wnk
e osserviamo che
y =
y1
y2
...yn
=
β0 + β1W11 + ...+ β1W1k + ε1β0 + β1W21 + ...+ β1W2k + ε2
...β0 + β1Wn1 + ...+ β1Wnk + εn
= xβ + ε
doveε = (ε1, ..., εn)
Frederic (Dip.Econom) Inferenza Eco.Progr. 50 / 94
Modelli lineari
Modelli lineari multivariati
Definiamo la matrice disegno x = (1n; w) ∈ Rn×k dei dati
x = (1n; w) =
1 w11 w12 · · · w1k
1 w21 w22 · · · w2k
......
.... . .
...1 wn1 wn2 · · · wnk
e osserviamo che
y =
y1
y2
...yn
=
β0 + β1W11 + ...+ β1W1k + ε1β0 + β1W21 + ...+ β1W2k + ε2
...β0 + β1Wn1 + ...+ β1Wnk + εn
= xβ + ε
doveε = (ε1, ..., εn)
Frederic (Dip.Econom) Inferenza Eco.Progr. 50 / 94
Modelli lineari
Modelli lineari multivariati
Siano (w,y) = ((w1, y1), ..., (wn, yn)) realizzazioni IID della coppia(W,Y) = ((W1, Y1)..., (Wn, Yn)). Sia x la matrice disegno. Ilmodello
Yi|xi ∼ N(xiβ, σ2)
porge verosimiglianza
L(β, σ2; x,y) ∝n∏i=1
1√2πσ2
exp
{− 1
2σ2(yi − xiβ)2
}
∝(
1√σ2
)nexp
{− 1
2σ2
n∑i=1
(yi − xiβ))2
}
la log-likelihood
`(β, σ2; x,y) = −n2
log(σ2)− 1
2σ2
n∑i=1
(yi − xiβ)2
Frederic (Dip.Econom) Inferenza Eco.Progr. 51 / 94
Modelli lineari
Modelli lineari multivariati
Siano (w,y) = ((w1, y1), ..., (wn, yn)) realizzazioni IID della coppia(W,Y) = ((W1, Y1)..., (Wn, Yn)). Sia x la matrice disegno. Ilmodello
Yi|xi ∼ N(xiβ, σ2)
porge verosimiglianza
L(β, σ2; x,y) ∝n∏i=1
1√2πσ2
exp
{− 1
2σ2(yi − xiβ)2
}
∝(
1√σ2
)nexp
{− 1
2σ2
n∑i=1
(yi − xiβ))2
}
la log-likelihood
`(β, σ2; x,y) = −n2
log(σ2)− 1
2σ2
n∑i=1
(yi − xiβ)2
Frederic (Dip.Econom) Inferenza Eco.Progr. 51 / 94
Modelli lineari
Modelli lineari multivariati
Siano (w,y) = ((w1, y1), ..., (wn, yn)) realizzazioni IID della coppia(W,Y) = ((W1, Y1)..., (Wn, Yn)). Sia x la matrice disegno. Ilmodello
Yi|xi ∼ N(xiβ, σ2)
porge verosimiglianza
L(β, σ2; x,y) ∝n∏i=1
1√2πσ2
exp
{− 1
2σ2(yi − xiβ)2
}
∝(
1√σ2
)nexp
{− 1
2σ2
n∑i=1
(yi − xiβ))2
}
la log-likelihood
`(β, σ2; x,y) = −n2
log(σ2)− 1
2σ2
n∑i=1
(yi − xiβ)2
Frederic (Dip.Econom) Inferenza Eco.Progr. 51 / 94
Modelli lineari
Modelli lineari multivariati
rappresentazione matriciale della log-likelihood
`(β, σ2; x,y) = −n2
log(σ2)− 1
2σ2‖y − xβ‖22
dove ‖a‖ = a′a
la derivata prima della log-likelihood e un vettore (il gradiente)
d`(β, σ2; x,y)
dβ= − 1
2σ2x′(y − xβ)
uguagliata a zero diventa
d`(β, σ2; x,y)
dβ= 0
x′(y − xβ) = 0
x′xβ = x′y
β = (x′x)−1x′y
Frederic (Dip.Econom) Inferenza Eco.Progr. 52 / 94
Modelli lineari
Modelli lineari multivariati
rappresentazione matriciale della log-likelihood
`(β, σ2; x,y) = −n2
log(σ2)− 1
2σ2‖y − xβ‖22
dove ‖a‖ = a′a
la derivata prima della log-likelihood e un vettore (il gradiente)
d`(β, σ2; x,y)
dβ= − 1
2σ2x′(y − xβ)
uguagliata a zero diventa
d`(β, σ2; x,y)
dβ= 0
x′(y − xβ) = 0
x′xβ = x′y
β = (x′x)−1x′y
Frederic (Dip.Econom) Inferenza Eco.Progr. 52 / 94
Modelli lineari
Modelli lineari multivariati
rappresentazione matriciale della log-likelihood
`(β, σ2; x,y) = −n2
log(σ2)− 1
2σ2‖y − xβ‖22
dove ‖a‖ = a′a
la derivata prima della log-likelihood e un vettore (il gradiente)
d`(β, σ2; x,y)
dβ= − 1
2σ2x′(y − xβ)
uguagliata a zero diventa
d`(β, σ2; x,y)
dβ= 0
x′(y − xβ) = 0
x′xβ = x′y
β = (x′x)−1x′y
Frederic (Dip.Econom) Inferenza Eco.Progr. 52 / 94
Modelli lineari
Modelli lineari multivariati
definiamo la previsione
y = xβ = x(x′x)−1x′y = Hy
definiamo la stima dell’errore
e = y − y
si dimostra che
σ2 =e′e
n
attenzione σ2 non e corretto
E(σ2) =n− k − 1
nσ2
Frederic (Dip.Econom) Inferenza Eco.Progr. 53 / 94
Modelli lineari
Modelli lineari multivariati
definiamo la previsione
y = xβ = x(x′x)−1x′y = Hy
definiamo la stima dell’errore
e = y − y
si dimostra che
σ2 =e′e
n
attenzione σ2 non e corretto
E(σ2) =n− k − 1
nσ2
Frederic (Dip.Econom) Inferenza Eco.Progr. 53 / 94
Modelli lineari
Modelli lineari multivariati
definiamo la previsione
y = xβ = x(x′x)−1x′y = Hy
definiamo la stima dell’errore
e = y − y
si dimostra che
σ2 =e′e
n
attenzione σ2 non e corretto
E(σ2) =n− k − 1
nσ2
Frederic (Dip.Econom) Inferenza Eco.Progr. 53 / 94
Modelli lineari
Modelli lineari multivariati
definiamo la previsione
y = xβ = x(x′x)−1x′y = Hy
definiamo la stima dell’errore
e = y − y
si dimostra che
σ2 =e′e
n
attenzione σ2 non e corretto
E(σ2) =n− k − 1
nσ2
Frederic (Dip.Econom) Inferenza Eco.Progr. 53 / 94
Modelli lineari
Risultati importanti
lo stimatore corretto per σ2 e
S2 =e′e
n− k − 1
lo stimatore distorto della varianza di β
V (β) = σ2(x′x)−1
lo stimatore corretto della varianza di β
S2(β) = S2(x′x)−1
Frederic (Dip.Econom) Inferenza Eco.Progr. 54 / 94
Modelli lineari
Risultati importanti
lo stimatore corretto per σ2 e
S2 =e′e
n− k − 1
lo stimatore distorto della varianza di β
V (β) = σ2(x′x)−1
lo stimatore corretto della varianza di β
S2(β) = S2(x′x)−1
Frederic (Dip.Econom) Inferenza Eco.Progr. 54 / 94
Modelli lineari
Risultati importanti
lo stimatore corretto per σ2 e
S2 =e′e
n− k − 1
lo stimatore distorto della varianza di β
V (β) = σ2(x′x)−1
lo stimatore corretto della varianza di β
S2(β) = S2(x′x)−1
Frederic (Dip.Econom) Inferenza Eco.Progr. 54 / 94
Modelli lineari
Risultati importanti
lo stimatore per β per Y |x sono
β = (x′x)−1x′y Y |x = xβ
sono entrambi corretti:
E(β) = E((x′x)−1x′y)
= (x′x)−1x′E(y)
= (x′x)−1x′xβ = β
E(Y |x) = E(xβ) = xβ
con varianza:
V (β) = σ2(x′x)−1
V (Y |x) = σ2H
Frederic (Dip.Econom) Inferenza Eco.Progr. 55 / 94
Modelli lineari
Risultati importanti
lo stimatore per β per Y |x sono
β = (x′x)−1x′y Y |x = xβ
sono entrambi corretti:
E(β) = E((x′x)−1x′y)
= (x′x)−1x′E(y)
= (x′x)−1x′xβ = β
E(Y |x) = E(xβ) = xβ
con varianza:
V (β) = σ2(x′x)−1
V (Y |x) = σ2H
Frederic (Dip.Econom) Inferenza Eco.Progr. 55 / 94
Modelli lineari
Risultati importanti
lo stimatore per β per Y |x sono
β = (x′x)−1x′y Y |x = xβ
sono entrambi corretti:
E(β) = E((x′x)−1x′y)
= (x′x)−1x′E(y)
= (x′x)−1x′xβ = β
E(Y |x) = E(xβ) = xβ
con varianza:
V (β) = σ2(x′x)−1
V (Y |x) = σ2H
Frederic (Dip.Econom) Inferenza Eco.Progr. 55 / 94
Modelli lineari
Rappresentazione del modello di regressione
●
●
●
●
●
●
0.1 0.2 0.3 0.4 0.5 0.6
01
23
45
67
x2
y
Frederic (Dip.Econom) Inferenza Eco.Progr. 56 / 94
Modelli lineari
Importanti esemplificazioni
V continua, Y continua.
Esempio
x,y =
V Y1 0.1 0.051 0.2 2.011 0.3 2.561 0.4 5.151 0.5 6.021 0.6 6.89
il modello
y = xβ + ε
e la regressione lineare.
Frederic (Dip.Econom) Inferenza Eco.Progr. 57 / 94
Modelli lineari
Importanti esemplificazioni
V continua, Y continua.
Esempio
x,y =
V Y1 0.1 0.051 0.2 2.011 0.3 2.561 0.4 5.151 0.5 6.021 0.6 6.89
il modelloy = xβ + ε
e la regressione lineare.
Frederic (Dip.Econom) Inferenza Eco.Progr. 57 / 94
Modelli lineari
Importanti esemplificazioni
V continua, Y continua.
Esempio
x,y =
V Y1 0.1 0.051 0.2 2.011 0.3 2.561 0.4 5.151 0.5 6.021 0.6 6.89
il modello
y = xβ + ε
e la regressione lineare.
Frederic (Dip.Econom) Inferenza Eco.Progr. 57 / 94
Modelli lineari
Rappresentazione del modello di regressione
●
●
●
●
●
●
0.1 0.2 0.3 0.4 0.5 0.6
01
23
45
67
x2
y
Frederic (Dip.Econom) Inferenza Eco.Progr. 58 / 94
Modelli lineari
Rappresentazione del modello di regressione
●
●
●
●
●
●
0.1 0.2 0.3 0.4 0.5 0.6
01
23
45
67
x2
y
Frederic (Dip.Econom) Inferenza Eco.Progr. 59 / 94
Modelli lineari
Importanti esemplificazioni
V continua, V = (V1 = V, V2 = V 2), Y continua.
Esempio
x,y =
V1 V2 Y1 0.1 0.01 0.051 0.2 0.04 2.011 0.3 0.09 2.561 0.4 0.16 5.151 0.5 0.25 6.021 0.6 0.36 6.89
il modello
y = xβ + ε
e la regressione polinomiale di grado 2.
Frederic (Dip.Econom) Inferenza Eco.Progr. 60 / 94
Modelli lineari
Importanti esemplificazioni
V continua, V = (V1 = V, V2 = V 2), Y continua.
Esempio
x,y =
V1 V2 Y1 0.1 0.01 0.051 0.2 0.04 2.011 0.3 0.09 2.561 0.4 0.16 5.151 0.5 0.25 6.021 0.6 0.36 6.89
il modelloy = xβ + ε
e la regressione polinomiale di grado 2.
Frederic (Dip.Econom) Inferenza Eco.Progr. 60 / 94
Modelli lineari
Importanti esemplificazioni
V continua, V = (V1 = V, V2 = V 2), Y continua.
Esempio
x,y =
V1 V2 Y1 0.1 0.01 0.051 0.2 0.04 2.011 0.3 0.09 2.561 0.4 0.16 5.151 0.5 0.25 6.021 0.6 0.36 6.89
il modello
y = xβ + ε
e la regressione polinomiale di grado 2.
Frederic (Dip.Econom) Inferenza Eco.Progr. 60 / 94
Modelli lineari
Rappresentazione del modello di regressione
●
●
●
●
●
●
0.1 0.2 0.3 0.4 0.5 0.6
01
23
45
67
x2
y
Frederic (Dip.Econom) Inferenza Eco.Progr. 61 / 94
Modelli lineari
Importanti esemplificazioni
W categorial (con supporto {0,1}), V continua, Y continua.
Esempio
x,y =
W V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 1 0.4 5.151 1 0.5 6.021 1 0.6 6.89
2 intercette un coefficiente angolare
Frederic (Dip.Econom) Inferenza Eco.Progr. 62 / 94
Modelli lineari
Importanti esemplificazioni
W categorial (con supporto {0,1}), V continua, Y continua.
Esempio
x,y =
W V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 1 0.4 5.151 1 0.5 6.021 1 0.6 6.89
2 intercette un coefficiente angolare
Frederic (Dip.Econom) Inferenza Eco.Progr. 62 / 94
Modelli lineari
Importanti esemplificazioni
W categorial (con supporto {0,1}), V continua, Y continua.
Esempio
x,y =
W V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 1 0.4 5.151 1 0.5 6.021 1 0.6 6.89
2 intercette un coefficiente angolare
Frederic (Dip.Econom) Inferenza Eco.Progr. 62 / 94
Modelli lineari
Rappresentazione del modello di regressione
●
●
●
●
●
●
0.1 0.2 0.3 0.4 0.5 0.6
01
23
45
67
x2
y
Frederic (Dip.Econom) Inferenza Eco.Progr. 63 / 94
Modelli lineari
Importanti esemplificazioni
W = (W1,W2) categorial (con supporto {(0,0),(0,1),(1,0)}), Vcontinua, Y continua.
Esempio
x,y =
W1 W2 V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 1 0.3 2.561 0 1 0.4 5.151 1 0 0.5 6.021 1 0 0.6 6.89
3 intercette un coefficiente angolare
Frederic (Dip.Econom) Inferenza Eco.Progr. 64 / 94
Modelli lineari
Importanti esemplificazioni
W = (W1,W2) categorial (con supporto {(0,0),(0,1),(1,0)}), Vcontinua, Y continua.
Esempio
x,y =
W1 W2 V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 1 0.3 2.561 0 1 0.4 5.151 1 0 0.5 6.021 1 0 0.6 6.89
3 intercette un coefficiente angolare
Frederic (Dip.Econom) Inferenza Eco.Progr. 64 / 94
Modelli lineari
Importanti esemplificazioni
W = (W1,W2) categorial (con supporto {(0,0),(0,1),(1,0)}), Vcontinua, Y continua.
Esempio
x,y =
W1 W2 V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 1 0.3 2.561 0 1 0.4 5.151 1 0 0.5 6.021 1 0 0.6 6.89
3 intercette un coefficiente angolare
Frederic (Dip.Econom) Inferenza Eco.Progr. 64 / 94
Modelli lineari
Importanti esemplificazioni
W categorial (con supporto {0,1}), V continua, Y continua.
Esempio
x,y =
W ∗ V (1−W ) ∗ V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 0.4 0 5.151 0.5 0 6.021 0.6 0 6.89
1 intercetta 2 coefficienti angolari
Frederic (Dip.Econom) Inferenza Eco.Progr. 65 / 94
Modelli lineari
Importanti esemplificazioni
W categorial (con supporto {0,1}), V continua, Y continua.
Esempio
x,y =
W ∗ V (1−W ) ∗ V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 0.4 0 5.151 0.5 0 6.021 0.6 0 6.89
1 intercetta 2 coefficienti angolari
Frederic (Dip.Econom) Inferenza Eco.Progr. 65 / 94
Modelli lineari
Importanti esemplificazioni
W categorial (con supporto {0,1}), V continua, Y continua.
Esempio
x,y =
W ∗ V (1−W ) ∗ V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 0.4 0 5.151 0.5 0 6.021 0.6 0 6.89
1 intercetta 2 coefficienti angolari
Frederic (Dip.Econom) Inferenza Eco.Progr. 65 / 94
Modelli lineari
Rappresentazione del modello di regressione
●
●
●
●
●
●
0.1 0.2 0.3 0.4 0.5 0.6
01
23
45
67
x2
y
Frederic (Dip.Econom) Inferenza Eco.Progr. 66 / 94
Modelli lineari
Importanti esemplificazioni
W categorial (con supporto {0,1}), V continua, Y continua.
Esempio
x,y =
W W ∗ V (1−W ) ∗ V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 0 0.3 2.561 1 0.4 0 5.151 1 0.5 0 6.021 1 0.6 0 6.89
2 intercette 2 coefficienti angolari
Frederic (Dip.Econom) Inferenza Eco.Progr. 67 / 94
Modelli lineari
Importanti esemplificazioni
W categorial (con supporto {0,1}), V continua, Y continua.
Esempio
x,y =
W W ∗ V (1−W ) ∗ V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 0 0.3 2.561 1 0.4 0 5.151 1 0.5 0 6.021 1 0.6 0 6.89
2 intercette 2 coefficienti angolari
Frederic (Dip.Econom) Inferenza Eco.Progr. 67 / 94
Modelli lineari
Importanti esemplificazioni
W categorial (con supporto {0,1}), V continua, Y continua.
Esempio
x,y =
W W ∗ V (1−W ) ∗ V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 0 0.3 2.561 1 0.4 0 5.151 1 0.5 0 6.021 1 0.6 0 6.89
2 intercette 2 coefficienti angolari
Frederic (Dip.Econom) Inferenza Eco.Progr. 67 / 94
Modelli lineari
Rappresentazione del modello di regressione
●
●
●
●
●
●
0.1 0.2 0.3 0.4 0.5 0.6
01
23
45
67
x2
y
Frederic (Dip.Econom) Inferenza Eco.Progr. 68 / 94
Modelli Lineari Generalizzati (GLM)
La famiglia esponenziale
Sia Y = (Y1, ..., Yn), n VA IID.Si definisce la famiglia esponenziale:
Yi ∼ EF(b(θi), ψ/wi)
con densita
f(yi) = exp (wi/ψ(yiθi − b(θi)) + c(yi, ψ))
si dimostra che
E(Yi) = b′(θi) V (Yi) = b′′(θi)ψ/wi
nota valore atteso e varianza di Yi sono legate entrambe a θi.
Frederic (Dip.Econom) Inferenza Eco.Progr. 69 / 94
Modelli Lineari Generalizzati (GLM)
La famiglia esponenziale
Sia Y = (Y1, ..., Yn), n VA IID.Si definisce la famiglia esponenziale:
Yi ∼ EF(b(θi), ψ/wi)
con densita
f(yi) = exp (wi/ψ(yiθi − b(θi)) + c(yi, ψ))
si dimostra che
E(Yi) = b′(θi) V (Yi) = b′′(θi)ψ/wi
nota valore atteso e varianza di Yi sono legate entrambe a θi.
Frederic (Dip.Econom) Inferenza Eco.Progr. 69 / 94
Modelli Lineari Generalizzati (GLM)
La famiglia esponenziale
Sia Y = (Y1, ..., Yn), n VA IID.Si definisce la famiglia esponenziale:
Yi ∼ EF(b(θi), ψ/wi)
con densita
f(yi) = exp (wi/ψ(yiθi − b(θi)) + c(yi, ψ))
si dimostra che
E(Yi) = b′(θi) V (Yi) = b′′(θi)ψ/wi
nota valore atteso e varianza di Yi sono legate entrambe a θi.
Frederic (Dip.Econom) Inferenza Eco.Progr. 69 / 94
Modelli Lineari Generalizzati (GLM)
Esempio: la Bernoulli
Yi ∼ Ber(π)
f(yi) = πyi (1− π)(1− yi)= exp (yi log(π)− (1− yi) log(1− pi))= exp (yi(log(π)− log(1− π)))
= exp(θiyi − log(1− eθi)
)con
θi = logit(π) = log
(π
1− π
)e conb(θi) = log(1 + eθi), b′(θi) = logit−1(θi) = π, b′′(θi) = π(1− π)
Frederic (Dip.Econom) Inferenza Eco.Progr. 70 / 94
Modelli Lineari Generalizzati (GLM)
Esempio: la Poisson
Yi ∼ Pois(λ)
f(yi) =λyiyi!e−λ
= exp (yi log λ− λ− log yi!)
= exp(
(yiθi − eθi)− log yi!)
con θi = log λ ⇒b(θi) = eθi , ψ = wi = 1, c(ψ, yi) = − log yi!.
Frederic (Dip.Econom) Inferenza Eco.Progr. 71 / 94
Modelli Lineari Generalizzati (GLM)
Modelli Lineari Generalizzati
Sia Yi ∼ EF(b(θi, ψ/wi)), IID e x matrice disegno
si poneµi = E(Yi) = b′(θi)
si sceglie una funzione (link function) g tale che
g(µi) = xiβ
se b′ ≡ g−1 ⇒ g e detta canonica.
Frederic (Dip.Econom) Inferenza Eco.Progr. 72 / 94
Modelli Lineari Generalizzati (GLM)
Modelli Lineari Generalizzati
Sia Yi ∼ EF(b(θi, ψ/wi)), IID e x matrice disegno
si poneµi = E(Yi) = b′(θi)
si sceglie una funzione (link function) g tale che
g(µi) = xiβ
se b′ ≡ g−1 ⇒ g e detta canonica.
Frederic (Dip.Econom) Inferenza Eco.Progr. 72 / 94
Modelli Lineari Generalizzati (GLM)
Modelli Lineari Generalizzati
Sia Yi ∼ EF(b(θi, ψ/wi)), IID e x matrice disegno
si poneµi = E(Yi) = b′(θi)
si sceglie una funzione (link function) g tale che
g(µi) = xiβ
se b′ ≡ g−1 ⇒ g e detta canonica.
Frederic (Dip.Econom) Inferenza Eco.Progr. 72 / 94
Modelli Lineari Generalizzati (GLM)
Modelli Lineari Generalizzati
Sia Yi ∼ EF(b(θi, ψ/wi)), IID e x matrice disegno
si poneµi = E(Yi) = b′(θi)
si sceglie una funzione (link function) g tale che
g(µi) = xiβ
se b′ ≡ g−1 ⇒ g e detta canonica.
Frederic (Dip.Econom) Inferenza Eco.Progr. 72 / 94
Modelli Lineari Generalizzati (GLM) Un modello logit
Modelli dose-risposta
Data from: Racine, A., Grieve, A. P., Fluhler, H., and Smith, A. F. M.(1986). Bayesian methods in practice: experiences in the pharmaceuticalindustry (with discussion). Applied Statistics 35, 93-150
Dose xi Number of Number of Sequence,(log g/ml) animals, ni deaths, si =
∑yi y1, ..., yn
-0.863 5 0 0 0 0 0 0-0.296 5 1 0 1 0 0 0-0.053 5 3 0 1 1 0 10.727 5 5 1 1 1 1 1
Obbiettivo: stimare la legge di probabilita condizionata di yi|xi
Frederic (Dip.Econom) Inferenza Eco.Progr. 73 / 94
Modelli Lineari Generalizzati (GLM) Un modello logit
Dati dose risposta
−1.0 −0.5 0.0 0.5 1.0
0.00.2
0.40.6
0.81.0
x
y/n
Frederic (Dip.Econom) Inferenza Eco.Progr. 74 / 94
Modelli Lineari Generalizzati (GLM) Un modello logit
Il modello logit
Per ogni xi fissata yi e una Bernoulli con parametro θi che dipendeda xi, ovvero una funzione θi = g(xi), e dunque:
P (Yi = yi|xi; θi) = g(xi)yi(1− g(xi))
1−yi
anche se poniamo alcune restrizioni su g la scelta non e univoca.
un modello standard e il modello logistico:
logit(θi) = logθ
1− θ, g(xi) = logit−1(xi) =
exp{β0 + β1xi}1 + exp{β0 + β1xi}
ora il modello ha 2 parametri espliciti θ = (β0, β1) ed uno implicito g.
Frederic (Dip.Econom) Inferenza Eco.Progr. 75 / 94
Modelli Lineari Generalizzati (GLM) Un modello logit
La curva logistica
−6 −4 −2 0 2 4 6
0.00.2
0.40.6
0.81.0
x
logisti
c (x)
a=0; b=1a=1; b=2a=−1,b=.89
Frederic (Dip.Econom) Inferenza Eco.Progr. 76 / 94
Modelli Lineari Generalizzati (GLM) Un modello logit
La funzione di verosimiglianza del modello logit
E’ un modello a 2 parametri con funzione di verosimiglianza:
L(θ) = L(β0, β1)
=
n∏i=1
g(xi)yi(1− g(xi))
1−yi
la log-verosimiglianza e
`(θ) = `(β0, β1)
=
n∑i=1
yi log g(xi) + (1− yi) log(1− g(xi))
con
g(xi) =exp{β0 + β1xi}
1 + exp{β0 + β1xi}
Frederic (Dip.Econom) Inferenza Eco.Progr. 77 / 94
Modelli Lineari Generalizzati (GLM) Un modello logit
La verosimiglianza, prospettive
a
b
Lik.ab
a
b
Lik.ab
ab
Lik.ab
a
b
Lik.ab
Frederic (Dip.Econom) Inferenza Eco.Progr. 78 / 94
Modelli Lineari Generalizzati (GLM) Un modello logit
La log-verosimiglianza, linee di contorno
−2 −1 0 1 2 3 4
−50
510
1520
Frederic (Dip.Econom) Inferenza Eco.Progr. 79 / 94
Modelli Lineari Generalizzati (GLM) Un modello logit
Le stime di massima verosimiglianza
Definiamo
θ = (β0, β1)
= argmaxθ∈Θ
`(θ)
nel nostro caso
β0 = 0.8737247, β1 = 7.9134744
Frederic (Dip.Econom) Inferenza Eco.Progr. 80 / 94
Modelli Lineari Generalizzati (GLM) Un modello logit
Distribuzione di θ con n crescente, se θ0 = 0.5
−2 −1 0 1 2
0.00.2
0.40.6
0.81.0
xgr[, 1]
ypred
Frederic (Dip.Econom) Inferenza Eco.Progr. 81 / 94
Modelli Lineari Generalizzati (GLM) Un modello logit
L’informazione di Fisher e una matrice
Definiamo l’informazione osservata
I =
(d2`dβ2
0
d2`dβ0dβ1
d2`dβ1dβ0
d2`dβ2
1
)(β0,β1)=(β0,β1)
Definiamo l’informazione di Fisher
I(θ) = EY (∂2`/∂θ∂θ′)
I−1 e lo stimatore di I(θ), la varianza di θ, con componenti√d2`dβ2
0e lo SE di β0√
d2`dβ2
1e lo SE di β1
Frederic (Dip.Econom) Inferenza Eco.Progr. 82 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Quante specie di formiche? Un esperimento di conteggio
The data give the ant species richness (number of ant species) foundin 64 square meter sampling grids, in 22 bogs and 22 forestssurrounding the bogs, in Connecticut, Massachusetts and Vermont(USA). The sites span a 3 dg of latitude in New England. Aaron MEllison (2004). Bayesian inference in ecology. Ecology Letters, 7,509-520
ogni sito i = 1, ..., n = 22 + 22 puo avere un numero casuale di speciediverse yi ∈ {0, 1, 2, ...}.Sn =
∑ni=1 yi = somma(tutti gli yi)=numero totale di specie negli n
siti.
Sn = 309
y = Sn/n = 309/44 = 7.023 numero medio di specie per sito.
Frederic (Dip.Econom) Inferenza Eco.Progr. 83 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Quante specie di formiche? Un esperimento di conteggio
The data give the ant species richness (number of ant species) foundin 64 square meter sampling grids, in 22 bogs and 22 forestssurrounding the bogs, in Connecticut, Massachusetts and Vermont(USA). The sites span a 3 dg of latitude in New England. Aaron MEllison (2004). Bayesian inference in ecology. Ecology Letters, 7,509-520
ogni sito i = 1, ..., n = 22 + 22 puo avere un numero casuale di speciediverse yi ∈ {0, 1, 2, ...}.
Sn =∑n
i=1 yi = somma(tutti gli yi)=numero totale di specie negli nsiti.
Sn = 309
y = Sn/n = 309/44 = 7.023 numero medio di specie per sito.
Frederic (Dip.Econom) Inferenza Eco.Progr. 83 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Quante specie di formiche? Un esperimento di conteggio
The data give the ant species richness (number of ant species) foundin 64 square meter sampling grids, in 22 bogs and 22 forestssurrounding the bogs, in Connecticut, Massachusetts and Vermont(USA). The sites span a 3 dg of latitude in New England. Aaron MEllison (2004). Bayesian inference in ecology. Ecology Letters, 7,509-520
ogni sito i = 1, ..., n = 22 + 22 puo avere un numero casuale di speciediverse yi ∈ {0, 1, 2, ...}.Sn =
∑ni=1 yi = somma(tutti gli yi)=numero totale di specie negli n
siti.
Sn = 309
y = Sn/n = 309/44 = 7.023 numero medio di specie per sito.
Frederic (Dip.Econom) Inferenza Eco.Progr. 83 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Quante specie di formiche? Un esperimento di conteggio
The data give the ant species richness (number of ant species) foundin 64 square meter sampling grids, in 22 bogs and 22 forestssurrounding the bogs, in Connecticut, Massachusetts and Vermont(USA). The sites span a 3 dg of latitude in New England. Aaron MEllison (2004). Bayesian inference in ecology. Ecology Letters, 7,509-520
ogni sito i = 1, ..., n = 22 + 22 puo avere un numero casuale di speciediverse yi ∈ {0, 1, 2, ...}.Sn =
∑ni=1 yi = somma(tutti gli yi)=numero totale di specie negli n
siti.
Sn = 309
y = Sn/n = 309/44 = 7.023 numero medio di specie per sito.
Frederic (Dip.Econom) Inferenza Eco.Progr. 83 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Quante specie di formiche? Un esperimento di conteggio
The data give the ant species richness (number of ant species) foundin 64 square meter sampling grids, in 22 bogs and 22 forestssurrounding the bogs, in Connecticut, Massachusetts and Vermont(USA). The sites span a 3 dg of latitude in New England. Aaron MEllison (2004). Bayesian inference in ecology. Ecology Letters, 7,509-520
ogni sito i = 1, ..., n = 22 + 22 puo avere un numero casuale di speciediverse yi ∈ {0, 1, 2, ...}.Sn =
∑ni=1 yi = somma(tutti gli yi)=numero totale di specie negli n
siti.
Sn = 309
y = Sn/n = 309/44 = 7.023 numero medio di specie per sito.
Frederic (Dip.Econom) Inferenza Eco.Progr. 83 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
I dati
Site Srich Habitat Latitude Elevation
TPB 6 Forest 41.97 389HBC 16 Forest 42.00 8CKB 18 Forest 42.03 152
...TPB 5 Bog 41.97 389HBC 6 Bog 42.00 8CKB 14 Bog 42.03 152
...
Tabella: ants data
Frederic (Dip.Econom) Inferenza Eco.Progr. 84 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Come se... un’urna con composizione incognita
Sia U un urna che contiene infinite palline ognuna marcata con unnumero intero, tale che
P (Yi = y; θ) =θye−θ
y!, y = 0, 1, 2, ...
dove θ e il parametro incognito che definisce l’urna.
Estraiamo con reintroduzione n = 10 palline
Ogni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.
Frederic (Dip.Econom) Inferenza Eco.Progr. 85 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Come se... un’urna con composizione incognita
Sia U un urna che contiene infinite palline ognuna marcata con unnumero intero, tale che
P (Yi = y; θ) =θye−θ
y!, y = 0, 1, 2, ...
dove θ e il parametro incognito che definisce l’urna.
Estraiamo con reintroduzione n = 10 palline
Ogni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.
Frederic (Dip.Econom) Inferenza Eco.Progr. 85 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Come se... un’urna con composizione incognita
Sia U un urna che contiene infinite palline ognuna marcata con unnumero intero, tale che
P (Yi = y; θ) =θye−θ
y!, y = 0, 1, 2, ...
dove θ e il parametro incognito che definisce l’urna.
Estraiamo con reintroduzione n = 10 palline
Ogni sito ha un numero di specie COME SE estraessi una pallina da U .
Il parametro θ non cambia nel tempo e con l’osservazione.
Frederic (Dip.Econom) Inferenza Eco.Progr. 85 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Come se... un’urna con composizione incognita
Sia U un urna che contiene infinite palline ognuna marcata con unnumero intero, tale che
P (Yi = y; θ) =θye−θ
y!, y = 0, 1, 2, ...
dove θ e il parametro incognito che definisce l’urna.
Estraiamo con reintroduzione n = 10 palline
Ogni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.
Frederic (Dip.Econom) Inferenza Eco.Progr. 85 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
La misura di verosimiglianza del modello Poisson
E’ una funzione di θ
L(θ;Yi = yi) ∝n∏i=1
θyie−θ
yi!,
∝ θ∑ni=1 yie−nθ
dove θ e il parametro incognito che definisce l’urna.
Estraiamo con reintroduzione n = 10 palline
Ogni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.
La log-verosimiglianza e:
`(θ) = ny log θ − nθ
θ = y = 7.0227, SE(θ) =√y/n = 0.3995.
Frederic (Dip.Econom) Inferenza Eco.Progr. 86 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
La misura di verosimiglianza del modello Poisson
E’ una funzione di θ
L(θ;Yi = yi) ∝n∏i=1
θyie−θ
yi!,
∝ θ∑ni=1 yie−nθ
dove θ e il parametro incognito che definisce l’urna.
Estraiamo con reintroduzione n = 10 palline
Ogni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.
La log-verosimiglianza e:
`(θ) = ny log θ − nθ
θ = y = 7.0227, SE(θ) =√y/n = 0.3995.
Frederic (Dip.Econom) Inferenza Eco.Progr. 86 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
La misura di verosimiglianza del modello Poisson
E’ una funzione di θ
L(θ;Yi = yi) ∝n∏i=1
θyie−θ
yi!,
∝ θ∑ni=1 yie−nθ
dove θ e il parametro incognito che definisce l’urna.
Estraiamo con reintroduzione n = 10 pallineOgni sito ha un numero di specie COME SE estraessi una pallina da U .
Il parametro θ non cambia nel tempo e con l’osservazione.
La log-verosimiglianza e:
`(θ) = ny log θ − nθ
θ = y = 7.0227, SE(θ) =√y/n = 0.3995.
Frederic (Dip.Econom) Inferenza Eco.Progr. 86 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
La misura di verosimiglianza del modello Poisson
E’ una funzione di θ
L(θ;Yi = yi) ∝n∏i=1
θyie−θ
yi!,
∝ θ∑ni=1 yie−nθ
dove θ e il parametro incognito che definisce l’urna.
Estraiamo con reintroduzione n = 10 pallineOgni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.
La log-verosimiglianza e:
`(θ) = ny log θ − nθ
θ = y = 7.0227, SE(θ) =√y/n = 0.3995.
Frederic (Dip.Econom) Inferenza Eco.Progr. 86 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
La misura di verosimiglianza del modello Poisson
E’ una funzione di θ
L(θ;Yi = yi) ∝n∏i=1
θyie−θ
yi!,
∝ θ∑ni=1 yie−nθ
dove θ e il parametro incognito che definisce l’urna.
Estraiamo con reintroduzione n = 10 pallineOgni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.
La log-verosimiglianza e:
`(θ) = ny log θ − nθ
θ = y = 7.0227, SE(θ) =√y/n = 0.3995.
Frederic (Dip.Econom) Inferenza Eco.Progr. 86 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
La misura di verosimiglianza del modello Poisson
E’ una funzione di θ
L(θ;Yi = yi) ∝n∏i=1
θyie−θ
yi!,
∝ θ∑ni=1 yie−nθ
dove θ e il parametro incognito che definisce l’urna.
Estraiamo con reintroduzione n = 10 pallineOgni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.
La log-verosimiglianza e:
`(θ) = ny log θ − nθ
θ = y = 7.0227, SE(θ) =√y/n = 0.3995.
Frederic (Dip.Econom) Inferenza Eco.Progr. 86 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Usando tutte le informazioni
Posto yi =Srich, xi1 =Habitat, xi2 =Latitude e xi3 =Elevation delsito i.
dove
xi1 =
{0, se Habitat=Forest
1, se Habitat=Blog
Vogliamo modellareYi ∼ Poisson(θi)
conlog(θi) = β0 + β1xi1 + β2xi2 + β3xi3
qui θ = (β0 + β1 + β2 + β3), k = dim(θ) = 4
Frederic (Dip.Econom) Inferenza Eco.Progr. 87 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Usando tutte le informazioni
Posto yi =Srich, xi1 =Habitat, xi2 =Latitude e xi3 =Elevation delsito i.
dove
xi1 =
{0, se Habitat=Forest
1, se Habitat=Blog
Vogliamo modellareYi ∼ Poisson(θi)
conlog(θi) = β0 + β1xi1 + β2xi2 + β3xi3
qui θ = (β0 + β1 + β2 + β3), k = dim(θ) = 4
Frederic (Dip.Econom) Inferenza Eco.Progr. 87 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Usando tutte le informazioni
Posto yi =Srich, xi1 =Habitat, xi2 =Latitude e xi3 =Elevation delsito i.
dove
xi1 =
{0, se Habitat=Forest
1, se Habitat=Blog
Vogliamo modellareYi ∼ Poisson(θi)
conlog(θi) = β0 + β1xi1 + β2xi2 + β3xi3
qui θ = (β0 + β1 + β2 + β3), k = dim(θ) = 4
Frederic (Dip.Econom) Inferenza Eco.Progr. 87 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Usando tutte le informazioni
Posto yi =Srich, xi1 =Habitat, xi2 =Latitude e xi3 =Elevation delsito i.
dove
xi1 =
{0, se Habitat=Forest
1, se Habitat=Blog
Vogliamo modellareYi ∼ Poisson(θi)
conlog(θi) = β0 + β1xi1 + β2xi2 + β3xi3
qui θ = (β0 + β1 + β2 + β3), k = dim(θ) = 4
Frederic (Dip.Econom) Inferenza Eco.Progr. 87 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Usando tutte le informazioni
Posto yi =Srich, xi1 =Habitat, xi2 =Latitude e xi3 =Elevation delsito i.
dove
xi1 =
{0, se Habitat=Forest
1, se Habitat=Blog
Vogliamo modellareYi ∼ Poisson(θi)
conlog(θi) = β0 + β1xi1 + β2xi2 + β3xi3
qui θ = (β0 + β1 + β2 + β3), k = dim(θ) = 4
Frederic (Dip.Econom) Inferenza Eco.Progr. 87 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Usando solo β0, nota log β0 = y
Call:
glm(formula = Srich ~ 1, family = poisson, data = ants)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.2409 -1.2420 -0.3959 0.4492 3.4539
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.94915 0.05689 34.26 <2e-16 ***
---
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 102.76 on 43 degrees of freedom
Residual deviance: 102.76 on 43 degrees of freedom
AIC: 265.12
Number of Fisher Scoring iterations: 5
Frederic (Dip.Econom) Inferenza Eco.Progr. 88 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Usando solo β0, nota log β0 = y
Call:
glm(formula = Srich ~ Habitat, family = poisson, data = ants)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.9277 -1.1216 -0.4041 0.8928 3.3661
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.58179 0.09667 16.363 < 2e-16 ***
HabitatForest 0.63544 0.11956 5.315 1.07e-07 ***
---
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 102.763 on 43 degrees of freedom
Residual deviance: 73.078 on 42 degrees of freedom
AIC: 237.43
Number of Fisher Scoring iterations: 4
Frederic (Dip.Econom) Inferenza Eco.Progr. 89 / 94
Modelli Lineari Generalizzati (GLM) Il modello di Poisson
Usando tutte le informazioni
> summary(glm(Srich~Habitat+Latitude+Elevation,ants,family=poisson))
Deviance Residuals:
Min 1Q Median 3Q Max
-2.20939 -0.72643 -0.05933 0.51571 2.60147
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 11.9368121 2.6214970 4.553 5.28e-06 ***
HabitatForest 0.6354389 0.1195664 5.315 1.07e-07 ***
Latitude -0.2357930 0.0616638 -3.824 0.000131 ***
Elevation -0.0011411 0.0003749 -3.044 0.002337 **
---
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 102.763 on 43 degrees of freedom
Residual deviance: 40.690 on 40 degrees of freedom
AIC: 209.04
Number of Fisher Scoring iterations: 4
Frederic (Dip.Econom) Inferenza Eco.Progr. 90 / 94
Alta dimensionalita
Quante X devo inserire nel modello?
Supponiamo di avere
y ∈ Rn×1, X ∈ Rn×k
dove k e un numero elevato rispetto ad n.
sotto ipotesi IID, vogliamo modellare
(Yi|xi;β, τ) ∼ L(xiβ, τ)
dovexiβ = β0 + β1xi1 + ...+ βkxik, i = 1, ..., n
e τ un parametro di variabilita.
in questo caso θ = (β, τ) e dim(Θ) = k + 2
Frederic (Dip.Econom) Inferenza Eco.Progr. 91 / 94
Alta dimensionalita
Quante X devo inserire nel modello?
Supponiamo di avere
y ∈ Rn×1, X ∈ Rn×k
dove k e un numero elevato rispetto ad n.
sotto ipotesi IID, vogliamo modellare
(Yi|xi;β, τ) ∼ L(xiβ, τ)
dovexiβ = β0 + β1xi1 + ...+ βkxik, i = 1, ..., n
e τ un parametro di variabilita.
in questo caso θ = (β, τ) e dim(Θ) = k + 2
Frederic (Dip.Econom) Inferenza Eco.Progr. 91 / 94
Alta dimensionalita
Quante X devo inserire nel modello?
Supponiamo di avere
y ∈ Rn×1, X ∈ Rn×k
dove k e un numero elevato rispetto ad n.
sotto ipotesi IID, vogliamo modellare
(Yi|xi;β, τ) ∼ L(xiβ, τ)
dovexiβ = β0 + β1xi1 + ...+ βkxik, i = 1, ..., n
e τ un parametro di variabilita.
in questo caso θ = (β, τ) e dim(Θ) = k + 2
Frederic (Dip.Econom) Inferenza Eco.Progr. 91 / 94
Alta dimensionalita
Se Y normale IID
sotto ipotesi IID, modelliamo
(Yi|xi;β, τ) ∼ N (xiβ, τ)
le equazioni di verosimiglianza per β coincidono con il criterio deiminimi quadrati
β = argminβ∈Rk+1
n∑i
(yi − xiβ)2
ma se k elevato il problema e computazionalmente instabile.
Esistono molti criteri di scelta del modello tutti basati su euristichedifficilmente razionalizabili.
Frederic (Dip.Econom) Inferenza Eco.Progr. 92 / 94
Alta dimensionalita
Se Y normale IID
sotto ipotesi IID, modelliamo
(Yi|xi;β, τ) ∼ N (xiβ, τ)
le equazioni di verosimiglianza per β coincidono con il criterio deiminimi quadrati
β = argminβ∈Rk+1
n∑i
(yi − xiβ)2
ma se k elevato il problema e computazionalmente instabile.
Esistono molti criteri di scelta del modello tutti basati su euristichedifficilmente razionalizabili.
Frederic (Dip.Econom) Inferenza Eco.Progr. 92 / 94
Alta dimensionalita
Se Y normale IID
sotto ipotesi IID, modelliamo
(Yi|xi;β, τ) ∼ N (xiβ, τ)
le equazioni di verosimiglianza per β coincidono con il criterio deiminimi quadrati
β = argminβ∈Rk+1
n∑i
(yi − xiβ)2
ma se k elevato il problema e computazionalmente instabile.
Esistono molti criteri di scelta del modello tutti basati su euristichedifficilmente razionalizabili.
Frederic (Dip.Econom) Inferenza Eco.Progr. 92 / 94
Alta dimensionalita
La regressione LASSO
si tratta di modificare il penalty dei minimi quadrati con la seguente:
β = argminβ∈Rk+1
n∑i
(yi − xiβ)2 + λ
k∑j
|βj |
Il parametro λ e detto il parametro di shrinkage e consente di stimarecongiuntamente il valore dei coefficienti e il numero di parametri
si stima il modello per diversi valori di lambd
Frederic (Dip.Econom) Inferenza Eco.Progr. 93 / 94
Alta dimensionalita
La regressione LASSO
si tratta di modificare il penalty dei minimi quadrati con la seguente:
β = argminβ∈Rk+1
n∑i
(yi − xiβ)2 + λ
k∑j
|βj |
Il parametro λ e detto il parametro di shrinkage e consente di stimarecongiuntamente il valore dei coefficienti e il numero di parametri
si stima il modello per diversi valori di lambd
Frederic (Dip.Econom) Inferenza Eco.Progr. 93 / 94
Alta dimensionalita
La regressione LASSO
si tratta di modificare il penalty dei minimi quadrati con la seguente:
β = argminβ∈Rk+1
n∑i
(yi − xiβ)2 + λ
k∑j
|βj |
Il parametro λ e detto il parametro di shrinkage e consente di stimarecongiuntamente il valore dei coefficienti e il numero di parametri
si stima il modello per diversi valori di lambd
Frederic (Dip.Econom) Inferenza Eco.Progr. 93 / 94
Alta dimensionalita
LASSO rappresentazione geometrica
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
−2 −1 0 1 2 3 4
−2−1
01
23
4
Frederic (Dip.Econom) Inferenza Eco.Progr. 94 / 94