Inferenza Statistica Classica: Verosimiglianza e Stima ...morgana.unimore.it/frederic_patrizio/ecoprogr/Slides-inference.pdf · Inferenza Statistica Classica: Verosimiglianza e Stima

Inferenza Statistica Classica:Verosimiglianza e Stima Puntuale

Patrizio Frederic

Dipartimento di Economia Politica,Universita di Modena e Reggio Emilia,

[email protected]

Eco.Progr.

Frederic (Dip.Econom) Inferenza Eco.Progr. 1 / 94

Indice

1 Fatti e congetture

2 Stimatori e Stima

3 Misure di verosimiglianza

4 Modelli multiparametrici

5 Misure di informazione

6 Modelli lineari

7 Modelli Lineari Generalizzati (GLM)Un modello logitIl modello di Poisson

8 Alta dimensionalita


Fatti e congetture

Inferenza diretta e inferenza inversa.

“Uscira “6” dal lancio di questo dado”

“Questo dado e truccato.”

“Sapendo che A ha contratto la patologia X, A ha la febbre.”

“Sapendo che A ha la febbre, A ha contratto X.”

“L’indice Down Jones tra 3 ore quotera 13.100”

“La riduzione del costo del denaro incide del p% sul Down Jones.”

“So come e fatta l’urna, con quale probabilita ottengo una datasequenza”

“E’ uscita una una data sequenza, quanto e verosimile una dataconformazione dell’urna”


Fatti e congetture











Fatti e congetture











Fatti e congetture











Fatti e congetture











Fatti e congetture











Fatti e congetture











Fatti e congetture











Stimatori e Stima

Stimatore e stima

Siano X = (X1, ..., Xn) n VA IID, Xi ∼ L (θ) e sia h una funzione,

h : X→ Θ, h(X) = θ

Allora h e detto uno stimatore per θ.Sia x = (x1, ..., xn) realizzazione di X e sia h uno stimatore allora h(x) edetta la stima di θ.Esempio Siano X = (X1, ..., Xn) n VA IID, X ∼ Ber(θ), con θ incognito

h(X) =X1 + ...+Xn

n

Se n = 5, x = (0, 1, 1, 0, 1) allora

h(x) =3

5= 0.6


Stimatori e Stima

Correttezza di uno stimatore

Siano X = (X1, ..., Xn) n VA IID, Xi ∼ L (θ) e sia h uno stimatore per θ.Si dice che h e corretto se

E(h(X)) = θ


Stimatori e Stima

Correttezza di uno stimatoreEsempio

Siano X = (X1, ..., Xn) n VA IID, X ∼ Ber(θ), con θ incognito. Siano

h(X) =X1 + ...+Xn

n; h∗(X) =

X2 + ...+Xn−2

n

Se n = 5, x = (0, 1, 1, 0, 1) allora

h(x) =3

5= 0.6; h∗(x) =

2

5= 0.4

Il valore atteso

E(h(X)) = E

(X1 + ...+Xn

n

)=

1

nE(X1 + ...+Xn)

=1

n(E(X1) + ...+ E(Xn)) = θ

E(h∗(X)) = E

(X2 + ...+Xn−1

n

)=

1

nE(X2 + ...+Xn−1)

=1

n(E(X1) + ...+ E(Xn−1)) =

n− 2

nθ


Stimatori e Stima

Efficienza di uno stimatore

Siano X = (X1, ..., Xn) n VA IID, Xi ∼ L (θ) e sia h uno stimatore per θ.Si definisce il Mean Square Error, MSE, la quantita

MSE(h) = E((h(X)− θ)2)

= V (h(X)) +B2(h(X))

doveB2(h(X)) =

(E(h(X)

)− θ)2

Siano h e h∗ due stimatori, diremo che h e piu efficiente di h∗ se

MSE(h) < MSE(h∗)


Stimatori e Stima

Efficienza di uno stimatoreEsempio


h(X) =X1 + ...+Xn

n; h∗(X) =

X2 + ...+Xn−2

n

L’efficienza:

MSE(h(X)) = V

(X1 + ...+Xn

n

)=

1

n2V (X1 + ...+Xn)

=1

n2(V (X1) + ...+ V (Xn)) =

θ(1− θ)n

MSE(h∗(X)) = V

(X2 + ...+Xn−1

n

)+B2(h∗(X))

=1

n2V (X2 + ...+Xn−1) +

(θ − n− 2

nθ

)=

n− 2

n2θ(1− θ) + (2θ/n)2


Stimatori e Stima

Confronto efficienza.

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.05

0.10

0.15

pi

MS

E


Stimatori e Stima

Consistenza di uno stimatore

Siano X = (X1, ..., Xn) n VA IID, Xi ∼ L (θ) e sia h uno stimatore per θ.Si dice che h e consistente per θ, se

h(X)L2

−→ θ

Teorema SeMSE(h(X))→ 0, per n→∞

allora h e consistente.


Stimatori e Stima

Consistenza di uno stimatoreEsempio


h(X) =X1 + ...+Xn

n; h∗(X) =

X2 + ...+Xn−2

n

L’efficienza:

MSE(h(X)) =θ(1− θ)

n→ 0, se n→∞

MSE(h∗(X)) =n− 2

n2θ(1− θ) + (2θ/n)2 → 0, se n→∞


Misure di verosimiglianza

Esiste lo stimatore piu efficiente?

Siano X = (X1, ..., Xn) n VA IID. Ci chiediamo se esiste uno stimatore htale che

MSE(h) < MSE(h∗), per ogni h∗ 6= h

Per rispondere dobbiamo introdurre il concetto di verosimiglianza.Sia X = (X1, ..., Xn) n VA IID Xi ∼ L (θ) si definisce funzione diverosimiglianza la funzione in θ

L(θ; x) = Const.P (X = x; θ)

∝n∏i=1

P (Xi = xi; θ)

Nota la funzione di verosimiglianza non e una probabilita su θ ma alla lucedi x mi dice quando e verosimile un valore di θ.Tanto piu e alta la probabilita che P (X = x; θ) tanto piu θ e verosimile



Probabilita e Inferenza

Problema di probabilita

So com’e fatta l’urna (conosco θ = θ0), con quale probabilita estraggoSn = sn?

P (Sn = sn; θ = θ0)

Problema di Inferenza

Ho ottenuto Sn = sn, quanto e verosimile θ = θ0?

L(θ0;Sn = sn)



Esempio binomiale

Supponiamo n = 10, Xi ∼ Ber(θ), e x = (0, 1, 1, 0, 1, 1, 1, 1, 0, 1)

Nota che in ipotesi IID x e equivalente a sn =∑xi = 7

Definiamo L(θ;Sn) = L(θ) la funzione di verosimiglianza per θ

L(θ) = Const · P (Sn = sn; θ)

Posto Sn = 7, n = 10, la verosimiglianza per alcuni valori di θ

L(θ = 0.00;Sn = 7) = 0

L(θ = 0.10;Sn = 7) < 10−5

L(θ = 0.50;Sn = 7) = 0.1172

L(θ = 0.70;Sn = 7) = 0.2668

L(θ = 0.95;Sn = 7) = 0.0105

L(θ = 1.00;Sn = 7) = 0.



Esempio binomiale






L(θ = 0.00;Sn = 7) = 0

L(θ = 0.10;Sn = 7) < 10−5

L(θ = 0.50;Sn = 7) = 0.1172

L(θ = 0.70;Sn = 7) = 0.2668

L(θ = 0.95;Sn = 7) = 0.0105

L(θ = 1.00;Sn = 7) = 0.



Esempio binomiale






L(θ = 0.00;Sn = 7) = 0

L(θ = 0.10;Sn = 7) < 10−5

L(θ = 0.50;Sn = 7) = 0.1172

L(θ = 0.70;Sn = 7) = 0.2668

L(θ = 0.95;Sn = 7) = 0.0105

L(θ = 1.00;Sn = 7) = 0.



Esempio binomiale






L(θ = 0.00;Sn = 7) = 0

L(θ = 0.10;Sn = 7) < 10−5

L(θ = 0.50;Sn = 7) = 0.1172

L(θ = 0.70;Sn = 7) = 0.2668

L(θ = 0.95;Sn = 7) = 0.0105

L(θ = 1.00;Sn = 7) = 0.



La funzione di verosimiglianza con Const = 1

theta

lik (x)

0.0 0.5 0.7 1.0

0.000

00.0

005

0.001

00.0

015

0.002

0



Lo stimatore di massima verosimiglianza

Definiamo:θ = argmax

θ∈ΘL(θ)

Qui Θ = [0, 1]

Nel caso Bernoulli:

θ =snn

=7

10= 0.7





θ∈ΘL(θ)

Qui Θ = [0, 1]

Nel caso Bernoulli:

θ =snn

=7

10= 0.7





θ∈ΘL(θ)

Qui Θ = [0, 1]

Nel caso Bernoulli:

θ =snn

=7

10= 0.7



La funzione di verosimiglianza con L−1(θ)

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

x

likn (x

)



La log-verosimiglianza e misure collegate

Definiamo la funzione di log-verosimiglianza:

`(θ) = logL(θ)

Notaθ = argmax

θ∈ΘL(θ) = argmax

θ∈Θ`(θ)

definiamo la funzione score

s(θ) =d

dθ`(θ) = `′(θ)

definiamo l’informazione di Fisher osservata:

I = −(d2

dθ2`(θ)

∣∣∣∣θ=θ

)= (`′′(θ))





`(θ) = logL(θ)

Notaθ = argmax


θ∈Θ`(θ)


s(θ) =d

dθ`(θ) = `′(θ)


I = −(d2

dθ2`(θ)

∣∣∣∣θ=θ

)= (`′′(θ))





`(θ) = logL(θ)

Notaθ = argmax


θ∈Θ`(θ)


s(θ) =d

dθ`(θ) = `′(θ)


I = −(d2

dθ2`(θ)

∣∣∣∣θ=θ

)= (`′′(θ))





`(θ) = logL(θ)

Notaθ = argmax


θ∈Θ`(θ)


s(θ) =d

dθ`(θ) = `′(θ)


I = −(d2

dθ2`(θ)

∣∣∣∣θ=θ

)= (`′′(θ))



La funzione di log-verosimiglianza

x

llikn (

x)

0.0 0.5 0.7 1.0

−25

−20

−15

−10

−50

log−liks(0.5)l(thetahat)



Verosimiglianza, log verosimiglianza, e score nel caso Bernoulli

La verosimiglianza:

L(θ) ∝(n

sn

)θsn(1− θ)n−sn

∝ Const θsn(1− θ)n−sn

La log-verosimiglianza:

`(θ) = logConst+ sn log θ + (n− sn) log(1− θ)

La score function

s(θ) = `′(θ) =snθ− n− sn

1− θ




La verosimiglianza:

L(θ) ∝(n

sn





La score function

s(θ) = `′(θ) =snθ− n− sn

1− θ




La verosimiglianza:

L(θ) ∝(n

sn





La score function

s(θ) = `′(θ) =snθ− n− sn

1− θ



Informazione nel caso Bernoulli

La derivata seconda:

`′′(θ) = −snθ2

+n− sn

(1− θ)2

L’informazione di Fisher osservata e:

I = −`′′(θ)

= − −(nθ2 − 2snθ + sn)

θ2(1− θ)2

∣∣∣∣θ=θ

= n1

θ(1− θ)= nvar−1(x)

Se sn = 7 e n = 10, allora

I =10

0.7 · (1− 0.7)= 47.61905





`′′(θ) = −snθ2

+n− sn

(1− θ)2


I = −`′′(θ)

= − −(nθ2 − 2snθ + sn)

θ2(1− θ)2

∣∣∣∣θ=θ

= n1

θ(1− θ)= nvar−1(x)


I =10

0.7 · (1− 0.7)= 47.61905





`′′(θ) = −snθ2

+n− sn

(1− θ)2


I = −`′′(θ)

= − −(nθ2 − 2snθ + sn)

θ2(1− θ)2

∣∣∣∣θ=θ

= n1

θ(1− θ)= nvar−1(x)


I =10

0.7 · (1− 0.7)= 47.61905



Se n cresce e sn/n rimane costante...

Si considerino le seguenti situazioni:

sn = 7 n = 10

sn = 70 n = 100

sn = 700 n = 1000

la stima di massima verosimiglianza rimane invariata

θ = sn/n = 0.7

L’informazione di Fisher cambia:

sn = 7 n = 10 I = 10 · (0.7 · 0.3)−1 = 47.6372

sn = 70 n = 100 I = 100 · (0.7 · 0.3)−1 = 476.372

sn = 700 n = 1000 I = 1000 · (0.7 · 0.3)−1 = 4763.72



Se n cresce e sn/n rimane costante...

Si considerino le seguenti situazioni:

sn = 7 n = 10

sn = 70 n = 100

sn = 700 n = 1000

la stima di massima verosimiglianza rimane invariata

θ = sn/n = 0.7

L’informazione di Fisher cambia:

sn = 7 n = 10 I = 10 · (0.7 · 0.3)−1 = 47.6372

sn = 70 n = 100 I = 100 · (0.7 · 0.3)−1 = 476.372

sn = 700 n = 1000 I = 1000 · (0.7 · 0.3)−1 = 4763.72



La funzione di log-verosimiglianza a parita di sn con n crescente

0.0 0.2 0.4 0.6 0.8 1.0

−25

−20

−15

−10

−50

x

llikn (

x)



Ricapitoliamo

x = (X1, ..., Xn) VC e x = (x1, ..., xn) sua realizzazione

p(x; θ) distribuzione congiunta di x, ovvero:

p(x; θ) =

{P (X1 = x1 ∩ ... ∩Xn = xn; θ), Se X discreta

fX(x1, ..., xn; θ), Se X continua, fX densita

Se X IID allora Xi ∼ X

p(x; θ) =n∏i=1

p(xi)

La verosimiglianza per θ e data

L(θ) ∝ p(x; θ); `(θ) = log p(x; θ)

e se X IID allora

L(θ) ∝n∏i=1

p(xi); `(θ) =

n∑i=1

log p(xi; θ)



Ricapitoliamo

x = (X1, ..., Xn) VC e x = (x1, ..., xn) sua realizzazionep(x; θ) distribuzione congiunta di x, ovvero:

p(x; θ) =




p(x; θ) =n∏i=1

p(xi)


L(θ) ∝ p(x; θ); `(θ) = log p(x; θ)

e se X IID allora

L(θ) ∝n∏i=1

p(xi); `(θ) =

n∑i=1

log p(xi; θ)



Ricapitoliamo


p(x; θ) =




p(x; θ) =

n∏i=1

p(xi)


L(θ) ∝ p(x; θ); `(θ) = log p(x; θ)

e se X IID allora

L(θ) ∝n∏i=1

p(xi); `(θ) =

n∑i=1

log p(xi; θ)



Ricapitoliamo


p(x; θ) =




p(x; θ) =

n∏i=1

p(xi)


L(θ) ∝ p(x; θ); `(θ) = log p(x; θ)

e se X IID allora

L(θ) ∝n∏i=1

p(xi); `(θ) =

n∑i=1

log p(xi; θ)



Ricapitoliamo

Lo stimatore di massima verosimiglianza e

θ = argmaxθ∈Θ

`(θ) = argminθ∈Θ

− `(θ)

L’informazione di Fisher osservata

I = −`′′(θ)

Informazione di Fisher

Supposto θ sia il vero parametro si definisce

I(θ) = −EX(`′′(θ))

= EX((`′(θ))2)



Ricapitoliamo


θ = argmaxθ∈Θ


− `(θ)


I = −`′′(θ)



I(θ) = −EX(`′′(θ))

= EX((`′(θ))2)



Ricapitoliamo


θ = argmaxθ∈Θ


− `(θ)


I = −`′′(θ)



I(θ) = −EX(`′′(θ))

= EX((`′(θ))2)



log-likelihood, repeated samples

x

l(x, 1

)

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

−150

−100

−50

0



Fisher Information

se X IID allora, Xi ∼ X,

I(θ) = −n∑i=1

EXi(`′′(θ;Xi)) = ni(θ), i(θ) = EX(p′′(X; θ))

Cramer-Rao Inequality

Sia h uno stimatore per θ, tale che E(h) = ξ(θ), allora

V (h) ≥ (ξ′(θ))2I−1(θ)

se h e corretto E(h) = θ, e dunque

V (h) ≥ I−1(θ) = n−1i−1(θ)



Proprieta asintotiche

Stimatori di massima verosimiglianza

E(θ)→ θ

V (θ)→ I−1(θ)

θd−→ N(θ, I−1(θ))

θP−→ θ

IP−→ I(θ)

Sia ψ una trasformazione monotona allora:

ψ(θ) = ψ(θ)





E(θ)→ θ

V (θ)→ I−1(θ)

θd−→ N(θ, I−1(θ))

θP−→ θ

IP−→ I(θ)


ψ(θ) = ψ(θ)





E(θ)→ θ

V (θ)→ I−1(θ)

θd−→ N(θ, I−1(θ))

θP−→ θ

IP−→ I(θ)


ψ(θ) = ψ(θ)





E(θ)→ θ

V (θ)→ I−1(θ)

θd−→ N(θ, I−1(θ))

θP−→ θ

IP−→ I(θ)


ψ(θ) = ψ(θ)





E(θ)→ θ

V (θ)→ I−1(θ)

θd−→ N(θ, I−1(θ))

θP−→ θ

IP−→ I(θ)


ψ(θ) = ψ(θ)





E(θ)→ θ

V (θ)→ I−1(θ)

θd−→ N(θ, I−1(θ))

θP−→ θ

IP−→ I(θ)


ψ(θ) = ψ(θ)



Nel caso Bernoulli


I(θ) = −E(snθ2

+n− sn

(1− θ)2

)=

n

θ(1− θ)

Normalita dello ML:

θd−→ N(θ, θ(1− θ)/n)

θ − θ√θ(1− θ)/n

d−→ N(0, 1)

Proprieta

P (θ − zα/2√I(θ) ≤ θ ≤ θ + zα/2

√I(θ)) = 1− α,

con zα/2 : P (Z ≤ zα/2) = α/2, e Z ∼ N(0, 1).



Nel caso Bernoulli


I(θ) = −E(snθ2

+n− sn

(1− θ)2

)=

n

θ(1− θ)

Normalita dello ML:

θd−→ N(θ, θ(1− θ)/n)

θ − θ√θ(1− θ)/n

d−→ N(0, 1)

Proprieta

P (θ − zα/2√I(θ) ≤ θ ≤ θ + zα/2

√I(θ)) = 1− α,

con zα/2 : P (Z ≤ zα/2) = α/2, e Z ∼ N(0, 1).



Nel caso Bernoulli


I(θ) = −E(snθ2

+n− sn

(1− θ)2

)=

n

θ(1− θ)

Normalita dello ML:

θd−→ N(θ, θ(1− θ)/n)

θ − θ√θ(1− θ)/n

d−→ N(0, 1)

Proprieta

P (θ − zα/2√I(θ) ≤ θ ≤ θ + zα/2

√I(θ)) = 1− α,

con zα/2 : P (Z ≤ zα/2) = α/2, e Z ∼ N(0, 1).



Distribuzione di θ con n crescente, se θ = 0.5

Histogram of rbinom(10000, 10, 0.5)/10

rbinom(10000, 10, 0.5)/10

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

0.00.5

1.01.5

2.02.5


rbinom(10000, 50, 0.5)/50

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

6


rbinom(10000, 100, 0.5)/100

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

02

46

8


rbinom(10000, 200, 0.5)/200

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810



Distribuzione di θ con n crescente, se θ = 0.7


rbinom(10000, 10, 0.7)/10

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

0.00.5

1.01.5

2.02.5


rbinom(10000, 50, 0.7)/50

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

6


rbinom(10000, 100, 0.7)/100

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

02

46

8


rbinom(10000, 200, 0.7)/200

Dens

ity

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

12



Intervalli di confidenza asintotici

Poiche

P (θ − zα/2√I(θ)−1 ≤ θ ≤ θ + zα/2

√I(θ)−1) = 1− α,

allora

P (θ − zα/2√I−1 ≤ θ ≤ θ + zα/2

√I−1) = 1− α,

Ovvero l’intervallo Iα = [θ − zα/2√I−1, θ + zα/2

√I−1] e detto

intervallo di confidenza asintotico per θ al livello α.

Nel nostro caso, posto 1− α = 0.95 abbiamon min Iα esatto (asintotico) max Iα esatto (asintotico)

10 0.3537 (0.4160) 0.9190 (0.9840)100 0.6102 (0.5989) 0.7898 (0.7855)

1000 0.6716 (0.6704) 0.7284 (0.7281)



Intervalli di confidenza asintotici

Poiche

P (θ − zα/2√I(θ)−1 ≤ θ ≤ θ + zα/2

√I(θ)−1) = 1− α,

allora

P (θ − zα/2√I−1 ≤ θ ≤ θ + zα/2

√I−1) = 1− α,

Ovvero l’intervallo Iα = [θ − zα/2√I−1, θ + zα/2

√I−1] e detto

intervallo di confidenza asintotico per θ al livello α.

Nel nostro caso, posto 1− α = 0.95 abbiamon min Iα esatto (asintotico) max Iα esatto (asintotico)

10 0.3537 (0.4160) 0.9190 (0.9840)100 0.6102 (0.5989) 0.7898 (0.7855)

1000 0.6716 (0.6704) 0.7284 (0.7281)



Test asintotici

Formuliamo le ipotesi: {H0 : θ = 0.5H1 : θ 6= 0.5

,

e consideriamo la statistica test

T =θ − θ√I−1(θ)

, θ stimatore,

definiamo

tobs =θ − θ√I−1(θ)

, θ stima



Test asintotici

definiamopvalue = PH0(|T | > |tobs|)

pvalue puo essere rivisto come una misura di allontananza da H0

pvalue ≤ 0.050 tobs significativamente diverso da zero *pvalue ≤ 0.010 tobs significativamente diverso da zero **pvalue ≤ 0.001 tobs significativamente diverso da zero ***

Nel nostro caso,n pvalue esatto (asintotico)

10 0.3428 (0.2059)100 9.e-05 (6.e-05)

1000 2.e-16 (0.0000)



Test asintotici





10 0.3428 (0.2059)100 9.e-05 (6.e-05)

1000 2.e-16 (0.0000)



Test asintotici



pvalue ≤ 0.050 tobs significativamente diverso da zero *

pvalue ≤ 0.010 tobs significativamente diverso da zero **pvalue ≤ 0.001 tobs significativamente diverso da zero ***


10 0.3428 (0.2059)100 9.e-05 (6.e-05)

1000 2.e-16 (0.0000)



Test asintotici



pvalue ≤ 0.050 tobs significativamente diverso da zero *pvalue ≤ 0.010 tobs significativamente diverso da zero **

pvalue ≤ 0.001 tobs significativamente diverso da zero ***


10 0.3428 (0.2059)100 9.e-05 (6.e-05)

1000 2.e-16 (0.0000)



Test asintotici





10 0.3428 (0.2059)100 9.e-05 (6.e-05)

1000 2.e-16 (0.0000)



Test asintotici





10 0.3428 (0.2059)100 9.e-05 (6.e-05)

1000 2.e-16 (0.0000)



Esempio con Xi ∼ Exp(λ)

Sia X = (X1, ..., Xn) n VA IID Xi ∼ Exp(λ)

f(xi;λ) = λe−λxi

la Likelihood:

L(λ; x) ∝n∏i=1

λe−λxi

= λnn∏i=1

e−λxi

= λne−λ∑ni=1 xi




Sia X = (X1, ..., Xn) n VA IID Xi ∼ Exp(λ)

f(xi;λ) = λe−λxi

la Likelihood:

L(λ; x) ∝n∏i=1

λe−λxi

= λnn∏i=1

e−λxi

= λne−λ∑ni=1 xi




la log-likelihood

`(θ) = n log λ− λn∑i=1

xi

la derivata prima (la score function)

`′(λ) =n

λ−

n∑i=1

xi

che eguagliata a zero porta:

λ =n∑ni=1 xi




la log-likelihood


xi


`′(λ) =n

λ−

n∑i=1

xi


λ =n∑ni=1 xi




la log-likelihood


xi


`′(λ) =n

λ−

n∑i=1

xi


λ =n∑ni=1 xi




la derivata seconda`′′(θ) = − n

λ2

l’informazione osservata

I = −`′′(λ) =n

λ2=

(∑n

i=1 xi)2

n

lo SE stimato

SE =√I−1 =

√λ2

n=

√n∑n

i=1 xi





λ2


I = −`′′(λ) =n

λ2=

(∑n

i=1 xi)2

n

lo SE stimato

SE =√I−1 =

√λ2

n=

√n∑n

i=1 xi





λ2


I = −`′′(λ) =n

λ2=

(∑n

i=1 xi)2

n

lo SE stimato

SE =√I−1 =

√λ2

n=

√n∑n

i=1 xi



Esempio con ψ = 1/λ

Poniamo la riparemetrizzazione:

ψ =1

λ,→ E(Xi) = ψ, V (Xi) = ψ2

in visrtu della proprieta 6

ψ =1

λ=

∑ni=1 xin

e dunque

E(ψ) = n−1E

(n∑i=1

xi

)= ψ; V (ψ) =

ψ2

n





ψ =1

λ,→ E(Xi) = ψ, V (Xi) = ψ2


ψ =1

λ=

∑ni=1 xin

e dunque

E(ψ) = n−1E

(n∑i=1

xi

)= ψ; V (ψ) =

ψ2

n





ψ =1

λ,→ E(Xi) = ψ, V (Xi) = ψ2


ψ =1

λ=

∑ni=1 xin

e dunque

E(ψ) = n−1E

(n∑i=1

xi

)= ψ; V (ψ) =

ψ2

n


Modelli multiparametrici

Il modello normale

sia X n VA IID, Xi ∼ N(µ, σ2) ovvero

f(xi;µ, σ2) =

1√2θσ2

e−1

2σ2(xi−µ)2

la Likelihood:

L(µ, σ2) ∝n∏i=1

1√2θσ2

e−1

2σ2(xi−µ)2

∝ σ−2ne−1

2σ2

∑ni=1(xi−µ)2

la log-likelihood

`(µ, σ2) = −n2

log σ2 − 1

2σ2

n∑i=1

(xi − µ)2



Il modello normale


f(xi;µ, σ2) =

1√2θσ2

e−1

2σ2(xi−µ)2

la Likelihood:

L(µ, σ2) ∝n∏i=1

1√2θσ2

e−1

2σ2(xi−µ)2

∝ σ−2ne−1

2σ2

∑ni=1(xi−µ)2

la log-likelihood

`(µ, σ2) = −n2

log σ2 − 1

2σ2

n∑i=1

(xi − µ)2



Il modello normale


f(xi;µ, σ2) =

1√2θσ2

e−1

2σ2(xi−µ)2

la Likelihood:

L(µ, σ2) ∝n∏i=1

1√2θσ2

e−1

2σ2(xi−µ)2

∝ σ−2ne−1

2σ2

∑ni=1(xi−µ)2

la log-likelihood

`(µ, σ2) = −n2

log σ2 − 1

2σ2

n∑i=1

(xi − µ)2



Il modello normale

mettiamo a sistema{ d`dµ = 1

σ2

∑ni=1(xi − µ)

d`dσ2 = − n

2σ2 − 12σ4

∑ni=1(xi − µ)2

uguagliando a zero le derivate parziali si ottiene:{µ = n−1

∑ni=1 xi

σ2 = n−1∑n

i=1(xi − µ)2

Attenzione alla correttezza:{E(µ) = µE(σ2) = n−1

n σ2



Il modello normale


σ2

∑ni=1(xi − µ)

d`dσ2 = − n

2σ2 − 12σ4

∑ni=1(xi − µ)2


∑ni=1 xi

σ2 = n−1∑n

i=1(xi − µ)2


n σ2



Il modello normale


σ2

∑ni=1(xi − µ)

d`dσ2 = − n

2σ2 − 12σ4

∑ni=1(xi − µ)2


∑ni=1 xi

σ2 = n−1∑n

i=1(xi − µ)2


n σ2



Correzione della varianza

La stima della varianza ML in media sottostima σ2

Si consideri il seguente stimatore:

S2 =1

n− 1

n∑i=1

(xi − µ)2 =n

n− 1σ2

succede che:

E(S2) =n

n− 1E(σ2) =

n

n− 1

n− 1

nσ2 = σ2

Un’importante risultato

µ− µS2/n

∼ tn−1 → N(0, 1)






S2 =1

n− 1

n∑i=1

(xi − µ)2 =n

n− 1σ2

succede che:

E(S2) =n

n− 1E(σ2) =

n

n− 1

n− 1

nσ2 = σ2


µ− µS2/n

∼ tn−1 → N(0, 1)






S2 =1

n− 1

n∑i=1

(xi − µ)2 =n

n− 1σ2

succede che:

E(S2) =n

n− 1E(σ2) =

n

n− 1

n− 1

nσ2 = σ2


µ− µS2/n

∼ tn−1 → N(0, 1)






S2 =1

n− 1

n∑i=1

(xi − µ)2 =n

n− 1σ2

succede che:

E(S2) =n

n− 1E(σ2) =

n

n− 1

n− 1

nσ2 = σ2


µ− µS2/n

∼ tn−1 → N(0, 1)


Misure di informazione

La divergenza Kullback-Leibler

Sia π la distribuzione ’vera’ di Y e sia pθ = p(·;θ) un modelloparametrico. Definiamo la divergenza di Kullback-Leibler di pθ da π

DKL(π||pθ) = EY

(log(π(Y )/p(Y ;θ)

))= EY (log π(Y ))− EY (log p(Y ;θ))

valgono la seguente proprieta:

DKL(π||pθ) = 0, sse π = pθ

DKL(π||pθ) > 0, altrimenti

Nota: EY (π(Y )) non dipende da θ e dunque DKL

Nota: Dalla Legge dei Grandi Numeri, abbiamo

n−1n∑i=1

log p(yi;θ) = n−1`(θ) →n→∞

EY (log p(Y ;θ))

Il θ che rende massima EY (log p(Y ;θ)) e il θ che minimizza DKL


Misure di informazione

AIC: Akaike Information Criterion

Si noti che n−1`(θ) e stimatore distorto di EY (log p(Y ; θ)) e che:

EY (log p(Y ; θ))− EY (n−1`(θ)) ≈ −k/n

dove k = dim(Θ)

Cioe:EY (−`(θ) + k) ≈ −nEY (log p(Y ; θ))

si definisce Akaike Indormation Criterion:

AIC = −2`(θ) + 2k

lo stimatore della divergenza KL di pθ da π.

Siano pθ e p′θ′ due modelli per Y avremo che:

EY (AIC) < EY (AIC ′), sse DKL(π||pθ) < DKL(π||p′θ′)


Modelli lineari

Modelli lineari

In forma stocastica

Yi = β0 + β1Xi + εi, εi ∼ N(0, σ2), IID

dalle proprieta della normale segue che

Yi|Xi ∼ N(β0 + β1Xi, σ2)

ovvero

f(yi|xi;β0, β1, σ2) =

1√2πσ2

exp

{− 1

2σ2(yi − (β0 + β1xi))

2

}


Modelli lineari

Modelli lineari

In forma stocastica




ovvero

f(yi|xi;β0, β1, σ2) =

1√2πσ2

exp

{− 1

2σ2(yi − (β0 + β1xi))

2

}


Modelli lineari

Modelli lineari

In forma stocastica




ovvero

f(yi|xi;β0, β1, σ2) =

1√2πσ2

exp

{− 1

2σ2(yi − (β0 + β1xi))

2

}


Modelli lineari

Modelli lineari

Siano (x,y) = ((x1, y1), ..., (xn, yn)) realizzazioni IID della coppia(X,Y) = ((X1, Y1)..., (Xn, Yn)). Il modello


porge verosimiglianza

L(β0, β1, σ2; x,y) ∝

n∏i=1

1√2πσ2

exp

{− 1

2σ2(yi − (β0 + β1xi))

2

}

∝(

1√σ2

)nexp

{− 1

2σ2

n∑i=1

(yi − (β0 + β1xi))2

}

la log-likelihood

`(β0, β1, σ2; x,y) = −n

2log(σ2)− 1

2σ2

n∑i=1

(yi − (β0 + β1xi))2


Modelli lineari

Modelli lineari




L(β0, β1, σ2; x,y) ∝

n∏i=1

1√2πσ2

exp

{− 1

2σ2(yi − (β0 + β1xi))

2

}

∝(

1√σ2

)nexp

{− 1

2σ2

n∑i=1

(yi − (β0 + β1xi))2

}

la log-likelihood

`(β0, β1, σ2; x,y) = −n

2log(σ2)− 1

2σ2

n∑i=1

(yi − (β0 + β1xi))2


Modelli lineari

Modelli lineari




L(β0, β1, σ2; x,y) ∝

n∏i=1

1√2πσ2

exp

{− 1

2σ2(yi − (β0 + β1xi))

2

}

∝(

1√σ2

)nexp

{− 1

2σ2

n∑i=1

(yi − (β0 + β1xi))2

}

la log-likelihood

`(β0, β1, σ2; x,y) = −n

2log(σ2)− 1

2σ2

n∑i=1

(yi − (β0 + β1xi))2


Modelli lineari

Rappresentazione del modello di regressione

xgrid0ygrid0

zmat


Modelli lineari

Modelli lineari (nei parametri)



supponiamo ora che

Xi = sin(Wi), ∀i

AlloraYi|Wi ∼ N(β0 + β1 sin(Wi), σ

2)

E’ sempre un modello lineare, la linearita e nei parametri


Modelli lineari




supponiamo ora che

Xi = sin(Wi), ∀i


2)



Modelli lineari




supponiamo ora che

Xi = sin(Wi), ∀i


2)



Modelli lineari




supponiamo ora che

Xi = sin(Wi), ∀i


2)



Modelli lineari


xgrid0ygrid0

zmat


Modelli lineari

Modelli lineari multivariati

Siano (w,y) = ((w1, y1), ..., (wn, yn)) realizzazioni IID della coppia(W,Y) = ((W1, Y1)..., (Wn, Yn)). Dove dim(W) = k.Il modello in forma stocastica e:

Yi = β0 + β1W1i + ...+ β1Wki + εi, εi ∼ N(0, σ2), IID

osserviamo la matrice w dei dati

w =

w11 w12 · · · w1k

w21 w22 · · · w2k

......

. . ....

wn1 wn2 · · · wnk

Definiamo il vettore dei β:

β = (β0, β1, ..., βk) ∈ Rk+1


Modelli lineari





w =

w11 w12 · · · w1k

w21 w22 · · · w2k

......

. . ....



β = (β0, β1, ..., βk) ∈ Rk+1


Modelli lineari





w =

w11 w12 · · · w1k

w21 w22 · · · w2k

......

. . ....



β = (β0, β1, ..., βk) ∈ Rk+1


Modelli lineari


Definiamo la matrice disegno x = (1n; w) ∈ Rn×k dei dati

x = (1n; w) =

1 w11 w12 · · · w1k

1 w21 w22 · · · w2k

......

.... . .

...1 wn1 wn2 · · · wnk

e osserviamo che

y =

y1

y2

...yn

=

β0 + β1W11 + ...+ β1W1k + ε1β0 + β1W21 + ...+ β1W2k + ε2

...β0 + β1Wn1 + ...+ β1Wnk + εn

= xβ + ε

doveε = (ε1, ..., εn)


Modelli lineari



x = (1n; w) =

1 w11 w12 · · · w1k

1 w21 w22 · · · w2k

......

.... . .

...1 wn1 wn2 · · · wnk

e osserviamo che

y =

y1

y2

...yn

=

β0 + β1W11 + ...+ β1W1k + ε1β0 + β1W21 + ...+ β1W2k + ε2

...β0 + β1Wn1 + ...+ β1Wnk + εn

= xβ + ε

doveε = (ε1, ..., εn)


Modelli lineari



x = (1n; w) =

1 w11 w12 · · · w1k

1 w21 w22 · · · w2k

......

.... . .

...1 wn1 wn2 · · · wnk

e osserviamo che

y =

y1

y2

...yn

=

β0 + β1W11 + ...+ β1W1k + ε1β0 + β1W21 + ...+ β1W2k + ε2

...β0 + β1Wn1 + ...+ β1Wnk + εn

= xβ + ε

doveε = (ε1, ..., εn)


Modelli lineari


Siano (w,y) = ((w1, y1), ..., (wn, yn)) realizzazioni IID della coppia(W,Y) = ((W1, Y1)..., (Wn, Yn)). Sia x la matrice disegno. Ilmodello

Yi|xi ∼ N(xiβ, σ2)


L(β, σ2; x,y) ∝n∏i=1

1√2πσ2

exp

{− 1

2σ2(yi − xiβ)2

}

∝(

1√σ2

)nexp

{− 1

2σ2

n∑i=1

(yi − xiβ))2

}

la log-likelihood

`(β, σ2; x,y) = −n2

log(σ2)− 1

2σ2

n∑i=1

(yi − xiβ)2


Modelli lineari





L(β, σ2; x,y) ∝n∏i=1

1√2πσ2

exp

{− 1

2σ2(yi − xiβ)2

}

∝(

1√σ2

)nexp

{− 1

2σ2

n∑i=1

(yi − xiβ))2

}

la log-likelihood

`(β, σ2; x,y) = −n2

log(σ2)− 1

2σ2

n∑i=1

(yi − xiβ)2


Modelli lineari





L(β, σ2; x,y) ∝n∏i=1

1√2πσ2

exp

{− 1

2σ2(yi − xiβ)2

}

∝(

1√σ2

)nexp

{− 1

2σ2

n∑i=1

(yi − xiβ))2

}

la log-likelihood

`(β, σ2; x,y) = −n2

log(σ2)− 1

2σ2

n∑i=1

(yi − xiβ)2


Modelli lineari


rappresentazione matriciale della log-likelihood

`(β, σ2; x,y) = −n2

log(σ2)− 1

2σ2‖y − xβ‖22

dove ‖a‖ = a′a

la derivata prima della log-likelihood e un vettore (il gradiente)

d`(β, σ2; x,y)

dβ= − 1

2σ2x′(y − xβ)

uguagliata a zero diventa

d`(β, σ2; x,y)

dβ= 0

x′(y − xβ) = 0

x′xβ = x′y

β = (x′x)−1x′y


Modelli lineari



`(β, σ2; x,y) = −n2

log(σ2)− 1

2σ2‖y − xβ‖22



d`(β, σ2; x,y)

dβ= − 1

2σ2x′(y − xβ)


d`(β, σ2; x,y)

dβ= 0

x′(y − xβ) = 0

x′xβ = x′y

β = (x′x)−1x′y


Modelli lineari



`(β, σ2; x,y) = −n2

log(σ2)− 1

2σ2‖y − xβ‖22



d`(β, σ2; x,y)

dβ= − 1

2σ2x′(y − xβ)


d`(β, σ2; x,y)

dβ= 0

x′(y − xβ) = 0

x′xβ = x′y

β = (x′x)−1x′y


Modelli lineari


definiamo la previsione

y = xβ = x(x′x)−1x′y = Hy

definiamo la stima dell’errore

e = y − y

si dimostra che

σ2 =e′e

n

attenzione σ2 non e corretto

E(σ2) =n− k − 1

nσ2


Modelli lineari





e = y − y

si dimostra che

σ2 =e′e

n


E(σ2) =n− k − 1

nσ2


Modelli lineari





e = y − y

si dimostra che

σ2 =e′e

n


E(σ2) =n− k − 1

nσ2


Modelli lineari





e = y − y

si dimostra che

σ2 =e′e

n


E(σ2) =n− k − 1

nσ2


Modelli lineari

Risultati importanti

lo stimatore corretto per σ2 e

S2 =e′e

n− k − 1

lo stimatore distorto della varianza di β

V (β) = σ2(x′x)−1

lo stimatore corretto della varianza di β

S2(β) = S2(x′x)−1


Modelli lineari



S2 =e′e

n− k − 1


V (β) = σ2(x′x)−1


S2(β) = S2(x′x)−1


Modelli lineari



S2 =e′e

n− k − 1


V (β) = σ2(x′x)−1


S2(β) = S2(x′x)−1


Modelli lineari


lo stimatore per β per Y |x sono

β = (x′x)−1x′y Y |x = xβ

sono entrambi corretti:

E(β) = E((x′x)−1x′y)

= (x′x)−1x′E(y)

= (x′x)−1x′xβ = β

E(Y |x) = E(xβ) = xβ

con varianza:

V (β) = σ2(x′x)−1

V (Y |x) = σ2H


Modelli lineari



β = (x′x)−1x′y Y |x = xβ


E(β) = E((x′x)−1x′y)

= (x′x)−1x′E(y)

= (x′x)−1x′xβ = β


con varianza:

V (β) = σ2(x′x)−1

V (Y |x) = σ2H


Modelli lineari



β = (x′x)−1x′y Y |x = xβ


E(β) = E((x′x)−1x′y)

= (x′x)−1x′E(y)

= (x′x)−1x′xβ = β


con varianza:

V (β) = σ2(x′x)−1

V (Y |x) = σ2H


Modelli lineari


●

●

●

●

●

●

0.1 0.2 0.3 0.4 0.5 0.6

01

23

45

67

x2

y


Modelli lineari

Importanti esemplificazioni

V continua, Y continua.

Esempio

x,y =

V Y1 0.1 0.051 0.2 2.011 0.3 2.561 0.4 5.151 0.5 6.021 0.6 6.89

il modello

y = xβ + ε

e la regressione lineare.


Modelli lineari



Esempio

x,y =

V Y1 0.1 0.051 0.2 2.011 0.3 2.561 0.4 5.151 0.5 6.021 0.6 6.89

il modelloy = xβ + ε



Modelli lineari



Esempio

x,y =

V Y1 0.1 0.051 0.2 2.011 0.3 2.561 0.4 5.151 0.5 6.021 0.6 6.89

il modello

y = xβ + ε



Modelli lineari


●

●

●

●

●

●

0.1 0.2 0.3 0.4 0.5 0.6

01

23

45

67

x2

y


Modelli lineari


●

●

●

●

●

●

0.1 0.2 0.3 0.4 0.5 0.6

01

23

45

67

x2

y


Modelli lineari


V continua, V = (V1 = V, V2 = V 2), Y continua.

Esempio

x,y =

V1 V2 Y1 0.1 0.01 0.051 0.2 0.04 2.011 0.3 0.09 2.561 0.4 0.16 5.151 0.5 0.25 6.021 0.6 0.36 6.89

il modello

y = xβ + ε

e la regressione polinomiale di grado 2.


Modelli lineari



Esempio

x,y =

V1 V2 Y1 0.1 0.01 0.051 0.2 0.04 2.011 0.3 0.09 2.561 0.4 0.16 5.151 0.5 0.25 6.021 0.6 0.36 6.89

il modelloy = xβ + ε



Modelli lineari



Esempio

x,y =

V1 V2 Y1 0.1 0.01 0.051 0.2 0.04 2.011 0.3 0.09 2.561 0.4 0.16 5.151 0.5 0.25 6.021 0.6 0.36 6.89

il modello

y = xβ + ε



Modelli lineari


●

●

●

●

●

●

0.1 0.2 0.3 0.4 0.5 0.6

01

23

45

67

x2

y


Modelli lineari


W categorial (con supporto {0,1}), V continua, Y continua.

Esempio

x,y =

W V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 1 0.4 5.151 1 0.5 6.021 1 0.6 6.89

2 intercette un coefficiente angolare


Modelli lineari



Esempio

x,y =

W V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 1 0.4 5.151 1 0.5 6.021 1 0.6 6.89



Modelli lineari



Esempio

x,y =

W V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 1 0.4 5.151 1 0.5 6.021 1 0.6 6.89



Modelli lineari


●

●

●

●

●

●

0.1 0.2 0.3 0.4 0.5 0.6

01

23

45

67

x2

y


Modelli lineari


W = (W1,W2) categorial (con supporto {(0,0),(0,1),(1,0)}), Vcontinua, Y continua.

Esempio

x,y =

W1 W2 V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 1 0.3 2.561 0 1 0.4 5.151 1 0 0.5 6.021 1 0 0.6 6.89



Modelli lineari



Esempio

x,y =

W1 W2 V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 1 0.3 2.561 0 1 0.4 5.151 1 0 0.5 6.021 1 0 0.6 6.89



Modelli lineari



Esempio

x,y =

W1 W2 V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 1 0.3 2.561 0 1 0.4 5.151 1 0 0.5 6.021 1 0 0.6 6.89



Modelli lineari



Esempio

x,y =

W ∗ V (1−W ) ∗ V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 0.4 0 5.151 0.5 0 6.021 0.6 0 6.89

1 intercetta 2 coefficienti angolari


Modelli lineari



Esempio

x,y =

W ∗ V (1−W ) ∗ V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 0.4 0 5.151 0.5 0 6.021 0.6 0 6.89



Modelli lineari



Esempio

x,y =

W ∗ V (1−W ) ∗ V Y1 0 0.1 0.051 0 0.2 2.011 0 0.3 2.561 0.4 0 5.151 0.5 0 6.021 0.6 0 6.89



Modelli lineari


●

●

●

●

●

●

0.1 0.2 0.3 0.4 0.5 0.6

01

23

45

67

x2

y


Modelli lineari



Esempio

x,y =

W W ∗ V (1−W ) ∗ V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 0 0.3 2.561 1 0.4 0 5.151 1 0.5 0 6.021 1 0.6 0 6.89

2 intercette 2 coefficienti angolari


Modelli lineari



Esempio

x,y =

W W ∗ V (1−W ) ∗ V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 0 0.3 2.561 1 0.4 0 5.151 1 0.5 0 6.021 1 0.6 0 6.89



Modelli lineari



Esempio

x,y =

W W ∗ V (1−W ) ∗ V Y1 0 0 0.1 0.051 0 0 0.2 2.011 0 0 0.3 2.561 1 0.4 0 5.151 1 0.5 0 6.021 1 0.6 0 6.89



Modelli lineari


●

●

●

●

●

●

0.1 0.2 0.3 0.4 0.5 0.6

01

23

45

67

x2

y


Modelli Lineari Generalizzati (GLM)

La famiglia esponenziale

Sia Y = (Y1, ..., Yn), n VA IID.Si definisce la famiglia esponenziale:

Yi ∼ EF(b(θi), ψ/wi)

con densita

f(yi) = exp (wi/ψ(yiθi − b(θi)) + c(yi, ψ))

si dimostra che

E(Yi) = b′(θi) V (Yi) = b′′(θi)ψ/wi

nota valore atteso e varianza di Yi sono legate entrambe a θi.






con densita


si dimostra che








con densita


si dimostra che





Esempio: la Bernoulli

Yi ∼ Ber(π)

f(yi) = πyi (1− π)(1− yi)= exp (yi log(π)− (1− yi) log(1− pi))= exp (yi(log(π)− log(1− π)))

= exp(θiyi − log(1− eθi)

)con

θi = logit(π) = log

(π

1− π

)e conb(θi) = log(1 + eθi), b′(θi) = logit−1(θi) = π, b′′(θi) = π(1− π)



Esempio: la Poisson

Yi ∼ Pois(λ)

f(yi) =λyiyi!e−λ

= exp (yi log λ− λ− log yi!)

= exp(

(yiθi − eθi)− log yi!)

con θi = log λ ⇒b(θi) = eθi , ψ = wi = 1, c(ψ, yi) = − log yi!.



Modelli Lineari Generalizzati

Sia Yi ∼ EF(b(θi, ψ/wi)), IID e x matrice disegno

si poneµi = E(Yi) = b′(θi)

si sceglie una funzione (link function) g tale che

g(µi) = xiβ

se b′ ≡ g−1 ⇒ g e detta canonica.







g(µi) = xiβ








g(µi) = xiβ








g(µi) = xiβ



Modelli Lineari Generalizzati (GLM) Un modello logit

Modelli dose-risposta

Data from: Racine, A., Grieve, A. P., Fluhler, H., and Smith, A. F. M.(1986). Bayesian methods in practice: experiences in the pharmaceuticalindustry (with discussion). Applied Statistics 35, 93-150

Dose xi Number of Number of Sequence,(log g/ml) animals, ni deaths, si =

∑yi y1, ..., yn

-0.863 5 0 0 0 0 0 0-0.296 5 1 0 1 0 0 0-0.053 5 3 0 1 1 0 10.727 5 5 1 1 1 1 1

Obbiettivo: stimare la legge di probabilita condizionata di yi|xi



Dati dose risposta

−1.0 −0.5 0.0 0.5 1.0

0.00.2

0.40.6

0.81.0

x

y/n



Il modello logit

Per ogni xi fissata yi e una Bernoulli con parametro θi che dipendeda xi, ovvero una funzione θi = g(xi), e dunque:

P (Yi = yi|xi; θi) = g(xi)yi(1− g(xi))

1−yi

anche se poniamo alcune restrizioni su g la scelta non e univoca.

un modello standard e il modello logistico:

logit(θi) = logθ

1− θ, g(xi) = logit−1(xi) =

exp{β0 + β1xi}1 + exp{β0 + β1xi}

ora il modello ha 2 parametri espliciti θ = (β0, β1) ed uno implicito g.



La curva logistica

−6 −4 −2 0 2 4 6

0.00.2

0.40.6

0.81.0

x

logisti

c (x)

a=0; b=1a=1; b=2a=−1,b=.89



La funzione di verosimiglianza del modello logit

E’ un modello a 2 parametri con funzione di verosimiglianza:

L(θ) = L(β0, β1)

=

n∏i=1

g(xi)yi(1− g(xi))

1−yi

la log-verosimiglianza e

`(θ) = `(β0, β1)

=

n∑i=1

yi log g(xi) + (1− yi) log(1− g(xi))

con

g(xi) =exp{β0 + β1xi}

1 + exp{β0 + β1xi}



La verosimiglianza, prospettive

a

b

Lik.ab

a

b

Lik.ab

ab

Lik.ab

a

b

Lik.ab



La log-verosimiglianza, linee di contorno

−2 −1 0 1 2 3 4

−50

510

1520



Le stime di massima verosimiglianza

Definiamo

θ = (β0, β1)

= argmaxθ∈Θ

`(θ)

nel nostro caso

β0 = 0.8737247, β1 = 7.9134744



Distribuzione di θ con n crescente, se θ0 = 0.5

−2 −1 0 1 2

0.00.2

0.40.6

0.81.0

xgr[, 1]

ypred



L’informazione di Fisher e una matrice

Definiamo l’informazione osservata

I =

(d2`dβ2

0

d2`dβ0dβ1

d2`dβ1dβ0

d2`dβ2

1

)(β0,β1)=(β0,β1)

Definiamo l’informazione di Fisher

I(θ) = EY (∂2`/∂θ∂θ′)

I−1 e lo stimatore di I(θ), la varianza di θ, con componenti√d2`dβ2

0e lo SE di β0√

d2`dβ2

1e lo SE di β1


Modelli Lineari Generalizzati (GLM) Il modello di Poisson

Quante specie di formiche? Un esperimento di conteggio

The data give the ant species richness (number of ant species) foundin 64 square meter sampling grids, in 22 bogs and 22 forestssurrounding the bogs, in Connecticut, Massachusetts and Vermont(USA). The sites span a 3 dg of latitude in New England. Aaron MEllison (2004). Bayesian inference in ecology. Ecology Letters, 7,509-520

ogni sito i = 1, ..., n = 22 + 22 puo avere un numero casuale di speciediverse yi ∈ {0, 1, 2, ...}.Sn =

∑ni=1 yi = somma(tutti gli yi)=numero totale di specie negli n

siti.

Sn = 309

y = Sn/n = 309/44 = 7.023 numero medio di specie per sito.





ogni sito i = 1, ..., n = 22 + 22 puo avere un numero casuale di speciediverse yi ∈ {0, 1, 2, ...}.

Sn =∑n

i=1 yi = somma(tutti gli yi)=numero totale di specie negli nsiti.

Sn = 309








siti.

Sn = 309








siti.

Sn = 309








siti.

Sn = 309




I dati

Site Srich Habitat Latitude Elevation

TPB 6 Forest 41.97 389HBC 16 Forest 42.00 8CKB 18 Forest 42.03 152

...TPB 5 Bog 41.97 389HBC 6 Bog 42.00 8CKB 14 Bog 42.03 152

...

Tabella: ants data



Come se... un’urna con composizione incognita

Sia U un urna che contiene infinite palline ognuna marcata con unnumero intero, tale che

P (Yi = y; θ) =θye−θ

y!, y = 0, 1, 2, ...

dove θ e il parametro incognito che definisce l’urna.

Estraiamo con reintroduzione n = 10 palline

Ogni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.






y!, y = 0, 1, 2, ...









y!, y = 0, 1, 2, ...



Ogni sito ha un numero di specie COME SE estraessi una pallina da U .

Il parametro θ non cambia nel tempo e con l’osservazione.






y!, y = 0, 1, 2, ...






La misura di verosimiglianza del modello Poisson

E’ una funzione di θ

L(θ;Yi = yi) ∝n∏i=1

θyie−θ

yi!,

∝ θ∑ni=1 yie−nθ




La log-verosimiglianza e:

`(θ) = ny log θ − nθ

θ = y = 7.0227, SE(θ) =√y/n = 0.3995.






θyie−θ

yi!,







θ = y = 7.0227, SE(θ) =√y/n = 0.3995.






θyie−θ

yi!,



Estraiamo con reintroduzione n = 10 pallineOgni sito ha un numero di specie COME SE estraessi una pallina da U .

Il parametro θ non cambia nel tempo e con l’osservazione.



θ = y = 7.0227, SE(θ) =√y/n = 0.3995.






θyie−θ

yi!,



Estraiamo con reintroduzione n = 10 pallineOgni sito ha un numero di specie COME SE estraessi una pallina da U .Il parametro θ non cambia nel tempo e con l’osservazione.



θ = y = 7.0227, SE(θ) =√y/n = 0.3995.






θyie−θ

yi!,






θ = y = 7.0227, SE(θ) =√y/n = 0.3995.






θyie−θ

yi!,






θ = y = 7.0227, SE(θ) =√y/n = 0.3995.



Usando tutte le informazioni

Posto yi =Srich, xi1 =Habitat, xi2 =Latitude e xi3 =Elevation delsito i.

dove

xi1 =

{0, se Habitat=Forest

1, se Habitat=Blog

Vogliamo modellareYi ∼ Poisson(θi)

conlog(θi) = β0 + β1xi1 + β2xi2 + β3xi3

qui θ = (β0 + β1 + β2 + β3), k = dim(θ) = 4





dove

xi1 =


1, se Habitat=Blog



qui θ = (β0 + β1 + β2 + β3), k = dim(θ) = 4





dove

xi1 =


1, se Habitat=Blog



qui θ = (β0 + β1 + β2 + β3), k = dim(θ) = 4





dove

xi1 =


1, se Habitat=Blog



qui θ = (β0 + β1 + β2 + β3), k = dim(θ) = 4





dove

xi1 =


1, se Habitat=Blog



qui θ = (β0 + β1 + β2 + β3), k = dim(θ) = 4



Usando solo β0, nota log β0 = y

Call:

glm(formula = Srich ~ 1, family = poisson, data = ants)

Deviance Residuals:

Min 1Q Median 3Q Max

-2.2409 -1.2420 -0.3959 0.4492 3.4539

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 1.94915 0.05689 34.26 <2e-16 ***

---

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 102.76 on 43 degrees of freedom

Residual deviance: 102.76 on 43 degrees of freedom

AIC: 265.12

Number of Fisher Scoring iterations: 5



Usando solo β0, nota log β0 = y

Call:

glm(formula = Srich ~ Habitat, family = poisson, data = ants)

Deviance Residuals:


-1.9277 -1.1216 -0.4041 0.8928 3.3661

Coefficients:


(Intercept) 1.58179 0.09667 16.363 < 2e-16 ***

HabitatForest 0.63544 0.11956 5.315 1.07e-07 ***

---




AIC: 237.43





> summary(glm(Srich~Habitat+Latitude+Elevation,ants,family=poisson))

Deviance Residuals:


-2.20939 -0.72643 -0.05933 0.51571 2.60147

Coefficients:


(Intercept) 11.9368121 2.6214970 4.553 5.28e-06 ***

HabitatForest 0.6354389 0.1195664 5.315 1.07e-07 ***

Latitude -0.2357930 0.0616638 -3.824 0.000131 ***

Elevation -0.0011411 0.0003749 -3.044 0.002337 **

---




AIC: 209.04



Alta dimensionalita

Quante X devo inserire nel modello?

Supponiamo di avere

y ∈ Rn×1, X ∈ Rn×k

dove k e un numero elevato rispetto ad n.

sotto ipotesi IID, vogliamo modellare

(Yi|xi;β, τ) ∼ L(xiβ, τ)

dovexiβ = β0 + β1xi1 + ...+ βkxik, i = 1, ..., n

e τ un parametro di variabilita.

in questo caso θ = (β, τ) e dim(Θ) = k + 2


Alta dimensionalita


Supponiamo di avere

y ∈ Rn×1, X ∈ Rn×k








Alta dimensionalita


Supponiamo di avere

y ∈ Rn×1, X ∈ Rn×k








Alta dimensionalita

Se Y normale IID

sotto ipotesi IID, modelliamo

(Yi|xi;β, τ) ∼ N (xiβ, τ)

le equazioni di verosimiglianza per β coincidono con il criterio deiminimi quadrati

β = argminβ∈Rk+1

n∑i

(yi − xiβ)2

ma se k elevato il problema e computazionalmente instabile.

Esistono molti criteri di scelta del modello tutti basati su euristichedifficilmente razionalizabili.


Alta dimensionalita

Se Y normale IID





n∑i

(yi − xiβ)2




Alta dimensionalita

Se Y normale IID





n∑i

(yi − xiβ)2




Alta dimensionalita

La regressione LASSO

si tratta di modificare il penalty dei minimi quadrati con la seguente:


n∑i

(yi − xiβ)2 + λ

k∑j

|βj |

Il parametro λ e detto il parametro di shrinkage e consente di stimarecongiuntamente il valore dei coefficienti e il numero di parametri

si stima il modello per diversi valori di lambd


Alta dimensionalita




n∑i

(yi − xiβ)2 + λ

k∑j

|βj |




Alta dimensionalita




n∑i

(yi − xiβ)2 + λ

k∑j

|βj |




Alta dimensionalita

LASSO rappresentazione geometrica

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

−2 −1 0 1 2 3 4

−2−1

01

23

4


Documents

Inferenza Statistica Classica: Verosimiglianza e Stima ...morgana.unimore.it/frederic_patrizio/ecoprogr/Slides-inference.pdf · Inferenza Statistica Classica: Verosimiglianza e Stima