Download pdf - Verifica di ipotesi e intervalli di confidenza nella regressione multiplaeconomia.unipv.it/pagp/pagine_personali/erossi/Rossi... · 2013-05-22 · Verifica di ipotesi e intervalli

Verifica di ipotesi e intervalli di confidenzanella regressione multipla

Eduardo Rossi2

2Universita di Pavia (Italy)

Maggio 2013

Rossi MRLM Econometria - 2013 1 / 54

Sommario

Verifica di ipotesi e intervalli di confidenza per un singolocoefficiente

Verifica di ipotesi congiunte su piu coefficienti

Altri tipi di ipotesi che implicano piu coefficienti

Variabili di interesse, variabili di controllo e come decidere qualivariabili includere in un modello di regressione


Verifica di ipotesi e intervalli di confidenza

Verifica di ipotesi e intervalli di confidenza per unsingolo coefficiente

Per verifica di ipotesi e intervalli di confidenza nella regressionemultipla si segue la stessa logica utilizzata per la pendenza in unmodello a singolo regressore.

β1−E[β1]√Var[β1]

≈ N(0, 1) (TLC).

Percio le ipotesi su β1 possono essere verificate mediante laconsueta statistica-t e gli intervalli di confidenza costruiti come{β1 ± 1, 96SE(β1)}.Lo stesso per β2, . . . , βk.



Esempio

TestScr = 698, 933(10,364)

− 2, 2798(0,5195)

STR (1)

TestScr = 686, 032(8,7282)

− 1, 1013(0,4329)

STR− 0, 649777(0,031032)

PctEL (2)

Il coefficiente di STR in (2) e l’effetto su TestScore del cambio diunita in STR, mantenendo costante la percentuale di studenti nondi madrelingua nel distretto.

Il coefficiente di STR si dimezza.

L’intervallo di confidenza al 95% per il coefficiente di STR in (2) e{−1, 10± 1, 960, 43} = {−1, 95,−0, 26}.la statistica test t dell’ipotesi nulla βSTR = 0 et = −1, 10/0, 43 = −2, 54, percio rifiutiamo l’ipotesi al livello disignificativita del 5%.



Verifica di ipotesi congiunte

Sia Expn = spese per studente e si consideri il modello diregressione:

TestScorei = β0 + β1STRi + β2Expni + β3PctELi + ui

L’ipotesi nulla per cui ”le risorse scolastiche non contano“, el’alternativa per cui invece contano, corrisponde a:

H0 : β1 = 0 e β2 = 0

l’ipotesi alternativa

H1 : o β1 6= 0 o β2 6= 0 o entrambi




H0 : β1 = 0 e β2 = 0

H1 : o β1 6= 0 o β2 6= 0 o entrambe

Un’ipotesi congiunta specifica un valore per due o piu coefficienti,ossia impone una restrizione su due o piu coefficienti:

H0 : βi = βi,0, . . . , βj = βj,0

per un totale di q restrizioni.

Nell’esempio precedente, q = 2 e le due restrizioni sonoβ1 = β2 = 0.

Se una (o piu) delle uguaglianze sotto l’ipotesi nulla e falsa, alloral’ipotesi nulla congiunta e falsa.

Ipotesi alternativa e che almeno una delle uguaglianze della H0

non valga.




Un’idea di ”buon senso” e quella di rifiutare se l’una o l’altra dellestatistiche-t supera 1,96 in valore assoluto.

ma questa verifica ”coefficiente per coefficiente” non e valida: laverifica risultante ha un tasso di rifiuto troppo elevato sottol’ipotesi nulla (piu del 5%)!



Perche non possiamo verificare coefficiente percoefficiente?

Perche il tasso di rifiuto sotto l’ipotesi nulla non e il 5%.

Calcoleremo la probabilita di rifiutare in modo non correttol’ipotesi nulla usando la verifica del ”buon senso” basata sulle duestatistiche- t singole. Per semplificare il calcolo, supponete chesiano distribuite in modo indipendente (non e vero in generale - loe solo in questo esempio).

Siano t1 e t2 le statistiche-t:

t1 =β1 − 0

SE(β1)t1 =

β2 − 0

SE(β2)

La verifica ”coeff. per coeff.” e: Rifiuta H0 : β1 = β2 = 0 se|t1| > 1, 96 e/o |t2| > 1, 96

Qual e la probabilita che questa verifica ”coeff. per coeff.” rifiutiH0, quando H0 e effettivamente vero? (Dovrebbe essere 5%.)



Perche non possiamo verificare coefficiente percoefficiente?

Ipotesi t1 e t2 sono indipendenti (falso!) La probabilita di rifiutare inmodo non corretto l’ipotesi nulla mediante la verifica ”coeff. per coeff.”

= PrH0{|t1| > 1, 96 e/o |t2| > 1, 96}= 1− PrH0{|t1| ≤ 1, 96 e |t2| ≤ 1, 96}= 1− PrH0{|t1| ≤ 1, 96} × PrH0{|t2| ≤ 1, 96}= 1− (0, 95)2 = 0, 0975 > 0, 05



Dimensione del test

La dimensione del test (la percentuale di rifiuto della nulla quandoe vera) usando le singole statistiche per decidere sull’ipotesicongiunta non e il 5%!

In effetti, la sua dimensione dipende dalla correlazione tra t1 e t2(e quindi dalla correlazione tra β1 e β2).

Due soluzioni:

1 Utilizzare un valore critico diverso in questa procedura - non 1,96(questo e il ”metodo Bonferroni”, raramente utilizzato nellapratica).

2 Utilizzare una statistica test diversa studiata per verificare subitosia β1 = 0 sia β2 = 0(ipotesi congiunta): la statistica F (questa ela pratica comune).


Statistica F

Ipotesi congiunte in notazione matriciale

Si consideri un’ipotesi congiunta che e lineare nei coefficienti e imponeq restrizioni, con q ≤ k + 1.Ognuna di queste restrizioni puo riguardare uno o piu coefficienti diregressione (un sistema di restrizioni). Restrizioni lineari

H0 : Rβ = rH1 : Rβ 6= r

r (q × 1)

R (q × (k + 1))

r(R) = q ≤ k + 1


Statistica F

Restrizioni lineari - Esempio

Dato il MRLM:

Yi = β0 + β1X1i + . . .+ βkXki + ui

Ipotesi nulla:H0 : β1 + β2 = 0

R =[0, 1, 1, 0, . . . , 0

]r = 0

Rβ =[0, 1, 1, 0, . . . , 0

]β0

β1...βk

= β1 + β2


Statistica F

Restrizioni lineari - Esempio modello partizionato

Y = X1β1 + X2β2 + u

X1 (n× k1)X2 (n× k2)β1 (k1 × 1)β2 (k2 × 1)

k + 1 = k1 + k2

H0 : β1 = 0

H0 : Rβ = 0


Statistica F

Restrizioni lineari - Esempio modello partizionato

doveR =

[Iq

... 0(q×k2)

]Rβ =

[Iq

... 0(q×k2)

] [ β1

β2

]= β1

dove q = k1. Sotto H0 il modello si riduce a

Y = X2β2 + u


Statistica F

Statistica F

La statistica F per verificare l’ipotesi congiunta

H0 : Rβ = r

e

F =(Rβ − r)′

[RΣβR

′]−1

(Rβ − r)

q


Statistica F

Distribuzione asintotica della statistica F

Dato che √n(β − β)

d−→N(0,Σ√n(β−β))

segue che sotto H0

√n(Rβ − r) =

√nR(β − β)

d−→N(0,RΣ√n(β−β)R′)

dati i risultati sulle forme quadratiche di vettori di v.c. asintoticamentenormali, sotto H0:

[(Rβ − r)]′[RΣβR

′]−1

[(Rβ − r)]

= [√n(Rβ − r)]′

[RΣ√n(β−β)R

′]−1

[√n(Rβ − r)]

d−→χ2q

perche Σβ = Σ√n(β−β)/n. Poiche

Σ√n(β−β)

p−→Σ√n(β−β)


Statistica F

Distribuzione asintotica della statistica F

Per il teorema di Slutsky:

√n(Rβ − r)]′

[RΣ√n(β−β)R

′]−1

[√n(Rβ − r)]

d−→χ2q

o


′]−1

[(Rβ − r)]d−→χ2

q

segue che

F =(Rβ − r)′

[RΣβR

′]−1

(Rβ − r)

q

d−→χ2q

q

cioe Fd−→Fq,∞ = χ2

q/q. E’ equivalente calcolare

qF = [(Rβ − r)]′[RΣβR

′]−1

[(Rβ − r)], in questo caso

qFd−→χ2

q


Statistica F

Regione di rifiuto statistica F

Valore critico:Fαq,∞ : Pr{Fq,∞ > Fαq,∞} = α

per un livello di significativita 0 ≤ α ≤ 1.La procedura di test consiste nel calcolare F e rifiutare H0 se il suovalore cade nella regione critica, cioe se F act > Fαq,∞}, tale che abbiauna probabilita minore di α di essere estratta dalla distribuzione Fq,∞.P-value della statistica F:

p-value = Pr{Fq,∞ > F act}

Se p-value > α (prefissato) accetto H0 altrimenti rifiuto.


Statistica F

Significativita della regressione

L’ipotesi nulla che tutti i coefficienti siano nulli ad eccezionedell’intercetta.

H0 : β1 = β2 = . . . = βk = 0

H1 : βj 6= 0 per almeno un j, j = 1, 2, . . . , k

Sotto H0 nessuno dei regressori spiega alcunche della variazione in Yi.L’intercetta, sotto H0, e la media di Yi:

E(Yi) = β0


Statistica F

Statistica F quando q = 1

Quando q = 1, la statistica F verifica una sola restrizione

R (1× (k + 1)), r (1× 1)


′]−1

[(Rβ − r)]

1=

[(Rβ − r)]2[RΣβR

′] = t2

e il quadrato della statistica t.


Statistica F

Statistica F - Esempio

Coefficient Std. Error t-ratio p-value

const 649.578 15.4583 42.0212 0.0000STR −0.286399 0.482073 −0.5941 0.5528EXPN stu 0.00386790 0.00158072 2.4469 0.0148EL PCT −0.656023 0.0317844 −20.6397 0.0000

Media variabile dipen 654.1565 S.Q.M. variabile dipen 19.05335SSR 85699.71 S.E. della regressione 14.35301R2 0.436592 R2 0.432529F (3, 416) 147.2037 P-value(F ) 5.20e–65

H0 : βstr = 0 βexpn = 0

Statistica Test: F (2, 416) = 5.434, con p− value = 0.00468.


Statistica F

Regioni di confidenza per coefficienti multipli

Una regione di confidenza asintoticamente valida per due o piuelementi di β puo essere costruita come l’insieme dei valori che, seconsiderati come ipotesi nulla, non sono rifiutati dalla statistica F .

Sia δ (q × 1) formato dagli elementi di β per i quali si desidera unaregione di confidenza

δ = Rβ

La statistica test F per l’ipotesi nulla δ = δ0 e

F = (δ − δ0)′[RΣβR′]−1(δ − δ0)/q

con δ = Rβ. Una regione di confidenza al 95% per δ e l’insieme divalori δ0 che non sono rifiutati dalla F .


Statistica F


Una regione di confidenza 1− α per δ e

{δ : (δ − δ)′[RΣβR′]−1(δ − δ)/q ≤ F 0.95

q,∞ }

La regione di confidenza e costituita dai punti interni all’ellissoide chesi ottiene quando vale l’uguaglianza.


Statistica F

Ellisse di confidenza (k = 2)

Yi = β1X1i + β2X2i + ui i = 12, . . . , n

Regione di confidenza per (β1, β2):

Rβ =

[1 00 1

] [β1

β2

]Nel caso k = 2, la forma quadratica:

(β − β)′Σ−1

β(β − β)

Σ−1

β=

[σ2

1 σ1,2

σ1,2 σ22

]

(β1 − β1)2σ21 + 2(β1 − β1)(β2 − β2)σ1,2 + (β2 − β2)2σ2

2


Statistica F

Ellisse di confidenza (k = 2)

Il contorno della funzione implicita

ax2 + byx+ cy2 = K

e un’ellisse con centro (x = 0, y = 0), inclinata positivamente quandob < 0.In questo caso, ellisse inclinata

positivamente quando σ1,2 < 0

negativamente quando σ1,2 > 0


Statistica F


β1 e β2 sono positivamente correlati quando∑x1tx2t < 0.

β1 e β2 sono negativamente correlati quando∑x1tx2t > 0.


Statistica F

Regioni di confidenza per coefficienti multipli - Esempio

course eval = 4, 082(0,033)

+ 0, 149(0,032)

beauty− 0, 198(0,051)

female

T = 463 R2 = 0, 0622 F (2, 460) = 16, 331 σ = 0, 53732

-0,35

-0,3

-0,25

-0,2

-0,15

-0,1

-0,05

0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2 0,22 0,24

fem

ale

beauty

Ellisse di confidenza al 95% e intervalli marginali al 95%

0,149, -0,198


Errori normali e omoschedastici


Se gli errori sono normali (condizionatamente a X) e omoschedastici,

u|X ∼ N(0, σ2uIn)

allora lo stimatore ha una distribuzione normale multivariata incampionin finiti:

β = β + (X′X)−1X′u

β ∼ N(β, σ2u(X′X)−1)



Distribuzione di s2

Se valgono le assunzioni generalizzate degli OLS nel MRLM, allora

s2 =u′MXu

n− k − 1

per la normalita condizionale di u[u

σu

]′MX

[u

σu

]∼ χ2

n−k−1

quindis2

σ2u

∼χ2n−k−1

n− k − 1

s2 ∼ σ2u

n− k − 1χ2n−k−1



Errori standard classici

Var[β|X] = σ2u(X′X)−1

Var[β|X] = s2(X′X)−1

lo standard error di βi:

SE(βi) = s√

e′i(X′X)−1ei



Statistica t

Data la statistica:

t =βi − βi,0SE(βi)

se valgono le sei assunzioni generalizzate dei minimi quadrati, ladistribuzione campionaria esatta di t

t ∼ tn−k−1



Dimostrazione

Se

1 Z ha una distribuzione N(0, 1)2 W ha una distribuzione χ2

m3 Z e W sono indipendentemente distribuite

alloraZ√W/m

∼ tm

Ora


=βi − βi,0√

s2e′i(X′X)−1ei

=βi − βi,0√

s2/σ2u

√σ2ue′i(X

′X)−1ei



Dimostrazione

t =(βi − βi,0)/

√σ2ue′i(X

′X)−1ei√s2/σ2

u

1 Sotto H0

(βi − βi,0)√σ2ue′i(X

′X)−1ei|X ∼ N(0, 1)

2

(n− k − 1)s2

σ2u

∼ χ2n−k−1



Dimostrazione

Si puo scrivere

t =Z√

W/(n− k − 1)

con

Z =(βi − βi,0)√σ2ue′i(X

′X)−1ei∼ N(0, 1)

e

W = (n− k − 1)s2

σ2u

∼ χ2n−k−1



Dimostrazione

Indipendenza tra β e s2. Dato che

β = β + (X′X)−1X′u

s2 =u′MXu

n− k − 1

β e s2 sono indipendenti se X′X)−1X′u e u′MXu sono indipendenti.Dato che u|X ∼ N(0, σ2

uIn)

(X′X)−1X′u|X ∼ N(0, σ2u(X′X)−1)

MXu|X ∼ N(0, σ2uMX)



Dimostrazione

Poiche

Cov[(X′X)−1X′u,MXu|X] = E[(X′X)−1X′uu′MX |X]

= (X′X)−1X′E[uu′|X]MX

= (X′X)−1X′σ2uInMX

= 0k×n

percheX′MX = 0k×n

Segue che i due vettori sono indipendenti e che β e s2 sonoindipendenti.Si puo concludere che


∼ tn−k−1



Distribuzione della statistica F

La statistica F con omoschedasticita si ottiene sostituendo Σβ con

s2(X′X)−1

F =(Rβ − r)′[R(X′X)−1R′]−1(Rβ − r)

qs2

se valogono le sei assunzioni generalizzate degli OLS, sotto l’ipotesinulla

F ∼ Fq,n−k−1

F e la versione di Wald.



Dimostrazione

Il rapportoW1/n1

W2/n2∼ Fn1,n2

dove

1 W1 ∼ χ2n1

2 W2 ∼ χ2n2

3 W1 e W2 sono indipendentemente distribuite.

Verifichiamo che queste tre condizioni siano verificate nel caso chestiamo considerando.



Dimostrazione

SiaW1 = (Rβ − r)′[σ2

uR(X′X)−1R′]−1(Rβ − r)

e

W2 = (n− k − 1)s2

σ2u

possiamo scrivere

F =W1/q

W2/n− k − 1



Dimostrazione

Dato cheβ|X ∼ N(β, σ2

u(X′X)−1)

e sotto H0 , Rβ − β = Rβ − r

(Rβ − r)|X ∼ N(0, σ2uR(X′X)−1R′)

quindi(Rβ − r)′[σ2

uR(X′X)−1R]−1(Rβ − r) ∼ χ2q

Abbiamo gia visto ches2

σ2u

∼χ2n−k−1

n− k − 1



Dimostrazione

Infine, poiche β e s2 sono indipendentemente distribuiti, segue che

Rβ − r e s2

sono indipendentemente distribuiti, implicando che W1 e W2 sonoindipendentemente distribuite.Le tre condizioni sono verificate, quindi

F ∼ Fq,n−k−1



La distribuzione Fq,n−k−1

La distribuzione Fq,n−k−1 e tabulata in molti punti.

Per n→∞, la distribuzione Fq,n−k−1 tende asintoticamente alladistribuzione χ2/q, cioe Fq,∞.

Per q non troppo grande e n ≥ 100, la distribuzione Fq,n−k−1 e ladistribuzione χ2

q/q sono sostanzialmente identiche.

Molti pacchetti di regressione calcolano il valore-p della statisticaF mediante la distribuzione Fq,n−k−1.



Altro modo di calcolo della statistica F

Quando il termine di errore ui e omoschedastico, la F puo esserescritta in termini di miglioramento dell’adattamento della regressione(misurato con la SSR o l’R2).Eseguire due regressioni, una sotto l’ipotesi nulla (regressione”vincolata”) e una sotto l’ipotesi alternativa (regressione ”nonvincolata”).

Confrontare la somma dei quadrati dei residui (SSR) delle dueregressioni.

Confrontare gli adattamenti delle regressioni - gli R2 - se ilmodello ”non vincolato” si adatta sufficientemente meglio,rifiutare l’ipotesi nulla




Dato il MRLM:

Yi = β0 + β1X1i + . . .+ βkXki + ui ui ∼ i.i.d.N(0, σ2u)

H0 : Rβ = r

stima del modello sotto l’ipotesi nulla:

β = arg minβ:Rβ−r=0

(Y −Xβ)′(Y −Xβ)

la somma dei quadrati della regressione vincolata

SSRr = (Y −Xβ)′(Y −Xβ)

la somma dei quadrati della regressione non vincolata

SSRur = (Y −Xβ)′(Y −Xβ)

F =SSRr − SSRur

SSRur

n− k − 1

q∼ Fq,n−k−1




Denotando i residui della regressione vincolata:

u = Y −Xβ

F =u′u− u′u

u′u

n− k − 1

q

=

∑i u

2i /∑

i(Yi − Y )2 −∑

i u2i /∑

i(Yi − Y )2∑i u

2i /∑

i(Yi − Y )2

n− k − 1

q

=(1−R2

r)− (1−R2ur)

1−R2ur

n− k − 1

q

=R2ur −R2

r

1−R2ur

n− k − 1

q




R2r e l’R2 della regressione vincolata

R2ur e l’R2 della regressione non vincolata

q = numero di restrizioni sotto l’ipotesi nulla

Piu grande e la differenza tra l’R2 vincolato e non vincolato,maggiore e il miglioramento dell’adattamento aggiungendo levariabili in questione – maggiore e la F in presenza diomoschedasticita.



Regressione ”vincolata” e ”non vincolata”

Esempio: i coefficienti di STR e Expn sono zero?

Regressione senza vincolo, sotto H1:

TestScorei = β0 + β1STRi + β2Expni + β3PctELi + ui

Regressione vincolata, sotto H0 : β1 = β2 = 0:

TestScorei = β0 + β3PctELi + ui

Il numero di vincoli sotto H0 e q = 2.

L’adattamento risultera migliore (R2 sara maggiore) nellaregressione non vincolata.

Di quanto dovra aumentare R2 affinche i coefficienti di Expn ePctEL siano giudicati statisticamente significativi?



Esempio

Regressione vincolata:

TestScorei = 644, 7− 0, 671STRi R2 = 0, 4149

Regressione non vincolata:

TestScorei = 649, 6−0, 29STRi+3, 87Expni−0, 656PctELi R2 = 0, 4366

Quindi, con q = 2, n = 420, k = 3:

F =R2ur −R2

r

1−R2ur

n− k − 1

q

=(0, 4366− 0, 4149)

(1− 0, 4366)

(420− 3− 1)

2= 8, 01

Valore critico al 1% = 4,61, H0 e rifiutata.Nota: F robusta all’eteroschedasticita e 5,43...



La statistica F classica-riepilogo

La statistica F classica rifiuta quando aggiungendo le due variabilisi aumenta R2 di ”quanto basta” - vale a dire, quandoaggiungendo le due variabili si migliora l’adattamento dellaregressione di ”quanto basta”.

Se gli errori sono omoschedastici, ma non gaussiani, la statisticaF classica ha una distribuzione in grandi campioni che e χ2

q/q.

Se invece gli errori sono eteroschedastici, la distribuzione in grandicampioni della statistica F classica non e χ2

q/q.

Se gli errori sono omoschedastici e gaussiani la statistica Fclassica ha una distribuzione Fq,n−k−1.



La statistica F classica e la distribuzione F

L’uso della statistica F e della distribuzione F e giustificato solosotto condizioni molto forti - troppo forti per essere realistiche.

Dovreste utilizzare la statistica F robusta all’eteroschedasticita,con i valori critici della χ2

q/q.

Per n ≥ 100, la distribuzione Fq,n−k−1 e essenzialmente ladistribuzione χ2

q/q.

Per n piccolo, a volte i ricercatori utilizzano la distribuzione Fperche ha valori critici piu grandi e in tal senso e piu prudente.



Verifica di restrizioni singole su coefficienti multipli

Yi = β0 + β1X1i + β2X2i + ui

Considerate l’ipotesi nulla e l’ipotesi alternativa,

H0 : β1 = β2 vs H1β1 6= β2

Questa ipotesi nulla impone una singola restrizione ( q = 1) sucoefficienti multipli – non si tratta di ipotesi congiunte con restrizionimultiple (confrontate con β1 = β2 = 0).



Verifica di restrizioni singole su coefficienti multipli

Ecco due metodi per la verifica di restrizioni singole su coefficientimultipli:

Riorganizzare (”trasformare”) la regressione: Riorganizzare iregressori in modo che la restrizione diventi una restrizione su unsingolo coefficiente in una regressione equivalente; oppure,

Eseguire la verifica direttamente: Alcuni software, tra cui GRETL,consentono di verificare le restrizioni utilizzando direttamentecoefficienti multipli



Metodo 1: Riorganizzare (”trasformare”) la regressione

Yi = β0 + β1X1i + β2X2i + ui

Considerate l’ipotesi nulla e l’ipotesi alternativa,

H0 : β1 = β2 vs H1β1 6= β2

Sommare e sottrarre β2X1i:

Yi = β0 + (β1 − β2)X1i + β2(X1i +X2i) + ui

Yi = β0 + γ1X1i + β2Wi + ui

doveγ1 = β1 − β2

Wi = (X1i +X2i)



Metodo 1: Riorganizzare (”trasformare”) la regressione

Equazione originale:

Yi = β0 + β1X1i + β2X2i + ui

Equazione riorganizzata (”trasformata”):

Yi = β0 + γ1X1i + β2Wi + ui

Quindi,H0 = γ1 = 0 vs H1 : γ1 6= 0

corrisponde aH0 : β1 = β2 vs H1 : β1 6= β2

Queste due regressioni hanno lo stesso R2, gli stessi valori previsti e glistessi residui. Il problema di verifica e ora semplice: verificare se γ1 = 0nella regressione trasformata.