Upload
ursu-alexandra
View
233
Download
3
Embed Size (px)
Citation preview
1
ECONOMETRIE - Curs 10 -
2
Tematică C10Ipoteze statistice ale unui model de regresie
Ipotezele statistice care se formulează în modelarea econometrică sunt ipoteze asupra componentei aleatoare (erorilor) şi ipoteze asupra componentei deterministe (variabilelor independente).
3
Ipotezele asupra componentei aleatoare (erorilor) sunt următoarele:a. Media erorilor este nulă: M(εi)=0.
b. Ipoteza de homoscedasticitate: V(εi)=σ2.c. Ipoteza de normalitate: d. Ipoteza de necorelare sau de independenţă a erorilor: cov(εi, εi)=0.
),0(~ 2 Ni
4
a. Media erorilor este nulă
1. Definire: M(εi)=0.
2. Efectele încălcării acestei ipoteze:- dacă această ipoteză este încălcată, atunci se
modifică proprietăţile estimatorilor parametrilor modelului de regresie.
5
Există două situaţii:
a) M(εi)=μ=constantă
Considerăm Y = β0 + β1xi + ε.
Fie Y = β0 + μ+ β1xi + ε –μ = β0 *+ β1xi + ε*, unde:
β0 * = β0 + μ, iar ε* = ε –μ .
Parametrul este estimat deplasat de estimatorul :
Parametrul β1 este estimat nedeplasat de estimatorul .1̂
0 0*0 )ˆ(M*
0̂
6
b) M(εi)=μi
Considerăm Yi = β0 + μi+ β1xi + ε –μi = β0 *+ β1xi + ε*,
Parametrul β1 este estimat deplasat de estimatorul :
2211)ˆ(
ii
iiii
xxn
xxnM
1̂
7
3. Testarea ipotezei cu privire la media erorilorEtape:- Se estimează modelul de regresie yi = β0 + β1xi + ei
- Se determină erorile estimate ei = yi – b0 – b1xi - Se verifică dacă media erorilor este zero.
Ipoteze: H0: M(εi)=0H1: Alegerea testului:
Calculul statisticii test:
Valoarea teoretică a testului: tα/2,n-1 Decizie
)(M̂
icalc s
)e(Mt
i
ii
M̂V̂
MM̂t
0)(M i
8
4. Corectarea modelului
Modelul iniţial se corectează cu ajutorul estimaţiei erorilor calculate la nivelul eşantionului.
Modelul corectat este de forma:
, unde:iii0*i uxy
)(Myy ii*i
9
5. Exemplu
One-Sample Statistics
15 ,0000000 73271,63549 18918,65Unstandardized ResidualN Mean Std. Deviation
Std. ErrorMean
Residuals Statisticsa
58508,12 6084511 1582428 1957596,554 15-98125,2 131202,7 ,00000 73271,63549 15
-,778 2,300 ,000 1,000 15-1,290 1,725 ,000 ,964 15
Predicted ValueResidualStd. Predicted ValueStd. Residual
Minimum Maximum Mean Std. Deviation N
Dependent Variable: salariua.
One-Sample Test
,000 14 1,000 ,00000000 -40576,5 40576,48Unstandardized Residualt df Sig. (2-tailed)
MeanDifference Lower Upper
95% ConfidenceInterval of the
Difference
Test Value = 0
10
b. Ipoteza de homoscedasticitate a erorilor
1. Definire- ipoteza de homoscedasticitate presupune ca varianţa
erorilor să fie constantă:
- această ipoteză presupune o varianţă constantă a erorilor la nivelul distribuţiilor condiţionate de forma:
2i )(V
ixXY
11
2. Efectele încălcării acestei ipoteze
pierderea eficienţei estimatorilor parametrilor modelului de regresie (estimează parametrul cu o varianţă mai mare).
3. Identificarea heteroscedasticităţii
3.1. Procedee grafice- presupun reprezentarea distribuţiei erorilor şi aprecierea
varianţei acesteia.
12
- cazul existenţei heteroscedasticităţii:
13
3.2. Procedee numerice a. Testul Glejser
are la bază un model de regresie între variabila reziduală estimată şi variabila independentă.
Etapele testării:1. Se estimează modelul de regresie de forma:
2. Se calculează erorile ei. 3. Se construieşte un model de regresie pe baza
erorilor estimate în valoare absolută şi variabila independentă. Exemplu:
XY 10
0 1i i ie x u
14
4. Se testează parametrii acestui model: dacă parametrul α1 este semnificativ, atunci modelul iniţial este heteroscedastic.
Exemplu:
Coefficientsa
50921,663 12000,771 4,243 ,001,016 ,012 ,348 1,337 ,204
(Constant)PIB
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: eroria.
15
b. Testul corelaţiei neparametrice dintre erorile estimate şi valorile variabilei independente (coeficientul de corelatie neparametrică Spearman)
- se bazează pe calculul rangurilor valorilor estimate ale erorilor, εi , şi a valorilor Xi .
Ipoteze statistice:H0: ipoteza de homoscedasticitateH1: ipoteza de heteroscedasticitate
16
Statistica test:Se foloseşte statistica test t Student:
unde: r este estimaţia coeficientului Spearman.
Regula de decizie: tcalc>tteor sau o valoare a lui Sig. asociată statisticii test t
Student calculate < 0,05 duce la respingerea ipotezei Ho.
21
2
r
nrtcalc
17
Exemplu: În studiul legăturii dintre două variabile, X şi Y, s-au obţinut
următoarele rezultate:
Se cere să se testeze ipoteza de homoscedasticitate, considerând un risc de 0,05.
Correlations
1,000 ,000. 1,0005 5
,000 1,0001,000 .
5 5
Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)N
X
Unstandardized Residual
Spearman's rhoX
Unstandardized Residual
18
Rezolvare:
Pentru aceasta, se formulează următoarele ipoteze statistice:H0: ipoteza de homoscedasticitate
H1: ipoteza de heteroscedasticitate
Statistica test :
2ˆ1
2nˆt
19
Coeficientul Spearman este:
Statistica test t Student se calculează astfel:
- pentru exemplul dat:
Se acceptă, pentru un risc asumat de 0,05, ipoteza Ho, ipoteza de homoscedasticitate.
0r
001250
r1
2nrt2calc
)182,3()0( 3;025,0 ttcalc
20
c. Testul Goldfeld-Quandt
Ipoteze statistice:
H0: ipoteza de homoscedasticitate
H1: ipoteza de heteroscedasticitate
21
Etape pentru calculul statisticii test:
- se ordonează crescător seria valorilor empirice xi .
- se împarte seria în două părţi egale, după omiterea unui set de date din centrul seriei (în cazul seriilor cu un număr mare de termeni);
- se estimează parametrii ecuaţiei de regresie pentru fiecare din cele două seturi de date şi se calculează variaţia reziduală (RSS) pentru fiecare model în parte;
22
- se calculează statistica test Fisher care compară cele două variaţii reziduale:
unde: RSS1 corespunde celei mai mici valori a variaţiei reziduale.F urmează o lege de distribuţie F( ),
unde: l reprezintă numărul de termeni eliminaţi din seria iniţială
1
2
RSSRSS
Fcalc
klnkln
2
,2
23
Regula de decizie:
- dacă sau Sig.<0.05, atunci se respinge ipoteza Ho.
1 20,05; ;calc n k n kF F
24
xi yi
2 15
3 20
1 10
4 19
6 25
5 23
7 30
8 35
9 38
10 40
Exemplu:
Pentru două variabile, X şi Y, se cunosc următoarele valori:
25
Se cere să se testeze ipoteza de homoscedasticitate, folosind testul Goldfeld-Quandt.
Rezolvare:1. Se ordonează crescător şirul valorilor xi.
2. Se împarte seria valorilor xi în două serii: prima serie este reprezentată de valorile 1, 2, …, 5; iar a doua serie este reprezentată de valorile 6, 7, …, 10.
26
3. Pentru fiecare din cele două serii se estimează parametrii modelului de regresie. Se obţine:
Seria 1: Yx=8,3+3XSeria 2: Yx=3,2+3,8X
4. Pentru aceste modele, se estimează variaţia reziduală (valoare prezentată în output-ul ANOVA):
- pentru seria 1: RSS=3,73;- pentru seria 2: RSS=1,6.
27
5. Se calculează raportul F, considerând RSS1 cea mai mică valoare, şi anume RSS1=1,6:
Fcalc=3,73/1,6=2,33.
6. Se compară valoarea calculată a statisticii test F cu valoarea teoretică:
(k este numărul de parametri estimaţi).
.277,925;25;05,0;;05,0 21 FF knkn
28
7. Interpretare:
Pentru exemplul dat, se acceptă ipoteza de homoscedasticitate, cu o probabilitate de 0,95.
)277,9()33,2( 3;3;05,0 FFcalc
29
4. Corectarea heteroscedasticităţii
4.1. Dacă se cunosc parametrii Corecţia heteroscedasticităţii este aplicată modelului de regresie liniară simplă:
Corectarea heteroscedasticităţii presupune ponderarea modelului iniţial cu variabila .
2i
ii10i xy
i
1
30
Noul model de regresie (corectat) se obţine astfel:
Estimarea parametrilor acestui model se realizează pe baza MCMMP ponderată (method of weighted least squares).
i
i
i
i1
i
0
i
i xy
31
4.2. Dacă nu se cunosc parametrii Corecţia heteroscedasticităţii se realizează pe baza relaţiei:
Corectarea heteroscedasticităţii presupune ponderarea modelului iniţial cu variabila 1/xi.
2i
2i
22i x
32
Noul model de regresie (corectat) este de forma:
i
i1
i
0
i
i
xxxy
Coefficientsa
64.365 3.802 16.927 .000
-.004 .000 -.640 -8.625 .000
(Constant)Gross domesticproduct / capita
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Infant mortality (deaths per 1000 live births)a.
Coefficientsa,b
36.414 2.989 12.184 .000
-.002 .000 -.609 -7.933 .000
(Constant)Gross domesticproduct / capita
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Infant mortality (deaths per 1000 live births)a.
Weighted Least Squares Regression - Weighted by invb.
33
Testarea ipotezei de homoscedasticitate pentru modelele multiple
Testarea homoscedaticitatii pentru modelele
multiple se poate face cu ajutorul testelor: Testul Breusch-Pagan-Godfrey
Testul White
34
Testul Breusch-Pagan-GodfreyPlecand de la ipoteza ca exista o legatura multipla liniara intre variabila
Y si variabilele X1 si X2 descrisa de relatia: Y=β0+β1X1+β2X2+ε, testarea homoscedasticitatii presupune parcurgerea urmatoarilor pasi:
estimarea parametrilor modelului de regresie liniara multipla: β0;β1 si β2
pe baza modelului estimat se obtin valorile erorii de modelare; construirea modelului auxiliar de regresie:
ei2=α0 +α1X1+ α2X2+u
se estimeaza raportul de determinatie a modelului auxiliar (Rα2). Pe baza
acestuia se caluleaza valoarea statisticii χ2 = n Rα2 care va fi comparata cu o
valoare teoretica χ2α, k-1, unde k reprezinta numarul parametrilor din modelul
auxiliar; prin compararea valorii teoretice cu cea calculata a statisticii χ2 se va accepta/
respinge ipoteza de homoscedasticitate a erorilor:
χ2 < χ2α, k-1=>AH0 respectiv χ2 ≥χ2
α, k-1=>RH0
35
Estimarea parametrilor modelului de baza
SAL – salariul curent anual ($) ->YSAL0 – salariul anual la angajare ($) -> X1
ED – nivelul educatie (ani de scoala)-> X2
Forma modelului liniar multiplu de estimat:SAL = β0+ β1*SAL0 + β2*ED+ε
Modelul estimat:SAL = -7808.71415718 +1.67263052172*SAL0 + 1020.3901421*ED+ε
36
Heteroskedasticity Test: Breusch-Pagan-Godfrey F-statistic 27.28751 Prob. F(2,471) 0.0000 Obs*R-squared 49.21954 Prob. Chi-Square(2) 0.0000 Scaled explained SS 245.2163 Prob. Chi-Square(2) 0.0000 Test Equation: Dependent Variable: ε^2 Method: Least Squares Date: 01/15/13 Time: 20:38 Sample: 1 474 Included observations: 474 Var. Coefficient Std. Error t-Statistic P β0 -1.31E+08 40991028 -3.2033800.0015 SAL0 6150.668 1375.365 4.472026 0.0000 ED 6452228 3752366 1.719509 0.0862 R-sq. 0.103839 Mean dependent var 60401068 Adjusted R-sq. 0.100033 S.D. dependent var 1.92E+08 S.E. of reg. 1.82E+08 Akaike info criterion 40.88563 Sum sq. resid 1.56E+19 Schwarz criterion 40.91197 Log likelihood -9686.895 Hannan-Quinn criter. 40.89599 F-statistic 27.28751 Durbin-Watson stat 1.796592 Prob(F-statistic) 0.000000
37
Testul WhiteTestul White urmeaza acelasi algoritm ca
in cazul testului Breusch-Pagan-Godfrey, singura diferenta consta in faptul ca se utilizeaza o alta forma mult mai complexa a modelului auxiliar:
ei2=α0 +α1X1+ α2X2+α3X1X2+ α4X1
2+ α5X2 2+u
Calculul statisticii χ2 si luarea deciziei se realizeaza ca in cazul testului precedent.
38
Heteroskedasticity Test: WhiteF-statistic11.97360 Prob. F(5,468) 0.0000Obs*R-sq. 53.75859 Prob. Chi-Square(5) 0.0000Scaled expl. SS 267.8303 Prob. Chi-Square(5) 0.0000Test Equation:Dependent Variable: ε^2Method: Least SquaresDate: 01/15/13 Time: 23:19Sample: 1 474Included observations: 474Variable Coefficient Std. Error t-Statistic Prob. β0 -2.13E+08 1.67E+08 -1.275593 0.2027SAL0 13826.12 9771.187 1.414989 0.1577SAL0^2 -0.138886 0.082003 -1.693663 0.0910SAL0*ED 72.27410 765.1561 0.094457 0.9248ED 9214356. 26870194 0.342921 0.7318ED^2 -291287.7 1381016. -0.210923 0.8330R-sq. 0.113415 Mean dependent va 60401068Adj R-sq 0.103943 S.D. dependent var 1.92E+08S.E. of reg 1.82E+08 Akaike info criterion 40.88755Sum sq. res 1.55E+19 Schwarz criterion 40.94022Log likelihood -9684.348 Hannan-Quinn criter 40.90826F-statistic 11.97360 Durbin-Watson stat 1.799331Prob(F-statistic) 0.000000