Upload
doandan
View
274
Download
0
Embed Size (px)
Citation preview
Modelul linear multifactorial Conf. univ. dr. Emilia Gogu
Contents
4 CURS. 4. MODELUL LINEAR MULTIFACTORIAL................................................... 2
4.1 Estimarea parametrilor din modelul linear multifactorial .............................................. 2 4.1.1 Ipotezele modelului .................................................................................................... 6
4.1.2 Proprietăţi ale estimatorilor ........................................................................................ 6
4.2 Teste privind semnificaţia estimatorilor........................................................................... 7
4.2.1 Acurateţea ajustării. Criterii pentru specificarea modelului multifactorial ................. 10
4.2.2 Coeficientul de determinare R2 ................................................................................. 10
4.2.3 Criterii pentru specificarea modelului multifactorial ................................................. 12
4.3 Multicolinearitatea .......................................................................................................... 13
4.4 Erori de specificare a modelului multifactorial de regresie lineară .............................. 15
Modelul linear multifactorial Conf. univ. dr. Emilia Gogu
Adaptat după: Prof. univ. dr. Dorin JULA
4 CURS. 4. MODELUL LINEAR MULTIFACTORIAL
Model de regresie lineară cu dependenţe multiple:
Yt = a0 + a1X1t + a2X2t + … + akXkt + et, t = 1, 2, …, n 4-1
4.1 Estimarea parametrilor din modelul linear multifactorial
nknkn22n110n
ikiki22i110i
33kk23213103
22kk22212102
11kk21211101
eXaXaXaaY
eXaXaXaaY
eXaXaXaaY
eXaXaXaaY
eXaXaXaaY
4-2
Introducem următoarele notaţii:
n
3
2
1
k
2
1
0
knn2n1
3k2313
2k2212
1k2111
n
3
2
1
e
e
e
e
e,
a
a
a
a
A,
XXX1
XXX1
XXX1
XXX1
X,
Y
Y
Y
Y
Y
unde:
– Y este un vector coloană, de dimensiuni n 1, care are drept componente cele n înregistrări ale
variabilei explicate (endogene),
– X este o matrice de dimensiuni n (k+1), care conţine în prima coloană (ataşată termenului
liber) constanta 1, iar în celelalte k coloane înregistrările pentru fiecare dintre cele k variabile
explicative;
– A este un vector coloană, de dimensiuni (k+1) 1, care include cei k+1 parametri ai modelului;
– e este un vector coloană, de dimensiuni n 1, care include cele n valori ale variabilei de
abatere (erorile din ecuaţie de regresie)
Sistemul (4-2) poate fi scris matriceal astfel:
Y = XA + e 4-3
Valorile estimate:
Ŷt = â0 + â1X1ţ + â2X2ţ + … + âkXkţ 4-4
Variabila reziduală:
Yt = Ŷt + ut, 4-5
sau Yt = â0 + â1X1ţ + â2X2ţ + … + âkXkţ + ut, 4-6
Matriceal: Y = XÂ + u 4-7
3
unde
n
3
2
1
k
2
1
0
u
u
u
u
u,
a
a
a
a
A
Metoda celor mai mici pătrate:
n
1t
2
ktkt22t110t
n
1t
2
tt
n
1t
2t
XaXaXaaY
YYuF
4-8
Matriceal
F = u'u = (Y – XÂ)'(Y – XÂ) = Y'Y – Y'XÂ – Â'X'Y + Â'X'XÂ
Deoarece 1,11,1k1k,nn,11,nn,1k1k,1 gAX'YY'X'A
unde g este un scalar, expresia F se scrie:
F = Y'Y – 2Â'X'Y + Â'X'XÂ 4-9
Rezolvare:
0AX'X2Y'X2A
F
4-10
X'XÂ = X'Y 4-11
 = (X'X)-1
X'Y 4-12
Exemplu:
Y – evoluţia cererii pentru un anumit produs
X1 – dinamica veniturilor populaţiei
X2 – dinamica preţurilor pentru produsul respectiv
t Yt X1t X2t t Yt X1t X2t
1 2.0 3.0 1.3 14 1.2 1.8 2.2
2 0.5 2.0 2.8 15 0.8 1.0 3.5
3 1.5 0.8 1.5 16 2.3 2.8 1.1
4 3.0 2.5 0.2 17 3.5 3.5 0.0
5 1.0 2.0 1.8 18 3.8 2.6 0.2
6 0.0 1.4 4.0 19 1.8 2.4 2.0
7 2.1 2.5 1.8 20 2.6 3.4 1.2
8 1.8 2.5 2.0 21 0.8 1.6 3.0
9 3.0 3.0 0.5 22 1.2 1.9 3.0
10 0.7 1.4 2.8 23 4.2 3.5 0.6
11 0.5 1.0 3.2 24 0.8 1.6 3.2
12 1.0 1.2 2.5 25 2.5 3.0 0.3
13 1.4 1.6 1.3
Modelul econometric, construit pe baza acestor ipoteze este:
Yt = a0 + a1X1t + a2X2t + et, Ŷt = â0 + â1X1ţ + â2X2ţ.
Modelul linear multifactorial Conf. univ. dr. Emilia Gogu
3.00.31
2.36.11
6.05.31
0.39.11
0.36.11
2.14.31
0.24.21
2.06.21
0.05.31
1.18.21
5.30.11
2.28.11
3.16.11
5.22.11
2.30.11
8.24.11
5.00.31
0.25.21
8.15.21
0.44.11
8.10.21
2.05.21
5.18.01
8.20.21
3.10.31
X
5.2
8.0
2.4
2.1
8.0
6.2
8.1
8.3
5.3
3.2
8.0
2.1
4.1
0.1
5.0
7.0
0.3
8.1
1.2
0.0
0.1
0.3
5.1
5.0
0.2
Y
04.11716.8246
16.8270.13254
00.4600.5425
X'X
072.0077.0297.0
077.0144.0453.0
297.0453.0565.1
X'X1
69.52
10.113
00.44
Y'X
639.0
441.0
984.1
Y'XX'XA1
Ŷt = 1.984 + 0.441X1t – 0.639X2t, pentru t = 1, 2, …, 25.
t Yt X1t X2t Ŷt ut
1 2.0 3.0 1.3 2.476 -0.476
2 0.5 2.0 2.8 1.077 -0.577
5
t Yt X1t X2t Ŷt ut
3 1.5 0.8 1.5 1.378 0.122
4 3.0 2.5 0.2 2.959 0.041
5 1.0 2.0 1.8 1.716 -0.716
6 0.0 1.4 4.0 0.045 -0.045
7 2.1 2.5 1.8 1.936 0.164
8 1.8 2.5 2.0 1.809 -0.008
9 3.0 3.0 0.5 2.988 0.013
10 0.7 1.4 2.8 0.812 -0.112
11 0.5 1.0 3.2 0.380 0.120
12 1.0 1.2 2.5 0.916 0.084
13 1.4 1.6 1.3 1.859 -0.459
14 1.2 1.8 2.2 1.372 -0.172
15 0.8 1.0 3.5 0.189 0.612
16 2.3 2.8 1.1 2.516 -0.216
17 3.5 3.5 0.0 3.528 -0.027
18 3.8 2.6 0.2 3.003 0.797
19 1.8 2.4 2.0 1.764 0.036
20 2.6 3.4 1.2 2.717 -0.117
21 0.8 1.6 3.0 0.773 0.027
22 1.2 1.9 3.0 0.905 0.295
23 4.2 3.5 0.6 3.144 1.056
24 0.8 1.6 3.2 0.645 0.155
25 2.5 3.0 0.3 3.115 -0.615
Observaţie
Y = XA + e  = (X'X)-1
X'Y
Y = XA + e /X'
X'Y = X'XA + X'e
(X'X)-1
X'Y = A + (X'X)-1
X'e
 = A + (X'X)-1
X'e
D = (X'X)-1
X'e – distorsiunea estimatorilor
Y(n,1) = X(n,k+1)A(k+1,1) + e(n,1) / X'(k+1,n)
X'(k+1,n)Y(n,1) = X'(k+1,n)X(n,k+1)A(k+1,1) + X'(k+1,n)e(n,1)
(X'Y)(k+1,1) = (X'X)(k+1,k+1)A(k+1,1) + (X'e)(k+1,1)
[(X'X)-1
X'Y](k+1,1)= A(k+1,1) + [(X'X)-1
(X'e)](k+1,1)
Â(k+1,1) = A(k+1,1) + [(X'X)-1
(X'e)](k+1,1)
Modelul linear multifactorial Conf. univ. dr. Emilia Gogu
4.1.1 Ipotezele modelului I–1M: Linearitatea modelului. Modelul este linear în sensul că oricare ar fi înregistrarea (Yt,
X1t, X2t, …, Xkt) selectată, forma legăturii dintre Yt variabilele explicative Xkt şi variabila
de abatere este lineară.
Linearitatea se referă la modul în care parametrii şi variabila de abatere intră în model şi
nu, în mod necesar, la forma variabilelor (Greene, 2000).
I–2M: Ipotezele referitoare la variabilele explicative
a. Variabilele explicative nu sunt aleatoare
b. Fiecare variabilă exogenă are dispersia nenulă, dar finită
c. Numărul de observaţii este superior numărului de parametri
d. Nu există nici o relaţie lineară între două sau mai multe variabile explicative
(absenţa colinearităţii)
O ipoteză alternativă pentru I–2Ma admite că variabilele explicative sunt aleatoare, însă nu
sunt corelate cu erorile. Ipotezele I–2Mc şi I–2Md pot fi scrise concentrat astfel: matricea X este
de rang k+1.
I–3M: Ipotezele referitoare la erori
a. Erorile et au media nulă
b. Erorile et au dispersia constantă oricare ar fi t (erorile nu sunt heteroscedastice)
c. Erorile et sunt independente (nu sunt autocorelate)
d. Erorile et sunt normal distribuite
4.1.2 Proprietăţi ale estimatorilor Dacă ipotezele modelului sunt respectate, atunci estimatorii calculaţi prin metoda celor
mai mici pătrate pentru modelul multifactorial de regresie lineară au anumite proprietăţi.
Proprietatea P-1M: estimatorii sunt lineari. Dacă variabilele explicative X nu sunt aleatoare şi
au valorile fixate (atunci când se repetă selecţia), estimatorii parametrilor din modelul
multifactorial de regresie lineară sunt funcţii lineare de observaţiile din eşantionul
selectat.
Proprietatea P-2M: estimatorii sunt nedeplasaţi. Dacă erorile sunt variabile aleatoare cu media
zero, estimatorii lineari ai parametrilor din modelul multifactorial de regresie lineară
sunt nedeplasaţi.
 = (X'X)-1
X'Y şi Y = XA + e. Rezultă
 = (X'X)-1
X'(XA+e) = (X'X)-1
X'XA + (X'X)-1
X'e
 = A + (X'X)-1
X'e
În relaţia precedentă se aplică operatorul de medie:
M(Â) = M[A + (X'X)-1
X'e] = A + (X'X)-1
X'M(e)
Deoarece
M(C) = C şi M(e) = 0,
rezultă
M(Â) = A
adică estimatorii sunt nedeplasaţi.
Proprietatea P-2'M: estimatorii sunt consistenţi. Dacă variabilele explicative au dispersia finită,
estimatorii lineari şi nedeplasaţi ai parametrilor din modelul multifactorial de regresie
lineară sunt consistenţi.
Proprietatea P-3M: estimatorii sunt eficienţi. Dacă variabilele explicative au dispersia finită,
estimatorii lineari şi nedeplasaţi ai parametrilor din modelul multifactorial de regresie
lineară sunt eficienţi.
7
Proprietatea P-4M: estimatorii sunt normal distribuiţi. Estimatorii parametrilor din modelul
multifactorial de regresie lineară (Â), calculaţi prin metoda celor mai mici pătrate,
sunt variabile aleatoare cu distribuţie normală.
Proprietatea P-5M: estimatorii sunt de maximă verosimilitate. Estimatorii parametrilor din
modelul multifactorial de regresie lineară (Â), calculaţi prin metoda celor mai mici
pătrate, sunt estimatori de maximă verosimilitate.
4.2 Teste privind semnificaţia estimatorilor
22
11
00
aa
aa
aa
AA , 221100 aaaaaaAA
2
2211220022
2211
2
110011
22001100
2
00
aaaaaaaaaa
aaaaaaaaaa
aaaaaaaaaa
AAAA
Var(Â) = M[(Â – A)(Â – A)'] =
21202
21101
10100
aVara,aCova,aCov
a,aCovaVara,aCov
a,aCova,aCovaVar
Cazul general:
2
kk11kk00kk
kk11
2
110011
kk001100
2
00
aaMaaaaMaaaaM
aaaaMaaMaaaaM
aaaaMaaaaMaaM
AAAAMAVar
Deoarece M(âi) = ai, Var(Â), matricea varianţă – covarianţă a vectorului estimatorilor  se
poate scrie:
k1k0k
k1101
k0100
aVara,aCova,aCov
a,aCovaVara,aCov
a,aCova,aCovaVar
AVar
4-13
Pornind de la relaţia (4-17): e'XX'XAA1
, echivalentă cu
e'XX'XAA1
şi de la faptul că (X'X)-1
este o matrice simetrică, matricea Var(Â) poate
fi calculată astfel:
11X'XX'ee'XX'XMAAAAMAVar
Modelul linear multifactorial Conf. univ. dr. Emilia Gogu
11X'XX'eeM'XX'XAVar
4-14
2e
2tt eMeVar , constantă oricare ar fi t şi
Cov(ei, ej) = M(ei, ej) = 0, oricare ar fi i ≠ j.
n2eI'eeM 4-15
12e
112e
1
n2e
1
X'X
X'XX'XX'X
X'XXI'XX'XAVar
4-16
Notăm dij elementul situat la intersecţia dintre linia i şi coloana j, atunci dij = dji. Rezultă că
dispersia estimatorului âi, notată 2ai
, este dată de expresia:
ii2e
2a d
i 4-17
unde k,0i .
Abaterea standard a estimatorului âi se calculează prin extragerea rădăcinii pătrate din
dispersia estimatorului respectiv:
iiea di
4-18
Tot din compararea relaţiilor (4-19) şi (4-22) rezultă:
ji,da,aCov ij2eji 4-19
adică, pentru a calcula covarianţa dintre estimatorii âi şi âj se înmulţeşte
Dar, în relaţiile de calcul (4-23), (4-24) şi (4-25), dispersia erorilor 2e nu este cunoscută.
Se demonstrează că:
u'u1kn
1s2
u
, 1kn
u
s
n
1t
2t
2u
4-20
este un estimator nedeplasat al dispersiei erorilor 2e
2usM .
În aceste condiţii, un estimator nedeplasat al matricei Var(Â), matricea de varianţă –
covarianţă a vectorului estimatorilor Â, se calculează astfel:
12u
2
AX'XsS
4-21
deoarece AVarSM 2
A .
Dispersia de selecţie 2ai
s :
ii2u
2a dss
i 4-22
unde k,0i .
Testul unilateral
Pasul 1: Se formulează H0: ai = a, H1: ai > a.
Pasul 2: Se calculează statistica
i
i
a
ia
s
aat
,
9
Pasul 3: Din tabelul statisticii Student, pornind de la numărul gradelor de libertate (n–k–1) şi de
la nivelul de semnificaţie ales (α), se selectează o valoare
,2nt astfel încât
ttP .
Pasul 4: Dacă tt
ia atunci se respinge H0 şi admitem că parametrul ai este semnificativ mai
mare decât a. Dacă ipoteza alternativă este H1: ai < a, atunci se respinge H0 dacă tt
ia tt
De obicei, valoarea a este stabilită la nivelul a = 0, astfel încât se testează ipoteza H0:
ai = 0 (variabilele Xi şi Y sunt independente). Respingerea acestei ipoteze înseamnă acceptarea
faptului că, statistic, există o legătură între variabila endogenă Y şi variabila explicativă Xi.
Pentru exemplificarea modului de calcul a dispersiei de selecţie a variabilei reziduale (ca
estimator nedeplasat al dispersiei erorilor), a dispersiei estimatorilor şi a abaterilor standard în
cazul numeric prezentat în tabelul 4-1 este necesar ca tabelul 4-2 să fie completat cu o coloană
suplimentară, necesară pentru calculul blocului 2tu . Calculele sunt prezentate în tabelul 4-3.
t Yt Ŷt ut 2tu
1 2.0 2.476 -0.476 0.2269
2 0.5 1.077 -0.577 0.3327
3 1.5 1.378 0.122 0.0148
4 3.0 2.959 0.041 0.0017
5 1.0 1.716 -0.716 0.5124
6 0.0 0.045 -0.045 0.0021
7 2.1 1.936 0.164 0.0268
8 1.8 1.809 -0.008 0.0001
9 3.0 2.988 0.013 0.0002
10 0.7 0.812 -0.112 0.0126
11 0.5 0.380 0.120 0.0144
12 1.0 0.916 0.084 0.0071
13 1.4 1.859 -0.459 0.2106
14 1.2 1.372 -0.172 0.0296
15 0.8 0.189 0.612 0.3739
16 2.3 2.516 -0.216 0.0466
17 3.5 3.528 -0.027 0.0008
18 3.8 3.003 0.797 0.6355
19 1.8 1.764 0.036 0.0013
20 2.6 2.717 -0.117 0.0136
21 0.8 0.773 0.027 0.0008
22 1.2 0.905 0.295 0.0871
23 4.2 3.144 1.056 1.1149
24 0.8 0.645 0.155 0.0241
25 2.5 3.115 -0.615 0.3786
Suma: 44.0 44.0 0.000 4.0689
Pornind de la valorile din tabelul 4-3, se calculează:
18495.0325
0689.4
1kn
u
s
25
1t
2t
2u
Modelul linear multifactorial Conf. univ. dr. Emilia Gogu
28935.05645.118495.0dss 002u
2a0
02669.01443.018495.0dss 112u
2a1
01323.00715.018495.0dss 222u
2a2
unde doo, d11 şi d22 sunt elementele de pe diagonala principală a matricei (X'X)-1
. Abaterile
standard se calculează prin extragerea rădăcinii pătrate din valorile dispersiilor corespunzătoare:
430058.0su
53792.0s0a
16338.0s1a
11502.0s2a
Pentru testarea semnificaţiei parametrilor din modelul linear de regresie multiplă se
procedează astfel:
(a) Se calculează statisticile corespunzătoare pentru estimatorii parametrilor
69.353792.0
984.1
s
at
0
0
a
0a
70.216338.0
441.0
s
at
1
1
a
1a
56.511502.0
639.0
s
at
2
2
a
2a
(b) Din tabelul distribuţiei t–Student unilaterale, pentru n–k–1 = 22 grade de libertate şi
α = 0.05 pragul de încredere, se identifică valoarea critică t* = 1.717.
4.2.1 Acurateţea ajustării. Criterii pentru specificarea modelului multifactorial
4.2.2 Coeficientul de determinare R2
n
1t
2
t
n
1t
2t
2
YY
u
1VT
VTR1
VT
VTMR 4-23
Coeficientul de determinare corectat 2R
22 R11kn
1n1
VT
VTR
1kn
1n1
1n
VT1kn
VTR
1R
22 R11kn
1n1R
4-24
t Yt 2t YY
1 2.0 0.06
2 0.5 1.59
3 1.5 0.07
4 3.0 1.54
11
t Yt 2t YY
5 1.0 0.58
6 0.0 3.10
7 2.1 0.12
8 1.8 0.00
9 3.0 1.54
10 0.7 1.12
11 0.5 1.59
12 1.0 0.58
13 1.4 0.13
14 1.2 0.31
15 0.8 0.92
16 2.3 0.29
17 3.5 3.03
18 3.8 4.16
19 1.8 0.00
20 2.6 0.71
21 0.8 0.92
22 1.2 0.31
23 4.2 5.95
24 0.8 0.92
25 2.5 0.55
Suma 44.0 30.08
În aplicarea relaţiilor (4-33) şi (4-34) se ţine seama de faptul că volumul selecţiei este
n = 25, iar numărul variabilelor explicative este k = 2.
De asemenea, se utilizează un rezultat prezentat în tabelul 4-3:
0689.4u25
1t
2t
În aceste condiţii, coeficientul de determinare calculat potrivit relaţiei (4-33) este:
8647.008.30
0689.41R 2
iar un estimator nedeplasat pentru coeficientul de determinare corectat 2R , calculat potrivit
relaţiei (4-34), este
8524.08647.0122
241R 2
Observaţii
1. Cu excepţia situaţiei în care R2 = 1,
2R < R2;
2. Dacă R2 <
1n
k
, atunci
2R < 0
Exemplu
Fie n = 25, k = 3, 1n
k
= 0.125. Dacă R
2 = 0.1, atunci,
2R = -0.0286. O valoare negativă
a coeficientului de determinare ajustat semnifică faptul că modelul nu descrie într-un mod
satisfăcător evoluţia variabilei endogene.
Modelul linear multifactorial Conf. univ. dr. Emilia Gogu
4.2.3 Criterii pentru specificarea modelului multifactorial Un criteriu imediat pentru a decide dacă admitem sau nu în model o variabilă suplimentară
este următorul: dacă prin includerea unei (unor) variabile suplimentare suma pătratelor
reziduurilor scade mai repede decât numărul gradelor de libertate, din punct de vedere
econometric se justifică reţinerea în model a variabilei (variabilelor) respective.
Unul dintre cele mai cunoscute teste este criteriul informaţional Akaike (Akaike
information criterion – AIC). Acest criteriu este definit astfel:
n
1k2n
1t
2t
n
1k2
eun
1e
n
VTRAIC
4-25
sau, în expresie logaritmică
n
1k2
n
ulnAICln
2t
Un alt test cunoscut este criteriul Schwartz:
n
1kn
1t
2t
n
1k
nun
1n
n
VTRSCHWARTZ
4-26
sau, în expresie logaritmică
)nln(n
1k
n
ulnSCln
2t
t Yt X1t X2t X3t Ŷ-M1 Ŷ-M2 u-M1 u-M2
1 2.0 3.0 1.3 1.5 2.476 2.489 -0.476 -0.489
2 0.5 2.0 2.8 2.5 1.077 1.051 -0.577 -0.551
3 1.5 0.8 1.5 2.0 1.378 1.366 0.122 0.134
4 3.0 2.5 0.2 1.0 2.959 2.987 0.041 0.013
5 1.0 2.0 1.8 1.5 1.716 1.731 -0.716 -0.731
6 0.0 1.4 4.0 2.0 0.045 0.053 -0.045 -0.053
7 2.1 2.5 1.8 2.5 1.936 1.903 0.164 0.197
8 1.8 2.5 2.0 2.8 1.809 1.762 -0.008 0.038
9 3.0 3.0 0.5 1.5 2.988 2.993 0.013 0.007
10 0.7 1.4 2.8 0.8 0.812 0.870 -0.112 -0.170
11 0.5 1.0 3.2 1.6 0.380 0.401 0.120 0.099
12 1.0 1.2 2.5 2.8 0.916 0.872 0.084 0.128
13 1.4 1.6 1.3 2.5 1.859 1.821 -0.459 -0.421
14 1.2 1.8 2.2 2.2 1.372 1.356 -0.172 -0.156
15 0.8 1.0 3.5 2.0 0.189 0.192 0.612 0.608
16 2.3 2.8 1.1 3.2 2.516 2.443 -0.216 -0.143
17 3.5 3.5 0.0 0.1 3.528 3.600 -0.027 -0.100
18 3.8 2.6 0.2 0.8 3.003 3.041 0.797 0.759
19 1.8 2.4 2.0 0.5 1.764 1.831 0.036 -0.031
20 2.6 3.4 1.2 1.6 2.717 2.723 -0.117 -0.123
21 0.8 1.6 3.0 1.4 0.773 0.802 0.027 -0.002
22 1.2 1.9 3.0 2.2 0.905 0.895 0.295 0.305
23 4.2 3.5 0.6 2.5 3.144 3.102 1.056 1.098
24 0.8 1.6 3.2 2.0 0.645 0.646 0.155 0.154
25 2.5 3.0 0.3 2.5 3.115 3.070 -0.615 -0.570
Calculăm modelele M-1 şi M-2 specificate astfel:
13
M–1: tt22t110t eXaXaaY
M–2: tt33t22t110t XbXbXbbY
Modelul M–1:
8524.0R,8647.0R,4301.0s,X639.0X441.0984.1Y 22
ut21150.0
t11634.05379.0
t ,
2069.0e25
0689.4eu
n
1AIC 25
32
n
1k2n
1t
2t
2395.02525
0689.4nu
n
1SCHWARTZ 25
3
n
1kn
1t
2t
Modelul M–2:
8467.0R,8659.0R,4383.0s
,X049.0X631.0X442.0058.2Y
22u
t3117.0
t2119.0
t1167.0576.0
t
2223.0e25
0349.4eu
n
1AIC 25
42
n
1k2n
1t
2t
2701.02525
0349.4nu
n
1SCHWARTZ 25
4
n
1kn
1t
2t
Sintetic, rezultatele obţinute sunt prezentate în tabelul următor:
Modelul R2 2R AIC SCHWARTZ
M–1 0.8647 0.8524 0.2069 0.2395
M–2 0.8659 0.8467 0.2223 0.2701
Se poate demonstra următoarea proprietate: dacă valoarea absolută a testului t pentru un
parametru din ecuaţia de regresie lineară multiplă este mai mică decât 1, atunci, eliminând din
model variabila explicativă asociată, valoarea coeficientului de determinare corectat 2R va
creşte; dacă se elimină o variabilă pentru care t statistic este mai mare decât 1, valoarea
coeficientului de determinare corectat 2R se va reduce (Ramanathan, R., 1992, pag. 170).
EViews
n
)1k(2
n
2AIC
l
)nln(n
)1k(
n
2SIC
l
n
uln)2ln(1
2
n2t
l
4.3 Multicolinearitatea
Există o relaţie lineară între valorile variabilelor explicative.
Modelul linear multifactorial Conf. univ. dr. Emilia Gogu
Consecinţe ale multicolinearităţii
Să presupunem că în ecuaţia de regresie:
Y = a0 + a1X1 + a2X2 + e 4-27
între variabilele X1 şi X2 există o relaţie de forma
t,bXaX t1t2 4-28
unde a şi b sunt parametrii cunoscuţi.
Dacă se înlocuieşte 4-28 în relaţia 4-27 se obţine:
eXbaaaaa
eXaXaaY
12120
22110
4-29
sau eXY 1 4-30
unde
baa
aaa
21
20 4-31
Pe baza datelor din eşantionul selectat, se determină estimatorii şi , pentru parametrii
α respectiv β din ecuaţia de regresie (4-30). Din nefericire, oricât de buni ar fi estimatorii
respectivi, este imposibil de calculat valorile â0, â1 şi â2 corespunzători relaţiei iniţiale 4-37.
Aceasta deoarece sistemul cu necunoscutele â0, â1 şi â2 dedus din (4-41)
baaˆ
aaaˆ
21
20 4-32
este nedeterminat (are două ecuaţii şi trei necunoscute).
Consecinţe ale multicolinearităţii
a. Dacă două sau mai multe variabile explicative din modelul de regresie multiplă sunt perfect
corelate, estimatorii parametrilor nu pot fi calculaţi prin metoda celor mai mici pătrate.
b. Dacă anumite variabile explicative sunt relativ puternic corelate, estimatorii obţinuţi prin
metoda celor mai mici pătrate sunt lineari, normal distribuiţi, nedeplasaţi, consistenţi şi de
maximă verosimilitate.
c. Efectul multicolinearităţii se manifestă în creşterea abaterii standard a estimatorilor calculaţi
pentru parametrii modelului, ceea ce reduce valoarea testului t statistic (Student). Aceasta
face estimatorii mai puţin semnificativi (posibil chiar nesemnificativi). Totuşi, testul t rămâne
valid.
d. Se reduce precizia estimatorilor calculaţi pentru parametrii modelului, în sensul că abaterea
standard mare duce la creşterea intervalului de încredere în care sunt garantaţi parametrii.
e. Deoarece covarianţa între variabilele explicative corelate relativ puternic poate fi mare (în
valoare absolută), interpretarea parametrilor individuali este dificilă.
Identificarea multicolinearităţii
a. Coeficienţii de corelaţie lineară, calculaţi pentru perechile de variabile explicative din model,
sunt mari în valoare absolută (sunt, în modul, apropiaţi de +1).
b. Determinantul matricei (X'X) are valori în apropierea lui zero.
c. Coeficientul de determinare R2 este mare, iar valorile testelor t (Student), calculate pentru
Y = a0 + a1X1 + a2X2 + e
15
parametrii modelului sunt mici.
d. Estimatorii parametrilor sunt sensibili la specificarea modelului.
e. Aplicarea unor proceduri formale.
Atenuarea multicolinearităţii
a. Eliminarea unor variabile explicative
b. Realizarea unor observaţii suplimentare asupra variabilelor din model (se măreşte volumul
eşantionului)
c. Prelucrarea primară a datelor (calculul ritmurilor de modificare, a sporurilor, indicilor,
logaritmarea valorilor observate etc.)
d. Regresia ridge
4.4 Erori de specificare a modelului multifactorial de regresie lineară
Omiterea unor variabile explicative importante
a. Dacă o variabilă importantă omisă este corelată cel puţin cu o variabilă inclusă în model,
atunci estimatorii parametrilor reţinuţi în model sunt deplasaţi şi nu sunt consistenţi
b. Chiar dacă variabilele omise nu sunt corelate cu variabilele reţinute în model, estimatorul
termenului liber (â0) este, în general, deplasat
c. Dispersiile estimate pentru parametrii variabilelor reţinute în model sunt estimatori deplasaţi
ai dispersiilor reale şi, în consecinţă, testul t privind semnificaţia estimatorilor nu este valid
Includerea unor variabile nerelevante
a. Dacă o variabilă explicativă nerelevantă este inclusă în model, atunci estimatorii parametrilor
pentru toate celelalte variabile din model sunt nedeplasaţi şi consistenţi
b. Dispersiile estimate pentru parametrii variabilelor din model sunt mai mari decât în cazul
neincluderii variabilelor nerelevante şi deci estimatori nu sunt eficienţi
c. Deoarece dispersiile estimate pentru parametrii modelului sunt nedeplasate, testul t privind
semnificaţia estimatorilor este valid.