Modelul linear multifactorial Conf. univ. dr. Emilia Gogu 4. Modelul... · Modelul linear multifactorial Conf. univ. dr. Emilia Gogu Contents 4 CURS. 4. MODELUL LINEAR MULTIFACTORIAL

Modelul linear multifactorial Conf. univ. dr. Emilia Gogu

Contents

4 CURS. 4. MODELUL LINEAR MULTIFACTORIAL................................................... 2

4.1 Estimarea parametrilor din modelul linear multifactorial .............................................. 2 4.1.1 Ipotezele modelului .................................................................................................... 6

4.1.2 Proprietăţi ale estimatorilor ........................................................................................ 6

4.2 Teste privind semnificaţia estimatorilor........................................................................... 7

4.2.1 Acurateţea ajustării. Criterii pentru specificarea modelului multifactorial ................. 10

4.2.2 Coeficientul de determinare R2 ................................................................................. 10

4.2.3 Criterii pentru specificarea modelului multifactorial ................................................. 12

4.3 Multicolinearitatea .......................................................................................................... 13

4.4 Erori de specificare a modelului multifactorial de regresie lineară .............................. 15


Adaptat după: Prof. univ. dr. Dorin JULA

4 CURS. 4. MODELUL LINEAR MULTIFACTORIAL

Model de regresie lineară cu dependenţe multiple:

Yt = a0 + a1X1t + a2X2t + … + akXkt + et, t = 1, 2, …, n 4-1

4.1 Estimarea parametrilor din modelul linear multifactorial

nknkn22n110n

ikiki22i110i

33kk23213103

22kk22212102

11kk21211101

eXaXaXaaY

eXaXaXaaY

eXaXaXaaY

eXaXaXaaY

eXaXaXaaY

4-2

Introducem următoarele notaţii:

n

3

2

1

k

2

1

0

knn2n1

3k2313

2k2212

1k2111

n

3

2

1

e

e

e

e

e,

a

a

a

a

A,

XXX1

XXX1

XXX1

XXX1

X,

Y

Y

Y

Y

Y

unde:

– Y este un vector coloană, de dimensiuni n 1, care are drept componente cele n înregistrări ale

variabilei explicate (endogene),

– X este o matrice de dimensiuni n (k+1), care conţine în prima coloană (ataşată termenului

liber) constanta 1, iar în celelalte k coloane înregistrările pentru fiecare dintre cele k variabile

explicative;

– A este un vector coloană, de dimensiuni (k+1) 1, care include cei k+1 parametri ai modelului;

– e este un vector coloană, de dimensiuni n 1, care include cele n valori ale variabilei de

abatere (erorile din ecuaţie de regresie)

Sistemul (4-2) poate fi scris matriceal astfel:

Y = XA + e 4-3

Valorile estimate:

Ŷt = â0 + â1X1ţ + â2X2ţ + … + âkXkţ 4-4

Variabila reziduală:

Yt = Ŷt + ut, 4-5

sau Yt = â0 + â1X1ţ + â2X2ţ + … + âkXkţ + ut, 4-6

Matriceal: Y = XÂ + u 4-7

3

unde

n

3

2

1

k

2

1

0

u

u

u

u

u,

a

a

a

a

A

Metoda celor mai mici pătrate:

n

1t

2

ktkt22t110t

n

1t

2

tt

n

1t

2t

XaXaXaaY

YYuF

4-8

Matriceal

F = u'u = (Y – XÂ)'(Y – XÂ) = Y'Y – Y'XÂ – Â'X'Y + Â'X'XÂ

Deoarece 1,11,1k1k,nn,11,nn,1k1k,1 gAX'YY'X'A

unde g este un scalar, expresia F se scrie:

F = Y'Y – 2Â'X'Y + Â'X'XÂ 4-9

Rezolvare:

0AX'X2Y'X2A

F

4-10

X'XÂ = X'Y 4-11

Â = (X'X)-1

X'Y 4-12

Exemplu:

Y – evoluţia cererii pentru un anumit produs

X1 – dinamica veniturilor populaţiei

X2 – dinamica preţurilor pentru produsul respectiv

t Yt X1t X2t t Yt X1t X2t

1 2.0 3.0 1.3 14 1.2 1.8 2.2

2 0.5 2.0 2.8 15 0.8 1.0 3.5

3 1.5 0.8 1.5 16 2.3 2.8 1.1

4 3.0 2.5 0.2 17 3.5 3.5 0.0

5 1.0 2.0 1.8 18 3.8 2.6 0.2

6 0.0 1.4 4.0 19 1.8 2.4 2.0

7 2.1 2.5 1.8 20 2.6 3.4 1.2

8 1.8 2.5 2.0 21 0.8 1.6 3.0

9 3.0 3.0 0.5 22 1.2 1.9 3.0

10 0.7 1.4 2.8 23 4.2 3.5 0.6

11 0.5 1.0 3.2 24 0.8 1.6 3.2

12 1.0 1.2 2.5 25 2.5 3.0 0.3

13 1.4 1.6 1.3

Modelul econometric, construit pe baza acestor ipoteze este:

Yt = a0 + a1X1t + a2X2t + et, Ŷt = â0 + â1X1ţ + â2X2ţ.


3.00.31

2.36.11

6.05.31

0.39.11

0.36.11

2.14.31

0.24.21

2.06.21

0.05.31

1.18.21

5.30.11

2.28.11

3.16.11

5.22.11

2.30.11

8.24.11

5.00.31

0.25.21

8.15.21

0.44.11

8.10.21

2.05.21

5.18.01

8.20.21

3.10.31

X

5.2

8.0

2.4

2.1

8.0

6.2

8.1

8.3

5.3

3.2

8.0

2.1

4.1

0.1

5.0

7.0

0.3

8.1

1.2

0.0

0.1

0.3

5.1

5.0

0.2

Y

04.11716.8246

16.8270.13254

00.4600.5425

X'X

072.0077.0297.0

077.0144.0453.0

297.0453.0565.1

X'X1

69.52

10.113

00.44

Y'X

639.0

441.0

984.1

Y'XX'XA1

Ŷt = 1.984 + 0.441X1t – 0.639X2t, pentru t = 1, 2, …, 25.

t Yt X1t X2t Ŷt ut

1 2.0 3.0 1.3 2.476 -0.476

2 0.5 2.0 2.8 1.077 -0.577

5

t Yt X1t X2t Ŷt ut

3 1.5 0.8 1.5 1.378 0.122

4 3.0 2.5 0.2 2.959 0.041

5 1.0 2.0 1.8 1.716 -0.716

6 0.0 1.4 4.0 0.045 -0.045

7 2.1 2.5 1.8 1.936 0.164

8 1.8 2.5 2.0 1.809 -0.008

9 3.0 3.0 0.5 2.988 0.013

10 0.7 1.4 2.8 0.812 -0.112

11 0.5 1.0 3.2 0.380 0.120

12 1.0 1.2 2.5 0.916 0.084

13 1.4 1.6 1.3 1.859 -0.459

14 1.2 1.8 2.2 1.372 -0.172

15 0.8 1.0 3.5 0.189 0.612

16 2.3 2.8 1.1 2.516 -0.216

17 3.5 3.5 0.0 3.528 -0.027

18 3.8 2.6 0.2 3.003 0.797

19 1.8 2.4 2.0 1.764 0.036

20 2.6 3.4 1.2 2.717 -0.117

21 0.8 1.6 3.0 0.773 0.027

22 1.2 1.9 3.0 0.905 0.295

23 4.2 3.5 0.6 3.144 1.056

24 0.8 1.6 3.2 0.645 0.155

25 2.5 3.0 0.3 3.115 -0.615

Observaţie

Y = XA + e Â = (X'X)-1

X'Y

Y = XA + e /X'

X'Y = X'XA + X'e

(X'X)-1

X'Y = A + (X'X)-1

X'e

Â = A + (X'X)-1

X'e

D = (X'X)-1

X'e – distorsiunea estimatorilor

Y(n,1) = X(n,k+1)A(k+1,1) + e(n,1) / X'(k+1,n)

X'(k+1,n)Y(n,1) = X'(k+1,n)X(n,k+1)A(k+1,1) + X'(k+1,n)e(n,1)

(X'Y)(k+1,1) = (X'X)(k+1,k+1)A(k+1,1) + (X'e)(k+1,1)

[(X'X)-1

X'Y](k+1,1)= A(k+1,1) + [(X'X)-1

(X'e)](k+1,1)

Â(k+1,1) = A(k+1,1) + [(X'X)-1

(X'e)](k+1,1)


4.1.1 Ipotezele modelului I–1M: Linearitatea modelului. Modelul este linear în sensul că oricare ar fi înregistrarea (Yt,

X1t, X2t, …, Xkt) selectată, forma legăturii dintre Yt variabilele explicative Xkt şi variabila

de abatere este lineară.

Linearitatea se referă la modul în care parametrii şi variabila de abatere intră în model şi

nu, în mod necesar, la forma variabilelor (Greene, 2000).

I–2M: Ipotezele referitoare la variabilele explicative

a. Variabilele explicative nu sunt aleatoare

b. Fiecare variabilă exogenă are dispersia nenulă, dar finită

c. Numărul de observaţii este superior numărului de parametri

d. Nu există nici o relaţie lineară între două sau mai multe variabile explicative

(absenţa colinearităţii)

O ipoteză alternativă pentru I–2Ma admite că variabilele explicative sunt aleatoare, însă nu

sunt corelate cu erorile. Ipotezele I–2Mc şi I–2Md pot fi scrise concentrat astfel: matricea X este

de rang k+1.

I–3M: Ipotezele referitoare la erori

a. Erorile et au media nulă

b. Erorile et au dispersia constantă oricare ar fi t (erorile nu sunt heteroscedastice)

c. Erorile et sunt independente (nu sunt autocorelate)

d. Erorile et sunt normal distribuite

4.1.2 Proprietăţi ale estimatorilor Dacă ipotezele modelului sunt respectate, atunci estimatorii calculaţi prin metoda celor

mai mici pătrate pentru modelul multifactorial de regresie lineară au anumite proprietăţi.

Proprietatea P-1M: estimatorii sunt lineari. Dacă variabilele explicative X nu sunt aleatoare şi

au valorile fixate (atunci când se repetă selecţia), estimatorii parametrilor din modelul

multifactorial de regresie lineară sunt funcţii lineare de observaţiile din eşantionul

selectat.

Proprietatea P-2M: estimatorii sunt nedeplasaţi. Dacă erorile sunt variabile aleatoare cu media

zero, estimatorii lineari ai parametrilor din modelul multifactorial de regresie lineară

sunt nedeplasaţi.

Â = (X'X)-1

X'Y şi Y = XA + e. Rezultă

Â = (X'X)-1

X'(XA+e) = (X'X)-1

X'XA + (X'X)-1

X'e

Â = A + (X'X)-1

X'e

În relaţia precedentă se aplică operatorul de medie:

M(Â) = M[A + (X'X)-1

X'e] = A + (X'X)-1

X'M(e)

Deoarece

M(C) = C şi M(e) = 0,

rezultă

M(Â) = A

adică estimatorii sunt nedeplasaţi.

Proprietatea P-2'M: estimatorii sunt consistenţi. Dacă variabilele explicative au dispersia finită,

estimatorii lineari şi nedeplasaţi ai parametrilor din modelul multifactorial de regresie

lineară sunt consistenţi.

Proprietatea P-3M: estimatorii sunt eficienţi. Dacă variabilele explicative au dispersia finită,

estimatorii lineari şi nedeplasaţi ai parametrilor din modelul multifactorial de regresie

lineară sunt eficienţi.

7

Proprietatea P-4M: estimatorii sunt normal distribuiţi. Estimatorii parametrilor din modelul

multifactorial de regresie lineară (Â), calculaţi prin metoda celor mai mici pătrate,

sunt variabile aleatoare cu distribuţie normală.

Proprietatea P-5M: estimatorii sunt de maximă verosimilitate. Estimatorii parametrilor din

modelul multifactorial de regresie lineară (Â), calculaţi prin metoda celor mai mici

pătrate, sunt estimatori de maximă verosimilitate.

4.2 Teste privind semnificaţia estimatorilor

22

11

00

aa

aa

aa

AA , 221100 aaaaaaAA

2

2211220022

2211

2

110011

22001100

2

00

aaaaaaaaaa

aaaaaaaaaa

aaaaaaaaaa

AAAA

Var(Â) = M[(Â – A)(Â – A)'] =

21202

21101

10100

aVara,aCova,aCov

a,aCovaVara,aCov

a,aCova,aCovaVar

Cazul general:

2

kk11kk00kk

kk11

2

110011

kk001100

2

00

aaMaaaaMaaaaM

aaaaMaaMaaaaM

aaaaMaaaaMaaM

AAAAMAVar

Deoarece M(âi) = ai, Var(Â), matricea varianţă – covarianţă a vectorului estimatorilor Â se

poate scrie:

k1k0k

k1101

k0100

aVara,aCova,aCov

a,aCovaVara,aCov

a,aCova,aCovaVar

AVar

4-13

Pornind de la relaţia (4-17): e'XX'XAA1

, echivalentă cu

e'XX'XAA1

şi de la faptul că (X'X)-1

este o matrice simetrică, matricea Var(Â) poate

fi calculată astfel:

11X'XX'ee'XX'XMAAAAMAVar


11X'XX'eeM'XX'XAVar

4-14

2e

2tt eMeVar , constantă oricare ar fi t şi

Cov(ei, ej) = M(ei, ej) = 0, oricare ar fi i ≠ j.

n2eI'eeM 4-15

12e

112e

1

n2e

1

X'X

X'XX'XX'X

X'XXI'XX'XAVar

4-16

Notăm dij elementul situat la intersecţia dintre linia i şi coloana j, atunci dij = dji. Rezultă că

dispersia estimatorului âi, notată 2ai

, este dată de expresia:

ii2e

2a d

i 4-17

unde k,0i .

Abaterea standard a estimatorului âi se calculează prin extragerea rădăcinii pătrate din

dispersia estimatorului respectiv:

iiea di

4-18

Tot din compararea relaţiilor (4-19) şi (4-22) rezultă:

ji,da,aCov ij2eji 4-19

adică, pentru a calcula covarianţa dintre estimatorii âi şi âj se înmulţeşte

Dar, în relaţiile de calcul (4-23), (4-24) şi (4-25), dispersia erorilor 2e nu este cunoscută.

Se demonstrează că:

u'u1kn

1s2

u

, 1kn

u

s

n

1t

2t

2u

4-20

este un estimator nedeplasat al dispersiei erorilor 2e

2usM .

În aceste condiţii, un estimator nedeplasat al matricei Var(Â), matricea de varianţă –

covarianţă a vectorului estimatorilor Â, se calculează astfel:

12u

2

AX'XsS

4-21

deoarece AVarSM 2

A .

Dispersia de selecţie 2ai

s :

ii2u

2a dss

i 4-22

unde k,0i .

Testul unilateral

Pasul 1: Se formulează H0: ai = a, H1: ai > a.

Pasul 2: Se calculează statistica

i

i

a

ia

s

aat

,

9

Pasul 3: Din tabelul statisticii Student, pornind de la numărul gradelor de libertate (n–k–1) şi de

la nivelul de semnificaţie ales (α), se selectează o valoare

,2nt astfel încât

ttP .

Pasul 4: Dacă tt

ia atunci se respinge H0 şi admitem că parametrul ai este semnificativ mai

mare decât a. Dacă ipoteza alternativă este H1: ai < a, atunci se respinge H0 dacă tt

ia tt

De obicei, valoarea a este stabilită la nivelul a = 0, astfel încât se testează ipoteza H0:

ai = 0 (variabilele Xi şi Y sunt independente). Respingerea acestei ipoteze înseamnă acceptarea

faptului că, statistic, există o legătură între variabila endogenă Y şi variabila explicativă Xi.

Pentru exemplificarea modului de calcul a dispersiei de selecţie a variabilei reziduale (ca

estimator nedeplasat al dispersiei erorilor), a dispersiei estimatorilor şi a abaterilor standard în

cazul numeric prezentat în tabelul 4-1 este necesar ca tabelul 4-2 să fie completat cu o coloană

suplimentară, necesară pentru calculul blocului 2tu . Calculele sunt prezentate în tabelul 4-3.

t Yt Ŷt ut 2tu

1 2.0 2.476 -0.476 0.2269

2 0.5 1.077 -0.577 0.3327

3 1.5 1.378 0.122 0.0148

4 3.0 2.959 0.041 0.0017

5 1.0 1.716 -0.716 0.5124

6 0.0 0.045 -0.045 0.0021

7 2.1 1.936 0.164 0.0268

8 1.8 1.809 -0.008 0.0001

9 3.0 2.988 0.013 0.0002

10 0.7 0.812 -0.112 0.0126

11 0.5 0.380 0.120 0.0144

12 1.0 0.916 0.084 0.0071

13 1.4 1.859 -0.459 0.2106

14 1.2 1.372 -0.172 0.0296

15 0.8 0.189 0.612 0.3739

16 2.3 2.516 -0.216 0.0466

17 3.5 3.528 -0.027 0.0008

18 3.8 3.003 0.797 0.6355

19 1.8 1.764 0.036 0.0013

20 2.6 2.717 -0.117 0.0136

21 0.8 0.773 0.027 0.0008

22 1.2 0.905 0.295 0.0871

23 4.2 3.144 1.056 1.1149

24 0.8 0.645 0.155 0.0241

25 2.5 3.115 -0.615 0.3786

Suma: 44.0 44.0 0.000 4.0689

Pornind de la valorile din tabelul 4-3, se calculează:

18495.0325

0689.4

1kn

u

s

25

1t

2t

2u


28935.05645.118495.0dss 002u

2a0

02669.01443.018495.0dss 112u

2a1

01323.00715.018495.0dss 222u

2a2

unde doo, d11 şi d22 sunt elementele de pe diagonala principală a matricei (X'X)-1

. Abaterile

standard se calculează prin extragerea rădăcinii pătrate din valorile dispersiilor corespunzătoare:

430058.0su

53792.0s0a

16338.0s1a

11502.0s2a

Pentru testarea semnificaţiei parametrilor din modelul linear de regresie multiplă se

procedează astfel:

(a) Se calculează statisticile corespunzătoare pentru estimatorii parametrilor

69.353792.0

984.1

s

at

0

0

a

0a

70.216338.0

441.0

s

at

1

1

a

1a

56.511502.0

639.0

s

at

2

2

a

2a

(b) Din tabelul distribuţiei t–Student unilaterale, pentru n–k–1 = 22 grade de libertate şi

α = 0.05 pragul de încredere, se identifică valoarea critică t* = 1.717.

4.2.1 Acurateţea ajustării. Criterii pentru specificarea modelului multifactorial

4.2.2 Coeficientul de determinare R2

n

1t

2

t

n

1t

2t

2

YY

u

1VT

VTR1

VT

VTMR 4-23

Coeficientul de determinare corectat 2R

22 R11kn

1n1

VT

VTR

1kn

1n1

1n

VT1kn

VTR

1R

22 R11kn

1n1R

4-24

t Yt 2t YY

1 2.0 0.06

2 0.5 1.59

3 1.5 0.07

4 3.0 1.54

11

t Yt 2t YY

5 1.0 0.58

6 0.0 3.10

7 2.1 0.12

8 1.8 0.00

9 3.0 1.54

10 0.7 1.12

11 0.5 1.59

12 1.0 0.58

13 1.4 0.13

14 1.2 0.31

15 0.8 0.92

16 2.3 0.29

17 3.5 3.03

18 3.8 4.16

19 1.8 0.00

20 2.6 0.71

21 0.8 0.92

22 1.2 0.31

23 4.2 5.95

24 0.8 0.92

25 2.5 0.55

Suma 44.0 30.08

În aplicarea relaţiilor (4-33) şi (4-34) se ţine seama de faptul că volumul selecţiei este

n = 25, iar numărul variabilelor explicative este k = 2.

De asemenea, se utilizează un rezultat prezentat în tabelul 4-3:

0689.4u25

1t

2t

În aceste condiţii, coeficientul de determinare calculat potrivit relaţiei (4-33) este:

8647.008.30

0689.41R 2

iar un estimator nedeplasat pentru coeficientul de determinare corectat 2R , calculat potrivit

relaţiei (4-34), este

8524.08647.0122

241R 2

Observaţii

1. Cu excepţia situaţiei în care R2 = 1,

2R < R2;

2. Dacă R2 <

1n

k

, atunci

2R < 0

Exemplu

Fie n = 25, k = 3, 1n

k

= 0.125. Dacă R

2 = 0.1, atunci,

2R = -0.0286. O valoare negativă

a coeficientului de determinare ajustat semnifică faptul că modelul nu descrie într-un mod

satisfăcător evoluţia variabilei endogene.


4.2.3 Criterii pentru specificarea modelului multifactorial Un criteriu imediat pentru a decide dacă admitem sau nu în model o variabilă suplimentară

este următorul: dacă prin includerea unei (unor) variabile suplimentare suma pătratelor

reziduurilor scade mai repede decât numărul gradelor de libertate, din punct de vedere

econometric se justifică reţinerea în model a variabilei (variabilelor) respective.

Unul dintre cele mai cunoscute teste este criteriul informaţional Akaike (Akaike

information criterion – AIC). Acest criteriu este definit astfel:

n

1k2n

1t

2t

n

1k2

eun

1e

n

VTRAIC

4-25

sau, în expresie logaritmică

n

1k2

n

ulnAICln

2t

Un alt test cunoscut este criteriul Schwartz:

n

1kn

1t

2t

n

1k

nun

1n

n

VTRSCHWARTZ

4-26

sau, în expresie logaritmică

)nln(n

1k

n

ulnSCln

2t

t Yt X1t X2t X3t Ŷ-M1 Ŷ-M2 u-M1 u-M2

1 2.0 3.0 1.3 1.5 2.476 2.489 -0.476 -0.489

2 0.5 2.0 2.8 2.5 1.077 1.051 -0.577 -0.551

3 1.5 0.8 1.5 2.0 1.378 1.366 0.122 0.134

4 3.0 2.5 0.2 1.0 2.959 2.987 0.041 0.013

5 1.0 2.0 1.8 1.5 1.716 1.731 -0.716 -0.731

6 0.0 1.4 4.0 2.0 0.045 0.053 -0.045 -0.053

7 2.1 2.5 1.8 2.5 1.936 1.903 0.164 0.197

8 1.8 2.5 2.0 2.8 1.809 1.762 -0.008 0.038

9 3.0 3.0 0.5 1.5 2.988 2.993 0.013 0.007

10 0.7 1.4 2.8 0.8 0.812 0.870 -0.112 -0.170

11 0.5 1.0 3.2 1.6 0.380 0.401 0.120 0.099

12 1.0 1.2 2.5 2.8 0.916 0.872 0.084 0.128

13 1.4 1.6 1.3 2.5 1.859 1.821 -0.459 -0.421

14 1.2 1.8 2.2 2.2 1.372 1.356 -0.172 -0.156

15 0.8 1.0 3.5 2.0 0.189 0.192 0.612 0.608

16 2.3 2.8 1.1 3.2 2.516 2.443 -0.216 -0.143

17 3.5 3.5 0.0 0.1 3.528 3.600 -0.027 -0.100

18 3.8 2.6 0.2 0.8 3.003 3.041 0.797 0.759

19 1.8 2.4 2.0 0.5 1.764 1.831 0.036 -0.031

20 2.6 3.4 1.2 1.6 2.717 2.723 -0.117 -0.123

21 0.8 1.6 3.0 1.4 0.773 0.802 0.027 -0.002

22 1.2 1.9 3.0 2.2 0.905 0.895 0.295 0.305

23 4.2 3.5 0.6 2.5 3.144 3.102 1.056 1.098

24 0.8 1.6 3.2 2.0 0.645 0.646 0.155 0.154

25 2.5 3.0 0.3 2.5 3.115 3.070 -0.615 -0.570

Calculăm modelele M-1 şi M-2 specificate astfel:

13

M–1: tt22t110t eXaXaaY

M–2: tt33t22t110t XbXbXbbY

Modelul M–1:

8524.0R,8647.0R,4301.0s,X639.0X441.0984.1Y 22

ut21150.0

t11634.05379.0

t ,

2069.0e25

0689.4eu

n

1AIC 25

32

n

1k2n

1t

2t

2395.02525

0689.4nu

n

1SCHWARTZ 25

3

n

1kn

1t

2t

Modelul M–2:

8467.0R,8659.0R,4383.0s

,X049.0X631.0X442.0058.2Y

22u

t3117.0

t2119.0

t1167.0576.0

t

2223.0e25

0349.4eu

n

1AIC 25

42

n

1k2n

1t

2t

2701.02525

0349.4nu

n

1SCHWARTZ 25

4

n

1kn

1t

2t

Sintetic, rezultatele obţinute sunt prezentate în tabelul următor:

Modelul R2 2R AIC SCHWARTZ

M–1 0.8647 0.8524 0.2069 0.2395

M–2 0.8659 0.8467 0.2223 0.2701

Se poate demonstra următoarea proprietate: dacă valoarea absolută a testului t pentru un

parametru din ecuaţia de regresie lineară multiplă este mai mică decât 1, atunci, eliminând din

model variabila explicativă asociată, valoarea coeficientului de determinare corectat 2R va

creşte; dacă se elimină o variabilă pentru care t statistic este mai mare decât 1, valoarea

coeficientului de determinare corectat 2R se va reduce (Ramanathan, R., 1992, pag. 170).

EViews

n

)1k(2

n

2AIC

l

)nln(n

)1k(

n

2SIC

l

n

uln)2ln(1

2

n2t

l

4.3 Multicolinearitatea

Există o relaţie lineară între valorile variabilelor explicative.


Consecinţe ale multicolinearităţii

Să presupunem că în ecuaţia de regresie:

Y = a0 + a1X1 + a2X2 + e 4-27

între variabilele X1 şi X2 există o relaţie de forma

t,bXaX t1t2 4-28

unde a şi b sunt parametrii cunoscuţi.

Dacă se înlocuieşte 4-28 în relaţia 4-27 se obţine:

eXbaaaaa

eXaXaaY

12120

22110

4-29

sau eXY 1 4-30

unde

baa

aaa

21

20 4-31

Pe baza datelor din eşantionul selectat, se determină estimatorii şi , pentru parametrii

α respectiv β din ecuaţia de regresie (4-30). Din nefericire, oricât de buni ar fi estimatorii

respectivi, este imposibil de calculat valorile â0, â1 şi â2 corespunzători relaţiei iniţiale 4-37.

Aceasta deoarece sistemul cu necunoscutele â0, â1 şi â2 dedus din (4-41)

baaˆ

aaaˆ

21

20 4-32

este nedeterminat (are două ecuaţii şi trei necunoscute).

Consecinţe ale multicolinearităţii

a. Dacă două sau mai multe variabile explicative din modelul de regresie multiplă sunt perfect

corelate, estimatorii parametrilor nu pot fi calculaţi prin metoda celor mai mici pătrate.

b. Dacă anumite variabile explicative sunt relativ puternic corelate, estimatorii obţinuţi prin

metoda celor mai mici pătrate sunt lineari, normal distribuiţi, nedeplasaţi, consistenţi şi de

maximă verosimilitate.

c. Efectul multicolinearităţii se manifestă în creşterea abaterii standard a estimatorilor calculaţi

pentru parametrii modelului, ceea ce reduce valoarea testului t statistic (Student). Aceasta

face estimatorii mai puţin semnificativi (posibil chiar nesemnificativi). Totuşi, testul t rămâne

valid.

d. Se reduce precizia estimatorilor calculaţi pentru parametrii modelului, în sensul că abaterea

standard mare duce la creşterea intervalului de încredere în care sunt garantaţi parametrii.

e. Deoarece covarianţa între variabilele explicative corelate relativ puternic poate fi mare (în

valoare absolută), interpretarea parametrilor individuali este dificilă.

Identificarea multicolinearităţii

a. Coeficienţii de corelaţie lineară, calculaţi pentru perechile de variabile explicative din model,

sunt mari în valoare absolută (sunt, în modul, apropiaţi de +1).

b. Determinantul matricei (X'X) are valori în apropierea lui zero.

c. Coeficientul de determinare R2 este mare, iar valorile testelor t (Student), calculate pentru

Y = a0 + a1X1 + a2X2 + e

15

parametrii modelului sunt mici.

d. Estimatorii parametrilor sunt sensibili la specificarea modelului.

e. Aplicarea unor proceduri formale.

Atenuarea multicolinearităţii

a. Eliminarea unor variabile explicative

b. Realizarea unor observaţii suplimentare asupra variabilelor din model (se măreşte volumul

eşantionului)

c. Prelucrarea primară a datelor (calculul ritmurilor de modificare, a sporurilor, indicilor,

logaritmarea valorilor observate etc.)

d. Regresia ridge

4.4 Erori de specificare a modelului multifactorial de regresie lineară

Omiterea unor variabile explicative importante

a. Dacă o variabilă importantă omisă este corelată cel puţin cu o variabilă inclusă în model,

atunci estimatorii parametrilor reţinuţi în model sunt deplasaţi şi nu sunt consistenţi

b. Chiar dacă variabilele omise nu sunt corelate cu variabilele reţinute în model, estimatorul

termenului liber (â0) este, în general, deplasat

c. Dispersiile estimate pentru parametrii variabilelor reţinute în model sunt estimatori deplasaţi

ai dispersiilor reale şi, în consecinţă, testul t privind semnificaţia estimatorilor nu este valid

Includerea unor variabile nerelevante

a. Dacă o variabilă explicativă nerelevantă este inclusă în model, atunci estimatorii parametrilor

pentru toate celelalte variabile din model sunt nedeplasaţi şi consistenţi

b. Dispersiile estimate pentru parametrii variabilelor din model sunt mai mari decât în cazul

neincluderii variabilelor nerelevante şi deci estimatori nu sunt eficienţi

c. Deoarece dispersiile estimate pentru parametrii modelului sunt nedeplasate, testul t privind

semnificaţia estimatorilor este valid.

Documents

Modelul linear multifactorial Conf. univ. dr. Emilia Gogu 4. Modelul... · Modelul linear multifactorial Conf. univ. dr. Emilia Gogu Contents 4 CURS. 4. MODELUL LINEAR MULTIFACTORIAL