Tema 3 (1) Modele de regresie simple

Tema 3: MODELE DE REGRESIE SIMPLĂ

Conf.univ., dr. RUSU Viorica

anul universitar 2014/2015

Specificarea unui model de regresie simplă Definirea modelului de regresie simplă Identificarea modelului de regresie simplă Estimarea parametrilor unui model de regresie

simplă Verificarea ipotezelor

Ipoteze asupra unui model econometric (ipoteze stohastice)

Verificarea semnificaţiei estimatorilor parametrilor unui model econometric

Verificarea semnificaţiei modelului econometric

Cuprins

Regresia liniară simplă este un caz particular

al analizei de regresie într-un astfel de model variabila dependentă ar fi explicată numai de o singură variabilă independentă, iar factorii neesențiali sunt exprimați sintetic prin variabila reziduu.

Specificarea unui model de regresie simplă

Specificarea modelului de regresie pornește de la conceptele teoriei economice care definesc cadrul de analiză a fenomenelor luate în studiu.

Spre exemplu în practica analizei economice modelul liniar de regresie are următoarele aplicații: funcția de consum din modelul lui Keynes:

a+b*unde: consumul pentru un anvenitul pentru aceeași perioadăa,b parametrii modelului de regresie


Relația liniară între pregătirea profesională și

venitul obținut; Legea cererii C=f(P) +ε ⇒ cererea (C) a unui produs crește sau descrește sub influența prețului (P); Legea ofertei O = f(P) + ε ⇒ oferta (O) a unui produs crește sau descrește sub influența prețului (P).


Forma modelului de regresie liniară simplă este:

Unde:Y – variabila endogenă;X – variabila exogenă;ε - variabila reziduală.

Definirea modelului de regresie simplă

Y =

Parametrii modelului de regresie simplă liniară, numiţi şi coeficienţi de regresie, sunt:

- ordonata la origine - arată valoarea medie a variabilei Y când mărimea variabilei X este 0 ;

- panta dreptei - arată variaţia medie a variabilei dependente, Y, la o variaţie absolută cu o unitate a variabilei X, adică variaţia variabilei Y este proporţională cu variaţia variabilei X.

Definirea modelului de regresie simplă

Constă în alegerea unei funcții matematice care ar descrie cel mai bine valorile variabilei endogene y în funcție de variația variabilei exogene x.

Funcțiile matematice sunt: Liniare Non-liniare

Identificarea modelului de regresie simplă

Cel mai simplu procedeu de stabilire a funcției matematice: procedeul grafic.

Procedeul grafic constă în construirea corelogramei dintre cele două variabile. Axa OX va fi destinată variabilei exogene, axa OY – variabilei endogene.

În funcție de forma graficului punctelor empirice – se alege funcția matematică al cărei grafic aproximează cel mai bine graficul punctelor empirice.

Identificarea modelului de regresie simplă

Spre exemplu:

De menționat, formele non-liniare (putere) se vor supune liniarizării prin logaritmare!

Proprietăţi ale modelului de regresie liniar:

simplitate

capacitatea de aplicare directă pentru verificarea existenţei unei relaţii între variabile

estimarea directă a parametrilor de regresie

Metoda celor mai mici pătrate (MCMMP): Dacă forma generală a modelului este definită de relația:

Estimarea parametrilor modelului de regresie se bazează pe criteriul minimizării sumei pătratelor abaterilor între valorile observate, yi , şi valorile teoretice, :

F(∑Condiția de minim a acestei funcții rezultă din:

Estimarea parametrilor unui model de regresie simplă

În cazul dreptei de regresie, = , construită pe baza unui eşantion observat, estimaţiile şi ale parametrilor şi se pot calcula după relaţiile:


b – coeficient de regresie care prezintă cu

cât se modifică caracteristica rezultativă dacă caracteristica factorială se modifică cu o unitate.

dacă:b=0 , între x și y nu există legătură;b>0, între x și y legătură direct proporțională;b<0, între x și y legătură invers proporțională. a – termenul liber care exprimă acțiunea

constantă a factorilor neînregistrați.


Estimarea parametrilor prin interval de

încredere - se bazează pe distribuţiile de selecţie ale estimatorilor şi ai parametrilor a şi b.Pentru modelul liniar simplu, estimatorii parametrilor urmează o lege de distribuţie normală şi sunt nedeplasaţi: ) cu ) = a; )=;=) cu ) = b; )=;=


Estimații: pentru varianţa erorilor :

- pentru varianţa estimatorului a şi b varianţa estimatorului :

= și =


Intervalul de încredere Intervalul de încredere pentru: coeficientul de regresie a este definit de

relaţia: )

coeficientul de regresie b este definit de relaţia:

)


Estimatorii obținuți prin MCMMP sunt estimatori de maximă verosimilitate dacă pot fi acceptate următoarele ipoteze:

Variabilele observate nu sunt afectate de erori de măsurare;

Liniaritatea modelului. Relaţia între Y şi X este liniară. Această ipoteză este necesară pentru estimarea parametrilor modelului;

Normalitatea erorilor. Variabila reziduală este distribuită normal: );

Homoscedasticitatea. Varianţele V() sunt constante, oricare ar fi valorile variabilei X, adică, ;

Necorelarea erorilor. Erorile sunt necorelate între ele:

Independenţa erorilor de valorile variabilei X. Valorile variabilei sunt independente de valorile variabilei explicative X, adică

Ipoteze asupra unui model econometric (ipoteze stohastice)

se poate verifica regula celor trei sigma care constă în verificarea următoarelor relaţii:

+3)+3)

Variabilele observate nu sunt afectate de erori de măsură dacă:

Verificarea liniarităţii se poate efectua grafic, folosind: diagrama reziduurilor din regresie.Diagrama reziduurilor din regresie se construieşte luând pe ordonată variabila reziduu şi pe abscisă variabila dependentă. Dacă reziduurile apar dispersate aleator, de o parte şi de alta a valorii zero, atunci relaţia poate fi modelată cu ajutorul regresiei liniare. Dacă reziduurile apar dispersate în blocuri deasupra sau sub valoarea zero, atunci relaţia dintre variabilele considerate nu poate fi modelată cu ajutorul regresiei liniare.

Testarea liniarităţii modelului

Exemplu:

Testarea liniarităţii modelului

Reziduu

Variabila dependentă

Reziduu

Variabila dependentă

..................(a)........................................................................(b)Distribuţia reziduurilor în cazul relaţiei de tip liniar (a) şi a relaţiei de tip neliniar (b)

Ipoteza de normalitate a erorilor presupune că variabila

urmează o lege normală de medie 0 şi varianţă σ2: );

Importanța: dacă ), atunci estimatorii parametrilor modelului de regresie urmează, de asemenea, o lege normală: ) , ) .

Dacă ipoteza de normalitate este încălcată, proprietăţile estimatorilor construiţi pe baza metodei celor mai mici pătrate au doar proprietăţi asimptotice, adică necesită eşantioane sau seturi mari de date!

Testarea ipotezei de normalitate a erorilor

Verificarea acestei ipoteze implică şi testarea

ipotezei că, în medie, modelul este bine specificat: =0.

Testarea ipotezei =0 se poate realiza cu ajutorul t-Student, folosit pentru pentru compararea mediei cu valoarea 0.


Testarea ipotezei de normalitate a erorilor se poate realiza cu ajutorul procedeelor grafice (histograma, diagrama reziduurilor) sau a procedeelor numerice (testul Kolmogorov-Smirnov, testul Jarque - Bera ).


Diagrama de dispersie a reziduurilor Diagrama de dispersie a reziduurilor se construieşte considerând pe ordonată valori ale variabilei reziduale , iar pe abscisă valori estimate ale variabilei dependente .


Se știe că dacă erorile urmează legea normală de medie zero și de abatere medie pătratică atunci are loc relația:

ce va fi folosită pentru acceptarea ipotezei cercetate la nivelul de semnificație .


Testul Jarque-BeraTestul Jarque - Bera se calculează după relaţia:

unde:

, reprezintă asimetria (skewness).

S = 0 pentru o repartiţie normală,

S > 0 pentru o repartiţie asimetrică la dreapta,

S < 0 pentru o repartiţie asimetrică la stânga;


22

2 ~4

)3ˆ(ˆ6

K

Sn

JB

32

3

S

reprezintă boltirea, (kurtosis).

K = 3 pentru o repartiţie normală, K<3 pentru o repartiţie aplatizată K > 3 pentru o repartiţie afectată de boltire.


22

4

K

Estimatorii pentru cei doi parametri sunt:

respectiv

unde


i

i

i

i

n

nK

22

4

)2

ˆ(

2

ˆ

ˆ

i

i

i

i

n

nS

32

23

)2

ˆ(

)2

ˆ(

ˆ

iii yye

Din tabela chi-pătrat, se citeşte valoarea teoretică . Dacă valoarea calculată a testului este mai mică decât valoarea teoretică, se ia decizia de a accepta ipoteza nulă (de normalitate a erorilor), cu o probabilitate de 0,95, și invers.


99,522;05,0

Asimetrie moderată şi pozitivă SQRT(X)

Asimetrie substanţială şi pozitivă LOG10(X)

--------- atunci când scara include zero

LOG10(X+C)

Asimetrie severă şi pozitivă 1/X

--------- atunci când scara include un zero

1/(X+C)

Asimetrie moderată şi negativă SQRT(K-X)

Asimetrie substanţială şi negativă LOG10(K-X)

Asimetrie severă şi negativă LOG10(K-X)

C = constantă adăugată astfel încât scorul cel mai mic este 1K = constantă din care este retras scorul astfel încât scorul cel mai mic este 1; în general egal cu scorul cel mai mare +1

Tipuri de asimetrie şi transformări ale variabilei pentru normalizarea distribuţiei

Ipoteza de homoscedasticitate presupune că

varianţele sunt constante, oricare ar fi valorile variabilei X, adică, .

Pentru testarea ipotezei se utilizează : procedeul grafic; procedeul analitic.

Testarea ipotezei de homoscedasticitate

2)( V

Procedeul grafic - constă în construirea corelogramei privind valorile variabilei factoriale x şi ale variabilei reziduale

Dacă graficul punctelor empirice prezintă o distribuţie oscilantă,se poate accepta ipoteza că cele două variabile sunt independente şi nu corelate.


Procedee analitice:

Testul Goldfeld-Quandt

Se aplică când se dispune de serii lungi de date.Pașii: 1. ordonarea crescătoare a observaţiilor în funcţie de variabila

exogenă x;2. eliminarea a c observaţii centrale, c fiind specificat a

priori (se consideră că c trebuie să reprezinte o treime sau un sfert din numărul total de observații);

3. efectuarea de regresii aplicând M.C.M.M.P. asupra celor două subeşantioane de dimensiune (n-c)/2 şi calcularea sumei pătratelor erorilor pentru fiecare subeşantion în parte;


4. calcularea raportului dintre sumele pătratelor

erorilor sau dispersiilor acestora, corespunzătoare celor două subeşantioane (suma pătratelor erorilor având valoarea cea mai mare fiind plasată la numărător):

unde: u – variabila reziduală pentru sub-modele definite;k – numărul variabilelor exogene.


Presupunând că erorile sunt normal

distribuite, atunci raportul F* urmează o distribuţie F cu = =- grade de libertate. dacă ipoteza de homoscedasticitate este

infirmată, erorile sunt heteroscedastice; dacă < ipoteza de homoscedasticitate este

acceptată.


Testul WhiteAplicarea testului White presupune parcurgerea următoarelor etape:1. estimarea parametrilor modelului iniţial şi calculul valorilor

estimate ale variabilei reziduale, ε ;2. construirea unei regresii auxiliare, bazată pe presupunerea

existenţei unei relaţii de dependenţă între pătratul valorilor erorii, variabila exogenă inclusă în modelul iniţial şi pătratul valorilor acesteia:

+şi calcularea coeficientului de determinare, , corespunzător acestei regresii auxiliare;3. verificarea semnificaţiei parametrilor modelului nou construit, iar

dacă unul dintre aceştia este nesemnificativ, atunci ipoteza de heteroscedasticitate a erorilor este acceptată.


Există două variante de aplicare a testului White: utilizarea testului Fisher –Snedecor

clasic, bazat pe ipoteza nulităţii parametrilor, respectiv:

=0Dacă ipoteza nulă, potrivit căreia rezultatele estimării sunt nesemnificative ( ), este acceptată, atunci ipoteza de homoscedasticitate se verifică, cazul contrar semnificând prezenţa heteroscedasticităţii erorilor.


utilizarea testului LM, ce este asimptotic

distribuit sub forma unui , pentru care numărul gradelor de libertate este egal cu: v = k , unde k = numărul variabilelor exogene, respectiv:

dacă , erorile sunt heteroscedastice, în caz

contrar, sunt homoscedastice, respectiv ipoteza nulităţii parametrilor, =0, este acceptată.


Ipoteza de necorelare a erorilor: presupune lipsa unei corelaţii între termenii variabilei eroare din modelul de (eroarea asociată unei valori a variabilei dependente nu este influenţată de eroarea asociată altei valori a variabilei dependente).

Pentru testarea acestei ipoteze se pot utiliza: testul Durbin Watson.

Testarea ipotezei de autocorelare a erorilor

0),cov( ji

Testul Durbin Watson (DW)H0: = 0 (nu există autocorelare a erorilor);

H1: 0 (ipoteza este încălcată, există o legătură între erori).În cazul existenţei fenomenului de autocorelare a erorilor se presupune că între erori există o relaţie de tipul: , cu

Statistica test:


iii u 1

),0(~ 2ui Nu

n

ii

n

iii

e

ee

DW

1

2

2

21 )(

Valoarea calculată a testului DW se compară cu dL (limita inferioară) şi dU (limita superioară), citite din tabelul Durbin –Watson la pragului de semnificaţie α şi volumul eşantionului n.


Decizia se ia în funcţie de următoarele regiuni:- regiune de respingere:ρ>0 erorile înregistrează o autocorelare pozitivă;ρ <0 erorile înregistrează o autocorelare negativă;- regiune de acceptare a ipotezei nule:(du ; 4- du) erorile nu sunt autocorelate;

- regiune de nedeterminare:(dL ; dU) şi (4-du ; 4-dL), dacă valoarea statisticii Durbin-Watson cade în această regiune, nu se poate decide asupra existenţei autocorelării erorilor.


Testul Durbin-Watson se recomandă pentru eşantioane de volum mare n˃15 şi este folosit în mod curent pentru analiza seriilor de timp.


Testarea parametrilor unui model de regresie se realizează cu ajutorul testului t Student.Formularea ipotezelor:

Estimatorii sunt semnificativ diferiţi de zero, cu un prag de semnificaţie α , dacă se verifică următoarele relaţii:

,

Testarea semnificaţiei estimatorilor parametrilor modelului de regresie

0:

0:

1

0

aH

aH0:

0:

1

0

bH

bH

05,0

Când modelarea econometrică este realizată cu suportul softurilor specializate ) decizia poate fi luată şi în baza valorii Sig., astfel:• Sig. > α : se acceptă ipoteza H0,

• Sig. < α: se respinge ipoteza H0, cu o probabilitate de 95%.

Testarea semnificaţiei estimatorilor parametrilor modelului de regresie

Evaluarea globală a modelului de regresie se realizează în baza raportului de corelaţie și presupune folosirea statisticii test F Fisher.Statistica test F:

urmează o lege de distribuţie Fisher,unde:

- reprezintă estimaţia varianţei explicată prin model;

reprezintă estimaţia varianţei neexplicată, varianţa reziduală:

este raportul de determinare, iar reprezintă raportul de

nedeterminare.


111 2

2

2

2

k

kn

R

R

k

kn

V

V

S

SF

R

E

rez

reg

2regS2rezS

2R21 R

Elementele de calcul şi valoarea raportului F se pot obţine facil cu ajutorul programelor statistice, rezultatele fiind prezentate în Tabelul ANOVA, şi anume: estimaţiile celor două componente ale variaţiei, gradele de libertate corespunzătoare, estimaţiile varianţelor, explicată şi reziduală, valoarea calculată a raportului Fisher şi semnificaţia testului, Sig.


Valoarea teoretică a testului F se citeşte din tabelul

Fisher, şi anume ,unde γ1=k – 1 şi γ2=n – k grade de libertate şi un nivel de semnificaţie α . Decizia. Dacă F ˃, se respinge şi se trage concluzia că

între variabilele cercetate există o legătură semnificativă, deci modelul este corect specificat (valid), cu un risc acceptat de 5%.

Sau în baza nivelului Sig. : dacă valoarea Sig. corespunzătoare statisticii F este mică (mai mică decât 0,01), atunci variabila independentă explică variaţia variabilei dependente şi invers, deci relaţia liniară dintre cele două variabile considerate este semnificativă .


Documents

Tema 3 (1) Modele de regresie simple