Upload
cararu-leonela
View
47
Download
0
Embed Size (px)
DESCRIPTION
Specificarea unui model de regresie simplăDefinirea modelului de regresie simplăIdentificarea modelului de regresie simplăEstimarea parametrilor unui model de regresie simplăVerificarea ipotezelorIpoteze asupra unui model econometric (ipoteze stohastice)Verificarea semnificaţiei estimatorilor parametrilor unui model econometricVerificarea semnificaţiei modelului econometric
Citation preview
Tema 3: MODELE DE REGRESIE SIMPLĂ
Conf.univ., dr. RUSU Viorica
anul universitar 2014/2015
Specificarea unui model de regresie simplă Definirea modelului de regresie simplă Identificarea modelului de regresie simplă Estimarea parametrilor unui model de regresie
simplă Verificarea ipotezelor
Ipoteze asupra unui model econometric (ipoteze stohastice)
Verificarea semnificaţiei estimatorilor parametrilor unui model econometric
Verificarea semnificaţiei modelului econometric
Cuprins
Regresia liniară simplă este un caz particular
al analizei de regresie într-un astfel de model variabila dependentă ar fi explicată numai de o singură variabilă independentă, iar factorii neesențiali sunt exprimați sintetic prin variabila reziduu.
Specificarea unui model de regresie simplă
Specificarea modelului de regresie pornește de la conceptele teoriei economice care definesc cadrul de analiză a fenomenelor luate în studiu.
Spre exemplu în practica analizei economice modelul liniar de regresie are următoarele aplicații: funcția de consum din modelul lui Keynes:
a+b*unde: consumul pentru un anvenitul pentru aceeași perioadăa,b parametrii modelului de regresie
Specificarea unui model de regresie simplă
Relația liniară între pregătirea profesională și
venitul obținut; Legea cererii C=f(P) +ε ⇒ cererea (C) a unui produs crește sau descrește sub influența prețului (P); Legea ofertei O = f(P) + ε ⇒ oferta (O) a unui produs crește sau descrește sub influența prețului (P).
Specificarea unui model de regresie simplă
Forma modelului de regresie liniară simplă este:
Unde:Y – variabila endogenă;X – variabila exogenă;ε - variabila reziduală.
Definirea modelului de regresie simplă
Y =
Parametrii modelului de regresie simplă liniară, numiţi şi coeficienţi de regresie, sunt:
- ordonata la origine - arată valoarea medie a variabilei Y când mărimea variabilei X este 0 ;
- panta dreptei - arată variaţia medie a variabilei dependente, Y, la o variaţie absolută cu o unitate a variabilei X, adică variaţia variabilei Y este proporţională cu variaţia variabilei X.
Definirea modelului de regresie simplă
Constă în alegerea unei funcții matematice care ar descrie cel mai bine valorile variabilei endogene y în funcție de variația variabilei exogene x.
Funcțiile matematice sunt: Liniare Non-liniare
Identificarea modelului de regresie simplă
Cel mai simplu procedeu de stabilire a funcției matematice: procedeul grafic.
Procedeul grafic constă în construirea corelogramei dintre cele două variabile. Axa OX va fi destinată variabilei exogene, axa OY – variabilei endogene.
În funcție de forma graficului punctelor empirice – se alege funcția matematică al cărei grafic aproximează cel mai bine graficul punctelor empirice.
Identificarea modelului de regresie simplă
Spre exemplu:
De menționat, formele non-liniare (putere) se vor supune liniarizării prin logaritmare!
Proprietăţi ale modelului de regresie liniar:
simplitate
capacitatea de aplicare directă pentru verificarea existenţei unei relaţii între variabile
estimarea directă a parametrilor de regresie
Metoda celor mai mici pătrate (MCMMP): Dacă forma generală a modelului este definită de relația:
Estimarea parametrilor modelului de regresie se bazează pe criteriul minimizării sumei pătratelor abaterilor între valorile observate, yi , şi valorile teoretice, :
F(∑Condiția de minim a acestei funcții rezultă din:
Estimarea parametrilor unui model de regresie simplă
În cazul dreptei de regresie, = , construită pe baza unui eşantion observat, estimaţiile şi ale parametrilor şi se pot calcula după relaţiile:
Estimarea parametrilor unui model de regresie simplă
b – coeficient de regresie care prezintă cu
cât se modifică caracteristica rezultativă dacă caracteristica factorială se modifică cu o unitate.
dacă:b=0 , între x și y nu există legătură;b>0, între x și y legătură direct proporțională;b<0, între x și y legătură invers proporțională. a – termenul liber care exprimă acțiunea
constantă a factorilor neînregistrați.
Estimarea parametrilor unui model de regresie simplă
Estimarea parametrilor prin interval de
încredere - se bazează pe distribuţiile de selecţie ale estimatorilor şi ai parametrilor a şi b.Pentru modelul liniar simplu, estimatorii parametrilor urmează o lege de distribuţie normală şi sunt nedeplasaţi: ) cu ) = a; )=;=) cu ) = b; )=;=
Estimarea parametrilor unui model de regresie simplă
Estimații: pentru varianţa erorilor :
- pentru varianţa estimatorului a şi b varianţa estimatorului :
= și =
Estimarea parametrilor unui model de regresie simplă
Intervalul de încredere Intervalul de încredere pentru: coeficientul de regresie a este definit de
relaţia: )
coeficientul de regresie b este definit de relaţia:
)
Estimarea parametrilor unui model de regresie simplă
Estimatorii obținuți prin MCMMP sunt estimatori de maximă verosimilitate dacă pot fi acceptate următoarele ipoteze:
Variabilele observate nu sunt afectate de erori de măsurare;
Liniaritatea modelului. Relaţia între Y şi X este liniară. Această ipoteză este necesară pentru estimarea parametrilor modelului;
Normalitatea erorilor. Variabila reziduală este distribuită normal: );
Homoscedasticitatea. Varianţele V() sunt constante, oricare ar fi valorile variabilei X, adică, ;
Necorelarea erorilor. Erorile sunt necorelate între ele:
Independenţa erorilor de valorile variabilei X. Valorile variabilei sunt independente de valorile variabilei explicative X, adică
Ipoteze asupra unui model econometric (ipoteze stohastice)
se poate verifica regula celor trei sigma care constă în verificarea următoarelor relaţii:
+3)+3)
Variabilele observate nu sunt afectate de erori de măsură dacă:
Verificarea liniarităţii se poate efectua grafic, folosind: diagrama reziduurilor din regresie.Diagrama reziduurilor din regresie se construieşte luând pe ordonată variabila reziduu şi pe abscisă variabila dependentă. Dacă reziduurile apar dispersate aleator, de o parte şi de alta a valorii zero, atunci relaţia poate fi modelată cu ajutorul regresiei liniare. Dacă reziduurile apar dispersate în blocuri deasupra sau sub valoarea zero, atunci relaţia dintre variabilele considerate nu poate fi modelată cu ajutorul regresiei liniare.
Testarea liniarităţii modelului
Exemplu:
Testarea liniarităţii modelului
Reziduu
Variabila dependentă
Reziduu
Variabila dependentă
..................(a)........................................................................(b)Distribuţia reziduurilor în cazul relaţiei de tip liniar (a) şi a relaţiei de tip neliniar (b)
Ipoteza de normalitate a erorilor presupune că variabila
urmează o lege normală de medie 0 şi varianţă σ2: );
Importanța: dacă ), atunci estimatorii parametrilor modelului de regresie urmează, de asemenea, o lege normală: ) , ) .
Dacă ipoteza de normalitate este încălcată, proprietăţile estimatorilor construiţi pe baza metodei celor mai mici pătrate au doar proprietăţi asimptotice, adică necesită eşantioane sau seturi mari de date!
Testarea ipotezei de normalitate a erorilor
Verificarea acestei ipoteze implică şi testarea
ipotezei că, în medie, modelul este bine specificat: =0.
Testarea ipotezei =0 se poate realiza cu ajutorul t-Student, folosit pentru pentru compararea mediei cu valoarea 0.
Testarea ipotezei de normalitate a erorilor
Testarea ipotezei de normalitate a erorilor se poate realiza cu ajutorul procedeelor grafice (histograma, diagrama reziduurilor) sau a procedeelor numerice (testul Kolmogorov-Smirnov, testul Jarque - Bera ).
Testarea ipotezei de normalitate a erorilor
Diagrama de dispersie a reziduurilor Diagrama de dispersie a reziduurilor se construieşte considerând pe ordonată valori ale variabilei reziduale , iar pe abscisă valori estimate ale variabilei dependente .
Testarea ipotezei de normalitate a erorilor
Se știe că dacă erorile urmează legea normală de medie zero și de abatere medie pătratică atunci are loc relația:
ce va fi folosită pentru acceptarea ipotezei cercetate la nivelul de semnificație .
Testarea ipotezei de normalitate a erorilor
Testul Jarque-BeraTestul Jarque - Bera se calculează după relaţia:
unde:
, reprezintă asimetria (skewness).
S = 0 pentru o repartiţie normală,
S > 0 pentru o repartiţie asimetrică la dreapta,
S < 0 pentru o repartiţie asimetrică la stânga;
Testarea ipotezei de normalitate a erorilor
22
2 ~4
)3ˆ(ˆ6
K
Sn
JB
32
3
S
reprezintă boltirea, (kurtosis).
K = 3 pentru o repartiţie normală, K<3 pentru o repartiţie aplatizată K > 3 pentru o repartiţie afectată de boltire.
Testarea ipotezei de normalitate a erorilor
22
4
K
Estimatorii pentru cei doi parametri sunt:
respectiv
unde
Testarea ipotezei de normalitate a erorilor
i
i
i
i
n
nK
22
4
)2
ˆ(
2
ˆ
ˆ
i
i
i
i
n
nS
32
23
)2
ˆ(
)2
ˆ(
ˆ
iii yye
Din tabela chi-pătrat, se citeşte valoarea teoretică . Dacă valoarea calculată a testului este mai mică decât valoarea teoretică, se ia decizia de a accepta ipoteza nulă (de normalitate a erorilor), cu o probabilitate de 0,95, și invers.
Testarea ipotezei de normalitate a erorilor
99,522;05,0
Asimetrie moderată şi pozitivă SQRT(X)
Asimetrie substanţială şi pozitivă LOG10(X)
--------- atunci când scara include zero
LOG10(X+C)
Asimetrie severă şi pozitivă 1/X
--------- atunci când scara include un zero
1/(X+C)
Asimetrie moderată şi negativă SQRT(K-X)
Asimetrie substanţială şi negativă LOG10(K-X)
Asimetrie severă şi negativă LOG10(K-X)
C = constantă adăugată astfel încât scorul cel mai mic este 1K = constantă din care este retras scorul astfel încât scorul cel mai mic este 1; în general egal cu scorul cel mai mare +1
Tipuri de asimetrie şi transformări ale variabilei pentru normalizarea distribuţiei
Ipoteza de homoscedasticitate presupune că
varianţele sunt constante, oricare ar fi valorile variabilei X, adică, .
Pentru testarea ipotezei se utilizează : procedeul grafic; procedeul analitic.
Testarea ipotezei de homoscedasticitate
2)( V
Procedeul grafic - constă în construirea corelogramei privind valorile variabilei factoriale x şi ale variabilei reziduale
Dacă graficul punctelor empirice prezintă o distribuţie oscilantă,se poate accepta ipoteza că cele două variabile sunt independente şi nu corelate.
Testarea ipotezei de homoscedasticitate
Procedee analitice:
Testul Goldfeld-Quandt
Se aplică când se dispune de serii lungi de date.Pașii: 1. ordonarea crescătoare a observaţiilor în funcţie de variabila
exogenă x;2. eliminarea a c observaţii centrale, c fiind specificat a
priori (se consideră că c trebuie să reprezinte o treime sau un sfert din numărul total de observații);
3. efectuarea de regresii aplicând M.C.M.M.P. asupra celor două subeşantioane de dimensiune (n-c)/2 şi calcularea sumei pătratelor erorilor pentru fiecare subeşantion în parte;
Testarea ipotezei de homoscedasticitate
4. calcularea raportului dintre sumele pătratelor
erorilor sau dispersiilor acestora, corespunzătoare celor două subeşantioane (suma pătratelor erorilor având valoarea cea mai mare fiind plasată la numărător):
unde: u – variabila reziduală pentru sub-modele definite;k – numărul variabilelor exogene.
Testarea ipotezei de homoscedasticitate
Presupunând că erorile sunt normal
distribuite, atunci raportul F* urmează o distribuţie F cu = =- grade de libertate. dacă ipoteza de homoscedasticitate este
infirmată, erorile sunt heteroscedastice; dacă < ipoteza de homoscedasticitate este
acceptată.
Testarea ipotezei de homoscedasticitate
Testul WhiteAplicarea testului White presupune parcurgerea următoarelor etape:1. estimarea parametrilor modelului iniţial şi calculul valorilor
estimate ale variabilei reziduale, ε ;2. construirea unei regresii auxiliare, bazată pe presupunerea
existenţei unei relaţii de dependenţă între pătratul valorilor erorii, variabila exogenă inclusă în modelul iniţial şi pătratul valorilor acesteia:
+şi calcularea coeficientului de determinare, , corespunzător acestei regresii auxiliare;3. verificarea semnificaţiei parametrilor modelului nou construit, iar
dacă unul dintre aceştia este nesemnificativ, atunci ipoteza de heteroscedasticitate a erorilor este acceptată.
Testarea ipotezei de homoscedasticitate
Există două variante de aplicare a testului White: utilizarea testului Fisher –Snedecor
clasic, bazat pe ipoteza nulităţii parametrilor, respectiv:
=0Dacă ipoteza nulă, potrivit căreia rezultatele estimării sunt nesemnificative ( ), este acceptată, atunci ipoteza de homoscedasticitate se verifică, cazul contrar semnificând prezenţa heteroscedasticităţii erorilor.
Testarea ipotezei de homoscedasticitate
utilizarea testului LM, ce este asimptotic
distribuit sub forma unui , pentru care numărul gradelor de libertate este egal cu: v = k , unde k = numărul variabilelor exogene, respectiv:
dacă , erorile sunt heteroscedastice, în caz
contrar, sunt homoscedastice, respectiv ipoteza nulităţii parametrilor, =0, este acceptată.
Testarea ipotezei de homoscedasticitate
Ipoteza de necorelare a erorilor: presupune lipsa unei corelaţii între termenii variabilei eroare din modelul de (eroarea asociată unei valori a variabilei dependente nu este influenţată de eroarea asociată altei valori a variabilei dependente).
Pentru testarea acestei ipoteze se pot utiliza: testul Durbin Watson.
Testarea ipotezei de autocorelare a erorilor
0),cov( ji
Testul Durbin Watson (DW)H0: = 0 (nu există autocorelare a erorilor);
H1: 0 (ipoteza este încălcată, există o legătură între erori).În cazul existenţei fenomenului de autocorelare a erorilor se presupune că între erori există o relaţie de tipul: , cu
Statistica test:
Testarea ipotezei de autocorelare a erorilor
iii u 1
),0(~ 2ui Nu
n
ii
n
iii
e
ee
DW
1
2
2
21 )(
Valoarea calculată a testului DW se compară cu dL (limita inferioară) şi dU (limita superioară), citite din tabelul Durbin –Watson la pragului de semnificaţie α şi volumul eşantionului n.
Testarea ipotezei de autocorelare a erorilor
Decizia se ia în funcţie de următoarele regiuni:- regiune de respingere:ρ>0 erorile înregistrează o autocorelare pozitivă;ρ <0 erorile înregistrează o autocorelare negativă;- regiune de acceptare a ipotezei nule:(du ; 4- du) erorile nu sunt autocorelate;
- regiune de nedeterminare:(dL ; dU) şi (4-du ; 4-dL), dacă valoarea statisticii Durbin-Watson cade în această regiune, nu se poate decide asupra existenţei autocorelării erorilor.
Testarea ipotezei de autocorelare a erorilor
Testul Durbin-Watson se recomandă pentru eşantioane de volum mare n˃15 şi este folosit în mod curent pentru analiza seriilor de timp.
Testarea ipotezei de autocorelare a erorilor
Testarea parametrilor unui model de regresie se realizează cu ajutorul testului t Student.Formularea ipotezelor:
Estimatorii sunt semnificativ diferiţi de zero, cu un prag de semnificaţie α , dacă se verifică următoarele relaţii:
,
Testarea semnificaţiei estimatorilor parametrilor modelului de regresie
0:
0:
1
0
aH
aH0:
0:
1
0
bH
bH
05,0
Când modelarea econometrică este realizată cu suportul softurilor specializate ) decizia poate fi luată şi în baza valorii Sig., astfel:• Sig. > α : se acceptă ipoteza H0,
• Sig. < α: se respinge ipoteza H0, cu o probabilitate de 95%.
Testarea semnificaţiei estimatorilor parametrilor modelului de regresie
Evaluarea globală a modelului de regresie se realizează în baza raportului de corelaţie și presupune folosirea statisticii test F Fisher.Statistica test F:
urmează o lege de distribuţie Fisher,unde:
- reprezintă estimaţia varianţei explicată prin model;
reprezintă estimaţia varianţei neexplicată, varianţa reziduală:
este raportul de determinare, iar reprezintă raportul de
nedeterminare.
Verificarea semnificaţiei modelului econometric
111 2
2
2
2
k
kn
R
R
k
kn
V
V
S
SF
R
E
rez
reg
2regS2rezS
2R21 R
Elementele de calcul şi valoarea raportului F se pot obţine facil cu ajutorul programelor statistice, rezultatele fiind prezentate în Tabelul ANOVA, şi anume: estimaţiile celor două componente ale variaţiei, gradele de libertate corespunzătoare, estimaţiile varianţelor, explicată şi reziduală, valoarea calculată a raportului Fisher şi semnificaţia testului, Sig.
Verificarea semnificaţiei modelului econometric
Valoarea teoretică a testului F se citeşte din tabelul
Fisher, şi anume ,unde γ1=k – 1 şi γ2=n – k grade de libertate şi un nivel de semnificaţie α . Decizia. Dacă F ˃, se respinge şi se trage concluzia că
între variabilele cercetate există o legătură semnificativă, deci modelul este corect specificat (valid), cu un risc acceptat de 5%.
Sau în baza nivelului Sig. : dacă valoarea Sig. corespunzătoare statisticii F este mică (mai mică decât 0,01), atunci variabila independentă explică variaţia variabilei dependente şi invers, deci relaţia liniară dintre cele două variabile considerate este semnificativă .
Verificarea semnificaţiei modelului econometric