Upload
roxana-oprea
View
684
Download
41
Embed Size (px)
DESCRIPTION
econometrie
Citation preview
Problema rezolvata – regresia liniara multipla
Econometrie, Facultatea de Marketing, anul II, 2013-2014
1
Problema rezolvata regresia liniara multifactoriala
Pentru a decide în ce zonă să fie amplasat un magazin de casete video, managerul unei
firme de comercializare şi închiriere de casete video realizează un studiu. Astfel, el consideră
că succesul afacerii este cuantificat prin profitul anual brut obţinut (sute euro). Factorii,
consideraţi determinanţi pentru succesul acestei afaceri, sunt:
• numărul de locuitori pe o rază de un kilometru (mii loc.)
• venitul mediu al locuitorilor de pe o rază de un kilometru (zeci euro)
• numărul competitorilor pe o rază de un kilometru
• preţul unei casete video la închiriere (euro)
Sunt selectate aleator 15 de supermarket-uri şi sunt înregistrate valorile celor 5 variabile.
Profit (sute
Eur)
Numarul locuitorilor
(mii loc.)
Venit (zeci
Eur) Competitori
Preţ
(Eur)
323.581 5.556 42.746 3 2.49
343.682 5.917 43.106 2 2.99
375.264 5.483 46.993 5 2.99
351.242 6.4 43.249 2 1.99
328.417 5.917 40.695 3 2.49
318.069 6.683 41.253 3 2.49
330.959 6.065 40.791 2 2.49
267.236 7.491 39.932 3 2.49
320.883 6.284 36.826 1 2.99
409.535 5.851 45.3 3 2.99
316.262 5.681 42.645 3 2.49
351.806 5.187 42.306 2 2.99
333.655 6.164 44.842 3 1.99
372.679 7.32 45.233 3 2.99
362.796 5.062 41.426 3 2.99
a) Analizaţi dependenţa dintre profitul obţinut şi cei 4 factori de influenţă cu ajutorul
unui model de regresie (nivel de semnificaţie de 5%).
b) Analizaţi corelaţiile dintre variabile.
Rezolvare:
a) Variabilele modelului sunt:
• variabila explicata sau dependenta Y - profitul anual brut obţinut (sute euro)
• variabilele explicative sau independente:
� 1X arata numărul de locuitori pe o rază de un kilometru (mii loc.);
� 2X arata venitul mediu al locuitorilor de pe o rază de un kilometru (zeci
euro);
� 3X arata numărul competitorilor pe o rază de un kilometru;
� 4X arata preţul unei casete video la închiriere (euro).
Problema rezolvata – regresia liniara multipla
Econometrie, Facultatea de Marketing, anul II, 2013-2014
2
Modelul econometric este
εβββββ +⋅+⋅+⋅+⋅+= 443322110 XXXXY
sau
iiiiiixxxxy εβββββ +⋅+⋅+⋅+⋅+=
4,43,32,21,10
adica un model de regresie liniara multifactoriala cu k=4 variabile explicative.
Modelul de regresie liniara multipla (multifactoriala) în eşantion este:
niexbxbxbxbby iiiiii ,1,4,43,32,21,10 =+⋅+⋅+⋅+⋅+= ,
volumul esantionului fiind n=15.
Rezolvare folosind EXCEL:
1. Introduceţi datele din tabel începând, de exemplu, din celula B2.
2. Alegeţi Data-Data Analysis şi Regression, ca in Figura 1.
3. In fereastra de dialog ce va aparea (Figura 2), la Input Y Range selectaţi B2:B17. La
Input X Range selectaţi C2:F17. Selectaţi Labels si Confidence Level 95%.
4. La Output Range alegeti celula din foaia de lucru de unde vor aparea rezultatele.
5. Dacă doriţi să obtineţi valorile reziduale, selectaţi Residuals.
6. Apăsaţi OK.
Figura 1. Introducerea datelor si fereastra Data Analysis din meniul Data, in Excel 2010.
Problema rezolvata – regresia liniara multipla
Econometrie, Facultatea de Marketing, anul II, 2013-2014
3
Figura 2. Fereastra de dialog in vederea estimarii modelului multifactorial de regresie liniara.
Se obţin rezultatele:
Ecuatia de regresie estimata este
nixxxxyiiiii
,1,3217,354479,143303,117313,9286,136ˆ4,3,2,1,
=⋅+⋅−⋅+⋅−−=
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014
4
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,85879
Raportul de corelatie multipla (R)
( )
( )
( )
( )∑
∑
∑
∑
=
=
=
=
−
−
−=
−
−
==n
i
i
n
i
ii
n
i
i
n
i
i
yy
yy
yy
yy
SST
SSRR
1
2
1
2
1
2
1
2ˆ
1
ˆ
R Square 0,737519 Coeficientul de determinaţie
SST
SSE
SST
SSRR −== 12
Adjusted R Square 0,632527
Valoarea ajustată a coeficientului de determinaţie
1
11
2
−
−−−=
n
SST
kn
SSE
R
Standard Error 19,95674
Abaterea standard de selectie a variabilei reziduale sau Abaterea medie pătratică a erorilor în eşantion
( )
11
ˆ
101
1
2
1
2
2
−−
=
−−
−
==
−−
==
∑∑==
kn
e
kn
yySSE
kn
SSEss
n
i
i
n
i
ii
ee
Observations 15 Volumul esantionului (n)
Interpretare rezultate din tabelul SUMMARY OUTPUT:
� R= 0,85879 (o valoare apropiata de 1) arată că între profitul anual şi cele 4 variabile luate în studiu (num. locuitori, venit, num. competitori, preţ) există o legătură puternică.
� R2=0,737519 arată că 73,75% din variaţia totala a profitului este explicată de influenţa celor 4
variabile (num. locuitori, venit, num. competitori, preţ), iar restul de 26,25 % din variatia totala a profitului este data de factorii reziduali.
� Abaterea standard de selectie a variabilei reziduale sau abaterea medie pătratică a erorilor
es =19,95674. În cazul în care acest indicator este zero înseamnă că toate punctele sunt pe
„planul” de regresie.
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014
5
ANOVA
Sursa
variaţiei
variabilei
dependente
Y
df
(grade de libertate)
SS (variaţia)
(suma pătratelor)
MS
(media patratelor)
(dispersiile corectate cu gradele de
libertate))
F(calculat) Significance F
Regression
(variaţia
Datorată
regresiei)
4 = k ( )∑
=
−=
n
i
iyySSR
1
2ˆ
=11190,66123 k
SSRMSR =
=2797,665307 MSE
MSRFcalc =
=7,024515 0,0058
Residual (variaţia
reziduală
sau variatia
erorilor)
10=n-k-1 ( )∑
=
−=
n
i
ii yySSE
1
2ˆ
=3982,716528
1
2
−−
==
kn
SSEsMSEe
=398,2716528
Total (variaţia
totală)
14 = n-1 ( )∑
=
−=
n
i
iyySST
1
2
=15173,37776 SSESSRSST +=
1
2
−
=
n
SSTsy ,
dar MSEMSRsy +≠2
Interpretare rezultate din tabelul ANOVA:
În acest tabel este calculat testul F pentru validarea modelului de regresie, adica atunci cand se testeaza H0: modelul de regresie nu este valid statistic cu alternativa H1: modelul de regresie este valid
sau semnificativ statistic. Întrucât Fcalc=7,024515, iar Significance F este 0,00584031 (valoare mai mică decat 0,05=α nivelul de semnificatie considerat sau impus al testului), atunci respingem H0 si acceptam H1 adevarata, adica modelul de regresie construit este valid statistic, pentru o probabilitate de cel mult
( ) %95%42,99%0058,01100 >=− , şi poate fi utilizat pentru analiza dependenţei dintre variabilele precizate.
Problema rezolvata – regresia liniara multipla
Econometrie, Facultatea de Marketing, anul II, 2013-2014
6
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Estimatiile
parametrilor modelului
de regresie
(Coeficientii ecuatiei
de regresie in esantion)
(Eroarea standard
sau Abaterea medie
patratica a
estimatorilor)
Valoarea calculata
a testului t
Limita inf. a
intervalului de
incredere
Limita sup. a
intervalului de
incredere
Intercept =0b -136,286 0b
s =134,8104 ( )
0
0
00
b
calcb
s
bt
−
= = -1,0109 0,3359>0,05 00 bcritic
stb ⋅−
= -436,6620 0
0 bcriticstb ⋅+
= 164,0904
Num. loc.
(X1) =1b -9,7313
1bs =8,0272 ( )
1
1
01
b
calcb
s
bt
−
= = -1,2123 0,2533>0,05 11 bcritic
stb ⋅−
= -27,6172 1
1 bcriticstb ⋅+
= 8,1545
Venit
(X2) =2b 11,3303
2bs =2,8417 ( )
2
2
02
b
calcb
s
bt
−
= = 3,9871 0,0026<0,05 22 bcritic
stb ⋅−
= 4,9985 2
2 bcriticstb ⋅+
= 17,6621
Competitori
(X3) =3b -14,4479
3bs =8,0888 ( )
3
3
03
b
calcb
s
bt
−
= = -1,7862 0,1044>0,05 33 bcritic
stb ⋅−
= -32,4709 3
3 bcriticstb ⋅+
= 3,5751
Preţ
(X4) =4b 35,3217
4bs =15,2601 ( )
4
4
04
b
calcb
s
bt
−
= = 2,3146 0,0432<0,05 44 bcritic
stb ⋅−
= 1,3201 4
4 bcriticstb ⋅+
69,3233
Interpretare rezultate din tabel:
� Intercept este termenul liber, deci coeficientul estimat b0 este -136,286 si arata nivelul mediu al variabilei dependente atunci cand nivelul tuturor
variabilelor explicative este egal cu 0 unitati. Deci profitul mediu care s-ar obţine, dacă nu ar fi nici un locuitor pe o rază de 1 Km, venitul mediu ar fi
zero, nu ar fi nici un competitor şi nu s-ar plăti nici o chirie pentru casetele închiriate, ar fi de -136,286 sute euro. Deoarece valoarea calculata a
statisticii testului t pentru testarea ipotezei 0: 00 =βH contra ipotezei 0: 01 ≠βH este ( )calcbt
0 = -1,0109, iar pragul de semnificatie calculat (nu impus)
al testului, P-value, este 0,3359 > 0,05 =α înseamnă că parametrul 0β este nesemnificativ. De altfel, faptul că limita inferioară a intervalului de
încredere ( ) ( )0904,164;6620,360%95 −=βIC pentru acest parametru 0β este negativă, iar limita superioară este pozitivă, arată că parametrul 0β in
colectivitatea generală este nesemnificativ statistic, adicanu difera semnificativ de zero.
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014
7
� Coeficientul b1 este -9,7313, ceea ce însemnă că la creşterea numărului de locuitori cu 1 unitate, adica 1000 de locuitori, mentinand nemodificat nivelul celorlate variabile explicative din model, profitul va scadea, in medie, cu 9,7313 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei 0: 10 =βH contra ipotezei 0: 11 ≠βH este ( )calcb
t1
= -1,2123, iar pragul
de semnificaţie calculat (nu impus) al testului, P-value, este 0,2533 > 0,05 =α înseamnă că parametrul β1 este nesemnificativ statistic. De altfel, aceeasi concluzie se obtine observand ca intervalul de încredere ( ) ( )1544,8;6172,271%95 −=βIC acopera valoarea 0.
� Coeficientul b2 este 11,3303, ceea ce înseamnă că la creşterea venitului mediu al locuitorilor cu 1 unitate, adica cu 10 euro, mentinand nemodificat nivelul celorlate variabile expplicative din model, profitul va creşte, in medie, cu 11,3303 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei 0: 20 =βH contra ipotezei 0: 21 ≠βH este ( )calcb
t2
= 3,9871, iar
pragul de semnificaţie calculat (nu impus) al testului, P-value, este 0,0026 < 0,05=α , înseamnă că parametrul β2 este semnificativ statistic (pentru o probabilitate de
( ) %95%74,99%0026,01100 >=− ). Intervalul de încredere ( ) ( )6621,17;9985,42%95 =βIC pentru
acest parametru arată că dacă managerul respectiv îşi deschide o firmă de închiriere şi vânzare de casete video, atunci la o creştere a venitului mediu al unui locuitor din zonă cu 10 euro, profitul va creşte, in medie, cu o valoare cuprinsă între aproximativ 5 si 17,6 euro, interval garantat cu probabilitatea de 95%.
� Coeficientul b3 este -14,4479, ceea ce înseamnă că la creşterea numărului de competitori cu 1 unitate, adica cu 1 competitor, mentinand nemodificat nivelul celorlalte variabile explicative din model, profitul va scadea, in medie, cu 14,4479 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei 0: 30 =βH contra ipotezei 0: 31 ≠βH este ( )calcb
t3
= -1,7862, iar
nivelul de semnificaţie calculat (nu impus) al testului, P-value, este 0,104378 > 0,05, înseamnă că parametrul 3β este nesemnificativ statistic. De altfel, intervalul de încredere
( ) ( )5751,3;4709,323%95 −=βIC acopera valoarea 0, ceea ce arata că parametrul in colectivitatea
generală nu difera semnificativ de zero.
� Coeficientul b4 este 35,3217, ceea ce înseamnă că la creşterea preţului plătit pentru închirierea unei casete cu 1 euro, mentinand constant nivelul celorlalte variabile explicative, profitul va creşte, in medie, cu 35,3217 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei 0: 40 =βH contra ipotezei 0: 41 ≠βH este ( )calcb
t4
=2,3146, iar pragul de
semnificaţie calculat (nu impus) al testului, P-value, este 0,0432 < 0,05, înseamnă că acest parametru este semnificativ statistic (pentru o probabilitate de ( ) %95%68,95%0432,01100 >=− stabilită în problemă). Intervalul de încredere 95% pentru acest parametru
( ) ( )3232,69;3201,14%95 =βIC arată că dacă managerul respectiv îşi deschide o firmă de închiriere
şi vânzare de casete video, atunci la o creştere a preţului plătit pentru închirierea unei casete cu un euro, profitul va creşte, in medie, cu o valoare cuprinsă între aproximativ 1,32 si 69 euro, interval garantat cu probabilitatea de 95%.
Observatie: pentru variabilele numar de locuitori, şi numar de competitori am obţinut coeficienţi de regresie nesemnificativi.
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014
8
RESIDUAL OUTPUT
Observation Predicted Profit Residuals
1 338.5796 -14.9986 2 371.2542 -27.5722 3 376.1748 -0.9108 4 332.8525 18.3895 5 311.8281 16.5889 6 310.6962 7.3728 7 325.9235 5.0355 8 287.8659 -20.6299 9 310.9763 9.9067 10 382.3073 27.2277 11 336.2188 -19.9568 12 369.2938 -17.4878 13 338.7504 -5.0954 14 367.2528 5.4262 15 346.0917 16.7043
b) Pentru calculul coeficientilor de corelaţie liniara Pearson dintre variabile se parcurg paşii:
1. Introduceţi datele din tabel începând din celula B2. 2. Alegeţi Data-Data Analysis şi Correlation. 3. La Input Range selectaţi B2:F17. 4. Selectaţi Grouped by: Columns 5. Selectaţi Labels in first row. 6. La Output Range alegeti celula din foaia de lucru de unde vor aparea rezultatele. Apăsaţi OK. Se obţin rezultatele următoare, sub forma matricei coeficientilor de corelatie liniara de selectie
(Pearson) intre variabilele modelului:
Yi Xi1 Xi2 Xi3 Xi4
Yi 1 Xi1 -0,39738 1 Xi2 0,654076 -0,15141 1 Xi3 0,227572 -0,10321 0,665457 1 Xi4 0,448854 -0,25737 0,025395 0,037226 1
Dacă studiem corelaţiile liniare existente între variabile observăm că cea mai puternică corelaţie
(directă) este între Yi şi Xi2, adică între profit şi venitul mediu pe locuitor din zonă (coeficient de corelaţie: 0,665). Cea mai slabă corelaţie este între variabilele Yi şi Xi3, adică între profit şi numărul competitorilor (coeficientul de corelaţie: 0,22). De asemenea, se observă că profitul este invers corelat cu numărul de locuitori (coeficient de corelaţie între variabilele Yi şi Xi1 de -0,397).
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014
9
TEMA
1. Perioada Sărbatorilor de iarnă este de o deosebită importanţă pentru industria turismului dintr-o staţiune turistică. Camera de Comerţ locală angajează un analist de marketing pentru studierea şi promovarea turismului din staţiunea respectivă. Acesta consideră că printre factorii importanţi ce influenţează gradul de ocupare al hotelurilor din regiune în perioada Sărbătorilor de iarnă se numără condiţiile meteorologice din anul precedent (temperatura aerului şi numărul de zile cu precipitaţii). Datele înregistrate pentru ultimii 12 ani sunt:
Rata locurilor vacante in unit. hoteliere (%)
Temperatura medie zilnica (grade C)
Numarul de zile ploiase in perioada sarbatorilor de iarna
6 8 1 12 4 4 11 3 3 8 7 2 13 2 3 9 6 4 6 7 1 8 7 1 4 8 2 10 7 3 8 5 3 9 6 4
Cerinţe:
a) Identificaţi ecuaţia de regresie liniară ce modelează legătura dintre cele trei variabile şi interpretaţi valorile coeficienţilor de regresie,
b) Testaţi validitatea modelului găsit, nivel de semnificaţie de 5%, c) Testaţi semnificaţia statistică a parametrilor modelului, nivel de semnificaţie de 5%, d) Interpretaţi intervalele de încredere ale parametrilor modelului, e) Analizaţi sensul şi intensitatea legăturii dintre variabile folosind indicatori adecvaţi, f) În ce proporţie variaţia totală a ratei locurilor vacante este determinată de influenţa factorilor
reziduali? g) Explicaţi semnificaţia celei de a şaptea valori din coloana “Predicted Rata locurilor vacante in
unit. hoteliere (%)” şi arătaţi cum s-a obţinut, h) Previzionaţi rata locurilor vacante în condiţiile înregistrării unei temperaturi medii zilnice de 10
grade Celsius şi a unui număr de 7 zile ploioase. 2. Pentru a decide zona de amplasare a unui nou magazin, managerul unui lanţ de supermarketuri realizează un studiu pe următoarele variabile: profitul anual brut obţinut (sute euro), venitul mediu al
locuitorilor din zonă (sute euro) şi numărul competitorilor pe o rază de un kilometru. În urma înregistrării şi prelucrării datelor înregistrate de la 15 supermarketuri şi în ipoteza unei dependenţe liniare între variabilele considerate, s-au obţinut următoarele rezultate:
Regression Statistics
Multiple R ….
R Square ….
Adjusted R Square 0,423
Standard Error ….
Observations 15
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014
10
ANOVA
df SS MS F Significance F
Regression … … … … 0,015
Residual … … 625,607
Total … 15173,378
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept …. 133,661 -0,899 0,386 -411,388 171,056
Venit …. 3,538 3,316 0,006 4,024 19,442
Competitori -13,886 10,134 …. 0,196 … ….
a) Scrieţi ecuaţia de regresie care modelează legătura dintre cele trei variabile şi interpretaţi valorile coeficienţilor de regresie;
b) Testaţi semnificaţia statistică a ultimului parametru al modelului şi determinaţi şi interpretaţi intervalul său de încredere (valoare critică: 2,179);
c) Analizaţi dacă modelul de regresie identificat este valid statistic, pentru un nivel de semnificaţie de 5% (valoare critică: 3,88);
d) Măsuraţi intensitatea legăturii dintre cele trei variabile; testaţi semnificaţia statistică a indicatorului folosit.