10
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014 1 Problema rezolvata regresia liniara multifactoriala Pentru a decide în ce zonă să fie amplasat un magazin de casete video, managerul unei firme de comercializare şi închiriere de casete video realizează un studiu. Astfel, el consideră că succesul afacerii este cuantificat prin profitul anual brut obţinut (sute euro). Factorii, consideraţi determinanţi pentru succesul acestei afaceri, sunt: numărul de locuitori pe o rază de un kilometru (mii loc.) venitul mediu al locuitorilor de pe o rază de un kilometru (zeci euro) numărul competitorilor pe o rază de un kilometru preţul unei casete video la închiriere (euro) Sunt selectate aleator 15 de supermarket-uri şi sunt înregistrate valorile celor 5 variabile. Profit (sute Eur) Numarul locuitorilor (mii loc.) Venit (zeci Eur) Competitori Preţ (Eur) 323.581 5.556 42.746 3 2.49 343.682 5.917 43.106 2 2.99 375.264 5.483 46.993 5 2.99 351.242 6.4 43.249 2 1.99 328.417 5.917 40.695 3 2.49 318.069 6.683 41.253 3 2.49 330.959 6.065 40.791 2 2.49 267.236 7.491 39.932 3 2.49 320.883 6.284 36.826 1 2.99 409.535 5.851 45.3 3 2.99 316.262 5.681 42.645 3 2.49 351.806 5.187 42.306 2 2.99 333.655 6.164 44.842 3 1.99 372.679 7.32 45.233 3 2.99 362.796 5.062 41.426 3 2.99 a) Analizaţi dependenţa dintre profitul obţinut şi cei 4 factori de influenţă cu ajutorul unui model de regresie (nivel de semnificaţie de 5%). b) Analizaţi corelaţiile dintre variabile. Rezolvare: a) Variabilele modelului sunt: variabila explicata sau dependenta Y - profitul anual brut obţinut (sute euro) variabilele explicative sau independente: 1 X arata numărul de locuitori pe o rază de un kilometru (mii loc.); 2 X arata venitul mediu al locuitorilor de pe o rază de un kilometru (zeci euro); 3 X arata numărul competitorilor pe o rază de un kilometru; 4 X arata preţul unei casete video la închiriere (euro).

Econometrie Aplicatii Pentru Modelul de Regresie Liniara Multifactoriala Sau Multipla Facultatea de Marketing

Embed Size (px)

DESCRIPTION

econometrie

Citation preview

Page 1: Econometrie Aplicatii Pentru Modelul de Regresie Liniara Multifactoriala Sau Multipla Facultatea de Marketing

Problema rezolvata – regresia liniara multipla

Econometrie, Facultatea de Marketing, anul II, 2013-2014

1

Problema rezolvata regresia liniara multifactoriala

Pentru a decide în ce zonă să fie amplasat un magazin de casete video, managerul unei

firme de comercializare şi închiriere de casete video realizează un studiu. Astfel, el consideră

că succesul afacerii este cuantificat prin profitul anual brut obţinut (sute euro). Factorii,

consideraţi determinanţi pentru succesul acestei afaceri, sunt:

• numărul de locuitori pe o rază de un kilometru (mii loc.)

• venitul mediu al locuitorilor de pe o rază de un kilometru (zeci euro)

• numărul competitorilor pe o rază de un kilometru

• preţul unei casete video la închiriere (euro)

Sunt selectate aleator 15 de supermarket-uri şi sunt înregistrate valorile celor 5 variabile.

Profit (sute

Eur)

Numarul locuitorilor

(mii loc.)

Venit (zeci

Eur) Competitori

Preţ

(Eur)

323.581 5.556 42.746 3 2.49

343.682 5.917 43.106 2 2.99

375.264 5.483 46.993 5 2.99

351.242 6.4 43.249 2 1.99

328.417 5.917 40.695 3 2.49

318.069 6.683 41.253 3 2.49

330.959 6.065 40.791 2 2.49

267.236 7.491 39.932 3 2.49

320.883 6.284 36.826 1 2.99

409.535 5.851 45.3 3 2.99

316.262 5.681 42.645 3 2.49

351.806 5.187 42.306 2 2.99

333.655 6.164 44.842 3 1.99

372.679 7.32 45.233 3 2.99

362.796 5.062 41.426 3 2.99

a) Analizaţi dependenţa dintre profitul obţinut şi cei 4 factori de influenţă cu ajutorul

unui model de regresie (nivel de semnificaţie de 5%).

b) Analizaţi corelaţiile dintre variabile.

Rezolvare:

a) Variabilele modelului sunt:

• variabila explicata sau dependenta Y - profitul anual brut obţinut (sute euro)

• variabilele explicative sau independente:

� 1X arata numărul de locuitori pe o rază de un kilometru (mii loc.);

� 2X arata venitul mediu al locuitorilor de pe o rază de un kilometru (zeci

euro);

� 3X arata numărul competitorilor pe o rază de un kilometru;

� 4X arata preţul unei casete video la închiriere (euro).

Page 2: Econometrie Aplicatii Pentru Modelul de Regresie Liniara Multifactoriala Sau Multipla Facultatea de Marketing

Problema rezolvata – regresia liniara multipla

Econometrie, Facultatea de Marketing, anul II, 2013-2014

2

Modelul econometric este

εβββββ +⋅+⋅+⋅+⋅+= 443322110 XXXXY

sau

iiiiiixxxxy εβββββ +⋅+⋅+⋅+⋅+=

4,43,32,21,10

adica un model de regresie liniara multifactoriala cu k=4 variabile explicative.

Modelul de regresie liniara multipla (multifactoriala) în eşantion este:

niexbxbxbxbby iiiiii ,1,4,43,32,21,10 =+⋅+⋅+⋅+⋅+= ,

volumul esantionului fiind n=15.

Rezolvare folosind EXCEL:

1. Introduceţi datele din tabel începând, de exemplu, din celula B2.

2. Alegeţi Data-Data Analysis şi Regression, ca in Figura 1.

3. In fereastra de dialog ce va aparea (Figura 2), la Input Y Range selectaţi B2:B17. La

Input X Range selectaţi C2:F17. Selectaţi Labels si Confidence Level 95%.

4. La Output Range alegeti celula din foaia de lucru de unde vor aparea rezultatele.

5. Dacă doriţi să obtineţi valorile reziduale, selectaţi Residuals.

6. Apăsaţi OK.

Figura 1. Introducerea datelor si fereastra Data Analysis din meniul Data, in Excel 2010.

Page 3: Econometrie Aplicatii Pentru Modelul de Regresie Liniara Multifactoriala Sau Multipla Facultatea de Marketing

Problema rezolvata – regresia liniara multipla

Econometrie, Facultatea de Marketing, anul II, 2013-2014

3

Figura 2. Fereastra de dialog in vederea estimarii modelului multifactorial de regresie liniara.

Se obţin rezultatele:

Ecuatia de regresie estimata este

nixxxxyiiiii

,1,3217,354479,143303,117313,9286,136ˆ4,3,2,1,

=⋅+⋅−⋅+⋅−−=

Page 4: Econometrie Aplicatii Pentru Modelul de Regresie Liniara Multifactoriala Sau Multipla Facultatea de Marketing

Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014

4

SUMMARY OUTPUT

Regression Statistics

Multiple R 0,85879

Raportul de corelatie multipla (R)

( )

( )

( )

( )∑

=

=

=

=

−=

==n

i

i

n

i

ii

n

i

i

n

i

i

yy

yy

yy

yy

SST

SSRR

1

2

1

2

1

2

1

1

ˆ

R Square 0,737519 Coeficientul de determinaţie

SST

SSE

SST

SSRR −== 12

Adjusted R Square 0,632527

Valoarea ajustată a coeficientului de determinaţie

1

11

2

−−−=

n

SST

kn

SSE

R

Standard Error 19,95674

Abaterea standard de selectie a variabilei reziduale sau Abaterea medie pătratică a erorilor în eşantion

( )

11

ˆ

101

1

2

1

2

2

−−

=

−−

==

−−

==

∑∑==

kn

e

kn

yySSE

kn

SSEss

n

i

i

n

i

ii

ee

Observations 15 Volumul esantionului (n)

Interpretare rezultate din tabelul SUMMARY OUTPUT:

� R= 0,85879 (o valoare apropiata de 1) arată că între profitul anual şi cele 4 variabile luate în studiu (num. locuitori, venit, num. competitori, preţ) există o legătură puternică.

� R2=0,737519 arată că 73,75% din variaţia totala a profitului este explicată de influenţa celor 4

variabile (num. locuitori, venit, num. competitori, preţ), iar restul de 26,25 % din variatia totala a profitului este data de factorii reziduali.

� Abaterea standard de selectie a variabilei reziduale sau abaterea medie pătratică a erorilor

es =19,95674. În cazul în care acest indicator este zero înseamnă că toate punctele sunt pe

„planul” de regresie.

Page 5: Econometrie Aplicatii Pentru Modelul de Regresie Liniara Multifactoriala Sau Multipla Facultatea de Marketing

Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014

5

ANOVA

Sursa

variaţiei

variabilei

dependente

Y

df

(grade de libertate)

SS (variaţia)

(suma pătratelor)

MS

(media patratelor)

(dispersiile corectate cu gradele de

libertate))

F(calculat) Significance F

Regression

(variaţia

Datorată

regresiei)

4 = k ( )∑

=

−=

n

i

iyySSR

1

=11190,66123 k

SSRMSR =

=2797,665307 MSE

MSRFcalc =

=7,024515 0,0058

Residual (variaţia

reziduală

sau variatia

erorilor)

10=n-k-1 ( )∑

=

−=

n

i

ii yySSE

1

=3982,716528

1

2

−−

==

kn

SSEsMSEe

=398,2716528

Total (variaţia

totală)

14 = n-1 ( )∑

=

−=

n

i

iyySST

1

2

=15173,37776 SSESSRSST +=

1

2

=

n

SSTsy ,

dar MSEMSRsy +≠2

Interpretare rezultate din tabelul ANOVA:

În acest tabel este calculat testul F pentru validarea modelului de regresie, adica atunci cand se testeaza H0: modelul de regresie nu este valid statistic cu alternativa H1: modelul de regresie este valid

sau semnificativ statistic. Întrucât Fcalc=7,024515, iar Significance F este 0,00584031 (valoare mai mică decat 0,05=α nivelul de semnificatie considerat sau impus al testului), atunci respingem H0 si acceptam H1 adevarata, adica modelul de regresie construit este valid statistic, pentru o probabilitate de cel mult

( ) %95%42,99%0058,01100 >=− , şi poate fi utilizat pentru analiza dependenţei dintre variabilele precizate.

Page 6: Econometrie Aplicatii Pentru Modelul de Regresie Liniara Multifactoriala Sau Multipla Facultatea de Marketing

Problema rezolvata – regresia liniara multipla

Econometrie, Facultatea de Marketing, anul II, 2013-2014

6

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Estimatiile

parametrilor modelului

de regresie

(Coeficientii ecuatiei

de regresie in esantion)

(Eroarea standard

sau Abaterea medie

patratica a

estimatorilor)

Valoarea calculata

a testului t

Limita inf. a

intervalului de

incredere

Limita sup. a

intervalului de

incredere

Intercept =0b -136,286 0b

s =134,8104 ( )

0

0

00

b

calcb

s

bt

= = -1,0109 0,3359>0,05 00 bcritic

stb ⋅−

= -436,6620 0

0 bcriticstb ⋅+

= 164,0904

Num. loc.

(X1) =1b -9,7313

1bs =8,0272 ( )

1

1

01

b

calcb

s

bt

= = -1,2123 0,2533>0,05 11 bcritic

stb ⋅−

= -27,6172 1

1 bcriticstb ⋅+

= 8,1545

Venit

(X2) =2b 11,3303

2bs =2,8417 ( )

2

2

02

b

calcb

s

bt

= = 3,9871 0,0026<0,05 22 bcritic

stb ⋅−

= 4,9985 2

2 bcriticstb ⋅+

= 17,6621

Competitori

(X3) =3b -14,4479

3bs =8,0888 ( )

3

3

03

b

calcb

s

bt

= = -1,7862 0,1044>0,05 33 bcritic

stb ⋅−

= -32,4709 3

3 bcriticstb ⋅+

= 3,5751

Preţ

(X4) =4b 35,3217

4bs =15,2601 ( )

4

4

04

b

calcb

s

bt

= = 2,3146 0,0432<0,05 44 bcritic

stb ⋅−

= 1,3201 4

4 bcriticstb ⋅+

69,3233

Interpretare rezultate din tabel:

� Intercept este termenul liber, deci coeficientul estimat b0 este -136,286 si arata nivelul mediu al variabilei dependente atunci cand nivelul tuturor

variabilelor explicative este egal cu 0 unitati. Deci profitul mediu care s-ar obţine, dacă nu ar fi nici un locuitor pe o rază de 1 Km, venitul mediu ar fi

zero, nu ar fi nici un competitor şi nu s-ar plăti nici o chirie pentru casetele închiriate, ar fi de -136,286 sute euro. Deoarece valoarea calculata a

statisticii testului t pentru testarea ipotezei 0: 00 =βH contra ipotezei 0: 01 ≠βH este ( )calcbt

0 = -1,0109, iar pragul de semnificatie calculat (nu impus)

al testului, P-value, este 0,3359 > 0,05 =α înseamnă că parametrul 0β este nesemnificativ. De altfel, faptul că limita inferioară a intervalului de

încredere ( ) ( )0904,164;6620,360%95 −=βIC pentru acest parametru 0β este negativă, iar limita superioară este pozitivă, arată că parametrul 0β in

colectivitatea generală este nesemnificativ statistic, adicanu difera semnificativ de zero.

Page 7: Econometrie Aplicatii Pentru Modelul de Regresie Liniara Multifactoriala Sau Multipla Facultatea de Marketing

Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014

7

� Coeficientul b1 este -9,7313, ceea ce însemnă că la creşterea numărului de locuitori cu 1 unitate, adica 1000 de locuitori, mentinand nemodificat nivelul celorlate variabile explicative din model, profitul va scadea, in medie, cu 9,7313 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei 0: 10 =βH contra ipotezei 0: 11 ≠βH este ( )calcb

t1

= -1,2123, iar pragul

de semnificaţie calculat (nu impus) al testului, P-value, este 0,2533 > 0,05 =α înseamnă că parametrul β1 este nesemnificativ statistic. De altfel, aceeasi concluzie se obtine observand ca intervalul de încredere ( ) ( )1544,8;6172,271%95 −=βIC acopera valoarea 0.

� Coeficientul b2 este 11,3303, ceea ce înseamnă că la creşterea venitului mediu al locuitorilor cu 1 unitate, adica cu 10 euro, mentinand nemodificat nivelul celorlate variabile expplicative din model, profitul va creşte, in medie, cu 11,3303 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei 0: 20 =βH contra ipotezei 0: 21 ≠βH este ( )calcb

t2

= 3,9871, iar

pragul de semnificaţie calculat (nu impus) al testului, P-value, este 0,0026 < 0,05=α , înseamnă că parametrul β2 este semnificativ statistic (pentru o probabilitate de

( ) %95%74,99%0026,01100 >=− ). Intervalul de încredere ( ) ( )6621,17;9985,42%95 =βIC pentru

acest parametru arată că dacă managerul respectiv îşi deschide o firmă de închiriere şi vânzare de casete video, atunci la o creştere a venitului mediu al unui locuitor din zonă cu 10 euro, profitul va creşte, in medie, cu o valoare cuprinsă între aproximativ 5 si 17,6 euro, interval garantat cu probabilitatea de 95%.

� Coeficientul b3 este -14,4479, ceea ce înseamnă că la creşterea numărului de competitori cu 1 unitate, adica cu 1 competitor, mentinand nemodificat nivelul celorlalte variabile explicative din model, profitul va scadea, in medie, cu 14,4479 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei 0: 30 =βH contra ipotezei 0: 31 ≠βH este ( )calcb

t3

= -1,7862, iar

nivelul de semnificaţie calculat (nu impus) al testului, P-value, este 0,104378 > 0,05, înseamnă că parametrul 3β este nesemnificativ statistic. De altfel, intervalul de încredere

( ) ( )5751,3;4709,323%95 −=βIC acopera valoarea 0, ceea ce arata că parametrul in colectivitatea

generală nu difera semnificativ de zero.

� Coeficientul b4 este 35,3217, ceea ce înseamnă că la creşterea preţului plătit pentru închirierea unei casete cu 1 euro, mentinand constant nivelul celorlalte variabile explicative, profitul va creşte, in medie, cu 35,3217 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei 0: 40 =βH contra ipotezei 0: 41 ≠βH este ( )calcb

t4

=2,3146, iar pragul de

semnificaţie calculat (nu impus) al testului, P-value, este 0,0432 < 0,05, înseamnă că acest parametru este semnificativ statistic (pentru o probabilitate de ( ) %95%68,95%0432,01100 >=− stabilită în problemă). Intervalul de încredere 95% pentru acest parametru

( ) ( )3232,69;3201,14%95 =βIC arată că dacă managerul respectiv îşi deschide o firmă de închiriere

şi vânzare de casete video, atunci la o creştere a preţului plătit pentru închirierea unei casete cu un euro, profitul va creşte, in medie, cu o valoare cuprinsă între aproximativ 1,32 si 69 euro, interval garantat cu probabilitatea de 95%.

Observatie: pentru variabilele numar de locuitori, şi numar de competitori am obţinut coeficienţi de regresie nesemnificativi.

Page 8: Econometrie Aplicatii Pentru Modelul de Regresie Liniara Multifactoriala Sau Multipla Facultatea de Marketing

Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014

8

RESIDUAL OUTPUT

Observation Predicted Profit Residuals

1 338.5796 -14.9986 2 371.2542 -27.5722 3 376.1748 -0.9108 4 332.8525 18.3895 5 311.8281 16.5889 6 310.6962 7.3728 7 325.9235 5.0355 8 287.8659 -20.6299 9 310.9763 9.9067 10 382.3073 27.2277 11 336.2188 -19.9568 12 369.2938 -17.4878 13 338.7504 -5.0954 14 367.2528 5.4262 15 346.0917 16.7043

b) Pentru calculul coeficientilor de corelaţie liniara Pearson dintre variabile se parcurg paşii:

1. Introduceţi datele din tabel începând din celula B2. 2. Alegeţi Data-Data Analysis şi Correlation. 3. La Input Range selectaţi B2:F17. 4. Selectaţi Grouped by: Columns 5. Selectaţi Labels in first row. 6. La Output Range alegeti celula din foaia de lucru de unde vor aparea rezultatele. Apăsaţi OK. Se obţin rezultatele următoare, sub forma matricei coeficientilor de corelatie liniara de selectie

(Pearson) intre variabilele modelului:

Yi Xi1 Xi2 Xi3 Xi4

Yi 1 Xi1 -0,39738 1 Xi2 0,654076 -0,15141 1 Xi3 0,227572 -0,10321 0,665457 1 Xi4 0,448854 -0,25737 0,025395 0,037226 1

Dacă studiem corelaţiile liniare existente între variabile observăm că cea mai puternică corelaţie

(directă) este între Yi şi Xi2, adică între profit şi venitul mediu pe locuitor din zonă (coeficient de corelaţie: 0,665). Cea mai slabă corelaţie este între variabilele Yi şi Xi3, adică între profit şi numărul competitorilor (coeficientul de corelaţie: 0,22). De asemenea, se observă că profitul este invers corelat cu numărul de locuitori (coeficient de corelaţie între variabilele Yi şi Xi1 de -0,397).

Page 9: Econometrie Aplicatii Pentru Modelul de Regresie Liniara Multifactoriala Sau Multipla Facultatea de Marketing

Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014

9

TEMA

1. Perioada Sărbatorilor de iarnă este de o deosebită importanţă pentru industria turismului dintr-o staţiune turistică. Camera de Comerţ locală angajează un analist de marketing pentru studierea şi promovarea turismului din staţiunea respectivă. Acesta consideră că printre factorii importanţi ce influenţează gradul de ocupare al hotelurilor din regiune în perioada Sărbătorilor de iarnă se numără condiţiile meteorologice din anul precedent (temperatura aerului şi numărul de zile cu precipitaţii). Datele înregistrate pentru ultimii 12 ani sunt:

Rata locurilor vacante in unit. hoteliere (%)

Temperatura medie zilnica (grade C)

Numarul de zile ploiase in perioada sarbatorilor de iarna

6 8 1 12 4 4 11 3 3 8 7 2 13 2 3 9 6 4 6 7 1 8 7 1 4 8 2 10 7 3 8 5 3 9 6 4

Cerinţe:

a) Identificaţi ecuaţia de regresie liniară ce modelează legătura dintre cele trei variabile şi interpretaţi valorile coeficienţilor de regresie,

b) Testaţi validitatea modelului găsit, nivel de semnificaţie de 5%, c) Testaţi semnificaţia statistică a parametrilor modelului, nivel de semnificaţie de 5%, d) Interpretaţi intervalele de încredere ale parametrilor modelului, e) Analizaţi sensul şi intensitatea legăturii dintre variabile folosind indicatori adecvaţi, f) În ce proporţie variaţia totală a ratei locurilor vacante este determinată de influenţa factorilor

reziduali? g) Explicaţi semnificaţia celei de a şaptea valori din coloana “Predicted Rata locurilor vacante in

unit. hoteliere (%)” şi arătaţi cum s-a obţinut, h) Previzionaţi rata locurilor vacante în condiţiile înregistrării unei temperaturi medii zilnice de 10

grade Celsius şi a unui număr de 7 zile ploioase. 2. Pentru a decide zona de amplasare a unui nou magazin, managerul unui lanţ de supermarketuri realizează un studiu pe următoarele variabile: profitul anual brut obţinut (sute euro), venitul mediu al

locuitorilor din zonă (sute euro) şi numărul competitorilor pe o rază de un kilometru. În urma înregistrării şi prelucrării datelor înregistrate de la 15 supermarketuri şi în ipoteza unei dependenţe liniare între variabilele considerate, s-au obţinut următoarele rezultate:

Regression Statistics

Multiple R ….

R Square ….

Adjusted R Square 0,423

Standard Error ….

Observations 15

Page 10: Econometrie Aplicatii Pentru Modelul de Regresie Liniara Multifactoriala Sau Multipla Facultatea de Marketing

Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014

10

ANOVA

df SS MS F Significance F

Regression … … … … 0,015

Residual … … 625,607

Total … 15173,378

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept …. 133,661 -0,899 0,386 -411,388 171,056

Venit …. 3,538 3,316 0,006 4,024 19,442

Competitori -13,886 10,134 …. 0,196 … ….

a) Scrieţi ecuaţia de regresie care modelează legătura dintre cele trei variabile şi interpretaţi valorile coeficienţilor de regresie;

b) Testaţi semnificaţia statistică a ultimului parametru al modelului şi determinaţi şi interpretaţi intervalul său de încredere (valoare critică: 2,179);

c) Analizaţi dacă modelul de regresie identificat este valid statistic, pentru un nivel de semnificaţie de 5% (valoare critică: 3,88);

d) Măsuraţi intensitatea legăturii dintre cele trei variabile; testaţi semnificaţia statistică a indicatorului folosit.