34
Korelacijska i regresijska analiza Korelacijska i regresijska analiza

Korelacija i Regresija_pod

Embed Size (px)

DESCRIPTION

Korelacija i regresija

Citation preview

Page 1: Korelacija i Regresija_pod

Korelacijska i regresijska analizaKorelacijska i regresijska analiza

Page 2: Korelacija i Regresija_pod

•• OdnosOdnos međumeđu pojavamapojavama momožžee bitibiti::

–– deterministideterminističčki ki ili ili funkcionalni unkcionalni ii

–– stohastistohastiččkiki ili ili statististatističčkiki

Kod deterministiKod determinističčkoga se odnosa za svaku vrijednost koga se odnosa za svaku vrijednost jedne pojave tojedne pojave toččno zna vrijednost druge pojave.no zna vrijednost druge pojave.

Kod stohastiKod stohastiččkoga se odnosa na osnovi vrijednosti koga se odnosa na osnovi vrijednosti jedne pojave ne mojedne pojave ne možže sa sigurnoe sa sigurnoššćću predvidjeti u predvidjeti vrijednost druge pojave. vrijednost druge pojave.

•• PrimjeriPrimjeri deterministideterminističčkihkih odnosaodnosa: : stranica kvadratastranica kvadrata i i njenjegovgov opsegopseg, , kolikoliččinaina prodaneprodane robe i robe i dobivenidobiveni iznosiznos novcanovca..

•• PrimjeriPrimjeri stohastistohastiččkihkih odnosaodnosa: : cijenacijena nekeneke robe robe i njezinai njezina potrapotražžnjanja,,visinavisina i i staroststarost stablastabla..

Odnosi među pojavamaOdnosi među pojavama

Page 3: Korelacija i Regresija_pod

•• Osnovna su pitanja koja pri prouOsnovna su pitanja koja pri prouččavanju odnosa između avanju odnosa između dviju ili vidviju ili višše pojava postavljamo:e pojava postavljamo:

–– Jesu li statistiJesu li statističčke varijable povezane?ke varijable povezane?

–– Na Na kojikoji susu nanaččinin povezanepovezane??

–– KolikoKoliko susu snasnažžnono povezanepovezane??

–– MoMožžee lili se se povezanostpovezanost numerinumeriččkiki izrazitiizraziti??

•• IstraIstražživanjem i kvantificiranjem povezanosti među ivanjem i kvantificiranjem povezanosti među promatranim pojavama, odnosno varijablama bavi se promatranim pojavama, odnosno varijablama bavi se korelacijska analizakorelacijska analiza. .

•• Utvrđivanjem analitiUtvrđivanjem analitiččkog izraza povezanosti među kog izraza povezanosti među pojavama bavi se pojavama bavi se regresijska analizaregresijska analiza..

Page 4: Korelacija i Regresija_pod

DijagramDijagram rasprrasprššenjaenja

•• Polazna toPolazna toččka u korelacijskoj i regresijskoj ka u korelacijskoj i regresijskoj analizi jest analizi jest dijagram rasprdijagram rasprššenjaenja. . To To jeje grafigrafiččkikiprikazprikaz totoččakaaka u u koordinatnomkoordinatnomee sustavusustavu kojekojepredstavljajupredstavljaju nizniz uređenihuređenih parovaparova ((xx11, , yy11), ), ((xx22, , yy22), ), ……, (, (xxnn, , yynn); ); pripri ččemuemu susu xx11, , xx22, , ……, , xxnn, , vrijednostivrijednosti jednjednee varijablevarijable ((XX ), a ), a yy11, , yy22, , ……, , yynn, , vrijednostivrijednosti drugdrugee varijablevarijable ((YY ).).

•• UoUoččimoimo lili nekuneku pravilnostpravilnost u u rasporerasporedudu totoččakaaka u u dijagramudijagramu rasprrasprššenjaenja, , momožžemoemo zakljuzaključčitiiti jesujesu lilivarijablevarijable koreliranekorelirane iliili nisunisu..

Page 5: Korelacija i Regresija_pod

Primjeri dijagrama rasprPrimjeri dijagrama rasprššenjaenja

YY

XX

Postoji korelacija Nema korelacije

Page 6: Korelacija i Regresija_pod

Y Y

XX

Linearna i nelinearna korelacija

Page 7: Korelacija i Regresija_pod

X X

Y Y

Korelacije pozitivnog i negativnog smjera

Page 8: Korelacija i Regresija_pod

X

Y

X

Y

Jaka i slaba korelacija

Page 9: Korelacija i Regresija_pod

X

Y

Potpuna korelacija

Page 10: Korelacija i Regresija_pod

KoeficijentiKoeficijenti korelacijekorelacije•• KKoeficijentioeficijenti korelacijekorelacije su psu pokazateljiokazatelji stupnjastupnja

statististatističčkeke povezanostipovezanosti. . •• AkoAko se se istraistražžujeuje vezaveza izmeđuizmeđu dvijudviju varijablivarijabli ii akoako jeje tata

vezaveza linearnalinearna, , stupanj povezanosti izrastupanj povezanosti izražžava se ava se koeficijentom linearne korelacijekoeficijentom linearne korelacije..

•• IstraIstražžuje li se postojanje linearne veze jedne varijable u uje li se postojanje linearne veze jedne varijable u ovisnosti od dviju ili viovisnosti od dviju ili višše drugih varijabli, stupanj e drugih varijabli, stupanj povezanosti izrapovezanosti izražžava se ava se koeficijentom vikoeficijentom viššestrukeestrukelinearne korelacijelinearne korelacije. .

•• Stupanj nelinearne ili Stupanj nelinearne ili krivolinijskekrivolinijske veze između varijabli veze između varijabli izraizražžava se ava se koeficijentom koeficijentom krivolinijskekrivolinijske korelacijekorelacije..

•• Ako su promatrane pojave predstavljene Ako su promatrane pojave predstavljene redosljednimredosljednimvarijablama, stupanj njihove povezanosti izravarijablama, stupanj njihove povezanosti izražžava se ava se koeficijentom korelacije rangakoeficijentom korelacije ranga..

Page 11: Korelacija i Regresija_pod

PearsonovPearsonov** koeficijentkoeficijent korelacijekorelacije•• PearsonovPearsonov koeficijentkoeficijent korelacijekorelacije ((rr )) mjerimjeri jjakostakost i i smjersmjer linearnelinearne

korelacijekorelacije..•• RaRaččunauna se se popo formuliformuli::

**KarlKarl PearsonPearson (1857. (1857. -- 1936.), engleski matemati1936.), engleski matematiččar, statistiar, statističčar i biolog.ar i biolog.

,yx

xyrσσ

σ=

gdje su σx i σy standardne devijacije varijabli X i Y, a σxy jekovarijancakovarijanca - aritmetička sredina umnožaka odstupanja varijabli odnjihovih aritmetičkih sredina.

Kovarijanca niza n uređenih parova vrijednosti obilježja X i Y računa se po formuli:

)()(11

yyxxn i

n

iixy −−=σ ∑

=

ili po formuli:

yxn

yxn

iii

xy −=σ∑=1

Page 12: Korelacija i Regresija_pod

•• UvijekUvijek jeje --1 1 ≤≤ rr ≤≤ 1.1.

–– AkoAko jeje ||rr | = 1, | = 1, vezaveza jeje funkcionalnafunkcionalna; ; –– akoako jeje rr = 0= 0, , nene postojipostoji linearnalinearna korelacijakorelacija međumeđu ispitivanimispitivanim

pojavamapojavama..

•• Smjer korelacije jednak je predznaku od Smjer korelacije jednak je predznaku od rr..

•• Stupanj jakosti korelacije okvirno je dan saljedeStupanj jakosti korelacije okvirno je dan saljedeććom tablicom:om tablicom:

potpuna korelacija1

jaka korelacija0,8 - 1

srednje jakakorelacija

0,5 - 0,8

slaba korelacija0 - 0,5

nema korelacije0Jakost korelacije| r |

Page 13: Korelacija i Regresija_pod

Regresijska analizaRegresijska analiza

•• Ako model izraAko model izražžava vezu između zavisne i jedne ava vezu između zavisne i jedne nezavisne varijable, rijenezavisne varijable, riječč je o je o jednostavnom jednostavnom regresijskom modeluregresijskom modelu..

•• Ako model izraAko model izražžava vezu između zavisne i dviju ava vezu između zavisne i dviju ili viili višše nezavisnih varijabli, rijee nezavisnih varijabli, riječč je o je o modelu modelu viviššestruke regresijeestruke regresije. .

•• Regresijski modeli mogu izraRegresijski modeli mogu izražžavati i linearne i avati i linearne i nelinearne veze između promatranih pojava ili nelinearne veze između promatranih pojava ili varijabli.varijabli.

•• Regresijska analizaRegresijska analiza bavi se određivanjem bavi se određivanjem funkcionalne zavisnosti između dviju ili vifunkcionalne zavisnosti između dviju ili višše e varijabli. Analitivarijabli. Analitiččki izraz te zavisnosti zove se ki izraz te zavisnosti zove se regresijski modelregresijski model..

Page 14: Korelacija i Regresija_pod

•• Najjednostavniji oblik zavisnosti, odnosno Najjednostavniji oblik zavisnosti, odnosno najjednostavniji regresijski model je najjednostavniji regresijski model je modelmodeljednostavne linearne regresijejednostavne linearne regresije*:*:

yy = = axax + + bb,,

gdje jegdje je a, b a, b ∈∈ RR.

•• Ovakvim modelom pokuOvakvim modelom pokuššavamo objasniti veliavamo objasniti veliččinu inu yy preko samo jedne velipreko samo jedne veliččine (ine (xx), a svi ostali ), a svi ostali utjecaji se zanemaruju.utjecaji se zanemaruju.

•• Takav je pristup u praksi opravdan jer smo Takav je pristup u praksi opravdan jer smo najnajččeeššćće u nemogue u nemoguććnosti sagledati sve utjecaje nosti sagledati sve utjecaje na velina veliččinu inu yy, pa uzimamo u obzir samo , pa uzimamo u obzir samo najbitnijenajbitnije..

*Model je linearan ako svaka varijabla u modelu ima potenciju 1.

Page 15: Korelacija i Regresija_pod

•• No moguNo mogućće je da se analizom dođe e je da se analizom dođe dodo zakljuzaključčka ka da je da je yy u znau značčajnoj linearnoj zavisnosti od viajnoj linearnoj zavisnosti od višše e varijabli. Tada bi varijabli. Tada bi određivali model oblikaodređivali model oblika::

yy = = axax11 + + axax22 + + …… + + axaxkk + + bb,,

gdje jegdje je aaii, b , b ∈∈ RR, i = 1, …, k.

To je To je model vimodel viššestruke linearne regresijeestruke linearne regresije..

Page 16: Korelacija i Regresija_pod

•• Podaci za regresijsku analizu nastaju Podaci za regresijsku analizu nastaju opaopažžanjem ili mjerenjem u statistianjem ili mjerenjem u statističčkim kim pokusima.pokusima.

•• U gospodarskim primjenama regresijskog U gospodarskim primjenama regresijskog modela podaci se javljaju kao: modela podaci se javljaju kao: 1. broj1. brojččane vrijednosti pojava za određene ane vrijednosti pojava za određene

gospodarske ili prostorne jedinice gospodarske ili prostorne jedinice 2. vremenski nizovi2. vremenski nizovi3. kombinacija 1. i 2.3. kombinacija 1. i 2.

Page 17: Korelacija i Regresija_pod

Model jednostavne linearne regresijeModel jednostavne linearne regresije

•• Pretpostavimo da je zadan dijagram rasprPretpostavimo da je zadan dijagram rasprššenja enja od od nn totoččaka (aka (xx11, , yy11), (), (xx22, , yy22), ..., (), ..., (xxnn, , yynn), te da ), te da nas oblik tog dijagrama upunas oblik tog dijagrama upuććuje na postojanje uje na postojanje linearne korelacije među obiljelinearne korelacije među obilježžjima jima XX i i YY. .

•• PravacPravac regresijeregresije pp imaima jednadjednadžžbubu::yy = = axax + + bb..

Nagib (Nagib (aa) i odsje) i odsječčak (ak (bb) o) određuju se dređuju se metodom najmanjih metodom najmanjih kvadratakvadrata..

Page 18: Korelacija i Regresija_pod

Metoda najmanjih kvadrataMetoda najmanjih kvadrata

•• Metoda najmanjih kvadrata bazira se na uvjetu da zbroj Metoda najmanjih kvadrata bazira se na uvjetu da zbroj kvadrata vertikalnih odstupanja tokvadrata vertikalnih odstupanja toččaka u dijagramu aka u dijagramu rasprrasprššenja od traenja od tražženog pravca regresije bude minimalan. enog pravca regresije bude minimalan.

Vertikalna odstupanja od pravca regresije

y = ax + b

x1 x2

ε1

ε2

(x1, y1)(x2, y2)

ax2 + bax1 + b

X

Y

ε3

ax3 + b

x3

(x3 y3)

Page 19: Korelacija i Regresija_pod

•• IzIz zadanogzadanog uvjetauvjeta dobidobijeje se:se:

,2x

xyaσ

σ= ,xayb −=

,

.

gdje je gdje je σσxx22 varijancavarijanca varijable varijable XX, a , a σσxyxy kovarijancakovarijanca između između

varijabli varijabli XX i i YY..

Parametar Parametar ««aa»» zove se zove se regresijski koeficijentregresijski koeficijent . On pokazuje za . On pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna varijabla promijeni za jedan. varijabla promijeni za jedan.

Parametar Parametar ««bb»» je konstanta i pokazuje vrijednost zavisne varijable je konstanta i pokazuje vrijednost zavisne varijable u sluu sluččaju kada je nezavisna varijabla jednaka nuli.aju kada je nezavisna varijabla jednaka nuli.

Page 20: Korelacija i Regresija_pod

PrimjedbaPrimjedba

•• Kao Kao šštoto smosmo promatralipromatrali pravacpravac regresijeregresije veliveliččineine YY u u odnosuodnosu nana veliveliččinuinu XX, , momožžemoemo promatratipromatrati i i obrnutoobrnuto: : pravacpravac regresijeregresije veliveliččineine XX u u odnosuodnosu nana veliveliččinuinu YY. Taj . Taj pravacpravac imaima jednadjednadžžbubu::

,byax ′+′=

gdje je:gdje je:

,2y

xyaσ

σ=′ .yaxb ′−=′

,

.

Page 21: Korelacija i Regresija_pod

Primjer 1: Mjerenjem duljine klipa kukuruza (u cm) i broja zrna na klipu na uzorku od 20 klipova dobiveni su sljedeći podaci:Duljina klipa (X) 17,5 15,5 21,0 26,0 21,5 18,0 19,5 23,0 22,5 19,0 Broj zrna na klipu (Y) 480 456 564 714 602 558 640 648 562 565

Duljina klipa (X ) 20,5 17,0 16,5 15,5 22,0 25,0 21,0 18,0 19,5 23,0Broj zrna na klipu (Y) 600 490 472 458 560 598 603 565 620 672

Na osnovi dobivenih podataka nacrtan je dijagram raspršenja.

5 10 15 20 25

450

500

550

600

650

700

Ovaj dijagram upućuje na zaključak da postoji linearna korelacija, pa ima smisla tražiti jednadžbu pravca regresije:

Page 22: Korelacija i Regresija_pod

Za određivanje te jednadžbe treba izračunamti varijancu i kvarijancu, za zadanepodatke. Izračunavanjem se dobiva:

σxy = 178,217; σx = 2,96859; σy = 71,9731.

Uvrštavanjem u formule za određivanje nagiba i odsječka pravca regresije dobivamo:

2232,202.96859178,217

2 ==a

358,164125,202232,2035,571 =⋅−=−= xayb

Jednadžba pravca regresije je y = 20,2232x + 164,358.

Njegov je graf dan je na sljedećoj slici. slici

Page 23: Korelacija i Regresija_pod

5 10 15 20 25

450

500

550

600

650

700

Page 24: Korelacija i Regresija_pod

Primjer 2:Primjer 2:

434315015041411451453636120120333311011029291051052626100100yyiixxii

Promatrana je veza između broja proizvedenih proizvoda (X) i ukupnog profita (Y) (u tisućama kuna). Dobiveni podaci dani su u tablici:

a) Nacrtajte dijagram raspršenja.b) Odredite jednadžbu pravca regresije koji

pokazuje ovisnost ukupnog profita o broju proizvedenih proizvoda i označite značenje parametara.

c) Ucrtajte pravac regresije u prethodni graf.d) Izračunajte regresijske vrijednosti i

vrijednosti rezidualnih odstupanja.

Page 25: Korelacija i Regresija_pod

RjeRješšenje:enje:

0

5

10

15

20

25

30

35

40

45

50

0 20 40 60 80 100 120 140 160

Series1

a)a)

Page 26: Korelacija i Regresija_pod

b)b)

25990259909105091050208208730730

6450645022500225004343150150

5945594521025210254141145145

4320432014400144003636120120

3630363012100121003333110110

3045304511025110252929105105

2600260010000100002626100100

xxii yyiixxii22yyiixxii

Page 27: Korelacija i Regresija_pod

46733,267,12130523,067,34

30523,047,22282,680

67,12169105067,3467,121625990

222

−=⋅−=−=

==⋅−

⋅⋅−=

−=∑∑

xbyb

xnx

yxnyxa

i

ii

67,346

208,67,1216

730==== yx

46733,230523,0 −= xy

Jednadžba pravca regresije je:

Page 28: Korelacija i Regresija_pod

d)d)

y = 0,306x - 2,5597R2 = 0,9446

0

5

10

15

20

25

30

35

40

45

50

0 20 40 60 80 100 120 140 160

Series1Linear (Series1)

Page 29: Korelacija i Regresija_pod

00208,0139208,0139208208730730

--0,317170,3171743,3171743,317174343150150

--0,791020,7910241,7910241,791024141145145

1,839731,8397334,1602734,160273636120120

1,892031,8920331,1079731,107973333110110

--0,581820,5818229,5818229,581822929105105

--2,055672,0556728,0556728,055672626100100

εεiiyyiixxii iy

∑ ∑= ii yy ˆ

d) Izračunavanje regresijskih vrijednosti i vrijednosti rezidualnih odstupanja.

Page 30: Korelacija i Regresija_pod

Primjer 3:Primjer 3:

•• Analiziraju se ukupni troAnaliziraju se ukupni trošškovi proizvodnje u kovi proizvodnje u jednom poduzejednom poduzećću. u. Na temelju kvartalnih Na temelju kvartalnih podataka utvrđene su kolipodataka utvrđene su količčine proizvodnje i ine proizvodnje i ukupni troukupni trošškovi proizvodnje. Podaci su dani u kovi proizvodnje. Podaci su dani u tablici. tablici. –– (a) Nacrtajte dijagram rasipanja. (a) Nacrtajte dijagram rasipanja. ŠŠto zakljuto zaključčujete iz ujete iz

dijagrama? dijagrama? –– (b) Procijenite vrijednosti parametara regresijskog (b) Procijenite vrijednosti parametara regresijskog

modela i protumamodela i protumaččite njihovo znaite njihovo značčenje. enje. –– (c) Izra(c) Izraččunajte regresijske vrijednosti. unajte regresijske vrijednosti. –– (d) Odredite vrijednosti rezidualnih odstupanja.(d) Odredite vrijednosti rezidualnih odstupanja.

Page 31: Korelacija i Regresija_pod

300300743743274274692692268268641641238238577577227227529529208208490490205205462462190190441441177177411411153153373373146146352352

UkUk. tro. trošškovikoviProizvodnjaProizvodnja

Page 32: Korelacija i Regresija_pod

1303333130333331345433134543238623865711571122290022290055204955204930030074374318960818960847886447886427427469269217178817178841088141088126826864164113732613732633292933292923823857757712008312008327984127984122722752952910192010192024010024010020820849049094710947102134442134442052054624628379083790194481194481190190441441727477274716892116892117717741141157069570691391291391291531533733735139251392123904123904146146352352

xxii yyiixxii22yyiixxii

Page 33: Korelacija i Regresija_pod

xyb

a

yx

38092,014236,1914236,191818,51938092,09091,216

38092,084,16949517,64565

1818,5191131345439091,2161818,519111303333

9091,21611

23861818,51911

5711

2

+==⋅−=

==⋅−

⋅⋅−=

====

Page 34: Korelacija i Regresija_pod

--0,00000,00002386,00012386,000113033331303333313454331345432386238657115711--0,72%0,72%--2,16592,1659302,1659302,1659222900222900552049552049300300743743--3,19%3,19%--8,73908,7390282,7390282,73901896081896084788644788642742746926921,75%1,75%4,68794,6879263,3121263,3121171788171788410881410881268268641641--0,39%0,39%--0,93320,9332238,9332238,93321373261373263329293329292382385775772,80%2,80%6,35106,3510220,6490220,64901200831200832798412798412272275295291,06%1,06%2,20682,2068205,7932205,79321019201019202401002401002082084904904,82%4,82%9,87269,8726195,1274195,127494710947102134442134442052054624621,51%1,51%2,87192,8719187,1281187,128183790837901944811944811901904414410,73%0,73%1,29951,2995175,7005175,70057274772747168921168921177177411411--5,38%5,38%--8,22558,2255161,2255161,22555706957069139129139129153153373373--4,95%4,95%--7,22627,2262153,2262153,22625139251392123904123904146146352352

uui,reli,reluuiixxii yyiixxii22yyiixxii iy