23
Modelizacija veza između dvije ili više varijabli Model - pojednostavljena slika realnosti Model služi da se na adekvatan način kvantificiraju složeni ekonomski fenomeni i relacije između njih Pretpostavke koje moraju biti zadovoljene kako bismo mogli modelizirati vezu između varijabli: Modeliziranje možemo vršiti ukoliko postoji zavisnost između varijabli Funkcionalna versus stohastička međuzavisnost Mogu se modelizirati jedino kvantitativne varijable, jer je u tom slučaju moguće kompletirati oblak (dijagram) rasipanja, računati mjere centralne tendencije i disperzije Regresioni model - model koji kvantificira oblik međuzavisnosti između dvije ili više varijabli Etape konstrukcije regresionog modela (modela međuzavisnosti dvije varijable) 1. Determinisati nezavisnu i zavisnu varijablu 2. Grafički predstaviti na dijagramu rasipanja podatke o analiziranim varijablama da bi se potvrdila ili odbacila pretpostavka o zavisnosti između dvije statističke varijable 3. Na osnovu dijagrama procijeniti oblik veze između posmatranih varijabli Postoje različiti oblici veza kao npr. linearna, krivolinijska, eksponencijalna itd 4. Konstruisati ili ocijeniti primjenom odgovarajućih metoda odabrani regresioni model 5. Izračunati rezidualna (neobjašnjena) odstupanja ocijenjenih od posmatranih podataka i analizirati ih 6. Procijeniti kvalitet ocijenjenog regresionog modela Smjer veze između dvije varijable 7. Pozitivan ili direktan Þ porast vrijednosti jedne varijable uslovljava porast vrijednosti druge varijable. Vrijeme koje student provede učeći i ocjena na ispitu Vrijeme provedeno u gledanju TV-a i strah od kriminala 8. Negativan ili indirektan Þ porast vrijednosti jedne varijable uslovljava pad vrijednosti druge varijable Brzina i vrijeme potrebno da se stigne do zadanog odredišta Cijena i količina Dijagram (oblak) rasipanja

Regresiona i Korelaciona Analiza.skripta

  • Upload
    myoyo

  • View
    106

  • Download
    11

Embed Size (px)

Citation preview

Page 1: Regresiona i Korelaciona Analiza.skripta

Modelizacija veza između dvije ili više varijabli• Model - pojednostavljena slika realnosti • Model služi da se na adekvatan način kvantificiraju složeni ekonomski fenomeni i relacije između njih• Pretpostavke koje moraju biti zadovoljene kako bismo mogli modelizirati vezu između varijabli:

– Modeliziranje možemo vršiti ukoliko postoji zavisnost između varijabli• Funkcionalna versus stohastička međuzavisnost

– Mogu se modelizirati jedino kvantitativne varijable, jer je u tom slučaju moguće kompletirati oblak (dijagram) rasipanja, računati mjere centralne tendencije i disperzije

• Regresioni model - model koji kvantificira oblik međuzavisnosti između dvije ili više varijabli

Etape konstrukcije regresionog modela (modela međuzavisnosti dvije varijable) 1. Determinisati nezavisnu i zavisnu varijablu2. Grafički predstaviti na dijagramu rasipanja podatke o analiziranim varijablama da bi se potvrdila ili

odbacila pretpostavka o zavisnosti između dvije statističke varijable3. Na osnovu dijagrama procijeniti oblik veze između posmatranih varijabli

– Postoje različiti oblici veza kao npr. linearna, krivolinijska, eksponencijalna itd4. Konstruisati ili ocijeniti primjenom odgovarajućih metoda odabrani regresioni model5. Izračunati rezidualna (neobjašnjena) odstupanja ocijenjenih od posmatranih podataka i analizirati ih6. Procijeniti kvalitet ocijenjenog regresionog modela

Smjer veze između dvije varijable 7. Pozitivan ili direktan Þ porast vrijednosti jedne varijable uslovljava porast vrijednosti druge varijable.

– Vrijeme koje student provede učeći i ocjena na ispitu– Vrijeme provedeno u gledanju TV-a i strah od kriminala

8. Negativan ili indirektan Þ porast vrijednosti jedne varijable uslovljava pad vrijednosti druge varijable– Brzina i vrijeme potrebno da se stigne do zadanog odredišta– Cijena i količina

Dijagram (oblak) rasipanja

Služi za vizuelnu identifikaciju da li između dvije varijable postoji međuzavisnost, pri čemu moramo imati jednu nezavisnu varijablu (npr. period edukacije) i jednu zavisnu varijablu (npr. visina primanja)Pokazuje koliko jedna varijabla utiče na druguDaje odgovor na sljedeća pitanja:

– Da li postoji veza između varijabli X i Y?– Kog smjera je veza između varijabli X i Y?– Da li je ta veza pravolinijska (linearna) ili nije?– Da li postoje outlieri?

Dijagram rasipanja - Da li postoji veza između varijabli X i Y?

Veza postoji

x

y

a x

y

b x

y

c

x

y

d x

y

e x

y

f

Page 2: Regresiona i Korelaciona Analiza.skripta

Veza ne postoji

Dijagram rasipanja - Smjer veze između varijabli X i Y

Dijagram rasipanja – Linearna versus nelinearna veza?

Pitanje

Page 3: Regresiona i Korelaciona Analiza.skripta

Rješenje • Prvi korak je da identificiramo zavisnu i nezavisnu varijablu:

– Nezavisna varijabla je broj dana pohađanja nastave– Zavisna varijabla je ocjena

• Potom kreiramo dijagram rasipanja da sagledamo vezu između posmatranih varijabli. Rješenje, cont.

• Rješenje, cont. Na bazi dijagrama rasipanja zaključujemo sljedeće:

• Postoji međuzavisnost• Smjer veze je direktan (više dana pohađanja nastave Þ viša ocjena)• Veza se može ocijenti linearnim regresionim modelom

Kovarijansa

Page 4: Regresiona i Korelaciona Analiza.skripta

Tumačenje kovarijanse

• Kovarijansa je pozitivna ako oblak rasipanja ima generalno rastuću tendenciju. Þ Kada X i Y variraju u istom smjeru, kovarijansa je pozitivna.

• Kovarijansa je negativna kada oblak rasipanja ima generalno opadajuću tendenciju. Þ Kada X i Y variraju u suprotnom smjeru, kovarijansa je negativna.

• Kovarijansa je jednaka ili približno jednaka nuli ako oblak rasipanja nije ni rastući ni opadajući ili ukoliko je pola opadajući, a pola rastući. Þ Ako nema ni rastuće ni opadajuće generalne tendencije, kovarijansa je jednaka nuli.

Pitanje U jednom regionu pratili smo varijable «broj industrijskih postrojenja» i «broj oboljelih od astme» po gradovima. Kovarijansa ove dvije varijable iznosi 34,6. Veza između ove dvije varijable je: a) multipla b) direktna c) indirektna d) jaka

Zbir i razlika statističkih varijabli

• Varijansu zbira i razlike statističkih varijabli možemo analizirati koristeći kovarijansu i izraziti ih na sljedeći način:

• Var(X +Y)=VarX + Var Y + 2 Cov(X,Y)

• Var(X-Y)=VarX + Var Y - 2 Cov(X,Y)

• Međutim, ukoliko su X i Y nezavisne varijable kovarijansa je jednala nuli (Cov(X, Y)=0). U tom slučaju varijansu za zbir i razliku statističkih varijabli možemo izraziti sljedećim relacijama:

• Var(X+Y)=VarX + Var Y

• Var(X-Y)=VarX + Var Y

Regresioni model

• Kvantificira ili matematski formalizira vezu između zavisne i niza nezavisnih varijabli – oblik veze

Page 5: Regresiona i Korelaciona Analiza.skripta

• Opšti oblik regresionog modela glasi:

gdje je:

– Yi - zavisna promjenljiva,

– Xj - nezavisne promjenljive i

– ei - slučajno odstupanje.

• Prezentirani model naziva se model višestruke ili multiple regresije ili višedimenzionalni regresioni model.

Model jednostavne regresije

• Za određivanje analitičkog odnosa između dvije varijable.

• Sadrži zavisnu i jednu nezavisnu promjenljivu

• Opšti oblik modela jednostavne regresije glasi:

Model jednostavne linearne regresije

• Za određivanje parametrara za konstrukciju modela linearne međuzavisnosti između dvije varijable.• Jednostavni ili prosti model Þ sadrži zavisnu i jednu nezavisnu promjenljivu • Opšti oblik modela jednostavne linearne regresije glasi:

gdje su parametri a i b parametri linearne veze koje je potrebno ocijeniti.

Model jednostavne linearne regresije, cont.

• Razložimo model jednostavne linerne regresije na funkcionalni i stohastički dio:

• Funkcionalni dio modela odnosi se na varijabilitet zavisne varijable nastao pod uticajem varijabiliteta nezavisne varijable i predstavljen je lineranom vezom

• Stohastički dio modela (rezidualno odstupanje) odnosi se na varijabilitet zavisne varijable nastao pod uticajem varijabiliteta varijabli ili faktora koji nisu uključeni u regresioni model

Model jednostavne linearne regresije, cont.

• Rezidualno odstupanje ili stohastički dio regresionog modela možemo izraziti kao:

Page 6: Regresiona i Korelaciona Analiza.skripta

Metod najmanjih kvadrata

Metod najmanjih kvadrata – jednostavna linearna regresija

Tumačenje parametara jednostavnog linearnog regresionog modela

• Parametar a je matematski “presjek sa x osom”, to jeste ukazuje na očekivanu vrijednost zavisne varijable ukoliko nezavisna varijabla uzme vrijednost nula:

Page 7: Regresiona i Korelaciona Analiza.skripta

ˆ0i ix y a Þ

Parametar b je matematski “nagib” prave koja predstavlja jednostavni linearni regresioni model, to jeste pokazuje za koliko će se jedinica promijeniti zavisna varijabla ukoliko se nezavisna varijabla poveća za jednu svoju jedinicu:

ˆ1x y b Þ

Primjer 1, cont.

• Vezu između analiziranih varijabli ocijeniti odgovarajućim regresionim modelom.

• Na osnovu dijagrama rasipanja za ovaj primjer zaključili smo da je adekvatno konstruisati linearni regresioni model, te ocjenjujemo parametre jednostavne linearne regresije.

Rješenje

Rješenje, cont.

Page 8: Regresiona i Korelaciona Analiza.skripta

Ocjena će porasti za 0,0166 ako se broj dana pohađanja nastave poveća za 1. (direktna veza)

Student koji ima 0 skor za pohađanje nastave će prema modelu imati ocjenu 0,4097. Regresioni model glasi:

Pitanje 1.

Između količine proizvodnje kao nezavisne varijable i troškova proizvodnje kao zavisne varijable utvrđena je regresiona veza oblika:

Vrijednost «10» u ovoj funkcionalnoj vezi predstavlja:a) troškove po jedinici proizvoda b) ukupne troškove c) dobit po jedinici proizvoda d) fiksne troškove

Pitanje 2.Pratili smo uticaj broja agenata osiguranja na broj prodanih polica osiguranja i dobijena je regresiona veza

Ukoliko se broj agenata poveća za 1, broj prodanih polica će se: a) povećati za 1b) smanjiti za 2 c) povećati za 2d) povećati za 8

Primjer 2, cont.• Konstruisati oblak rasipanja. Komentar.• Konstruisati odgovarajući regresioni model.• Objasniti parametre.

103,1ˆ ii xy

82ˆ ii xy

Page 9: Regresiona i Korelaciona Analiza.skripta

Rješenje, cont.

0

2

4

6

8

10

12

14

16

0 2 4 6 8 10

starost auta

cije

na

• Ovakav oblak rasipanja ukazuje na postojanje indirektne veze između analiziranih varijabli.

Page 10: Regresiona i Korelaciona Analiza.skripta

• Regresioni model glasi:

• Što znači da:– Ako kupujemo novo auto analiziranog tipa C njegova očekivana cijena je $16 375,14– Ako starost auta poraste za jednu godinu očekujemo da će cijena tog auta da se smanji za $1

523,81 (indirektna veza)

Mjere reprezentativnosti regresionog modela

• Pokazatelji reprezentativnosti ili “kvaliteta” regresionog modela kvantificiraju stepen međuzavisnosti i izražavaju direktno ili indirektno odstupanje vrijednosti zavisne varijable ocijenjenih regresionim modelom od orginalnih vrijednosti zavisne varijable.

• Pokazatelji reprezentativnosti regresionog modela su:1. koeficijent determinacije, 2. koeficijent korelacije, 3. standardna greška i 4. koeficijent varijacije regresionog modela.

Page 11: Regresiona i Korelaciona Analiza.skripta

Dekompozicija varijanse

Dekompozicija varijanse, cont.

Dekompozicija varijanse za orginalni podatak o vrijednosti zavisne varijable matematski se može matematski izraziti kao:

gdje:• je orginalna vrijednost zavisne varijable iz niza podataka dobijenih istraživanjem

• je procjenjena ili predviđena vrijednost zavisne varijable na bazi regresionog modela

• je prosječna vrijednost zavisne varijable•

ˆ ˆ( )i i i iy y y y y y

Page 12: Regresiona i Korelaciona Analiza.skripta

Koeficijent korelacije• Mjeri jačinu i smjer povezanosti dvije pojave za koje poznajemo empirijske vrijednosti kvantitatinih

varijabli.

• Neimenovani broj.Kao i kod koeficijenta determinacije sa kojim je u funkcionalnoj vezi, veća vrijednost ovog koeficijenta ukazuje da je veća proporcija objašnjene u ukupnoj varijansi i da je odabrani model pouzdaniji i reprezentativniji.

2

22

)(

)ˆ(

yy

yyrr

i

i

Page 13: Regresiona i Korelaciona Analiza.skripta

Koeficijent linearne korelacije• Odnos kovarijanse varijabli X i Y i proizvoda standardnih devijacija varijable X i varijable Y.

• Vrijednost koeficijenta linearne korelacije se nalazi između -1 i 1. • Veća vrijednost koeficijenta ukazuje na postojanje veće linearne povezanosti između promjenjljivih X

i Y.• Manja vrijednost r ne mora uvijek značiti da je slaba korelacija jer se može raditi o pogrešnoj

primjeni koeficijenta linearne korelacije za mjerenje jačine veze pojava koje nisu u linearnom odnosu.• Tumačenje:

– Za vrijednosti: -1 < r < 0 korelacija je negativna (stohastička).– Za vrijednosti: 0 < r < 1 korelacije je pozitivna (stohastička).

Za vrijednosti –1 i 1, radi se o perfektnoj negativnoj odnosno pozitivnoj korelaciji, to jeste o funkcionalnoj vezi.

Koeficijent linearne korelacije, cont.

Napomena: ako je moguće uvjek je bolje prvo testirati hipotezu H0: r=0, a tek onda komentarisati koeficijent korelacije.

Standardna greška ocjenePrema vrijednosti neobjašnjenog varijabiliteta za regresioni model određujemo standardnu grešku ocjene:

2 2

( )( )( , )

( ) ( )

i i

X Y i i

x x y yCov X Yr

x x y y

Page 14: Regresiona i Korelaciona Analiza.skripta

Standardna greška ocjene, cont.• Mjeri kvalitet i reprezentativnost ocijenjenog regresionog modela i pokazuje prosječno odstupanje

empirijskih vrijednosti zavisne varijable Y od podataka ocijenjenih regresionim modelom. • Apsolutna mjera disperzije oko regresije jer se izražava u istim jedinicama mjere kao zavisna

varijabla. • Veća vrijednost ovog pokazatelja ukazuje da je veća proporcija neobjašnjene u ukupnoj varijansi i da

je odabrani model manje pouzdan i manje reprezentativan i obratno.

Koeficijent varijacije regresionog modela • Relativni pokazatelj kvaliteta regresionog modela• Jednak je odnosu standardne greške ocijenjenog regresionog modela i aritmetičke sredine zavisne

varijable Y:

• Veća vrijednost ovog pokazatelja ukazuje da je veća proporcija neobjašnjene u ukupnoj varijansi i da je odabrani model manje pouzdan i manje reprezentativan i obratno.

Koeficijent varijacije regresionog modela, cont.Na osnovu vrijednosti ovog koeficijenta možemo procijeniti preciznost i kvalitet ocjene na sljedeći način:

– Ako je u intervalu 7%<kv£ 10%, ocjena je relativno dosta dobra– Ako je u intervalu 4%< kv £ 7%, ocjena je dobra– Ako je u intervalu 1%< kv £ 4%, ocjena je vrlo dobra– Ako je kv £1%, ocjena je odlična.

Predviđanje• Regresioni model dobijen MNK metodom koristimo za predviđanje vrijednosti zavisne varijable na

osnovu poznate vrijednosti nezavisne varijable.• Što je:

– Viši koeficijent determinacije i korelacije– Niža standardna greška procjene– Niži koeficijent varijacije regresionog modela

to je predviđanje pouzdanije i obratno.

Predviđanje, cont.• Predviđanje na osnovu regresionog modela može biti:

1. Interpolacija – ako se dato X (vrijednost nezavisne varijable) nalazi u rangu vrijednosti nezavisne varijable na osnovu kojih je izveden regresioni model za predviđanje

2. Ekstrapolacija – ako se dato X (vrijednost nezavisne varijable) ne nalazi u rangu vrijednosti nezavisne varijable na osnovu kojih je izveden regresioni model za predviđanje

• Interpolacija daje pouzdanije procjene od ekstrapolacije.

100ˆˆ

yk yyV

Page 15: Regresiona i Korelaciona Analiza.skripta

Primjer 1, cont.

Primjer 2, cont.Da se prisjetimo, u ovom primjeru smo pratili vezu između godina starosti polovnog automobila tipa C i njegove tekuće prodajne cijene.

• Analizirati kvalitet (reprezentativnost) regresionog modela kojim je ocjenjena veza između godina starosti polovnog automobila tipa C i njegove tekuće prodajne cijene.

• Koliku cijenu očekujemo kod automobila starog 10 godina?

Rješenje, cont.

Page 16: Regresiona i Korelaciona Analiza.skripta

Spearmanov koeficijent korelacije ranga

• r se koristi ako imamo pojave za koje su podaci dati u obliku modaliteta rang varijable:

gdje je d razlika rangova za x i y:

• Tumačenje identično koeficijentu korelacije.

Primjer 3Dva umjetnika su ocjenjivala šest umjetničkih dijela sa ocjenama u obliku rangova 1 (najbolji) do 6 (najlošiji). U tabeli su prezentirane njihove ocjene:

Izračunati i objasniti Spearmanov koeficijent korelacije ranga.

Umjetničko djelo

Umjetnik 1 Umjetnik 2

A 6 5

B 5 6

C 1 2

D 3 1

E 4 3

F 2 4

Page 17: Regresiona i Korelaciona Analiza.skripta

Rješenje, cont.• Spearmanov koeficijent korelacije ranga je:

• Ovo ukazuje na relativno visoko direktno slaganje (66%) mišljenja dva umjetnika.

Primjer 4

a) Dijagram (oblak) rasipanja

40

5060

70

8090

100

110

120130

140

1 2 3 4 5 6 7

obim proizvodnje (000 kom)

trošk

ovi

pro

izvo

dnje

(=== K

M)

b) Linearni model jednostavne regresije – radna tabela

obim proizvodnje (000 kom) -

X

troškovi proizvodnje (000 KM)- Y

x2 xy y2

2 50 4 100 2500

3 73 9 219 5329

4 89 16 356 7921

5 110 25 550 12100

6 128 36 768 16384

Suma: 20 450

90

1993

44234

Page 18: Regresiona i Korelaciona Analiza.skripta

b) Linearni model jednostavne regresije – izračunavanje parametara

c) Koeficijent determinacije

99,76% promjena troškova izraženih varijansom duguje se uticaju obima proizvodnje.

d) Predviđanje

Ako obim proizvodnje iznosi 8.500 komada očekuju se troškovi od 176.850 KM.

Page 19: Regresiona i Korelaciona Analiza.skripta

Model višestruke ili multiple regresije• Zavisna varijabla Y je izražena kao funkcija K nezavisnih varijabli i slučajnog člana e.• Ako je funkcionalni dio modela definisan linearnom funkcijom model možemo definisati generalni

model višestruke linearne regresije za n vrijednosti sljedećim izrazom

Model višestruke ili multiple regresije, cont.Koeficijenti u regresijskom modelu imaju sljedeće značenje:

– parametar a je slobodni, konstantni član koji predstavlja očekivanu vrijednost zavisne varijable Y kada je vrijednost svih K nezavisnih varijabli (X1, X2,...,XK) jednaka nuli.

– Vrijednost ovog parametra nema uvijek logičko objašnjenje.– Parametar bi (i=1,2,....,K) ili regresioni koeficijent pokazuje prosječnu promjenu zavisne

varijable Y nastalu usljed jediničnog povećanja nezavisne varijable Xi, uz uslov da ostale nezavisne varijable ostanu nepromijenjene.

– Pozitivna vrijednost parametra bi ukazuje na proporcionalan odnos varijabli Y i Xi. – Negativna vrijednost koeficijenta bi znači obrnuto proporcionalan odnos zavisne varijable Y i

nezavisne varijable Xi.

Koeficijent multiple determinacije• Izražava jačinu veze ili slaganje varijabiliteta između zavisne varijable i zbirnog varijabiliteta K

nezavisnih varijabli

• Kvadratni korijen koeficijenta multiple determinacije je koeficijent multiple linearne korelacije

Koeficijent parcijalne korelacije

• Pokazuje jačinu i smjer veze zavisne varijable Y i j-te nezavisne varijable uz nepromijenjen uticaj preostalih (K-1) varijabli.

• Vrijednost ovog koeficijenta se kreće u granicama: (-1,1).

Analiza varijanse – ANOVA• testira kvalitet ili reprezentativnost modela• testira se da li postoji značajna veza između niza nezavisnih varijabli uključenih u model i zavisne

varijable • odnosi se na F test• hipoteza glasi:

ili makar jedna nezavisna varijabla uključena u model je značajna to jeste signifikantno utiče na zavisnu varijablu

niexbxbxbay iiKKiii ,...,2,1,...2211

10 ,)(

)ˆ( 2

2

22

,..,2,1; ,..,2,1;££

KY

Ryy

yyR

i

iKY

0 1. ... 2. ... . ... 1 . ...: ... 0 / : najmanje jedan parametar 0i i ik ijH b b b H b

Page 20: Regresiona i Korelaciona Analiza.skripta

Analiza varijanse – ANOVA, Excel• U prvoj koloni su informacije o odgovarajućem broju stepeni slobode:

gdje je k broj nezavisnih varijabli uključenih u model i n broj observacija• U drugoj koloni su rezultati o sumama kvadrata odstupanja.