Upload
myoyo
View
106
Download
11
Embed Size (px)
Citation preview
Modelizacija veza između dvije ili više varijabli• Model - pojednostavljena slika realnosti • Model služi da se na adekvatan način kvantificiraju složeni ekonomski fenomeni i relacije između njih• Pretpostavke koje moraju biti zadovoljene kako bismo mogli modelizirati vezu između varijabli:
– Modeliziranje možemo vršiti ukoliko postoji zavisnost između varijabli• Funkcionalna versus stohastička međuzavisnost
– Mogu se modelizirati jedino kvantitativne varijable, jer je u tom slučaju moguće kompletirati oblak (dijagram) rasipanja, računati mjere centralne tendencije i disperzije
• Regresioni model - model koji kvantificira oblik međuzavisnosti između dvije ili više varijabli
Etape konstrukcije regresionog modela (modela međuzavisnosti dvije varijable) 1. Determinisati nezavisnu i zavisnu varijablu2. Grafički predstaviti na dijagramu rasipanja podatke o analiziranim varijablama da bi se potvrdila ili
odbacila pretpostavka o zavisnosti između dvije statističke varijable3. Na osnovu dijagrama procijeniti oblik veze između posmatranih varijabli
– Postoje različiti oblici veza kao npr. linearna, krivolinijska, eksponencijalna itd4. Konstruisati ili ocijeniti primjenom odgovarajućih metoda odabrani regresioni model5. Izračunati rezidualna (neobjašnjena) odstupanja ocijenjenih od posmatranih podataka i analizirati ih6. Procijeniti kvalitet ocijenjenog regresionog modela
Smjer veze između dvije varijable 7. Pozitivan ili direktan Þ porast vrijednosti jedne varijable uslovljava porast vrijednosti druge varijable.
– Vrijeme koje student provede učeći i ocjena na ispitu– Vrijeme provedeno u gledanju TV-a i strah od kriminala
8. Negativan ili indirektan Þ porast vrijednosti jedne varijable uslovljava pad vrijednosti druge varijable– Brzina i vrijeme potrebno da se stigne do zadanog odredišta– Cijena i količina
Dijagram (oblak) rasipanja
Služi za vizuelnu identifikaciju da li između dvije varijable postoji međuzavisnost, pri čemu moramo imati jednu nezavisnu varijablu (npr. period edukacije) i jednu zavisnu varijablu (npr. visina primanja)Pokazuje koliko jedna varijabla utiče na druguDaje odgovor na sljedeća pitanja:
– Da li postoji veza između varijabli X i Y?– Kog smjera je veza između varijabli X i Y?– Da li je ta veza pravolinijska (linearna) ili nije?– Da li postoje outlieri?
Dijagram rasipanja - Da li postoji veza između varijabli X i Y?
Veza postoji
x
y
a x
y
b x
y
c
x
y
d x
y
e x
y
f
Veza ne postoji
Dijagram rasipanja - Smjer veze između varijabli X i Y
Dijagram rasipanja – Linearna versus nelinearna veza?
Pitanje
Rješenje • Prvi korak je da identificiramo zavisnu i nezavisnu varijablu:
– Nezavisna varijabla je broj dana pohađanja nastave– Zavisna varijabla je ocjena
• Potom kreiramo dijagram rasipanja da sagledamo vezu između posmatranih varijabli. Rješenje, cont.
• Rješenje, cont. Na bazi dijagrama rasipanja zaključujemo sljedeće:
• Postoji međuzavisnost• Smjer veze je direktan (više dana pohađanja nastave Þ viša ocjena)• Veza se može ocijenti linearnim regresionim modelom
Kovarijansa
Tumačenje kovarijanse
• Kovarijansa je pozitivna ako oblak rasipanja ima generalno rastuću tendenciju. Þ Kada X i Y variraju u istom smjeru, kovarijansa je pozitivna.
• Kovarijansa je negativna kada oblak rasipanja ima generalno opadajuću tendenciju. Þ Kada X i Y variraju u suprotnom smjeru, kovarijansa je negativna.
• Kovarijansa je jednaka ili približno jednaka nuli ako oblak rasipanja nije ni rastući ni opadajući ili ukoliko je pola opadajući, a pola rastući. Þ Ako nema ni rastuće ni opadajuće generalne tendencije, kovarijansa je jednaka nuli.
Pitanje U jednom regionu pratili smo varijable «broj industrijskih postrojenja» i «broj oboljelih od astme» po gradovima. Kovarijansa ove dvije varijable iznosi 34,6. Veza između ove dvije varijable je: a) multipla b) direktna c) indirektna d) jaka
Zbir i razlika statističkih varijabli
• Varijansu zbira i razlike statističkih varijabli možemo analizirati koristeći kovarijansu i izraziti ih na sljedeći način:
• Var(X +Y)=VarX + Var Y + 2 Cov(X,Y)
• Var(X-Y)=VarX + Var Y - 2 Cov(X,Y)
• Međutim, ukoliko su X i Y nezavisne varijable kovarijansa je jednala nuli (Cov(X, Y)=0). U tom slučaju varijansu za zbir i razliku statističkih varijabli možemo izraziti sljedećim relacijama:
• Var(X+Y)=VarX + Var Y
• Var(X-Y)=VarX + Var Y
Regresioni model
• Kvantificira ili matematski formalizira vezu između zavisne i niza nezavisnih varijabli – oblik veze
• Opšti oblik regresionog modela glasi:
gdje je:
– Yi - zavisna promjenljiva,
– Xj - nezavisne promjenljive i
– ei - slučajno odstupanje.
• Prezentirani model naziva se model višestruke ili multiple regresije ili višedimenzionalni regresioni model.
Model jednostavne regresije
• Za određivanje analitičkog odnosa između dvije varijable.
• Sadrži zavisnu i jednu nezavisnu promjenljivu
• Opšti oblik modela jednostavne regresije glasi:
Model jednostavne linearne regresije
• Za određivanje parametrara za konstrukciju modela linearne međuzavisnosti između dvije varijable.• Jednostavni ili prosti model Þ sadrži zavisnu i jednu nezavisnu promjenljivu • Opšti oblik modela jednostavne linearne regresije glasi:
gdje su parametri a i b parametri linearne veze koje je potrebno ocijeniti.
Model jednostavne linearne regresije, cont.
• Razložimo model jednostavne linerne regresije na funkcionalni i stohastički dio:
• Funkcionalni dio modela odnosi se na varijabilitet zavisne varijable nastao pod uticajem varijabiliteta nezavisne varijable i predstavljen je lineranom vezom
• Stohastički dio modela (rezidualno odstupanje) odnosi se na varijabilitet zavisne varijable nastao pod uticajem varijabiliteta varijabli ili faktora koji nisu uključeni u regresioni model
Model jednostavne linearne regresije, cont.
• Rezidualno odstupanje ili stohastički dio regresionog modela možemo izraziti kao:
Metod najmanjih kvadrata
Metod najmanjih kvadrata – jednostavna linearna regresija
Tumačenje parametara jednostavnog linearnog regresionog modela
• Parametar a je matematski “presjek sa x osom”, to jeste ukazuje na očekivanu vrijednost zavisne varijable ukoliko nezavisna varijabla uzme vrijednost nula:
ˆ0i ix y a Þ
Parametar b je matematski “nagib” prave koja predstavlja jednostavni linearni regresioni model, to jeste pokazuje za koliko će se jedinica promijeniti zavisna varijabla ukoliko se nezavisna varijabla poveća za jednu svoju jedinicu:
ˆ1x y b Þ
Primjer 1, cont.
• Vezu između analiziranih varijabli ocijeniti odgovarajućim regresionim modelom.
• Na osnovu dijagrama rasipanja za ovaj primjer zaključili smo da je adekvatno konstruisati linearni regresioni model, te ocjenjujemo parametre jednostavne linearne regresije.
Rješenje
Rješenje, cont.
Ocjena će porasti za 0,0166 ako se broj dana pohađanja nastave poveća za 1. (direktna veza)
Student koji ima 0 skor za pohađanje nastave će prema modelu imati ocjenu 0,4097. Regresioni model glasi:
Pitanje 1.
Između količine proizvodnje kao nezavisne varijable i troškova proizvodnje kao zavisne varijable utvrđena je regresiona veza oblika:
Vrijednost «10» u ovoj funkcionalnoj vezi predstavlja:a) troškove po jedinici proizvoda b) ukupne troškove c) dobit po jedinici proizvoda d) fiksne troškove
Pitanje 2.Pratili smo uticaj broja agenata osiguranja na broj prodanih polica osiguranja i dobijena je regresiona veza
Ukoliko se broj agenata poveća za 1, broj prodanih polica će se: a) povećati za 1b) smanjiti za 2 c) povećati za 2d) povećati za 8
Primjer 2, cont.• Konstruisati oblak rasipanja. Komentar.• Konstruisati odgovarajući regresioni model.• Objasniti parametre.
103,1ˆ ii xy
82ˆ ii xy
Rješenje, cont.
0
2
4
6
8
10
12
14
16
0 2 4 6 8 10
starost auta
cije
na
• Ovakav oblak rasipanja ukazuje na postojanje indirektne veze između analiziranih varijabli.
• Regresioni model glasi:
• Što znači da:– Ako kupujemo novo auto analiziranog tipa C njegova očekivana cijena je $16 375,14– Ako starost auta poraste za jednu godinu očekujemo da će cijena tog auta da se smanji za $1
523,81 (indirektna veza)
Mjere reprezentativnosti regresionog modela
• Pokazatelji reprezentativnosti ili “kvaliteta” regresionog modela kvantificiraju stepen međuzavisnosti i izražavaju direktno ili indirektno odstupanje vrijednosti zavisne varijable ocijenjenih regresionim modelom od orginalnih vrijednosti zavisne varijable.
• Pokazatelji reprezentativnosti regresionog modela su:1. koeficijent determinacije, 2. koeficijent korelacije, 3. standardna greška i 4. koeficijent varijacije regresionog modela.
Dekompozicija varijanse
Dekompozicija varijanse, cont.
Dekompozicija varijanse za orginalni podatak o vrijednosti zavisne varijable matematski se može matematski izraziti kao:
gdje:• je orginalna vrijednost zavisne varijable iz niza podataka dobijenih istraživanjem
• je procjenjena ili predviđena vrijednost zavisne varijable na bazi regresionog modela
• je prosječna vrijednost zavisne varijable•
ˆ ˆ( )i i i iy y y y y y
Koeficijent korelacije• Mjeri jačinu i smjer povezanosti dvije pojave za koje poznajemo empirijske vrijednosti kvantitatinih
varijabli.
• Neimenovani broj.Kao i kod koeficijenta determinacije sa kojim je u funkcionalnoj vezi, veća vrijednost ovog koeficijenta ukazuje da je veća proporcija objašnjene u ukupnoj varijansi i da je odabrani model pouzdaniji i reprezentativniji.
2
22
)(
)ˆ(
yy
yyrr
i
i
Koeficijent linearne korelacije• Odnos kovarijanse varijabli X i Y i proizvoda standardnih devijacija varijable X i varijable Y.
• Vrijednost koeficijenta linearne korelacije se nalazi između -1 i 1. • Veća vrijednost koeficijenta ukazuje na postojanje veće linearne povezanosti između promjenjljivih X
i Y.• Manja vrijednost r ne mora uvijek značiti da je slaba korelacija jer se može raditi o pogrešnoj
primjeni koeficijenta linearne korelacije za mjerenje jačine veze pojava koje nisu u linearnom odnosu.• Tumačenje:
– Za vrijednosti: -1 < r < 0 korelacija je negativna (stohastička).– Za vrijednosti: 0 < r < 1 korelacije je pozitivna (stohastička).
Za vrijednosti –1 i 1, radi se o perfektnoj negativnoj odnosno pozitivnoj korelaciji, to jeste o funkcionalnoj vezi.
Koeficijent linearne korelacije, cont.
Napomena: ako je moguće uvjek je bolje prvo testirati hipotezu H0: r=0, a tek onda komentarisati koeficijent korelacije.
Standardna greška ocjenePrema vrijednosti neobjašnjenog varijabiliteta za regresioni model određujemo standardnu grešku ocjene:
2 2
( )( )( , )
( ) ( )
i i
X Y i i
x x y yCov X Yr
x x y y
Standardna greška ocjene, cont.• Mjeri kvalitet i reprezentativnost ocijenjenog regresionog modela i pokazuje prosječno odstupanje
empirijskih vrijednosti zavisne varijable Y od podataka ocijenjenih regresionim modelom. • Apsolutna mjera disperzije oko regresije jer se izražava u istim jedinicama mjere kao zavisna
varijabla. • Veća vrijednost ovog pokazatelja ukazuje da je veća proporcija neobjašnjene u ukupnoj varijansi i da
je odabrani model manje pouzdan i manje reprezentativan i obratno.
Koeficijent varijacije regresionog modela • Relativni pokazatelj kvaliteta regresionog modela• Jednak je odnosu standardne greške ocijenjenog regresionog modela i aritmetičke sredine zavisne
varijable Y:
• Veća vrijednost ovog pokazatelja ukazuje da je veća proporcija neobjašnjene u ukupnoj varijansi i da je odabrani model manje pouzdan i manje reprezentativan i obratno.
Koeficijent varijacije regresionog modela, cont.Na osnovu vrijednosti ovog koeficijenta možemo procijeniti preciznost i kvalitet ocjene na sljedeći način:
– Ako je u intervalu 7%<kv£ 10%, ocjena je relativno dosta dobra– Ako je u intervalu 4%< kv £ 7%, ocjena je dobra– Ako je u intervalu 1%< kv £ 4%, ocjena je vrlo dobra– Ako je kv £1%, ocjena je odlična.
Predviđanje• Regresioni model dobijen MNK metodom koristimo za predviđanje vrijednosti zavisne varijable na
osnovu poznate vrijednosti nezavisne varijable.• Što je:
– Viši koeficijent determinacije i korelacije– Niža standardna greška procjene– Niži koeficijent varijacije regresionog modela
to je predviđanje pouzdanije i obratno.
Predviđanje, cont.• Predviđanje na osnovu regresionog modela može biti:
1. Interpolacija – ako se dato X (vrijednost nezavisne varijable) nalazi u rangu vrijednosti nezavisne varijable na osnovu kojih je izveden regresioni model za predviđanje
2. Ekstrapolacija – ako se dato X (vrijednost nezavisne varijable) ne nalazi u rangu vrijednosti nezavisne varijable na osnovu kojih je izveden regresioni model za predviđanje
• Interpolacija daje pouzdanije procjene od ekstrapolacije.
100ˆˆ
yk yyV
Primjer 1, cont.
Primjer 2, cont.Da se prisjetimo, u ovom primjeru smo pratili vezu između godina starosti polovnog automobila tipa C i njegove tekuće prodajne cijene.
• Analizirati kvalitet (reprezentativnost) regresionog modela kojim je ocjenjena veza između godina starosti polovnog automobila tipa C i njegove tekuće prodajne cijene.
• Koliku cijenu očekujemo kod automobila starog 10 godina?
Rješenje, cont.
Spearmanov koeficijent korelacije ranga
• r se koristi ako imamo pojave za koje su podaci dati u obliku modaliteta rang varijable:
gdje je d razlika rangova za x i y:
• Tumačenje identično koeficijentu korelacije.
Primjer 3Dva umjetnika su ocjenjivala šest umjetničkih dijela sa ocjenama u obliku rangova 1 (najbolji) do 6 (najlošiji). U tabeli su prezentirane njihove ocjene:
Izračunati i objasniti Spearmanov koeficijent korelacije ranga.
Umjetničko djelo
Umjetnik 1 Umjetnik 2
A 6 5
B 5 6
C 1 2
D 3 1
E 4 3
F 2 4
Rješenje, cont.• Spearmanov koeficijent korelacije ranga je:
• Ovo ukazuje na relativno visoko direktno slaganje (66%) mišljenja dva umjetnika.
Primjer 4
a) Dijagram (oblak) rasipanja
40
5060
70
8090
100
110
120130
140
1 2 3 4 5 6 7
obim proizvodnje (000 kom)
trošk
ovi
pro
izvo
dnje
(=== K
M)
b) Linearni model jednostavne regresije – radna tabela
obim proizvodnje (000 kom) -
X
troškovi proizvodnje (000 KM)- Y
x2 xy y2
2 50 4 100 2500
3 73 9 219 5329
4 89 16 356 7921
5 110 25 550 12100
6 128 36 768 16384
Suma: 20 450
90
1993
44234
b) Linearni model jednostavne regresije – izračunavanje parametara
c) Koeficijent determinacije
99,76% promjena troškova izraženih varijansom duguje se uticaju obima proizvodnje.
d) Predviđanje
Ako obim proizvodnje iznosi 8.500 komada očekuju se troškovi od 176.850 KM.
Model višestruke ili multiple regresije• Zavisna varijabla Y je izražena kao funkcija K nezavisnih varijabli i slučajnog člana e.• Ako je funkcionalni dio modela definisan linearnom funkcijom model možemo definisati generalni
model višestruke linearne regresije za n vrijednosti sljedećim izrazom
Model višestruke ili multiple regresije, cont.Koeficijenti u regresijskom modelu imaju sljedeće značenje:
– parametar a je slobodni, konstantni član koji predstavlja očekivanu vrijednost zavisne varijable Y kada je vrijednost svih K nezavisnih varijabli (X1, X2,...,XK) jednaka nuli.
– Vrijednost ovog parametra nema uvijek logičko objašnjenje.– Parametar bi (i=1,2,....,K) ili regresioni koeficijent pokazuje prosječnu promjenu zavisne
varijable Y nastalu usljed jediničnog povećanja nezavisne varijable Xi, uz uslov da ostale nezavisne varijable ostanu nepromijenjene.
– Pozitivna vrijednost parametra bi ukazuje na proporcionalan odnos varijabli Y i Xi. – Negativna vrijednost koeficijenta bi znači obrnuto proporcionalan odnos zavisne varijable Y i
nezavisne varijable Xi.
Koeficijent multiple determinacije• Izražava jačinu veze ili slaganje varijabiliteta između zavisne varijable i zbirnog varijabiliteta K
nezavisnih varijabli
• Kvadratni korijen koeficijenta multiple determinacije je koeficijent multiple linearne korelacije
Koeficijent parcijalne korelacije
• Pokazuje jačinu i smjer veze zavisne varijable Y i j-te nezavisne varijable uz nepromijenjen uticaj preostalih (K-1) varijabli.
• Vrijednost ovog koeficijenta se kreće u granicama: (-1,1).
Analiza varijanse – ANOVA• testira kvalitet ili reprezentativnost modela• testira se da li postoji značajna veza između niza nezavisnih varijabli uključenih u model i zavisne
varijable • odnosi se na F test• hipoteza glasi:
ili makar jedna nezavisna varijabla uključena u model je značajna to jeste signifikantno utiče na zavisnu varijablu
niexbxbxbay iiKKiii ,...,2,1,...2211
10 ,)(
)ˆ( 2
2
22
,..,2,1; ,..,2,1;££
KY
Ryy
yyR
i
iKY
0 1. ... 2. ... . ... 1 . ...: ... 0 / : najmanje jedan parametar 0i i ik ijH b b b H b
Analiza varijanse – ANOVA, Excel• U prvoj koloni su informacije o odgovarajućem broju stepeni slobode:
gdje je k broj nezavisnih varijabli uključenih u model i n broj observacija• U drugoj koloni su rezultati o sumama kvadrata odstupanja.