Upload
ngonhi
View
227
Download
1
Embed Size (px)
Citation preview
9. REGRESIJA I KORELACIJA9. REGRESIJA I KORELACIJA
• Jednodimenzionalna analiza – istraživanje jedne pojave predočene statističkim nizom nezavisno od drugih statističkim metodama (grafičko i tabelarno prikazivanje niza, izračunavanje različitih brojčanih pokazatelja) kako bi se donijeli zaključci o svojstvima dane pojave
• Mnoštvo je slučajeva koji se odnose na istraživanje međusobnog odnosa dviju ili više pojava – promjena jedne pojave uvjetovana je promjenama druge ili drugih
• Povezanost pojava može biti:– funkcionalna – veze se mogu predočiti izrazima na temelju
kojih se točno utvrđuje vrijednost jedne za danu vrijednost druge (drugih) vrijednosti: Y = f (X )
– statistička – jednoj vrijednosti jedne pojave odgovara više vrijednosti druge (drugih) pojava
• Istraživati se može jakost statističkih veza – stupanj statističke povezanosti između pojava mjeri se metodama koje čine područje korelacijske analize
• Ako je svrha analitički (jednadžbom) izraziti odnos između pojava, primijenit će se regresijski modeli
• Model koji sadrži jednu zavisnu i jednu nezavisnu varijablu naziva se modelom jednostavne regresije, a model sa dvije ili više nezavisnih varijabli model višestruke regresije
• Regresijska i korelacijska analiza provode se na osnovi stvarnih vrijednosti pojava (varijabli)
• Za određivanje oblika regresije kao vrlo prikladno, a jednostavno sredstvo služi dijagram rasipanja
– konstruira se tako da se u koordinatni sustav (najčešće se koristi I. kvadrant ili dio njega) unose parovi vrijednosti varijable X i Y, tj. on se sastoji od točaka (xi, yi)
– iz rasporeda točaka zaključujemo o obliku, smjeru i jakosti veze
JEDNOSTAVNA LINEARNA REGRESIJA
• Opisuje se odnos među pojavama za koje je svojstveno da svakome jediničnom porastu vrijednosti jedne varijable odgovara približno jednaka linearna promjena druge varijable
• Model jednostavne linearne regresije:
Y = a + bX + u
X = nezavisna varijablaY = zavisna varijablau = odstupanje od funkcionalnog odnosaa, b = parametri
• Regresijska analiza provodi se na temelju n parova vrijednosti
varijabli X i Y : (x1, y1), (x2, y2), ..., (xn, yn), pa se model
predočuje sustavom od n jednadžbi:
yi= a + bxi + ui
• Kada bi odnos među varijablama bio funkcionalan, svaka bi vrijednost varijable ui bila jednaka nuli – geometrijski, sve bi
točke s koordinatama (xi, yi), i = 1,2,...,n ležale na istome pravcu
• Kako su odnosi među pojavama statistički, treba odrediti kriterij prema kojemu će se izabrati jednadžba pravca ŷ = a + bx
koji će ‘najbolje’ opisati odnos pojava na temelju njihovih opaženih vrijednosti
• ui su procjene nepoznatih vrijednost varijable u i nazivaju se rezidualnim odstupanjima
a relativno izražena rezidualna odstupanja:
• Jednadžba pravca određena je ako su poznati parametri a i b
i i iu y y
, 100i i
i reli
y yu
y
• Do procjene parametara najčešće se dolazi metodom najmanjih kvadrata – sastoji se u određivanju onih procjena parametara za koje rezidualni zbroj kvadrata postiže minimum
• Veličina b je regresijski koeficijent – pokazuje za koliko se u prosjeku mijenja vrijednost zavisne varijable Y za jediničnu promjenu vrijednosti nezavisne varijable X
1
22
1
,
n
i ii
n
ii
x y n xyb
x n x
a y b x
• Regresijska jednadžba je analitički izraz koji u smislu prosjeka opisuje odnos među pojavama – osnova za mjerenje reprezentativnosti disperzija oko regresije, koja se očituje na rezidualnim odstupanjima (manja odstupanja empirijskih vrijednosti zavisne varijable od regresijskih vrijednosti bolja reprezentativnost regresije)
• Varijanca regresije:
• Standardna devijacija regresije:
• Koeficijent varijacije regresije:
2 2
1 1 1
1 n n n
i i i iyi i i
y a y b x yn
2
1 1 1
1 n n n
i i i iyi i i
y a y b x yn
100y
yV
y
• Specifičan pokazatelj reprezentativnosti regresije jest koeficijent determinacije:
• Model je reprezentativniji što je koeficijent determinacije bliži jedinici
2
2 21 1
22
1
, 0 1
n n
i i ii i
n
ii
a y b x y n yR R
y n y
CHADOCKOVA LJESTVICA:
2R Tumačenje 0 odsutnost veze
0,00 – 0.25 slaba veza 0.25 – 0.64 veza srednje jakosti
0.64 – 1 čvrsta veza 1 potpuna veza
PRIMJER 1. U tabeli 1. izložen je postupak računanja parametara linearne regresijske jednadžbe i dane su regresijske vrijednosti. Uzmimo, npr., da neko poduzeće analizira podatke o ostvarenom prometu i dobiti (oboje u mil. kn) u 8 uzastopnih godina:
Promet Dobit Regresijske vrijednosti
ix iy ix iy 2ix
iy 20 1 20 400 1.05 30 3 90 900 2.35 40 3.5 140 1600 3.65 50 5 250 2500 4.95 70 7 490 4900 7.55 80 8.5 680 6400 8.85 90 9 810 8100 10.15
100 13 1300 10000 11.45 480 50 3780 34800 50.00
Tabela 1.
• Prikažimo prvo 8 parova vrijednosti prometa i dobiti na dijagramu rasipanja:
Slika 1.
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
0 20 40 60 80 100 120promet u mil. kn
dobit u mil. kn
• Vidimo sa slike da su točke raspoređene približno pravcu, a veza je pozitivna, tj. porast vrijednosti jedne varijable prati rast druge varijable
• Veza je prilične jakosti jer su točke blizu zamišljenog pravca koji uvijek prolazi kroz točku
• Napomena: ovdje se radi o školskom primjeru, s malim brojem parova vrijednosti – statistički utemeljeniji zaključci dobivaju se na osnovi dulje serije vrijednosti obiju varijabli
• Ocijenimo parametre a i b linearne regresije:
480 5060 , 6.258 8
i ix yx y
n n
yx ,
• Regresija s ocijenjenim parametrima glasi:
Prema dobivenoj jednadžbi, ako promet poraste za 1 mil. kn možemo očekivati povećanje dobiti za 0.13 mil. kn
8
18 222
1
3780 8 60 6.25 0.1334800 8 60
i ii
ii
x y n xy
xb
n x
6.25 0.13 60 1.55y b xa
1.55 0.13a bxy x
• Za dani niz empirijskih podataka nezavisne varijable X , pripadne se regresijske vrijednosti (5. stupac iz tabele 1) računaju njihovim uvrštavanjem u regresijsku jednadžbu:
• Regresijske su vrijednosti pogodno sredstvo za prognoziranje. Npr., možemo izračunati koliku dobit možemo očekivati ako bi promet porastao na 110 mil. kn:
11
22
88
1.55 0.13 20 1.05
1.55 0.13 30 2.35
1.55 0.13 100 11.45
y a bx
y a bx
y a bx
1( 110) 1.55 0.13 110 12.75 mil. knxy a bx
2
1 1 1
1 1 418.5 1.55 50 0.13 3780 0.7588
n n n
i i i ii i i
yy a y b x y
n
0.758100 100 12.13%6.25y
y
yV
2
2 1 1
22
1
2
2
1.55 50 0.13 3780 8 6.25 101.4 = 0.9566418.5 8 6.25 106
n n
i i ii i
n
ii
a y b x y n y
n yR
y
KOEFICIJENT LINEARNE KORELACIJE
• Pokazatelj jakosti i smjera dviju pojava je Pearsonov koeficijent linearne korelacije
• Podloga za njegovo računanje je raspored točaka, tj. parova opaženih vrijednosti dviju varijabli u dijagramu rasipanja
• Podijelimo li dijagram rasipanja (slika 2.) pravcima
i na 4 dijela, vidimo, npr. da su, ako se radi o pozitivnoj linearnoj vezi, točke (xi, yi) pretežno raspoređene u prvom i trećem kvadrantu dijagrama rasipanja
X x
Y y
• Polazna veličina za mjerenje jakosti i smjera je kovarijanca varijabli X i Y:
• Kovarijanca ovisi o veličini i mjernim jedinicama varijabli X i Y, a da bi se dobio pokazatelj jakosti neovisan o mjernim jedinicama treba standardizirati obje varijable
• Kovarijanca standardiziranih vrijednosti je Pearsonov koeficijent linearne korelacije:
111 1
1 1cov ,n n
i i i ii i
X Y x x y y x y x yn n
11 , 1 1x y
r r
• Vrijednost koeficijenta jednaka nuli govori da ne postoji linearna korelacija među pojavama, vrijednost 1 da je potpuna i pozitivna smjera, a vrijednost -1 da je potpuna i negativnog smjera. Što je koeficijent po apsolutnoj vrijednosti bliži jedinici, veza je uža
• Pearsonov koeficijent linearne korelacije moguće je pisati na više načina:
– Kao produkt regresijskog koeficijenta b i omjera standardnih
devijacija obiju varijabli:
– Putem koeficijenta determinacije:
ako se radi o negativnoj regresijskoj vezi treba ispred korijena
staviti negativni predznak
x
y
r b
2r R
KORELACIJA RANGA
• Ispitivanje stupnja veze između pojava danih u obliku modaliteta redoslijedne (rang) varijable nije moguće na isti način kao i za one dane u obliku numeričkih nizova, jer varijable ranga nemaju za to potrebna metrička svojstva
• Vrijednosti dviju varijabli se rangiraju po veličini, a povezanost njihovih rangova se mjeri Spearmanovim koeficijentom korelacije ranga:
2
13
61 , 1 1
n
ii
s s
dr r
n n
• Sa di su označene razlike između rangovima pojedinih vrijednosti varijable X i Y :
• Vrijednostima pojedine varijable pridruženi su rangovi tako da je najmanjoj vrijednosti pridružen rang 1, sljedećoj po veličini vrijednosti iste varijable rang 2, ... Maksimalni mogući rang je n. Ako se neka od vrijednosti ponavlja, onda se svakoj od njih pridružuje aritmetička sredina pripadajućih rangova
i i id r x r y
PRIMJER 2. Novinari dvaju časopisa birali su menadžera godine. Desetorici kandidata novinari pojedinog časopisa su davali bodove kojima je mjerena njihova uspješnost. Izračunat ćemo stupanj korelacije kriterija ocjenjivanja obaju uredništava:
Bodovi dodijeljenih od uredništva časopisa Redni broj
kandidata A B
Rang vrijednosti varijable
X
Rang vrijednosti varijable
Y
Razlike rangova
Kvadrati razlika rangova
ix iy ir x ir y id 2id
1 53 48 8 6 2 4 2 15 32 2 5 -3 9 3 30 62 6 7 -1 1 4 47 64 7 8 -1 1 5 60 70 9 10 -1 1 6 75 65 10 9 1 1 7 14 17 1 2 -1 1 8 25 28 4.5 3 1.5 2.25 9 25 30 4.5 4 0.5 0.25
10 19 16 3 1 2 4 Ukupno - - 55 55 0 24.5
• Objašnjenje rangova u 4. stupcu: najmanjoj vrijednosti varijable X , 14, pridružen je rang 1. Sljedeći su po veličini bodova 15 i 19, pa su njima pridruženi rangovi 2 i 3. nakon toga slijede dva po veličini jednaka broja bodova, 25, a kako su na redu rangovi 4 i 5, to je svakoj vrijednosti pridružena aritmetička sredina tih dvaju rangova, tj. 4.5. Slijedi po veličini 30 bodova, kojima je pridružen rang 6, ...
• Spearmanov koeficijent korelacije ranga je dosta blizu jedinice, što znači da je veza među rangovima dviju varijabli pozitivna i dosta jaka. Kandidat kojeg je jedno uredništvo ocijenilo dobro, prošao je dobro i kod drugog urednika i obrnuto. To upućuje na dosta dobru usklađenost kriterija obaju uredništva
2
13 3
66 24.51 1 0.8515
10 10
n
ii
s
dr
n n