Upload
dinhtuong
View
231
Download
2
Embed Size (px)
Citation preview
Josipa Perkov, prof., pred. 1
10. REGRESIJA I 10. REGRESIJA I 10. REGRESIJA I 10. REGRESIJA I 10. REGRESIJA I 10. REGRESIJA I 10. REGRESIJA I 10. REGRESIJA I
KORELACIJAKORELACIJAKORELACIJAKORELACIJAKORELACIJAKORELACIJAKORELACIJAKORELACIJA
22
�� Jednodimenzionalna analizaJednodimenzionalna analiza –– istraistražživanje jedne pojave ivanje jedne pojave predopredoččene statistiene statističčkim nizom nezavisno od drugih, statistikim nizom nezavisno od drugih, statističčkim kim metodama (grafimetodama (grafiččko i tabelarno prikazivanje niza, izrako i tabelarno prikazivanje niza, izraččunavanje unavanje razlirazliččitih brojitih brojččanih pokazatelja) kako bi se donijeli zakljuanih pokazatelja) kako bi se donijeli zaključčci o ci o svojstvima dane pojavesvojstvima dane pojave
�� MnoMnošštvo je slutvo je sluččajeva koji se odnose na istraajeva koji se odnose na istražživanje ivanje međusobnog međusobnog odnosa dviju ili viodnosa dviju ili višše pojavae pojava –– promjena jedne pojave uvjetovana promjena jedne pojave uvjetovana je promjenama druge ili drugihje promjenama druge ili drugih
�� Povezanost pojava moPovezanost pojava možže biti:e biti:
•• funkcionalnafunkcionalna –– veze se mogu predoveze se mogu predoččiti izrazima na temelju iti izrazima na temelju kojih se tokojih se toččno utvrđuje vrijednost jedne za danu vrijednost no utvrđuje vrijednost jedne za danu vrijednost druge (drugih) vrijednosti: druge (drugih) vrijednosti: Y Y = = ff ((XX ))
•• statististatističčkaka –– jednoj vrijednosti jedne pojave odgovara vijednoj vrijednosti jedne pojave odgovara višše e vrijednosti druge (drugih) pojavavrijednosti druge (drugih) pojava
33
�� Pri istraPri istražživanju masovnih pojava analizom treba utvrditi vezu ivanju masovnih pojava analizom treba utvrditi vezu
među pojavama po obliku među pojavama po obliku (linearna ili (linearna ili krivolinijskakrivolinijska), smjeru ), smjeru
(pozitivna ili negativna) i jakosti (funkcionalna ili statisti(pozitivna ili negativna) i jakosti (funkcionalna ili statističčka)ka)
�� IstraIstražživati se moivati se možže e jakostjakost statististatističčkih vezakih veza–– stupanj statististupanj statističčke ke
povezanosti između pojava mjeri se metodama koje povezanosti između pojava mjeri se metodama koje ččine podruine područčje je
korelacijske analizekorelacijske analize
�� Ako je svrha Ako je svrha analitianalitiččki ki (jednad(jednadžžbom) bom) izraziti odnosizraziti odnos između između
pojava, primijenit pojava, primijenit ćće se e se regresijski modeliregresijski modeli
�� Model koji sadrModel koji sadržži jednu zavisnu i jednu nezavisnu varijablu i jednu zavisnu i jednu nezavisnu varijablu
naziva se naziva se modelom jednostavne regresijemodelom jednostavne regresije, a model sa dvije ili , a model sa dvije ili
vivišše nezavisnih varijabli e nezavisnih varijabli model vimodel viššestruke regresijeestruke regresije
�� Regresijska i korelacijska analiza provode se na osnovi stvarnihRegresijska i korelacijska analiza provode se na osnovi stvarnih
vrijednosti pojava (varijabli)vrijednosti pojava (varijabli)
44
�� Za određivanje oblika regresije kao vrlo prikladnoZa određivanje oblika regresije kao vrlo prikladno, a jednostavno , a jednostavno
sredstvo slusredstvo služži i dijagram rasipanjadijagram rasipanja::
•• konstruira se tako da se u koordinatni sustav (najkonstruira se tako da se u koordinatni sustav (najččeeššćće se e se
koristi I. kvadrant ili dio njega) unose parovi vrijednosti koristi I. kvadrant ili dio njega) unose parovi vrijednosti
varijable varijable XX i i YY, , tjtj. on se sastoji od to. on se sastoji od toččaka (aka (xxii, , yyii))
•• iz rasporeda toiz rasporeda toččaka zakljuaka zaključčujemo o obliku, smjeru i jakosti ujemo o obliku, smjeru i jakosti
vezeveze
55
66
10.1. JEDNOSTAVNA LINEARNA REGRESIJA10.1. JEDNOSTAVNA LINEARNA REGRESIJA
�� Opisuje se odnos među pojavama za koje je svojstveno da Opisuje se odnos među pojavama za koje je svojstveno da
svakome jedinisvakome jediniččnom porastu vrijednosti jedne varijable odgovara nom porastu vrijednosti jedne varijable odgovara
priblipribližžno jednaka linearna promjena druge varijableno jednaka linearna promjena druge varijable
�� Model jednostavne linearne regresijeModel jednostavne linearne regresije::
Y = a + Y = a + bXbX + u+ u
X X = nezavisna varijabla= nezavisna varijabla
Y Y = zavisna varijabla= zavisna varijabla
uu = odstupanje od funkcionalnog odnosa= odstupanje od funkcionalnog odnosa
aa, , bb = parametri= parametri
77
�� Regresijska analiza provodi se na temelju Regresijska analiza provodi se na temelju nn parova vrijednosti parova vrijednosti
varijabli varijabli X X i i Y Y : (: (xx11, , yy11), (), (xx22, , yy22), ..., (), ..., (xxnn, , yynn), pa se model ), pa se model
predopredoččuje sustavom od uje sustavom od n n jednadjednadžžbi:bi:
yyii= a + = a + bxbxii + + uuii
�� Kada bi odnos među varijablama bio funkcionalanKada bi odnos među varijablama bio funkcionalan, svaka bi , svaka bi
vrijednost varijable vrijednost varijable uuii bila jednaka nuli bila jednaka nuli –– geometrijski, sve bi geometrijski, sve bi
totoččke s koordinatama (ke s koordinatama (xxii, , yyii), ), ii = 1,2,...,= 1,2,...,n n leležžale na istome pravcuale na istome pravcu
88
�� Kako su odnosi među pojavama statistiKako su odnosi među pojavama statističčki, treba odrediti kriterij ki, treba odrediti kriterij
prema kojemu prema kojemu ćće se izabrati jednade se izabrati jednadžžba pravca ba pravca ŷŷ = = aa + + bxbx
koja koja ćće e ‘‘najboljenajbolje’’ opisati odnos pojava na temelju njihovih opisati odnos pojava na temelju njihovih
opaopažženih vrijednostienih vrijednosti
�� uuii su procjene nepoznatih vrijednost varijable su procjene nepoznatih vrijednost varijable uu i nazivaju se i nazivaju se
rezidualnim odstupanjima:rezidualnim odstupanjima:
a a relativno izrarelativno izražžena rezidualna odstupanjaena rezidualna odstupanja::
�� JednadJednadžžba pravca određena je ako su poznati parametri ba pravca određena je ako su poznati parametri aa i i bb
iii yyu ˆ−=
100ˆ
, ⋅−
=i
iireli y
yyu
99
�� Do Do procjene parametaraprocjene parametara najnajččeeššćće se dolazi metodom najmanjih e se dolazi metodom najmanjih
kvadrata kvadrata –– sastoji se u određivanju onih procjena parametara za sastoji se u određivanju onih procjena parametara za
koje rezidualni zbroj kvadrata postikoje rezidualni zbroj kvadrata postižže minimume minimum
�� VeliVeliččina ina bb je je regresijski koeficijentregresijski koeficijent –– pokazuje za koliko se u pokazuje za koliko se u
prosjeku mijenja vrijednost zavisne varijable prosjeku mijenja vrijednost zavisne varijable YY za jediniza jediniččnu nu
promjenu vrijednosti nezavisne varijable promjenu vrijednosti nezavisne varijable XX
xbyaxnx
yxnyxb
n
ii
n
iii
⋅−=
⋅−
⋅⋅−
=
∑
∑
=
= , 2
1
2
1
1010
�� Regresijska jednadRegresijska jednadžžba je analitiba je analitiččki izraz koji u smislu prosjeka ki izraz koji u smislu prosjeka
opisuje odnos među pojavama opisuje odnos među pojavama –– osnova za mjerenje osnova za mjerenje
reprezentativnosti disperzija oko regresije, koja se oreprezentativnosti disperzija oko regresije, koja se oččituje na ituje na
rezidualnim odstupanjima (rezidualnim odstupanjima (manja odstupanja empirijskih manja odstupanja empirijskih
vrijednosti zavisne varijable od regresijskih vrijednosti vrijednosti zavisne varijable od regresijskih vrijednosti ⇒⇒ bolja bolja
reprezentativnost regresijereprezentativnost regresije))
�� Standardna devijacija regresije:Standardna devijacija regresije:
�� Koeficijent varijacije regresije:Koeficijent varijacije regresije:
−−= ∑∑∑
===
n
iii
n
ii
n
iiy yxbyay
n 111
2
ˆ
1σ
100ˆ
ˆ ⋅=y
V yy
σ
1111
�� SpecifiSpecifiččan pokazatelj reprezentativnosti regresije jest an pokazatelj reprezentativnosti regresije jest koeficijent koeficijent
determinacije:determinacije:
�� Model je reprezentativnijiModel je reprezentativniji ššto je koeficijent determinacije blito je koeficijent determinacije bližži i
jedinicijedinici
10 , 2
2
1
2
2
112≤≤
⋅−
⋅−+
=
∑
∑∑
=
== Ryny
ynyxbyaR
n
ii
n
iii
n
ii
1212
CHADOCKOVA LJESTVICACHADOCKOVA LJESTVICA::
potpuna vezapotpuna veza1.001.00
ččvrsta vezavrsta veza0.64 0.64 –– 1.001.00
veza srednje jakostiveza srednje jakosti0.25 0.25 –– 0.640.64
slaba vezaslaba veza0.00 0.00 –– 0.250.25
odsutnost vezeodsutnost veze0.000.00
znaznaččenjeenjekoeficijent determinacijekoeficijent determinacije
PRIMJER 1. U tabeli 1. izložen je postupak računanja parametara
linearne regresijske jednadžbe i dane su regresijske vrijednosti.
Uzmimo, na primjer, da neko poduzeće analizira podatke o
ostvarenom prometu i dobiti (oboje u mil. kn) u 8 uzastopnih godina:
Promet Dobit Regresijske
vrijednosti
ix iy ix iy 2
ix $iy
20 1 20 400 1.05
30 3 90 900 2.35
40 3.5 140 1600 3.65
50 5 250 2500 4.95
70 7 490 4900 7.55
80 8.5 680 6400 8.85
90 9 810 8100 10.15
100 13 1300 10000 11.45
480 50 3780 34800 50.00
Tabela 1.
� Prikažimo prvo 8 parova vrijednosti prometa i dobiti na
dijagramu rasipanja:
Slika 1.
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
0 20 40 60 80 100 120
promet u mil. kn
dobit u mil. kn
� Vidimo sa slike da su točke raspoređene približno pravcu, a veza
je pozitivna, tj. porast vrijednosti jedne varijable prati rast druge
varijable
� Veza je prilične jakosti jer su točke blizu zamišljenog pravca koji
uvijek prolazi kroz točku
� Napomena: ovdje se radi o školskom primjeru, s malim brojem
parova vrijednosti – statistički utemeljeniji zaključci dobivaju se
na osnovi dulje serije vrijednosti obiju varijabli
� Ocijenimo parametre a i b linearne regresije:
480 5060 , 6.25
8 8
i ix yx y
n n= = = = = =∑ ∑
( )yx,
� Regresija s ocijenjenim parametrima glasi:
Prema dobivenoj jednadžbi, ako promet poraste za 1 mil. kn
možemo očekivati povećanje dobiti za 0.13 mil. kn
8
1
8 222
1
3780 8 60 6.250.13
34800 8 60
i ii
ii
x y n xy
xb
n x
=
=
− ⋅− ⋅ ⋅
= = =− ⋅
− ⋅
∑
∑
6.25 0.13 60 1.55y b xa = − ⋅ = − ⋅ = −
$ 1.55 0.13a bxy x= + = − +
� Za dani niz empirijskih podataka nezavisne varijable X , pripadne
se regresijske vrijednosti (5. stupac iz tabele 1) računaju njihovim
uvrštavanjem u regresijsku jednadžbu:
� Regresijske su vrijednosti pogodno sredstvo za prognoziranje. Na
primjer, možemo izračunati koliku dobit možemo očekivati ako bi
promet porastao na 110 mil. kn:
$
$
$
11
22
88
1.55 0.13 20 1.05
1.55 0.13 30 2.35
1.55 0.13 100 11.45
y a bx
y a bx
y a bx
= + = − + ⋅ =
= + = − + ⋅ =
= + = − + ⋅ =
L
$1( 110) 1.55 0.13 110 12.75 mil. knxy a bx
== + = − + ⋅ =
$ ( )2
1 1 1
1 1418.5 1.55 50 0.13 3780 0.758
8
n n n
i i i ii i i
yy a y b x y
n = = =
= − − = + ⋅ − ⋅ =
σ
∑ ∑ ∑
$
$ 0.758100 100 12.13%
6.25y
y
yV
σ= ⋅ = ⋅ =
2
2 1 1
22
1
2
2
1.55 50 0.13 3780 8 6.25 101.4 = 0.9566
418.5 8 6.25 106
n n
i i ii i
n
ii
a y b x y n y
n yR
y
= =
=
+ − ⋅
= =
− ⋅
− ⋅ + ⋅ − ⋅= =
− ⋅
∑ ∑
∑
1919
10.2. KOEFICIJENT LINEARNE KORELACIJE10.2. KOEFICIJENT LINEARNE KORELACIJE
�� PearsonovPearsonov koeficijent linearne korelacije koeficijent linearne korelacije -- ppokazatelj jakosti i okazatelj jakosti i
smjera statistismjera statističčke veze dviju pojavake veze dviju pojava
�� Podloga za njegovo raPodloga za njegovo raččunanje je raspored tounanje je raspored toččaka, aka, tjtj. parova . parova
opaopažženih vrijednosti dviju varijabli u dijagramu rasipanjaenih vrijednosti dviju varijabli u dijagramu rasipanja
�� Podijelimo li dijagram rasipanja (slika 2.) pravcima X = xPodijelimo li dijagram rasipanja (slika 2.) pravcima X = x
i Y = y na 4 dijela, vidimo, na primjer da su, ako se radi o i Y = y na 4 dijela, vidimo, na primjer da su, ako se radi o
pozitivnoj linearnoj vezi, topozitivnoj linearnoj vezi, toččke (ke (xxii, , yyii) prete) pretežžno raspoređene u no raspoređene u
prvom i treprvom i treććem kvadrantu dijagrama rasipanja em kvadrantu dijagrama rasipanja
2020
2121
�� Polazna veliPolazna veliččina za mjerenje jakosti i smjera je ina za mjerenje jakosti i smjera je kovarijancakovarijanca
varijabli X i Y:varijabli X i Y:
�� KovarijancaKovarijanca ovisi o veliovisi o veliččini i mjernim jedinicama varijabli ini i mjernim jedinicama varijabli XX i i
YY, a da bi se dobio pokazatelj jakosti neovisan o mjernim , a da bi se dobio pokazatelj jakosti neovisan o mjernim
jedinicama treba standardizirati obje varijablejedinicama treba standardizirati obje varijable
�� KovarijancaKovarijanca standardiziranih vrijednosti je standardiziranih vrijednosti je PearsonovPearsonov
koeficijent linearne korelacije:koeficijent linearne korelacije:
( ) ( )( )11
1 1
1 1cov ,
n n
i i i ii i
X Y x x y y x y x yn n= =
= µ = − − = − ⋅∑ ∑
11 , 1 1x y
r rµ
= − ≤ ≤σ σ
2222
� Vrijednost koeficijenta jednaka nuli govori da ne postoji linearna korelacija među pojavama, vrijednost 1 da je potpuna i pozitivna smjera, a vrijednost -1 da je potpuna i negativnog smjera. Što je koeficijent po apsolutnoj vrijednosti bliži jedinici, veza je uža
�� PearsonovPearsonov koeficijent linearne korelacije mogukoeficijent linearne korelacije mogućće je pisati na vie je pisati na višše e nanaččina:ina:
•• Kao produkt regresijskog koeficijenta Kao produkt regresijskog koeficijenta bb i omjera standardnih i omjera standardnih
devijacija obiju varijabli:devijacija obiju varijabli:
•• Putem koeficijenta determinacije:Putem koeficijenta determinacije:
ako se radi o negativnoj regresijskoj vezi treba ispred ako se radi o negativnoj regresijskoj vezi treba ispred
korijena staviti negativni predznakkorijena staviti negativni predznak
x
y
r bσ
=σ
2r R=
2323
10.3. KORELACIJA RANGA10.3. KORELACIJA RANGA
�� Ispitivanje stupnja veze između pojava danih u obliku modalitetaIspitivanje stupnja veze između pojava danih u obliku modaliteta
redoslijedne (rang) varijableredoslijedne (rang) varijable nije mogunije mogućće na isti nae na isti naččin kao i za in kao i za
one dane u obliku numerione dane u obliku numeriččkih nizova, jer varijable ranga nemaju kih nizova, jer varijable ranga nemaju
za to potrebna metriza to potrebna metriččka svojstvaka svojstva
�� Vrijednosti dviju varijabli se rangiraju po veliVrijednosti dviju varijabli se rangiraju po veliččini, a povezanost ini, a povezanost
njihovih rangova se mjeri njihovih rangova se mjeri SpearmanovimSpearmanovim koeficijentom koeficijentom
korelacije rangakorelacije ranga::
2
1
3
6
1 , 1 1
n
ii
s s
dr r
n n== − − ≤ ≤−
∑
2424
�� Sa Sa ddii su oznasu označčene razlike između rangovima pojedinih ene razlike između rangovima pojedinih vrijednosti varijable vrijednosti varijable XX i i Y Y : :
�� Vrijednostima pojedine varijable pridruVrijednostima pojedine varijable pridružženi su rangovi tako da je eni su rangovi tako da je
najmanjoj vrijednosti pridrunajmanjoj vrijednosti pridružžen rang 1, sljedeen rang 1, sljedeććoj po velioj po veliččini ini
vrijednosti iste varijable rang 2, ... Maksimalni moguvrijednosti iste varijable rang 2, ... Maksimalni mogućći rang je i rang je nn. .
Ako se neka od vrijednosti ponavljaAko se neka od vrijednosti ponavlja, onda se svakoj od njih , onda se svakoj od njih
pridrupridružžuje aritmetiuje aritmetiččka sredina pripadajuka sredina pripadajuććih rangovaih rangova
( ) ( )i i id r x r y= −
2525
PRIMJER 2. Novinari dvaju časopisa birali su menadžera
godine. Desetorici kandidata novinari pojedinog časopisa su
davali bodove kojima je mjerena njihova uspješnost. Izračunat
ćemo stupanj korelacije kriterija ocjenjivanja obaju uredništava:
Bodovi dodijeljenih od
uredništva časopisa Redni broj
kandidata A B
Rang
vrijednosti
varijable
X
Rang
vrijednosti
varijable
Y
Razlike
rangova
Kvadrati
razlika
rangova
ix iy ( )ir x ( )ir y id 2
id
1 53 48 8 6 2 4
2 15 32 2 5 -3 9
3 30 62 6 7 -1 1
4 47 64 7 8 -1 1
5 60 70 9 10 -1 1
6 75 65 10 9 1 1
7 14 17 1 2 -1 1
8 25 28 4.5 3 1.5 2.25
9 25 30 4.5 4 0.5 0.25
10 19 16 3 1 2 4
Ukupno - - 55 55 0 24.5
� Objašnjenje rangova u 4. stupcu: najmanjoj vrijednosti varijable
X koja iznosi 14, pridružen je rang 1. Sljedeći su po veličini
bodova 15 i 19, pa su njima pridruženi rangovi 2 i 3. nakon toga
slijede dva po veličini jednaka broja bodova, 25, a kako su na
redu rangovi 4 i 5, to je svakoj vrijednosti pridružena aritmetička
sredina tih dvaju rangova, tj. 4.5. Slijedi po veličini 30 bodova,
kojima je pridružen rang 6, ...
� Spearmanov koeficijent korelacije ranga je dosta blizu jedinice,
što znači da je veza među rangovima dviju varijabli pozitivna i
dosta jaka. Kandidat kojeg je jedno uredništvo ocijenilo dobro,
prošao je dobro i kod drugog urednika i obrnuto. To upućuje na
dosta dobru usklađenost kriterija obaju uredništva
2
1
3 3
66 24.5
1 1 0.851510 10
n
ii
s
dr
n n= ⋅
= − = − =− −
∑
2828
PITANJA ZA USMENI DIO ISPITA:PITANJA ZA USMENI DIO ISPITA:
1)1) Razlika između funkcionalne i statistiRazlika između funkcionalne i statističčke ke
povezanosti varijablipovezanosti varijabli
2)2) Dijagram rasipanjaDijagram rasipanja
3)3) Jednostavna linearna regresijaJednostavna linearna regresija
4)4) ChadockovaChadockova ljestvicaljestvica
5)5) Linearna korelacijaLinearna korelacija
6)6) Korelacija rangaKorelacija ranga