14
1. REGRESIONA I KORELACIONA ANALIZA Do sada smo posmatrali jednu karakteristiku (obeležje) elemenata skupa i analizirali smo strukturu i osobine skupa po tom obeležju. Međutim, u praksi se često javlja potreba da istovremeno pratimo dva ili više obeležja (promenljive) i da ispitamo da li između njih postoji neka tj međusobni uticaj. Zaključivanje o tim vezama zasniva se, najčešće, na uzorku. Na osnovu uzorka se ispituje kako su varijacije jedne pojave (ili grupe od dve ili više pojava) povezane sa varijacijama neke druge pojave. Međutim, cilj istraživanja ne odnosi se samo na uzorak, već pre svega na osnovni skup iz kojeg je uzorak izvučen. Na primer, možemo ispitati da li postoji veza između dve promenljive: vreme provedeno u učenju i broja poena ostvarenih na testu, godina radnog staža i njihovih zarada i td. Vrste kvantitativnih veza Veza između dve promenljive X i Y postoji ako je porast vrednosti jedne od njih praćen porastom ili smanjenjem vrednosti druge promenljive. Zavisno od smera slaganja varijacija dve promenljive veza između njih može biti: Direktna (pozitivna), kada sa porastom vrednosti promenljive X rastu vrednosti Y (npr veći dohodak veća potrošnja); Inverzna (negativna), kada se sa porastom vrednosti X vrednosti Y smanjuju (npr veća cena manja tražnja). Međusobna veza između promenljivih ne razlikuje se samo po smeru već i po jačini (intenzitetu) kvantitativnog slaganja. Kriterijumi su: Matematička (deterministička, funkcionalna) veza i Statistička (stohastička) veza.. Funkcionalni ili egzaktni odnosi (veze) su postojani, izražavaju zakonitosti koje se iskazuju analitički, formulom Y = f (X). Deterministička veza javlja se u slučaju kada jednoj vrednosti nezavisne promenljive X, odgovara samo jedna, tačno određena vrednost zavisne promenljive Y. Primer: površina kvadrata zavisi od njegove stranice. Ovaj odnos je funkcionalan, jer se izražava jednačinom P=a 2 . Statistički ili stohastički odnosi (veze) su slabiji od funkcionalnih. Svakoj vrednosti jedne pojave odgovara više različitih vrednosti druge pojave. Takva odstupanja su u praksi češća. Kod stohastičkih veza jednoj vrednosti nezavisne promenljive odgovara čitav niz mogućih vrednosti zavisne promenljive. Svaku od tih vrednosti zavisna promenljiva može uzeti sa određenom verovatnoćom i njene ishode u pojedinačnim situacijama ne možemo sa sigurnošću predvideti. Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju vezu među promenljivim. Zbog neuključivanja promenljivih koje utiču na ponašanje zavisne promenljive ili zbog slučajnih uticaja postoje neobjašnjene varijacije zavisne promenljive (Y).

REGRESIONA I KORELACIONA ANALIZA...Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju

  • Upload
    others

  • View
    37

  • Download
    1

Embed Size (px)

Citation preview

Page 1: REGRESIONA I KORELACIONA ANALIZA...Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju

1. REGRESIONA I KORELACIONA ANALIZA

Do sada smo posmatrali jednu karakteristiku (obeležje) elemenata skupa i analizirali smo

strukturu i osobine skupa po tom obeležju. Međutim, u praksi se često javlja potreba da istovremeno

pratimo dva ili više obeležja (promenljive) i da ispitamo da li između njih postoji neka tj međusobni

uticaj. Zaključivanje o tim vezama zasniva se, najčešće, na uzorku. Na osnovu uzorka se ispituje kako su

varijacije jedne pojave (ili grupe od dve ili više pojava) povezane sa varijacijama neke druge pojave.

Međutim, cilj istraživanja ne odnosi se samo na uzorak, već pre svega na osnovni skup iz kojeg je uzorak

izvučen. Na primer, možemo ispitati da li postoji veza između dve promenljive: vreme provedeno u

učenju i broja poena ostvarenih na testu, godina radnog staža i njihovih zarada i td.

Vrste kvantitativnih veza

Veza između dve promenljive X i Y postoji ako je porast vrednosti jedne od njih praćen

porastom ili smanjenjem vrednosti druge promenljive. Zavisno od smera slaganja varijacija dve

promenljive veza između njih može biti:

Direktna (pozitivna), kada sa porastom vrednosti promenljive X rastu vrednosti Y

(npr veći dohodak → veća potrošnja);

Inverzna (negativna), kada se sa porastom vrednosti X vrednosti Y smanjuju (npr

veća cena → manja tražnja).

Međusobna veza između promenljivih ne razlikuje se samo po smeru već i po jačini (intenzitetu)

kvantitativnog slaganja. Kriterijumi su:

Matematička (deterministička, funkcionalna) veza i

Statistička (stohastička) veza..

Funkcionalni ili egzaktni odnosi (veze) su postojani, izražavaju zakonitosti koje se iskazuju

analitički, formulom Y = f (X). Deterministička veza javlja se u slučaju kada jednoj vrednosti nezavisne

promenljive X, odgovara samo jedna, tačno određena vrednost zavisne promenljive Y.

Primer: površina kvadrata zavisi od njegove stranice. Ovaj odnos je funkcionalan, jer se izražava

jednačinom P=a2.

Statistički ili stohastički odnosi (veze) su slabiji od funkcionalnih. Svakoj vrednosti jedne pojave

odgovara više različitih vrednosti druge pojave. Takva odstupanja su u praksi češća. Kod stohastičkih

veza jednoj vrednosti nezavisne promenljive odgovara čitav niz mogućih vrednosti zavisne promenljive.

Svaku od tih vrednosti zavisna promenljiva može uzeti sa određenom verovatnoćom i njene ishode u

pojedinačnim situacijama ne možemo sa sigurnošću predvideti. Kako vrednost zavisne promenljive (Y)

nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju

labaviju vezu među promenljivim. Zbog neuključivanja promenljivih koje utiču na ponašanje zavisne

promenljive ili zbog slučajnih uticaja postoje neobjašnjene varijacije zavisne promenljive (Y).

Page 2: REGRESIONA I KORELACIONA ANALIZA...Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju

Primer: zaposleni iste stručne spreme imaju različite (a ne iste) plate; domaćinstva s istim

dohotkom imaju različit (a ne isti) nivo potrošnje; sve osobe iste visine nemaju jednaku težinu i dr.

Suština stohastičkih veza koju ćemo mi razmatrati jeste da između pojedinih vrednosti nezavisne

promenljive X i prosečnih vrednosti zavisne promenljive Y (očekivane vrednosti), postoji čvrsta veza.

Prosek Y = f(X)

Ispitivanje zavisnosti u statističkoj analizi ima dva osnovna pravca:

• oblik zavisnosti koji ispituje regresiona analiza,

• jačinu zavisnosti koju određuje korelaciona analiza.

Kod regresione analize potrebno je unapred odrediti koja pojava će imati ulogu zavisne promenljive,

a koja nezavisne promenljive. Ovo utvrđujemo na osnovu teorijskih, ili empirijskih saznanja, ili

pretpostavki o prirodi analiziranih pojava.

Korelaciona analiza je skup statističkih metoda kojima se istražuje jačina veze između

posmatranih pojava. Korelacija predstavlja međusobnu povezanost obeležja posmatranih pojava.

Ako nema regresije, nema ni korelacije. Ovde nije bitno koja promenljiva je zavisna, a koja

nezavisna.

Ciljevi regresione i korelacione analize su utvrđivanja kvantitativnog slaganja varijacija izmedju

dveju ili više pojava koje se analiziraju. Prilikom istraživanja međusobnih veza između dve promenljive

primenjuju se metode proste (linearne i krivolinijske) regresione i korelacione analize, a u slučaju

posmatranja više promenljivih metode višestruke (linearne i nelinearne) regresije i korelacije.

• Neposredna korelacija je kada su pojave neposredno povezane, na pr: tražnja i cena.

• Posredna korelacija ukazuje na povezanost pojava preko nekog posrednog faktora, npr: cena naftnih

derivata (kerozina), cena avio-prevoza i cena turističkih aranžmana.

Važno je napomenuti da pomoću regresije i korelacije nismo u stanju da otkrijemo postojanje

uzročno-posledične veze između ispitivanih pojava u smislu da je jedna pojava uzrok, a druga posledica.

To možemo utvrditi drugim kvantitativnim metodama ili pomoću kvalitativne analize.

1.1 Regresiona analiza

Regresija je metod kojim se ispituje zavisnost između dve ili više promenljivih, odnosno pojava.

Cilj regresije jeste da se utvrdi priroda veze, odnosno oblik zavisnosti između posmatranih pojava. To

postižemo pomoću odgovarajućeg regresionog modela kojem se najviše približava kvantitativno slaganje

varijacija posmatranih pojava.

Page 3: REGRESIONA I KORELACIONA ANALIZA...Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju

Regresioni model je takav statistički model koji kroz matematičke formule i niz odgovarajućih

pretpostavki najbolje opisuje kvantitativnu zavisnost između varijacija posmatranih pojava u realnosti i

pokazuje prosečno slaganje varijacija ispitivanih pojava. Pri određivanju regresionog modela razlikujemo

nekoliko koraka.

Prvi korak:

Da li uopšte postoji veza i ako postoji kog je oblika? Shodno tome razlikujemo tri oblika veze:

pravolinijske (linearne), krivolinijske (nelinearne) i prostorne (višestruke).

Pored ove tri vrste veza postoje direktne i inverzne veze. Veze kod kojih pri porastu ili opadanju

vrednosti nezavisne promenljive istovremeno odgovara porast ili opadanje zavisne promenljive nazivamo

direktnim (pozitivnim) vezama (primer: nacionalni dohodak i javna potrošnja). Veze kod kojih porast

jedne promenljive uslovljava opadanje druge promenljive nazivamo inverznim (negativnim) vezama

(primer: s porastom cene jedne marke automobila opada tražnja na tržištu za tom markom automobila).

Ukoliko se ustanovi da usled promena vrednosti jedne pojave druga promenljiva ostaje

konstantna, zaključićemo da između njih ne postoji nikakva zavisnost.

Drugi korak:

Na osnovu logičke analize nužno je unapred odrediti koja pojava ima ulogu zavisne promenljive,

a koja nezavisne promenljive. S obzirom na broj nezavisnih promenljivih u modelu, modeli regresije se

dele na modele jednostavne regresije i modele višestruke regresije.

Model jednostavne linearne regresije ima jednu zavisnu i jednu nezavisnu promenljivu, a model

višestruke regresije ima jednu zavisnu i više nezavisnih promenljivih.

Primeri modela sa dve promenljive: visina zarade - radni učinak; količina padavina - prinos

kukuruza; temperatura vazduha - broj turista; nacionalni dohodak - javna potrošnja; nacionalni dohodak -

životni standard; godine starosti - sportski rezultat.

Primeri modela sa tri promenljive: nivo obrazovanja, radno mesto - visina zarade; količina

padavina, količina đubriva - prinos pšenice itd.

Regresioni model predstavlja matematičku funkciju kojom se opisuje ta zavisnost. Opšti oblik

modela regresije je:

Y = f(x1, x2,…, xn)

Prema obliku matematičke funkcije determinističkog modela, modele regresije delimo na:

linearne i

nelinearne ( krivolinijske) modele.

Page 4: REGRESIONA I KORELACIONA ANALIZA...Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju

Veza između promenljivih kod linearnog modela određena je linearnom funkcijom, čiji je grafik

prava linija, a veza između promenljivih kod krivolinijske regresije ima oblik neke druge matematičke

funkcije, čiji je grafik neka kriva linija.

Dakle,cilj regresione analize je da utvrdi smer, oblik i jačinu veze između analiziranih pojava.

Smer veze može biti pozitivan i negativan.

Oblik veze definisan je oblikom matematičke funkcije koja predstavlja deterministički deo

modela regresije.

Jačina veze se određuje analizom slučaja regresionog modela. Slučajnom promenljivom se

predstavljaju nesistemski uticaji, odnosno uticaji pojava koje nisu uključene u model.

U statističkoj analizi regresioni model nije sam po sebi cilj, već samo sredstvo pomoću kojeg smo

u stanju da ocenimo i predvidimo ponašanje zavisne promenljive za željene vrednosti nezavisne

promenljive.

Prva faza u analizi zavisnosti dveju slučajnih promenljivih, uobičajeno je, prikazivanje

empirijskih podataka grafički. U koordinatnom sistemu se ucrtavaju tačke određene parovima vrednosti.

Tako dobijeni dijagram se naziva dijagram raspršenosti. Zadatak u ovoj fazi nam je da pronađemo

funkciju koja približno opisuje empirijske podatke tj. da uočimo smer njihovog kretanja. To se danas

uspešno radi u različitim softverima.

Na osnovu svega navedenog možemo reći da dijagramom raspršenosti grafički prikazujemo

varijacije dve pojave u cilju sagledavanja:

a) krivolinijska veza b) krivolinijska veza

c) krivolinijska veza d) nepostojanje slaganja

Page 5: REGRESIONA I KORELACIONA ANALIZA...Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju

1. da li između njih postoji kvantitativno slaganje,

2. ako slaganje postoji koji je njegov oblik (linearni ili krivolinijski) i

3. koji je smer slaganja (direktni ili inverzni).

1.2 Prost linearni regresioni model

Opisuje se odnos među pojavama koje imaju svojstvo da: svakom jediničnom porastu vrednosti

jedne promenljive odgovara približno jednaka linearna promena druge promenljive.

Pre nego što pređemo na model linearne regresije podsetićemo se jednačine prave linije:

Y = a + bX

Prava je u potpunosti definisana sa dva koeficijenta:

a - koji pokazuje odsečak na y-osi i

b - (koeficijent pravca) koji pokazuje tangens ugla koji zaklapa prava sa pozitivnim krakom x-

ose.

Kada je b > 0 prava pokazuje rastuću tendenciju, a kada je b < 0 prava pokazuje opadajuću tendenciju

pojave.

U modelu jednostavne linearne regresije vrednost zavisne promenljive Y je linearna kombinacija

vrednosti nezavisne promenljive X. U praksi nam je najčešće dostupan samo uzorak iz populacije koji

obuhvata sve moguće parove vrednosti X i Y.

Regresiona analiza sprovodi se na temelju n parova vrednosti promenljivih X i Y: (x1, y1), (x2, y2),

…, (xn, yn), pa se model određuje iz sistema od n jednačina:

Yi= a + bxi + εi, i = 1,2,..., n

xi - i-ta nezavisna vrednost promenljive,

Yi - i-ta zavisna promenljiva,

εi - odstupanje od funkcionalnog odnosa,

a, b - nepoznati parametri, nazivaju se regresioni parametri,

n - veličina uzorka.

Page 6: REGRESIONA I KORELACIONA ANALIZA...Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju

Nezavisna promenljiva X naziva se često objašnjavajućom promenljivom ili faktorom, jer

pomoću nje pokušavamo da objasnimo varijacije promenljive Y.

Prost linearni regresioni model sastoji se iz dva dela:

• determinističkog (a + bxi) i

• stohastičkog (εi ).

Deterministički deo objašnjava prosečan uticaj nezavisne promenljive X na zavisnu promenljivu

Y. Parametar a predstavlja konstantni član modela i naziva se slobodnim članom, a parametar b je

regresioni koeficijent ili koeficijent nagiba.

Regresioni koeficijent (b) predstavlja prosečnu promenu zavisne promenljive Y za jedinično

povećanje nezavisne promenljive X. Parametar a– regresiona konstanta određuje „nivo“ regresione

prave. To je vrednost Y za x = 0 i predstavlja tačku u kojoj regresiona linija seče y-osu. Drugim rečima,

to je početna vrednost zavisne Y kada još uvek nije počela da deluje nezavisna X.

Kako su odnosi među pojavama stohastički, to se u modelu javlja i stohastički deo εi, koji

pokazuje odstupanje zavisne promenljive od funkcionalnog odnosa.

Kada bi odnos među promenljivim bio funkcionalan, svaka bi vrednost promenljive εi bila

jednaka nuli. To bi geometrijski značilo da sve tačke s koordinatama (xi, yi), i =1,2,...,n leže na istoj

pravoj.

Faktori koji objašnjavaju prisustvo stohastičkog člana su:

• na zavisnu promenljivu Y pored nezavisne promenljive X deluju još i mnogobrojni faktori (primer na

prodaju robe deluje ne samo cena već i faktori kao što su: lični dohodak, zaposlenost, mesto prodajnog

objekta idr.),

• prisustvo nepredviđenih faktora sa nepredvidivim dejstvom (na pr. vremenske nepogode koje utiču na

prinos i drastično mogu smanjiti ili povećati potražnju za nekim proizvodom),

• greške koje se javljaju prilikom prikupljanja statističkih podataka.

Većina navedenih faktora deluje zajedno, neki deluju u suprotnom smeru, pa je realno očekivati

da slučajna promenljiva ε u proseku ima vrednost nula. Na osnovu svega navedenog, matematički izraz

linije regresije u skupu je:

ŷi = a0 + b0 xi , i=1,2,..., N.

Linija regresije u uzorku je:

ŷi = a + bxi ,….., i=1,2,..., n.

Linija regresije u skupu i uzorku se po pravilu razlikuje jer se ocenjene vrednosti parametara a i b

razlikuju od stvarnih vrednosti parametara a0 i b0.

Page 7: REGRESIONA I KORELACIONA ANALIZA...Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju

Ocenjeni parametri a i b su slučajne promenljive, jer od uzorka do uzorka mogu uzimati različite

vrednosti, koje unapred ne možemo predvideti. Nakon što se odabere uzorak, odgovarajuće ocenjene

vrednosti a i b su konstante.

Postavlja se pitanje:

Kako između empirijskih tačaka (na dijagramu raspršenosti) povući onu pravu liniju koja će

„najbolje“ opisati odnos pojava na temelju njihovih opaženih vrednosti?

Ta prava bi trebalo istovremeno da bude bliža svim tačkama, što bi nam dala optimalne ocene za

a i b

Kao prvo rešenje možemo uzeti da se vizuelno odabere prava koja najviše odgovara opštoj

tendenciji rasporeda tačaka.

Međutim, ovaj metod je subjektivne prirode što je istovremeno jedna njegova bitna slabost. Zbog

toga se u statističkoj analizi koriste neki drugi objektivni metodi, a najćešće se koristi metoda najmanjih

kvadrata odstupanja.

Vrednost procenjenih parametara se izračunava iz n izmerenih parova vrednosti x i y. Prema tome

i vrednosti pokazatelja se odnose samo na n izmerenih parova podataka.

Parametri procenjenog modela se određuju tako da kvadrati odstupanja izmerenih vrednosti od

procenjenih vrednosti zavisne promenljive budu što manji. Metod najmanjih kvadrata pomoću

minimiziranja sume kvadrata odstupanja empirijskih vrednosti od prilagođenih daje izbor regresionog

modela.

.

Page 8: REGRESIONA I KORELACIONA ANALIZA...Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju

Slika 1. Stvarne vrednosti, prilagođene vrednosti, rezidual

rezidualna odstupanja su:

ei = yi − �̂�i

relativna rezidualna odstupanja su:

𝑒𝑖,𝑟𝑒𝑙 =𝑦𝑖−𝑦�̂�

𝑦𝑖.

Parametri procenjeni ovom metodom opisuju pravac za koji je zbir rezidualnih kvadrata

odstupanja minimalan.

Iz sistema

Σyi = na +Σxib

Σxi yi = Σxia +Σxi2b

se izračunavaju parametri b i a pomoću izraza:

𝒃 =∑ 𝒙𝒊𝒚𝒊−𝒏�̅��̅�

∑ 𝒙𝒊𝟐−𝒏�̅�𝟐 , 𝒂 = �̅� − 𝒃𝒙.

gde su �̅� 𝑖 �̅� sredine nezavisne i zavisne promenljive, a n veličina uzorka.

Karakteristike parametra a su:

• ako je a = 0, regresiona prava prolazi kroz koordinatni početak. To znači da ako obeležja ne mogu da

imaju negativne vrednosti polaze od nultog „nivoa“,

• ako je a > 0, regresiona prava seče ordinatnu osu iznad koordinatnog početka,

• ako je a < 0, regresiona prava seče ordinatnu osu ispod koordinatnog početka.

Page 9: REGRESIONA I KORELACIONA ANALIZA...Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju

Karakteristike parametra b su:

• ako je b = 0, regresiona prava je paralelna sa x-osom. To znači da obeležje Y ima uvek istu vrednost i da

ne zavisi od obeležja X,

• ako je b > 0, regresiona prava raste, tj. veza je direktna,

• ako je b < 0, regresiona prava je opadajuća, tj. veza je inverzna.

Regresiona prava je analitički izraz koji u smislu proseka opisuje odnos među pojavama.

Procenjena regresiona prava je:

ŷi = a + bxi

1.3 Korelaciona analiza

Korelacionom analizom se utvrđuje postojanje i jačina statističke veze između pojava. Ona

pokazuje stepen zavisnosti između promenljivih, odnosno korelacijom se meri jačina već utvrđene

povezanosti između dve promenljive.

Za dve pojave predstavljene kvantitativnim vrednostima jačina veze se meri koeficijentom

korelacije. Ako su pojave prikazane vrednostima ranga, stepen statističke povezanosti se meri

koeficijentom korelacije ranga.

Stepen intenziteta povezanosti između promenljivih, koje su u linearnom odnosu meri se:

• kovarijansom kao apsolutnom merom intenziteta korelacije i

• koeficijentom proste linearne korelacije, kao relativnom merom intenziteta korelacione veze.

Kovarijansa

Kovarijansa je aritmetička sredina proizvoda odstupanja vrednosti promenljive X od njene

aritmetičke sredine i odstupanja vrednosti promenljive Y od njene aritmetičke sredine. Ona može uzimati

pozitivne i negativne vrednosti i zavisna je od mernih jedinica promenljivih X i Y, pa se njom prosuđuje

postojanje i smer veze, ali ne i stepen te veze.

cov(𝑋, 𝑌) =1

𝑛∑(𝑥𝑖 − �̅�)(𝑦 − �̅�).

Ona predstavlja u suštini zajedničku meru varijabilnosti, jedne i druge promenljive, pa se

matematički može predstaviti kao zbir varijansi jedne i druge promenljive:

cov(X,Y) = 1

𝑛[∑(𝑥𝑖 − �̅�)2 + ∑(𝑦𝑖 − �̅�)2].

Odakle se dobija radna formula za kovarijansu:

Page 10: REGRESIONA I KORELACIONA ANALIZA...Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju

𝜇11 =1

𝑛∑ 𝑥𝑖 ∙ 𝑦𝑖 − �̅� ∙ �̅� .

gde je n veličina uzorka, odnosno broj koreliranih parova vrednosti.

Međutim, kovarijansa kao apsolutna mera stepena povezanosti nije pogodna za procenu, pa se

pristupa izračunavanju relativne mere tj. izračunava se: koeficijent proste linearne korelacije.

Koeficijent proste linearne korelacije

Koeficijent proste linearne korelacije ili Pearson-ov koeficijent predstavlja kovarijansu izraženu u

jedinicama standardnih devijacija obe promenljive.

Stepen veze se meri Pearsonovim koeficijentom linearne korelacije koji se dobija tako da se prvi

mešoviti moment podeli sa standardnim devijacijama promenljivih X i Y.

Izraz za koeficijent korelacije je:

𝑟 =𝜇11

𝜎𝑥∙𝜎𝑦, −1 ≤ 𝑟 ≤ 1.

U razvijenom obliku navedeni izraz ima oblik:

r =∑ 𝑥𝑖∙𝑦𝑖−𝑛∙�̅�∙�̅�

√(∑ 𝑥𝑖2−𝑛�̅�2)(∑ 𝑦𝑖

2−𝑛�̅�2)

Koeficijent proste linearne korelacije pokazuje stepen zavisnosti između promenljivih i on

određuje veličinu disperzije (rasturanja) podataka oko regresione linije.

Osobine i tumačenje vrednosti koeficijenta proste linearne korelacije su:

• Koeficijent korelacije ima vrednost koja se kreće u rasponu od −1 do +1.

• Ako promenljive nisu povezane tj. nema linearne zavisnosti, r je jednak nuli.

• Kada većim vrednostima nezavisno promenljive X, odgovaraju i veće vrednosti zavisno promenljive Y

ili obrnuto opadanjem vrednosti nezavisne X, opadaju i vrednosti zavisne Y - onda je to pozitivna korelacija

(r > 0).

• Nasuprot tome, kada većim vrednostima nezavisno promenljive X, odgovaraju manje vrednosti zavisno

promenljive Y, odnosno opadanjem vrednosti nezavisne X rastu vrednosti zavisno promenljive Y - onda je

to negativna korelacija (r < 0).

Važi opšte pravilo:

• Što je vrednost koeficijenta proste linearne korelacije po apsolutnoj vrednosti bliža jedinici, to je zavisnost

među posmatranim pojavama jača.

Page 11: REGRESIONA I KORELACIONA ANALIZA...Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju

• Koeficijent korelacije u praksi skoro nikada nema vrednosti 1 ili −1, jer to bi značilo da između

posmatranih pojava postoji matematička, a ne statistička veza.

1.4 Reprezentativne mere linije regresije

Prva apsolutna mera odstupanja empirijskih tačaka od regresione linije naziva se standardnom

greškom regresije.

Druga mera koja se koristi kao relativni pokazatelj je koeficijent determinacije.

Da bi se utvrdile mere reprezentativnosti linije regresije potrebno je sagledati komponente

varijabiliteta zavisne promenljive. Ukupan varijabilitet jednim delom proizilazi zbog regresionog modela,

a drugi deo varijabiliteta Yi posledica je delovanja slučajne greške εi i ne može se objasniti regresionim

modelom.

Ukupno odstupanje zavisno promenljive Y mozemo tretirati kao zbir objašnjenog i neobjašnjenog

varijabiliteta.

(𝑦𝑖 − �̅�)=(𝑦�̂� − �̅�) + (𝑦𝑖 − �̂�𝑖)

Slika 2. Ukupan objašnjeni i neobjašnjeni varijabilitet

Jednakost važi kada obe strane jednakosti kvadriramo i sumiramo za sve vrednosti u uzorku.

Računa se suma kvadrata odstupanja:

∑(𝑦𝑖 − �̅�)2 = ∑(𝑦�̂� − �̅�)2 + ∑(𝑦𝑖 − �̂�𝑖)2 , i =1,2,..., n

Dobijena jednačina je jednačina analize varijanse.

Njene komponente su:

• Ukupna suma kvadrata (ukupan varijabilitet -the total sum of squares)

ST = ∑ (𝑦𝑖 − �̅�)2𝑛𝑖=1

• Objašnjena suma kvadrata (objašnjen varijabilitet ili regresiona suma -the sum of regresion due

to the linear regresion) SP je suma kvadrata odstupanja regresionih vrednosti od proseka:

Page 12: REGRESIONA I KORELACIONA ANALIZA...Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju

SP = ∑ (𝑦�̂� − �̅�)2𝑛𝑖=1

• Suma kvadrata neobjašnjenog varijabiliteta ili rezidualna suma – residual, sum of squares errors

SR = ∑ (𝑦𝑖 − �̂�𝑖)2𝑛𝑖=1

Jednačina analize varijanse se simbolički može zapisati:

ST = SP + SR.

1. Standardna greška ocene linearne regresije

Kako su ocenjena dva parametra a i b nepristrasna, ocenjena varijansa Se2 se dobija kada se

rezidualna suma kvadrata podeli sa n-2 brojem stepeni slobode. Takva ocena se često zove rezidualnom

varijansom.

𝑆𝑒2 =

𝑆𝑅

𝑛−2=

∑ (𝑦𝑖−�̂�𝑖)2𝑛𝑖=1

𝑛−2

Standardna greška regresije (Se) predstavlja meru odstupanja uzoračkih podataka od ocenjene

linearne regresije i dobija se kao kvadratni koren iz rezidualne varijanse tj.

𝑆𝑒 = √∑ (𝑦𝑖−�̂�𝑖)2𝑛

𝑖=1

𝑛−2=√

∑ 𝑦𝑖2−𝑎 ∑ 𝑦𝑖−𝑏 ∑ 𝑥𝑖𝑦𝑖

𝑛−2 , i=1,2,….,n.

Ako je Se = 0, regresija �̂� idealno ocenjuje zavisno promenljivu Y.

2. Koeficijent determinacije, koeficijent indeterminacije (alineacije)

Ukoliko bi jednačinu analize varijanse ST = SP + SR

podelili sa ST dobili bi jednakost:

1 =𝑆𝑃

𝑆𝑇+

𝑆𝑅

𝑆𝑇

Sledi

𝑆𝑃

𝑆𝑇 = 1 −

𝑆𝑅

𝑆𝑇

Leva strana dobijene jednakosti pokazuje koliko je učešće objašnjenog varijabiliteta u ukupnom

varijabilitetu i naziva se koeficijent determinacije, i obeležava se sa r2.

Koeficijent determinacije se može računati jednostavnijom formulom pomoću ocenjene vrednosti

nagiba b:

Page 13: REGRESIONA I KORELACIONA ANALIZA...Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju

𝑟2 = 𝑏2∑ 𝑥𝑖

2 − 𝑛�̅�2

∑ 𝑦𝑖2 − 𝑛�̅�2

Vrednost koeficijenta r2 varira i kreće se u intervalu od 0 do 1, tj.

0≤ r2 ≤ 1

Korigovani koeficijent determinacije je mera reprezentativnosti modela koja se izračunava

korigovanjem koeficijenta determinacije faktorom koji zavisi od broja stepena slobode:

�̅�2 = 1 −𝑛−1

𝑛−2(1 − 𝑟2).

Koeficijent alijenacije 1-r2, uslovljen je drugim faktorima i on predstavlja meru neobjašnjenog

varijabiliteta u ukupnom. Zbir objašnjenog (determinisanog) varijabiliteta i neobjašnjenog varijabiliteta je

uvek jednak jedinici, odnosno 100 %.

Chadockova skala ocene jačine veze između parova vrednosti dve promenljive:

r2 r Tumačenje

0 0 odsutnost veze

(0; 0,25] (0; 0,50] slaba veza

(0,25; 0,64] (0,50; 0,80] veza srednje jačine

(0,64; 1) (0,80; 1) čvrsta veza

1 1 potpuna veza

dr Slavica Dabetić

Page 14: REGRESIONA I KORELACIONA ANALIZA...Kako vrednost zavisne promenljive (Y) nije jednoznačno određena za zadanu vrednost nezavisne promenljive, statistički modeli izražavaju labaviju