Korelacija i Regresija Visestruka Korelacija

Embed Size (px)

Citation preview

Peto poglavlje REGRESIJA I NEPARAMETARSKO TESTIRANJE

Regresiona analiza je metod kojim se ispituje i utvruje zavisnost izmeu dvije ili vie promjenljivih, tj. sagledava uticaj promjene jedne ili vie promjenljivih na promjenu drugih promjenljivih. Pri tome su x1, x2, ..., xk nezavisne promenljive koje utiu i uslovljavaju veliinu zavisno promenljive y. Nezavisno promenljive se u teoriji eksperimenta nazivaju faktori, a zavisno promenljiva rezultat eksperimenta. Naziv regresija (povlaenje, vraanje unazad) nastao je sluajno i nema nikakve veze sa metodom. Potie iz prouavanja nasljea (uticaj visine oeva na visinu sinova) koju je izvodio engleski antropolog F. Galton krajem XIX vijeka. Pokazalo se da izmeu njih postoji zavisnost, odnosno tendencija, da sin bude iste visine kao i otac, ali da su sinovi ipak manji od oeva. Od tada je metod ispitivanja zavisnosti izmeu pojava, odnosno povlaenje od osnovnog zakljuka, u matematikoj statistici dobio naziv regresiona analiza. U matematici postoje dva oblika zavisnosti : funkcionalna zavisnost izraena pomou matematikih jednaina tako da svakoj kombinaciji vrednosti nezavisno promenljivih x1, x2, ..., xk tano odgovara vrijednost za y i stohastika ili statistika zavisnost koja se na osnovu eksperimentalnih podataka moe izraziti pomou oekivane zavisnosti ili regresione jednaine (aproksimativne krive), tako da svakoj mjerenoj kombinaciji vrijednosti nezavisno promenljivih x1, x2, ..., xk odgovara raunska vrednost za y ) i greka eksperimenta (regresije) =y- y ) , od ije veliine zavisi preciznost predvianja regresione jednaine. To znai da se kao rezultat regresione analize dobija regresiona zavisnost, koja se esto naziva matematiki model objekta istraivanja y =f(x1, x2, ..., xk) i standardna greka regresije . U svakoj naunoj disciplini osnovni problem je utvrivanje veza izmeu promjenljivih veliina. Te veze mogu biti potpuno odreene. Na primjer, u fizici se moe utvrditi tana funkcionalna zavisnost izmeu udaljenosti objekata od zemlje i gravitacione sile, ili izmeu gasa u zatvorenoj posudi i temperature. Meutim, u biolokim i drutvenim naukama moramo se suoiti sa mnogo komplikovanijom situacijom. Ovdje imamo daleko manje razloga da oekujemo otkrivanje tano odreene veze izmu promjenljivih veliina. Zato su se, u ovim

naunim disciplinama, morala koristiti statistika izuavanja koja mjere prosjene promjene jedne veliine izazvane promjenama druge veliine. Regresiona analiza upravo ima za cilj da utvruje i mjeri veze takvog tipa Regresiona analiza predstavlja bilo koji statistiki metod gdje srednja vrijednost jedne ili vie nasuminih varijabli je procjenjena na osnovu neke druge izmjerene nasumine varijable. Predstavlja odnos izmeu odabranih vrijednosti jedne varijable (varijableX) i s njima povezanih vrijednosti druge varijable (varijableY) Vrijednosti mjerenja predstavljene su kao parovi rezultata koji se sastoje od podatka za nezavisnu varijablu (obino varijablu X) i od podatka za zavisnu varijablu (obino varijablu Y). Parovi rezultata prikzani su kao take u koordinatnom sustavu koji na osi X ima vrijednosti za varijablu X, a na osi Y vrijednosti za varijablu Y. Postoje dva tipa regresione analize, ovisno od toga da li podaci se mogu aproximirati pravcem (linearna) ili ne mogu (nelinearna).

Dijagrami rasipanja/ rasprenja i regresione linijeDijagram rasprenja (rasipanja) predstavlja grafiki prikaz zavisnosti i meuzavisnosti izmeu promenljivih, za koje se ne moe utvrditi funkcionalna zavisnost, niti se moe precizno iskazati odreenje koji od datih skupova podataka predstavlja nezavisnu, a koji zavisnu promjenljivu. Dijagram ili grafik rasipanja se, za jednofaktorni eksperiment (zavisnost promjenljivih x i y), konstruie na osnovu dobijenog eksperimentalnog skupa podataka, odnosno izmjerenih vrednosti parova x i y, u pravouglom koordinatnom sistemu sa specijalno odabranim skalama mjerenja na apscisnoj i ordinatnoj osi. Na apscisnoj osi nanose se vrijednosti nezavisno promjenljive x, a na ordinatnoj osi vrijednosti zavisno promjenljive y, tj. vrijednosti jedne varijable prikazane su na x osi, a druge na y osi dijagrama. Tako konstruisan grafik naziva se grafik funkcija eksperimentalnih podataka, odnosno dijagram rasprenja, tzv. scatter dijagram. Dijagram rasprenja, na oigledan nain, omoguava slikovitu predstavu o tome da li postoji ili ne postoji zavisnost i meuzavisnost izmeu promjenljivih x i y kao i njen tok (ponaanje) funkcije, tj. pokazuje kako se funkcija mijenja kada njen argument uzima sve vrijednosti iz oblasti definisanosti. Tako ,naprimjer, na osnovu nacrtanih eksperimentalnih taaka moe se vizuelno uoiti oblik aproksimativne linije: prava, kriva, monotono rastua, opadajua ili periodina linija, take maksimuma i/ili minimuma ili prevojne take. Prevojne take eksperimentalne krive na dijagramu

rasipanja mogu znaiti granicu izmeu dva razliita mehanizma iste pojave ili granicu poremeaja u mijerenju. Dijagram rasipanja, takoer, na oigledan nain otkriva ekstremne vrijednosti, pa je najpogodnija metoda analize pri odreivanju optimuma. Na dijagramu rasipanja se, isto tako, mogu lako uoiti grube greke, a esto i sistematske i sluajne greke ravnomjernim rasipanjem eksperimentalnih podataka oko aproksimativne krive. Dijagram rasipanja se koristi da bi se ilustrovalo kako izlazne karakteristike objekta istraivanja variraju zbog nekog odreenog faktora (promjenljive). Na slici 1 prikazani su razliiti dijagrami zavisnosti i meuzavisnost izmeu dvije promenljive x i y. Na osnovu izgleda oblika eksperimentalnih taaka u dijagramu rasipanja (slika 1) moe se utvrditi karakter i intenzitet istraivane zavisnosti i meuzavisnosti. Zavisnost i meuzavisnost, na osnovu dijagrama rasipanja, moe biti: linearna zavisnost eksperimentalnih taaka, koja predstavlja pravolinijski oblik dijagrama rasipanja . Slika 1-a i 1-b. nelinearna zavisnost eksperimentalnih taaka, koja predstavlja krivolinijski oblik dijagrama rasipanja. Slika 1-c. Zavisnost i meuzavisnost, zavisno od oblika dijagrama rasipanja, moe biti: rastua ili pozitivna zavisnost eksperimentalnih taaka, koja na dijagramu rasipanja oznaava upravo proporcionalnu vezu izmeu promenljivih, odnosno sa porastom nezavisno promenljive x zavisno promenljiva y, takoe, raste (sluaj kada je koeficijent korelacije pozitivan, vei od nule: 0-1) . Slika 1-b. Slika 1- (razliiti oblici dijagrama rasipanja zavisnosti izmeu dvije promjenjive)

Intenzitet veze, koja se ocjenjuje na osnovu poloaja eksperimentalnih taaka u dijagramu rasipanja, moe biti: jaka meuzavisnost, koja pokazuje da su eksperimentalne take na dijagramu rasipanja vrlo bliske nekoj funkcionalnoj zavisnosti, odnosno teorijskoj aproksimativnoj krivoj (slika 1-a, slika 1-b i slika 1-c), (ako se sve eksperimentalne take na dijagramu rasipanja nalaze na aproksimativnoj krivoj tada se kae da postoji potpuna meuzavisnost, to je jedna teorijska mogunost, sluaj kada je i koeficijent korelacije jednak jedinici: r=1) slaba meuzavisnost, koja pokazuje da su eksperimentalne take na dijagramu rasipanja nisu bliske nijednoj teorijskoj aproksimativnoj krivoj (slika 1-d), (ako eksperimentalne take na dijagramu rasipanja oznaavaju nezavisnost jedne promenljive od druge tada se kae da postoji potpuno odsustvo meuzavisnosti, sluaj kada je i koeficijent korelacije jednak nuli: r=0).

Gornji dijagram rasipanja predstavlja vezu izmeu starosti i veliine biljke. Jasno je sa dijagrama rasipanja da kako biljka stari ima tendenciju da raste. Ako je sluaj da take slijede neki linearni model, onda kaemo da je visoka linearna korelacija, u suprotnom, ako take ne slijede neki linearni obrazac, kaemo da nema linearne korelacije. Ako podaci do nekog nivoa slijede linearnu putanju, kaemo da je umjerena linearna korelacija. Primjer 1: Kao primjer zavisnosti izmeu viskoziteta i vremena t, pri sintezi dugouljne alkidne smole EPOAL 3065, na slici 2 prikazan je dijagram rasipanja =f(t). Zavisnost =f(t) moe se aproksimirati eksponencijalnom regresijom oblika (slika 2):

Dijagram rasipanja se koristi da bi se ilustrovalo kako izlazne promjenljive karakteristika kvaliteta (objekta istraivanja) variraju zbog nekog odreenog faktora (promenljive). Eksperimentalni podaci zavisnosti izmeu viskoziteta i vremena t, pri sintezi alkidnih smola, mogu se aproksimirati eksponencijalnom regresijom. Linearna regresiona prava Ukoliko pretpostavimo linearnu vezu izmeu posmatrnih varijabli problem koji se postavlja u ovom sluaju je slijedei: kako izabrati kriterij konstrukcije i zatim konstruisati najbolju pravu prema tom kriteriju konstrukcije. Traimo pravu koja najbolje odgovara tim podacima,ija je jednaina.

Gdje su a i b nepoznati parametri koje treba ocijeniti, konstantni lan a predstavlja vrijednost regresijske funkcije kada je nezavisna varijabla jednaka nuli. Regresijski koeficijent b pokazuje koliko se linearno mijenja vrijednost zavisne varijable ako se nezavisna varijabla promijeni (povea ili smanji) za jedinicu mjere. a i b emo pronai na slijedei nain:

Primjer 2: Pretpostavimo da je studija napravljena da bi se utvrdilo gubitak teine, nakon uzimanja raznih pilula za dijetu, u kombinaciji sa vjebanjem. Ako je prava regresije: y=3+2x, gdje x oznaava grame pilula na dan, a y predstavlja gubitak teine, onda moemo rei da samo sa vjebanjem i bez uzimanja pilula gubitak na teini dnevno e biti 3 kilograma. Ako osoba uzme jo i gram pilula, izgubie na teini dodatna dva kilograma. Ako na primjer osoba uzme 5 grama pilula, moe se oekivati da e izgubiti 13 kilograma. Podaci su prikupljeni da bi se usporedilo duina vremenea x(u mjesecima) koje su parovi proveli u vezi, sa koliinom novca y, koji su potroili kada bi izlazili vani. Jednaina regresionog pravca je: y=70-5x Y-odsjeak nam kae da je na poetku veze prosjeni sastanak kotao 70$. A vidimo da svakim dodatnim mjesecom sastank je kotao 5$ vie nego prethodni. Moemo

koristiti regresionu pravu da bismo predvidjeli koliinu novca poslije, recimo 6 mjeseci trajanja veze. Imamo:

Primjer 4: Uzorak se sastoji od 10 podataka o iznosima zahtjeva za naknadu teta i korespodentnih iznosa koje je osiguravajue drutvo stvarno platilo (u jedinicama od po 100 km).

Oito se radi o linearnoj povezanosti izmeu opaenih vrijednosti varijabli X = zahtjev (za isplatom teta) i Y = isplata (od strane drutva). U analizi linearne zavisnosti dvije varijablie, sljedee se statistike koriste:

DEFINICIJA KORELACIJE Korelacija (lat. con = sa, relatio = odnos) predstavlja suodnos ili meusobnu povezanost izmeu razliitih pojava predstavljenih vrijednostima dvaju varijabli. Pri tome povezanost znai da je vrijednost jedne varijable mogue sa odreenom vjerojatnou predvidjeti na osnovu saznanja o vrijednosti druge varijable. Promjena vrijednosti jedne varijable utjee na promjenu vrijednosti druge varijable. Varijabla koja svojom vrijednou utjee na drugu varijablu naziva se neovisna varijabla. Varijabla na koju se utjee naziva se ovisna varijabla. Mogui su sluajevi da dvije varijable istovremeno utjeu jedna na drugu, pa su u tom sluaju obje varijable istovremeno i ovisne i neovisne. Odnos izmeu varijabli Take presjeka kreu se oko odreenog pravca koji se naziva linija regresije. to su take blie pravcu, korelacija je vea. to su take rasprenije korelacija je manja. U praksi je vizualno vrlo teko, osim u sluaju savrene korelacije odrediti stupanj povezanosti izmeu varijabli. Ovisno o meusobnom odnosu dvaju varijabli meu kojima postoji korelacija, ona moe biti linearna ili nelinearna. Kod linearne korelacije, toke su grupirane oko pravca. Kod nelinearne korelacije, toke su grupirane oko neke druge krivulje. Dvije varijable koje promatramo sa ciljem utvrivanja njihove korelacijske povezanosti mogu biti u 4 razliita odnosa: 1. kada mala vrijednost jedne varijable odgovara maloj vrijednosti druge varijable, kao i kada velika vrijednost jedne varijable odgovara velikoj vrijednosti druge varijable, radi se o pozitivnoj korelaciji. 2. kada mala vrijednost jedne varijable odgovara velikoj vrijednosti druge varijable i obratno, radi se o negativnoj korelaciji. 3. kada vrijednost jedne varijable u nekim intervalima odgovara maloj vrijednosti druge varijable, a u drugim intervalima velikoj

vrijednosti, radi se o nemonotonoj korelaciji. Ako se korelacija vie nego jednom mijenja od pozitivne prema negativnoj, takva korelacija naziva se ciklika korelacija. 4. kada se na osnovu vrijednosti jedne varijable ne moe zakljuiti nita o vrijednosti druge varijable, tada korelacija ne postoji. Toke u takvom grafu su rasprene. Koeficijenti korelacije Koeficijenti korelacije izraavaju mjeru povezanosti izmeu dvije varijable u jedinicama neovisnima o konkretnim jedinicama mjere u kojima su iskazane vrijednosti varijabli. Postoji vie koeficijenata korelacije koji se koriste u razliitim sluajevima. U praksi se prilikom rada s linearnim modelima najee koristi Pearsonov koeficijent korelacije (produkt moment koeficijent korelacije). Prilikom rada s modelima koji nisu linearni najee se koristi Spearmanov koeficijent korelacije (produkt rang koeficijent korelacije). Pearsonov koeficijent korelacije (engl., Pearson correlation coefficient) Moemo rei da postoji lineara povezanostizmeu x i y ako je nacrtan pravac kroz take koji omoguava najprikladniju procjenu opaenog odnosa. Mi mjerimo koliko su naa opaanja blizu pravcu koji najbolje opisuju njihovu linearnu povezanost raunanjem Pearsonovog koeficijenta korelacije umnoaka (engl. Pearson product moment correlation coefficient), najee jednostavno zvan koeficijent korelacije (engl. Correlation coefficient). Njegova tana vrijednost u populaciji, , procijenjuje se u uzorku s r. Pearsonov ili uzoraki koeficijent korelacije koristi se u sluajevima kada izmeu varijabli posmatranog modela postoji linearna povezanost i neprekidna normalna distribucija. Vrijednost Pearsonovog koeficijenta korelacije kree se od +1 (savrena pozitivna korelacija) do 1 (savrena negativna korelacija). Predznak koeficijenta nas upuuje na smjer korelacije da li je pozitivna ili negativna, ali nas ne upuuje na snagu korelacije. Pearsonov koeficijent korelacije bazira se na usporedbi stvarnog utjecaja posmatranih varijabli jedne na drugu u odnosu na maksimalni mogui utjecaj dviju varijabli. Oznaava se malim slovom r. Za izraunavanje koeficijenta korelacije potrebna su tri razliite sume kvadrata (SS): suma kvadrata varijable X, suma kvadrata varijable Y i suma umnoka varijabli X i Y. Suma kvadrata varijable X jednaka je sumi kvadrata odstupanja vrijednosti varijable X od njezine prosjene vrijednosti:

Prosjena vrijednost varijable X jednaka je:

Suma kvadrata varijable Y jednaka je sumi kvadrata odstupanja vrijednosti varijable Y od njezine prosjene vrijednosti:

Prosjena vrijednost varijable Y jednaka je:

Suma umnoaka varijabli X i Y jednaka je sumi umnoaka odstupanja vrijednosti varijabli X i Y od njihovih prosjeka:

Koeficijent korelacije jednak je omjeru:

Pogreno je raunati Pearsonov koeficijent korelacije, r:

kada postoji ne-linearna povezanost dvije varijable, kao npr. kvadratna povezanost (quadratic relationship) kada podaci ukljuuju vie od jednog opaanja za svakog ispitanika, - kada postoji jedan ili vie nepodobnih lanova grupe (engl. outliers) - kada se podaci sastoje od subgrupa pojedinaca za koje je prosjena vrijednost opaanja za barem jednu od varijabli razliita.

Testiranje hipoteza za Pearsonov koeficijent korelacije

elimo saznati da li postoji ikakva linearna povezanost (korelacija) izmeu dvije numerike varijable. Na uzorak se sastoji od n nezavisnih parova vrijednosti x i y. Pretpostavljamo da barem jedna od dvije varijable slijedi normalnu distribuciju.

Spearmanov koeficijent korelacije Spearmanov koeficijent korelacije (produkt rang korelacije) koristi se za mjerenje povezanosti izmeu varijabli u sluajevima kada nije mogue primjeniti Pearsonov koeficijent korelacije. Bazira se na tome da se izmjeri dosljednost povezanosti izmeu poredanih varijabli, a oblik povezanosti (npr. linearni oblik koji je preduslov za koritenje Pearsonovog koeficijenta) nije bitan. Sluajevi u kojima se koristi Spearmanov koficijent su npr. kada meu varijablama ne postoji linearna povezanost, a nije mogue primjeniti odgovarajuu transformaciju kojom bi se povezanost prevela u linearnu.

Koeficijent determinacije

Matrica korelacije Ponekad nam u istraivanju nije dovoljna informacija o korelaciji dvije promatrane varijable, ve nas zanima na koji nain vie varijabli meusobno utie jedna na drugu. Nakon to se promatranjem meusobnog odnosa svih parova dvaju varijabli utvrdi njihova meusobna korelacija, izrauje se matrica korelacije. Redovi i kolone matrice predstavljaju promatrane varijable, a podatak na presjeku odreenog reda i kolone predstavlja koeficijent korelacije izmeu varijabli u odgovarajuem redu i koloni. Matrica na dijagonali ima podatak 1 (poto je svaka varijabla sama sa sobom u potpunoj korelaciji). Dobivena matrica je simetrina - podaci iznad i ispod dijagonale za isti par varijabli su identini. Zbog tih svojstava matrica je redundantna i dovoljno je promatrati jedan njezin dio, iznad dijagonale ili ispod dijagonale. Vizualno moemo utvrditi u kojoj mjeri su dvije pojedinane varijable u korelaciji, koje varijable u meusobnom odnosu imaju najvei ili najmanji koeficijent korelacije, te koji skupovi

varijabli se istiu slinim koeficijentima. Vizualno ne moemo utvrditi na koji nain i u kolikoj mjeri vie varijabli zajedniki utie na drugu pojedinanu varijablu. Viestruka korelacija (multiple korelacija) Viestruka korelacija je analitika procedura kojom se utvruje na koji nain vie neovisnih varijabli utie na jednu ovisnu varijablu. Koeficijent viestruke korelacije oznaava se velikim slovom R. Za raunanje koeficijenta viestruke korelacije potrebno je prvo izraunati koeficijente korelacije izmeu svakog para varijabli koje posmatramo. Odnos koeficijenata korelacije varijabli moe se prikazati matricom korelacije. Dobivene koeficijente potrebno je uvrstiti u formulu za izraun viestruke korelacije. Podaci viestruke korelacije kod koje se promatra meusobni uticaj tri varijable moe se prikazati trodimenzionalnim dijagramom rasprenja scatter diagram. Formula za izraun viestruke korelacije kada posmatramo uticaj dvije neovisne varijable na treu, ovisnu, je slijedea:

Neovisne varijable ije vrijednosti promatramo oznaene su sa X1 i X2, a ovisna varijabla oznaena je sa Y. Koeficijent viestruke korelacije poprima vrijednost od 1 do +1, i u njegovoj interpretaciji primjenjuju se ista pravila kao kod interpretiranja koeficijenta jednostavne korelacije. Kako bi raun viestruke korelacije bio to precizniji, potrebno je koristiti vei uzorak sa vie vrijednosti varijabli nego u sluaju raunanja koeficijenata kod jednostavne korelacije. Raunanje korelacije Prilikom utvrivanja korelacije dvaju varijabli, vrlo je vano na ispravan nain izabrati varijable koje se posmatraju. Vrijednosti varijabli bi trebale biti izabrane iz sluajnoga skupa. to je vei broj varijabli koje se posmatraju, to e rezultati biti precizniji. Poveanje broja promatranih vrijednosti varijabli moe u velikoj mjeri promijeniti rezultate izraunavanja. Jednostavni linearni regresijski model Pretpostavke za jednostavnu linearnu i multiplu regresiju:

Odnos izmeu x i y je linearan (uoi razliku izmeu ne-linearne i krivolinijske asocijacije moe biti transformirana). Sve varijable su nezavisne, nema korelacije s bilo kojom treom varijablom. Za svaki X, vrijednosti Y su distribuirani normalno Za svaki X, Y distribucija ima istu varijancu.