25
Regresija i korelacija Goran Trajković septembar, 2008. godine

Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

  • Upload
    dinhanh

  • View
    245

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Regresija i korelacija

Goran Trajković

septembar, 2008. godine

Page 2: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Regresija i korelacija

Regresijom i korelacijom analizira se povezanost (asocijacija, odnos) dve ili više varijabli.

Korelacija podrazumeva analizu jačine i smera povezanosti.

Regresija podrazumeva analizu oblika i smera povezanosti i analizuu smislu nezavisnih/zavisnih (prediktor/ishod) varijabli sa ciljem predikcije. U regresionom modelu poznavanje vrednosti nezavisnih varijabli omogućava predikciju vrednosti zavisnih varijabli.Uopšte uzev, kad god postoji značajna korelacije između dve varijable može se vrednost jedne varijable iskoristiti za predikciju vrednosti druge varijable.

Page 3: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Karakteristike povezanostiSmer povezanosti•Pozitivan•Negativan

Jačina povezanosti•Deterministička (funkcionalna) povezanost•Stohastička (statistička) povezanost

Oblik povezanosti•Linearan•Nelinearan

Zavisno od broja varijabli:•Jednostruka (prosta) povezanost•Višestruka (multipla) povezanost

Za sva obeležja, čiji se odnos analizira metodama regresije i korelacije, treba simultano posedovati podatke sa istih statističkih jedinica.

Page 4: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Dijagram rasturanjaPozitivna linearna

povezanost(r = 0.65)

Negativna linearna povezanost(r = -0,68)

Nemapovezanosti

(r = 0.00)

Krivolinijskapovezanost

Svaka tačka na dijagramu rasturanja predstavlja par podataka sa jedne statističke jedinice.Dijagram rasturanja sugeriše oblik odnosa dve varijable.Linearni odnos dve varijable postoji ako je prava linija provučena kroz sredinu tačaka na dijagramu rasturanja najprihvatljivija za date opservacije. Koeficijent korelacije je mera bliskosti tačaka i prave linije.

Page 5: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Pearsonov koeficijent linearne korelacije

SDxy – kovarijansa, SDx i SDy – standardne devijacije varijabl x i y

Testiranje hipoteze da li postoji povezanost dve varijable:H0: ρ = 0, H1: ρ ≠ 0

Nulta hipotezu testira se t-testom:

za broj stepena slobode DF = n – 2

yx

xy

SDSDSD

r =

yxnxy

SDxy −= ∑ 22

xnx

SDx −= ∑ 22

yny

SDy −= ∑

212

rnrt−−

=

Page 6: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

•Bezdimenzionalna veličina tj. nema jedinicu mere.•Vrednosti koeficijenta linearne korelacije kreću se uopsegu od –1 do 1.

•U procesu izračunavanja varijable označene kao x i y mogu zamenitimesta bez uticaja na konačnu vrednost koeficijenta korelacije.

•Smer povezanosti:•Vrednosti od 0 do 1 ukazuju na pozitivnu povezanost. Porast jedne varijable praćen je porastom druge varijable.•Vrednosti od –1 do 0 ukazuju na negativnu povezanost. Porast jedne varijable praćen je padom druge varijable.

•r2 – koeficijent determinacije. Predstavlja proporciju zajedničkog varijabiliteta dve varijable

Osobine Pearsonovog koeficijenta linearnekorelacije

Page 7: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Jačina povezanosti0.70 ili više Vrlo jaka povezanost0.50 – 0.69 Jaka povezanost0.30 – 0.49 Osrednja povezanost0.11 – 0.29 Slaba povezanost0.01 – 0.09 Zanemarljiva povezanost0.00 Nepostojanje linearne povezanosti (ne isključuje

postojanje nelinearnog oblika povezanosti)

Interpretacija Pearsonovog koeficijentalinearne korelacije

Page 8: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Model jednostruke (proste) linearne regresije

Regresiona jednačina

bxay +=ˆočekivana vrednost zavisne varijable (ishodna varijabla)

nezavisna varijabla, eksplanator, prediktor

odsečak na ordinati (konstanta). Odgovara prosečnoj ocenjenoj vrednosti zavisne varijable kada je vrednost nezavisne varijablajednaka nuli.

nagib u regresionom modelu. Odgovara prosečnoj promeni očekivane vrednosti zavisne varijable za jediničnu promenu nezavisne varijable.

a, b – regresioni koeficijentia, b su uzoračke ocene populacionih parametara α i β

b

axy

Page 9: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Regresiona linija

a a

Δy

Δx

b = Δy / Δx

xx

y y

bxay +=ˆ

Page 10: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Metod najmanjih kvadrata

a, b su određeni metodom najmanjih kvadrata na taj način da je suma kvadrata vertikalnih odsupanja tačaka od linije regresije najmanja

x

y

Page 11: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Ocena nagiba u regresionom modelu:

Ocena konstante u regresionom modelu:

2x

xy

SDSD

b =

xbya vv −=

Ocena regresionih koeficijenata

Regresiona jednačina:

bxay +=

Page 12: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Pretpostavke za primenu regresionog modela

•Odnos varijabli mora biti linearan•Merenje je najmanje na ordinalnom nivou•Opservacije su nezavisne (jedna opservacija po jedinici analize)•Raspodela skorova Y varijable bi trebala da bude normalna za sve vrednosti X varijable•Varijabilitet skorova Y varijable bi trebao da bude konstantan za sve vrednosti X varijable

Page 13: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Evaluacija regresionog modela

Tabela analize varijanseTotalni varijabilitet zavisne (Y) varijable je podeljen na komponente:•Varijabilitet objašnjen regresijom•Rezidualni (neobjašnjeni) varijabilitet

R2 – Proporcija varijanse zavisne varijable koja je objašnjena nezavisnom varijablom

Standardna greška regresije

Page 14: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Predikcija pomoću regresionog modela –interpolacija i ekstrapolacija

Interpolacija – predviđanje unutar opsega varijable xEkstrapolacija – predviđanje van opsega varijable x

Položaj regresione linije može se odrediti izračunavanjem vrednosti zavisne varijable za dve proizvoljno uzete vrednosti nezavisne varijable.

Page 15: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Druge mere povezanosti

Spearman ρ (rs) – Koeficijent korelacije za podatke saordinalne skale merenja. Neparametarski koeficijent korelacije.

Point-biserial koeficijent korelacije – Korelacija podataka saintervalne (ili omerne) skale merenja i dihotomnih podataka.

Phi koeficijent – Mera povezanosti kada su podaci obevarijable dihotomni.

Page 16: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Neparametarski metod za ocenu jačine povezanosti koji se primenjuje kada:•Najmanje jedna varijabla merena na ordinalnoj skali•Podaci za najmanje jednu varijablu dati su u vidu rangova•Najmanje jedna varijabla nema normalnu raspodelu•Odnos između varijabli nije linearan

Spearmanov koeficijent korelacije rangova

Page 17: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

•Dodeliti rang vrednostima x varijable vodeći računa da rangiranje počne od najmanjeg do najvećeg podatka u rastućem nizu ili obrnuto. Podacima sa istim vrednostima obeležja dodeljuje se tzv. vezani rang (prosečna vrednost rangova koji pripadaju tim podacima)•Isto to učiniti i sa varijablom y•Izračunati vrednosti koeficijenta korelacije rangova pomoću formule:

Izračunavanje Spearmanovog koeficijentakorelacije rangova

( )16

1 2

2

−−= ∑

nnd

r iS

d – razlika rangova, n – broj jedinica analize

Page 18: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Spearmanov koeficijent korelacije rangovaTestiranje hipoteze da li postoji povezanost dve varijable

Hipoteze: H0: ρ = 0, H1: ρ ≠ 0

Ako je broj jedinica analize ≥ 10 nulta hipotezu se testira t-testom za broj stepena slobode DF = n – 2:

212

SS r

nrt−−

=

Ako je broj jedinica analize ≤ 9, empirijske vrednosti testa se upoređuju sa kritičnim tabličnim vrednostima za odgovarajući broj parova podataka i nivo značajnosti

Page 19: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Primer:Za dvanaest ispitanika muškog pola data je starost i vrednosti sistolne tenzije. Ispitati povezanost ova dva obeležja. Prognozirati sistolnu TA za starost od 77 godina.

130130353512121351356363111114014045451010145145414199160160707088180180515177155155555566185185737355150150757544170170717133165165595922125125393911

Sistolna Sistolna TATA

StarostStarostIDID

Dijagram rasturanja starosti i sistolne tenzije

80

100

120

140

160

180

200

30 40 50 60 70 80Starost (godine)

Sist

olna

TA

(mm

Hg)

Page 20: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

105640105640286250286250404234042318401840677677ΣΣ455045501690016900122512251301303535850585051822518225396939691351356363630063001960019600202520251401404545594559452102521025168116811451454141

11200112002560025600490049001601607070918091803240032400260126011801805151852585252402524025302530251551555555

135051350534225342255329532918518573731125011250225002250056255625150150757512070120702890028900504150411701707171973597352722527225348134811651655959487548751562515625152115211251253939

xx··yyyy22xx22yyxx

4.5612677

=== ∑n

xxv 3.153

121840

=== ∑n

yyv

Page 21: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Postoji statistički značajna jaka pozitivna povezanost starosti i sistolneTA (r = 0.605, t = 2.4, DF =10, p ≤ 0.05).Koeficijent determinacije = 0.366

6.134.561240423 22

2

=−=−= ∑ xnx

SDxv

5.183.15312

286250 222

=−=−= ∑ yny

SDyv

78.1523.1534.5612

105640=⋅−=−= ∑ yx

nxy

SDxyvv

605.05.186.13

78.152=

⋅==

yx

xy

SDSDSD

r

404.2605.01212605.0 2 =−

−=t

Page 22: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Ocena nagiba u regresionom modelu:

Ocena konstante u regresionom modelu:

823.074.18578.152

2 ===x

xy

SDSD

b

93.10642.56823.03.153 =⋅−=−= xbya vv

Ocena regresionih koeficijenata

Regresiona jednačina:

xbxay ⋅+=+= 823.093.106

Page 23: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Prognozirana vrednost sistolne TA za starost od 77 godina iznosi:

3.17077823.093.106 =⋅+=+= bxay

80

100

120

140

160

180

200

30 40 50 60 70 80

Starost (godine)

Sis

toln

a TA

(mm

Hg

Page 24: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

Primer: Za 10 trudnica data je telesna masa na pocetku trudnoće i telesna masa novorođenčadi. Da li postoji povezanost ova dva obeležja? Testirati za nivo značajnosti 0.05.

72.2572.251.51.52800280010107070

55

2.52.57744997711

2.52.577

RxRx

30003000

2900290037003700320032003600360031003100280028003300330034003400

tm novorođenčeta

44

331010669955

1.51.57788

RyRy

112.00112.00ΣΣ4.004.006622

0.250.2559594.004.0063631.001.0060601.001.0066779.009.0063630.250.255757

12.2512.2559590.000.006363

dd22tm napocetkutrudnoće

Page 25: Regresija i korelacija - Универзитет у Београду ... ·  · 2012-09-04Regresija i korelacija Regresijom i korelacijom analizira se povezanost (asocijacija,

( ) ( ) 321.011010

112611

61 22

2

=−

⋅−=

−−= ∑

nnd

r iS

959.0321.01210321.0

12

22 =−

−=

−−

=S

S rnrt

Vrednosti koeficijenta korelacije rangova je:

Testiranje nulte hipoteze t-testom:

Ne postoji statistički značajna povezanost telesne mase trudnicana početku trudnoće i telesne mase novorođenčadi (rS = 0.32, t=0.96, DF =8, p > 0.05).