Upload
dinhanh
View
245
Download
1
Embed Size (px)
Citation preview
Regresija i korelacija
Goran Trajković
septembar, 2008. godine
Regresija i korelacija
Regresijom i korelacijom analizira se povezanost (asocijacija, odnos) dve ili više varijabli.
Korelacija podrazumeva analizu jačine i smera povezanosti.
Regresija podrazumeva analizu oblika i smera povezanosti i analizuu smislu nezavisnih/zavisnih (prediktor/ishod) varijabli sa ciljem predikcije. U regresionom modelu poznavanje vrednosti nezavisnih varijabli omogućava predikciju vrednosti zavisnih varijabli.Uopšte uzev, kad god postoji značajna korelacije između dve varijable može se vrednost jedne varijable iskoristiti za predikciju vrednosti druge varijable.
Karakteristike povezanostiSmer povezanosti•Pozitivan•Negativan
Jačina povezanosti•Deterministička (funkcionalna) povezanost•Stohastička (statistička) povezanost
Oblik povezanosti•Linearan•Nelinearan
Zavisno od broja varijabli:•Jednostruka (prosta) povezanost•Višestruka (multipla) povezanost
Za sva obeležja, čiji se odnos analizira metodama regresije i korelacije, treba simultano posedovati podatke sa istih statističkih jedinica.
Dijagram rasturanjaPozitivna linearna
povezanost(r = 0.65)
Negativna linearna povezanost(r = -0,68)
Nemapovezanosti
(r = 0.00)
Krivolinijskapovezanost
Svaka tačka na dijagramu rasturanja predstavlja par podataka sa jedne statističke jedinice.Dijagram rasturanja sugeriše oblik odnosa dve varijable.Linearni odnos dve varijable postoji ako je prava linija provučena kroz sredinu tačaka na dijagramu rasturanja najprihvatljivija za date opservacije. Koeficijent korelacije je mera bliskosti tačaka i prave linije.
Pearsonov koeficijent linearne korelacije
SDxy – kovarijansa, SDx i SDy – standardne devijacije varijabl x i y
Testiranje hipoteze da li postoji povezanost dve varijable:H0: ρ = 0, H1: ρ ≠ 0
Nulta hipotezu testira se t-testom:
za broj stepena slobode DF = n – 2
yx
xy
SDSDSD
r =
yxnxy
SDxy −= ∑ 22
xnx
SDx −= ∑ 22
yny
SDy −= ∑
212
rnrt−−
=
•Bezdimenzionalna veličina tj. nema jedinicu mere.•Vrednosti koeficijenta linearne korelacije kreću se uopsegu od –1 do 1.
•U procesu izračunavanja varijable označene kao x i y mogu zamenitimesta bez uticaja na konačnu vrednost koeficijenta korelacije.
•Smer povezanosti:•Vrednosti od 0 do 1 ukazuju na pozitivnu povezanost. Porast jedne varijable praćen je porastom druge varijable.•Vrednosti od –1 do 0 ukazuju na negativnu povezanost. Porast jedne varijable praćen je padom druge varijable.
•r2 – koeficijent determinacije. Predstavlja proporciju zajedničkog varijabiliteta dve varijable
Osobine Pearsonovog koeficijenta linearnekorelacije
Jačina povezanosti0.70 ili više Vrlo jaka povezanost0.50 – 0.69 Jaka povezanost0.30 – 0.49 Osrednja povezanost0.11 – 0.29 Slaba povezanost0.01 – 0.09 Zanemarljiva povezanost0.00 Nepostojanje linearne povezanosti (ne isključuje
postojanje nelinearnog oblika povezanosti)
Interpretacija Pearsonovog koeficijentalinearne korelacije
Model jednostruke (proste) linearne regresije
Regresiona jednačina
bxay +=ˆočekivana vrednost zavisne varijable (ishodna varijabla)
nezavisna varijabla, eksplanator, prediktor
odsečak na ordinati (konstanta). Odgovara prosečnoj ocenjenoj vrednosti zavisne varijable kada je vrednost nezavisne varijablajednaka nuli.
nagib u regresionom modelu. Odgovara prosečnoj promeni očekivane vrednosti zavisne varijable za jediničnu promenu nezavisne varijable.
a, b – regresioni koeficijentia, b su uzoračke ocene populacionih parametara α i β
b
axy
Regresiona linija
a a
Δy
Δx
b = Δy / Δx
xx
y y
bxay +=ˆ
Metod najmanjih kvadrata
a, b su određeni metodom najmanjih kvadrata na taj način da je suma kvadrata vertikalnih odsupanja tačaka od linije regresije najmanja
x
y
Ocena nagiba u regresionom modelu:
Ocena konstante u regresionom modelu:
2x
xy
SDSD
b =
xbya vv −=
Ocena regresionih koeficijenata
Regresiona jednačina:
bxay +=
Pretpostavke za primenu regresionog modela
•Odnos varijabli mora biti linearan•Merenje je najmanje na ordinalnom nivou•Opservacije su nezavisne (jedna opservacija po jedinici analize)•Raspodela skorova Y varijable bi trebala da bude normalna za sve vrednosti X varijable•Varijabilitet skorova Y varijable bi trebao da bude konstantan za sve vrednosti X varijable
Evaluacija regresionog modela
Tabela analize varijanseTotalni varijabilitet zavisne (Y) varijable je podeljen na komponente:•Varijabilitet objašnjen regresijom•Rezidualni (neobjašnjeni) varijabilitet
R2 – Proporcija varijanse zavisne varijable koja je objašnjena nezavisnom varijablom
Standardna greška regresije
Predikcija pomoću regresionog modela –interpolacija i ekstrapolacija
Interpolacija – predviđanje unutar opsega varijable xEkstrapolacija – predviđanje van opsega varijable x
Položaj regresione linije može se odrediti izračunavanjem vrednosti zavisne varijable za dve proizvoljno uzete vrednosti nezavisne varijable.
Druge mere povezanosti
Spearman ρ (rs) – Koeficijent korelacije za podatke saordinalne skale merenja. Neparametarski koeficijent korelacije.
Point-biserial koeficijent korelacije – Korelacija podataka saintervalne (ili omerne) skale merenja i dihotomnih podataka.
Phi koeficijent – Mera povezanosti kada su podaci obevarijable dihotomni.
Neparametarski metod za ocenu jačine povezanosti koji se primenjuje kada:•Najmanje jedna varijabla merena na ordinalnoj skali•Podaci za najmanje jednu varijablu dati su u vidu rangova•Najmanje jedna varijabla nema normalnu raspodelu•Odnos između varijabli nije linearan
Spearmanov koeficijent korelacije rangova
•Dodeliti rang vrednostima x varijable vodeći računa da rangiranje počne od najmanjeg do najvećeg podatka u rastućem nizu ili obrnuto. Podacima sa istim vrednostima obeležja dodeljuje se tzv. vezani rang (prosečna vrednost rangova koji pripadaju tim podacima)•Isto to učiniti i sa varijablom y•Izračunati vrednosti koeficijenta korelacije rangova pomoću formule:
Izračunavanje Spearmanovog koeficijentakorelacije rangova
( )16
1 2
2
−−= ∑
nnd
r iS
d – razlika rangova, n – broj jedinica analize
Spearmanov koeficijent korelacije rangovaTestiranje hipoteze da li postoji povezanost dve varijable
Hipoteze: H0: ρ = 0, H1: ρ ≠ 0
Ako je broj jedinica analize ≥ 10 nulta hipotezu se testira t-testom za broj stepena slobode DF = n – 2:
212
SS r
nrt−−
=
Ako je broj jedinica analize ≤ 9, empirijske vrednosti testa se upoređuju sa kritičnim tabličnim vrednostima za odgovarajući broj parova podataka i nivo značajnosti
Primer:Za dvanaest ispitanika muškog pola data je starost i vrednosti sistolne tenzije. Ispitati povezanost ova dva obeležja. Prognozirati sistolnu TA za starost od 77 godina.
130130353512121351356363111114014045451010145145414199160160707088180180515177155155555566185185737355150150757544170170717133165165595922125125393911
Sistolna Sistolna TATA
StarostStarostIDID
Dijagram rasturanja starosti i sistolne tenzije
80
100
120
140
160
180
200
30 40 50 60 70 80Starost (godine)
Sist
olna
TA
(mm
Hg)
105640105640286250286250404234042318401840677677ΣΣ455045501690016900122512251301303535850585051822518225396939691351356363630063001960019600202520251401404545594559452102521025168116811451454141
11200112002560025600490049001601607070918091803240032400260126011801805151852585252402524025302530251551555555
135051350534225342255329532918518573731125011250225002250056255625150150757512070120702890028900504150411701707171973597352722527225348134811651655959487548751562515625152115211251253939
xx··yyyy22xx22yyxx
4.5612677
=== ∑n
xxv 3.153
121840
=== ∑n
yyv
Postoji statistički značajna jaka pozitivna povezanost starosti i sistolneTA (r = 0.605, t = 2.4, DF =10, p ≤ 0.05).Koeficijent determinacije = 0.366
6.134.561240423 22
2
=−=−= ∑ xnx
SDxv
5.183.15312
286250 222
=−=−= ∑ yny
SDyv
78.1523.1534.5612
105640=⋅−=−= ∑ yx
nxy
SDxyvv
605.05.186.13
78.152=
⋅==
yx
xy
SDSDSD
r
404.2605.01212605.0 2 =−
−=t
Ocena nagiba u regresionom modelu:
Ocena konstante u regresionom modelu:
823.074.18578.152
2 ===x
xy
SDSD
b
93.10642.56823.03.153 =⋅−=−= xbya vv
Ocena regresionih koeficijenata
Regresiona jednačina:
xbxay ⋅+=+= 823.093.106
Prognozirana vrednost sistolne TA za starost od 77 godina iznosi:
3.17077823.093.106 =⋅+=+= bxay
80
100
120
140
160
180
200
30 40 50 60 70 80
Starost (godine)
Sis
toln
a TA
(mm
Hg
Primer: Za 10 trudnica data je telesna masa na pocetku trudnoće i telesna masa novorođenčadi. Da li postoji povezanost ova dva obeležja? Testirati za nivo značajnosti 0.05.
72.2572.251.51.52800280010107070
55
2.52.57744997711
2.52.577
RxRx
30003000
2900290037003700320032003600360031003100280028003300330034003400
tm novorođenčeta
44
331010669955
1.51.57788
RyRy
112.00112.00ΣΣ4.004.006622
0.250.2559594.004.0063631.001.0060601.001.0066779.009.0063630.250.255757
12.2512.2559590.000.006363
dd22tm napocetkutrudnoće
( ) ( ) 321.011010
112611
61 22
2
=−
⋅−=
−−= ∑
nnd
r iS
959.0321.01210321.0
12
22 =−
−=
−−
=S
S rnrt
Vrednosti koeficijenta korelacije rangova je:
Testiranje nulte hipoteze t-testom:
Ne postoji statistički značajna povezanost telesne mase trudnicana početku trudnoće i telesne mase novorođenčadi (rS = 0.32, t=0.96, DF =8, p > 0.05).