Upload
others
View
44
Download
3
Embed Size (px)
Citation preview
REGRESIONA I
KORELACIONA ANALIZA
Račun izravnanja 1
Teorija grešaka geodetskih merenja
Prof. dr Branko Božić, dipl.geod.inž.
Odsek za geodeziju i geoinformatiku
Verzija 11.03. 2019
• Regresiona analiza
• Intervali poverenja u regresionoj analizi
• Korelaciona analiza
• Test značajnosti koeficijenta korelacije
• Primena regresije pri modelovanju i
analizi trenda površi
SADRŽAJ
REGRESIJA I KORELACIJA
• Oblik funkcionalnog odnosa izmedju dve
promenljive = Regresioni model- jedna zavisna promenljiva
- jedna ili više nezavisnih promenljivih
- objašnjava efekte uticaja nezavisnih promenljivih na zavisnu promenljivu
- prognozira vrednost zavisne promenljive poznavajući vrednosti nezavisnih
• Mera odnosa izmedju dve promenljive =
korelaciona analiza
Tipovi regresionih modela
Linearni
Regresioni
modeli
ProstiProšireni
(multiple)
Nelinearni Linearni Nelinearni
Jedna nezavisna
promenljivaViše nezavisnih
promenljivih
LINEARNI REGRESIONI MODEL – prosta
linearna regresija
Regresiona prava - model
bxay y
xj,yj
x
)( jj bxay
atan() = b
00
b
qi
a
q
)( xxbyy
n
i
ixn
x1
1
n
i
iy
ny
1
1
xbya
- koficijent regresije uzorka2)1( x
jijj
snn
yxyxnb
0)(2
0)(2
jjj
jj
bxayxb
q
bxaya
q
n
j
jjbxayq
1
2)(
ocene reziduala
Relacija između x i y je izražena
linearnom funkcijom y = f(x)
Metod najmanjih kvadrata
q = v = rezidual
𝑎𝑛 + 𝑏
𝑗=1
𝑛
𝑥𝑗 =
𝑗=1
𝑛
𝑦𝑗
𝑎
𝑗=1
𝑛
𝑥𝑗 + 𝑏
𝑗=1
𝑛
𝑥𝑗2 =
𝑗=1
𝑛
𝑥𝑗𝑦𝑗
𝑥 =𝑎𝑏
= 𝑁−1𝑛
𝑛 σ𝑗=1𝑛 𝑥𝑗
σ𝑗=1𝑛 𝑥𝑗 σ𝑗=1
𝑛 𝑥𝑗2 .
𝑎𝑏
=σ𝑗=1𝑛 𝑦𝑗
σ𝑗=1𝑛 𝑥𝑗𝑦𝑗
Matrično:
𝑁𝑥 = 𝑛Normalne jednačine
Ocena tačnosti
n
j
n
j
n
j
j
n
i
ijjjjxy yxn
yxn
yyxxn
s1 1 11
1
1
1))((
1
1
n
j
n
j
n
j
jjjxx
nx
nxx
ns
1 1
2
1
222 1
1
1)(
1
1
2
1
2
2
1
n
i
ii xbayn
s Nepomerena ocena varijanse modela (x,y)
Ocena kovarijanse
Ocena varijanse promenljive x
Reziduali = vi
𝑦𝑖- ො𝑦𝑖 = 𝑣𝑖
Ocena očekivane vrednosti yi po modelu ො𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖
Broj stepeni
slobode = n - 2
Dva nepoznata
parametra a i b
Odstupanje rezultata merenja od modela - vi
𝑠𝑦2 =
1
𝑛 − 1
𝑗=1
𝑛
(𝑦𝑗 − ത𝑦)2 Ocena varijanse promenljive y
OCENA TAČNOSTI I TESTIRANJE ZNAČAJNOSTI
OCENA NEPOZNATIH PARAMETARA
2
11
2
1
2
n
i
i
n
i
i
n
i
i
a
xxn
x
ss
2
11
2
n
i
i
n
i
i
b
xxn
nss
2~ n
a
ts
a
2~ n
b
ts
b
222
2
~)2(
n
sn
2
1
2
2
1
n
i
ii xbayn
s
Ho: a = 0
Ha: a ≠ 0
Ho: b =0
Ha: b ≠ 0
Ho: E(s2) =2
Ha: E(s2) ≠ 2
Standardno odstupanje ocene parametra a
Standardno odstupanje ocene parametra b
Varijansa modela
Studentova
raspodela po
argumentima
α i n-2
Pirsonova
raspodela po
argumentima
α i n-2
REGRESIONA ANALIZA – prošireni modeli
mmxbxbxbay ...2211
nnn vbxay
vbxay
vbxay
222
111
PRIMER - lineara regresija sa jednom promenljivom
Axy Matrični oblik
b
axAy ,
x1
x1
,
y
y
n
1
n
1
yAAAxTT 1
Rešenje
Multiple regression /
višestruka regresija
Za više promenljivih
A=
1 𝑥11 …𝑥𝑚1
1 … …1 𝑥1𝑛 …𝑥𝑚𝑛
𝑥 =
𝑎𝑏1…𝑏𝑚
INTERVAL POVERENJA KOEFICIJENTA REGRESIJE
xx 10)(
Teorijski model linearne regresije - prava
KbKb 1Interval poverenja koeficijenta regresije 1
2
02,
)1)(2( x
nsnn
qtK
i ))(1( 222
0 xy sbsnq
Tablica studentove
raspodele za (n-2) i n – broj tačaka
Linearna regresija u Excelu
• Run regression analysis
• On the Data tab, in the Analysis
group, click the Data Analysis
button.
• Select Regression and click OK.
• In the Regression dialog box,
configure the following settings:
Select the Input Y Range, which
is your dependent variable. ...
• Click OK and observe the
regression analysis output
created by Excel.
x y
2 11
3.4 13
4.5 14
5.8 16
y = 1.2839x + 8.4606R² = 0.9926
0
2
4
6
8
10
12
14
16
18
0 2 4 6 8
Series1
Linear (Series1)
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 8.460556 0.327070618 25.86767 0.001491 7.05328445 9.867827
X Variable 1 1.283935 0.078493809 16.35715 0.003717 0.94620325 1.6216664ab
Linearna regresija u SPSS
• Analyze > Regression > Linear...
p ˂ 0.05, oba koeficijinta su
značajna, veća od 0
KORELACIONA ANALIZA
• Korelaciona analiza razmatra odnos između X i Y u dvodimenzionalnoj slučajnoj promenljivoj X,Y
• Odnos između x i y u okviru uzorka meri se kovarijansom uzorka u oznaci sx,y ili koeficijentomkorelacije uzorka u oznaci r
koeficijent korelacije populacije
11
koeficijent korelacije uzorka –
Pirsonov koeficijent linearne
korelacije
𝑟 =𝑠𝑥,𝑦
𝑠𝑥𝑠𝑦
𝜌 =𝜎𝑥,𝑦
𝜎𝑥𝜎𝑦
Spearmanov koeficijent korelacije se koristi kao mera povezanosti kada nije moguce
primeniti Pirsonov, odnosno kada je povezanost nelinearna. Zasniva se na rangiranju
promenljivih.
𝑟𝑠 = 1 − 6
𝑖=1
𝑛𝑑𝑖2
𝑛 𝑛2 − 1d – razlika vrednosti ranga dve posmatrane promenljive
n – broj različitih serija
r se sme se računati samo kod:
• linearne povezanosti
• simetričnih raspodjela,
• kada nema ekstremnih rezultata.
TEST ZNAČAJNOSTI KOEFICIJENTA
KORELACIJE
Korak 1: Izbor odgovarajućeg nivoa značajnosti
(najčešće se koriste vrednosti 5% ili 1%);
Korak 2: Računanje vrednosti kvantila t, P(Tt,n-2)=1- , koristeći
studentovu raspodelu, sa n-2 stepeni slobode;
Korak 3: Na osnovu datog uzorka (x1,y1)...(xn,yn), računa se r
Korak 4: Računanje test statistike
21
2
r
nT
Ukoliko je 2, ntT Nema razloga za odbacivanjem nulte hipoteze
za usvojeno
0:0
H
Spearmanov koeficijent
korelisanosti - primerx y
18 11.5
14 7.5
21 8
18 10
14 9.5
12 7
18 8.5
21 11
15 9
14 9.5
Rx Ry
7 10
3 2
9.5 3
7 8
3 6.5
1 1
7 4
9.5 9
5 5
3 6.5
d2
9
1
42.25
1
12.25
0
9
0.25
0
12.25
87
rs= 0.47
Test značajnosti:
𝑇𝑠 = 𝑟𝑠𝑛 − 2
1 − 𝑟𝑠2 = 1.52
t0.95,8 = 1.89 za t0.90,8 = 1.40
od 0.00 do ±0.20 ➩nikakva ili neznatna povezanost
od ±0.20 do ±0.40 ➩lagana povezanost
od ±0.40 do ±0.70 ➩stvarna značajna povezanost
od ±0.70 do ±1.00 ➩visoka ili vrlo visoka povezanost
• može se računati i ako promenljive nisu u linearnom odnosu
• daje približnu vrednost povezanosti dve promenljive
• neosetljiv na ekstremne vrednosti rezultata
Prvi po redosledu vrednosti x
Vrednost x=14 se nalazi na drugoj, trećoj i četvrtoj
poziciji (2+3+4)/2=3 , rang jednak 3
Peti rezultat po rangu
x=18, tri puta sa rangom 6,7 i 8, srednja vrednost je 7
x=21, dva puta sa rangom 9 i 10, srednja vrednost je 9.5
MODELOVANJE TRENDA POVRŠI
• Pod trendom neke površi podrazumeva se bilo kakva sistematska promena većeg obima koja se ravnomerno i predvidivo prostire od jednog do drugog kraja prostorne strukture – površi.
),()( iiii yxfsfz
iiiiii vyxfvsfz ),()(
iiii vybxbaz 21Jednačina površi
Opšti izraz
Matematički, trend je linearna polinomska funkcija koja definiše
površ linearnog trenda.
Da bi odredili trend, neophodno je oceniti parametre a, b1 i b2
Fizička interpretacija parametara jeste sledeća:
a - reprezentuje visinu ravne površi u ishodišnoj tački
topografske podloge (karte), sa xi=yi=0.
b1 - nagib površi u pravcu x ose, a
b2 - nagib površi u pravcu y ose
y
xa
b1
b2
zAA)(AxT1T
2
1
n
1
11
11
b
b
a
,
z
z
,
yx1
yx1
xzA
REGRESIONI MODEL TRENDA
POVRŠI )( 21 iiii ybxbazv
Axzv
Koeficijent određenosti ili
Koeficijent determinacije kreće se između 0 i 1. z
n
i
i
n
i
i
SS
SSE
zz
v
R
1
)(
1
1
2
1
2
2
Značajnost ili adekvatnost modela testiramo primenom Fišerove raspodele
v
p
f
R
f
R
F)1( 2
2
Test statistika
Broj stepeni slobode = (broj parametara modela – 1)
Broj stepeni slobode pri oceni reziduala = (n – 1) - fp
F < F,fp,fv Model adekvatan
Ako je F > Ffp,fv : 1) površ je složena tako da je linearni trend teško definisati, 2) skup datih tačaka
nije dovoljnog obima i 3) površ je neophodno modelovati nekom drugom funkcijom
• pokazuje u kojoj meri je zavisna promenljiva
opisana regresionim modelom
• raste sa povećanjem broja nezavisnih promenljivih
pa se iz tog razloga isti modifikuje novom emrom,
tzv. prilago]enim koeficijentom determinacije
𝑅2
𝑅2