16
REGRESIONA I KORELACIONA ANALIZA Račun izravnanja 1 Teorija grešaka geodetskih merenja Prof. dr Branko Božić, dipl.geod.inž. Odsek za geodeziju i geoinformatiku Verzija 11.03. 2019

REGRESIONA I KORELACIONA ANALIZA - grf.bg.ac.rs · • Regresiona analiza • Intervali poverenja u regresionoj analizi • Korelaciona analiza • Test značajnosti koeficijenta

  • Upload
    others

  • View
    44

  • Download
    3

Embed Size (px)

Citation preview

REGRESIONA I

KORELACIONA ANALIZA

Račun izravnanja 1

Teorija grešaka geodetskih merenja

Prof. dr Branko Božić, dipl.geod.inž.

Odsek za geodeziju i geoinformatiku

Verzija 11.03. 2019

• Regresiona analiza

• Intervali poverenja u regresionoj analizi

• Korelaciona analiza

• Test značajnosti koeficijenta korelacije

• Primena regresije pri modelovanju i

analizi trenda površi

SADRŽAJ

REGRESIJA I KORELACIJA

• Oblik funkcionalnog odnosa izmedju dve

promenljive = Regresioni model- jedna zavisna promenljiva

- jedna ili više nezavisnih promenljivih

- objašnjava efekte uticaja nezavisnih promenljivih na zavisnu promenljivu

- prognozira vrednost zavisne promenljive poznavajući vrednosti nezavisnih

• Mera odnosa izmedju dve promenljive =

korelaciona analiza

Tipovi regresionih modela

Linearni

Regresioni

modeli

ProstiProšireni

(multiple)

Nelinearni Linearni Nelinearni

Jedna nezavisna

promenljivaViše nezavisnih

promenljivih

LINEARNI REGRESIONI MODEL – prosta

linearna regresija

Regresiona prava - model

bxay y

xj,yj

x

)( jj bxay

atan() = b

00

b

qi

a

q

)( xxbyy

n

i

ixn

x1

1

n

i

iy

ny

1

1

xbya

- koficijent regresije uzorka2)1( x

jijj

snn

yxyxnb

0)(2

0)(2

jjj

jj

bxayxb

q

bxaya

q

n

j

jjbxayq

1

2)(

ocene reziduala

Relacija između x i y je izražena

linearnom funkcijom y = f(x)

Metod najmanjih kvadrata

q = v = rezidual

𝑎𝑛 + 𝑏

𝑗=1

𝑛

𝑥𝑗 =

𝑗=1

𝑛

𝑦𝑗

𝑎

𝑗=1

𝑛

𝑥𝑗 + 𝑏

𝑗=1

𝑛

𝑥𝑗2 =

𝑗=1

𝑛

𝑥𝑗𝑦𝑗

𝑥 =𝑎𝑏

= 𝑁−1𝑛

𝑛 σ𝑗=1𝑛 𝑥𝑗

σ𝑗=1𝑛 𝑥𝑗 σ𝑗=1

𝑛 𝑥𝑗2 .

𝑎𝑏

=σ𝑗=1𝑛 𝑦𝑗

σ𝑗=1𝑛 𝑥𝑗𝑦𝑗

Matrično:

𝑁𝑥 = 𝑛Normalne jednačine

Ocena tačnosti

n

j

n

j

n

j

j

n

i

ijjjjxy yxn

yxn

yyxxn

s1 1 11

1

1

1))((

1

1

n

j

n

j

n

j

jjjxx

nx

nxx

ns

1 1

2

1

222 1

1

1)(

1

1

2

1

2

2

1

n

i

ii xbayn

s Nepomerena ocena varijanse modela (x,y)

Ocena kovarijanse

Ocena varijanse promenljive x

Reziduali = vi

𝑦𝑖- ො𝑦𝑖 = 𝑣𝑖

Ocena očekivane vrednosti yi po modelu ො𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖

Broj stepeni

slobode = n - 2

Dva nepoznata

parametra a i b

Odstupanje rezultata merenja od modela - vi

𝑠𝑦2 =

1

𝑛 − 1

𝑗=1

𝑛

(𝑦𝑗 − ത𝑦)2 Ocena varijanse promenljive y

OCENA TAČNOSTI I TESTIRANJE ZNAČAJNOSTI

OCENA NEPOZNATIH PARAMETARA

2

11

2

1

2

n

i

i

n

i

i

n

i

i

a

xxn

x

ss

2

11

2

n

i

i

n

i

i

b

xxn

nss

2~ n

a

ts

a

2~ n

b

ts

b

222

2

~)2(

n

sn

2

1

2

2

1

n

i

ii xbayn

s

Ho: a = 0

Ha: a ≠ 0

Ho: b =0

Ha: b ≠ 0

Ho: E(s2) =2

Ha: E(s2) ≠ 2

Standardno odstupanje ocene parametra a

Standardno odstupanje ocene parametra b

Varijansa modela

Studentova

raspodela po

argumentima

α i n-2

Pirsonova

raspodela po

argumentima

α i n-2

REGRESIONA ANALIZA – prošireni modeli

mmxbxbxbay ...2211

nnn vbxay

vbxay

vbxay

222

111

PRIMER - lineara regresija sa jednom promenljivom

Axy Matrični oblik

b

axAy ,

x1

x1

,

y

y

n

1

n

1

yAAAxTT 1

Rešenje

Multiple regression /

višestruka regresija

Za više promenljivih

A=

1 𝑥11 …𝑥𝑚1

1 … …1 𝑥1𝑛 …𝑥𝑚𝑛

𝑥 =

𝑎𝑏1…𝑏𝑚

INTERVAL POVERENJA KOEFICIJENTA REGRESIJE

xx 10)(

Teorijski model linearne regresije - prava

KbKb 1Interval poverenja koeficijenta regresije 1

2

02,

)1)(2( x

nsnn

qtK

i ))(1( 222

0 xy sbsnq

Tablica studentove

raspodele za (n-2) i n – broj tačaka

Linearna regresija u Excelu

• Run regression analysis

• On the Data tab, in the Analysis

group, click the Data Analysis

button.

• Select Regression and click OK.

• In the Regression dialog box,

configure the following settings:

Select the Input Y Range, which

is your dependent variable. ...

• Click OK and observe the

regression analysis output

created by Excel.

x y

2 11

3.4 13

4.5 14

5.8 16

y = 1.2839x + 8.4606R² = 0.9926

0

2

4

6

8

10

12

14

16

18

0 2 4 6 8

Series1

Linear (Series1)

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 8.460556 0.327070618 25.86767 0.001491 7.05328445 9.867827

X Variable 1 1.283935 0.078493809 16.35715 0.003717 0.94620325 1.6216664ab

Linearna regresija u SPSS

• Analyze > Regression > Linear...

p ˂ 0.05, oba koeficijinta su

značajna, veća od 0

KORELACIONA ANALIZA

• Korelaciona analiza razmatra odnos između X i Y u dvodimenzionalnoj slučajnoj promenljivoj X,Y

• Odnos između x i y u okviru uzorka meri se kovarijansom uzorka u oznaci sx,y ili koeficijentomkorelacije uzorka u oznaci r

koeficijent korelacije populacije

11

koeficijent korelacije uzorka –

Pirsonov koeficijent linearne

korelacije

𝑟 =𝑠𝑥,𝑦

𝑠𝑥𝑠𝑦

𝜌 =𝜎𝑥,𝑦

𝜎𝑥𝜎𝑦

Spearmanov koeficijent korelacije se koristi kao mera povezanosti kada nije moguce

primeniti Pirsonov, odnosno kada je povezanost nelinearna. Zasniva se na rangiranju

promenljivih.

𝑟𝑠 = 1 − 6

𝑖=1

𝑛𝑑𝑖2

𝑛 𝑛2 − 1d – razlika vrednosti ranga dve posmatrane promenljive

n – broj različitih serija

r se sme se računati samo kod:

• linearne povezanosti

• simetričnih raspodjela,

• kada nema ekstremnih rezultata.

TEST ZNAČAJNOSTI KOEFICIJENTA

KORELACIJE

Korak 1: Izbor odgovarajućeg nivoa značajnosti

(najčešće se koriste vrednosti 5% ili 1%);

Korak 2: Računanje vrednosti kvantila t, P(Tt,n-2)=1- , koristeći

studentovu raspodelu, sa n-2 stepeni slobode;

Korak 3: Na osnovu datog uzorka (x1,y1)...(xn,yn), računa se r

Korak 4: Računanje test statistike

21

2

r

nT

Ukoliko je 2, ntT Nema razloga za odbacivanjem nulte hipoteze

za usvojeno

0:0

H

Spearmanov koeficijent

korelisanosti - primerx y

18 11.5

14 7.5

21 8

18 10

14 9.5

12 7

18 8.5

21 11

15 9

14 9.5

Rx Ry

7 10

3 2

9.5 3

7 8

3 6.5

1 1

7 4

9.5 9

5 5

3 6.5

d2

9

1

42.25

1

12.25

0

9

0.25

0

12.25

87

rs= 0.47

Test značajnosti:

𝑇𝑠 = 𝑟𝑠𝑛 − 2

1 − 𝑟𝑠2 = 1.52

t0.95,8 = 1.89 za t0.90,8 = 1.40

od 0.00 do ±0.20 ➩nikakva ili neznatna povezanost

od ±0.20 do ±0.40 ➩lagana povezanost

od ±0.40 do ±0.70 ➩stvarna značajna povezanost

od ±0.70 do ±1.00 ➩visoka ili vrlo visoka povezanost

• može se računati i ako promenljive nisu u linearnom odnosu

• daje približnu vrednost povezanosti dve promenljive

• neosetljiv na ekstremne vrednosti rezultata

Prvi po redosledu vrednosti x

Vrednost x=14 se nalazi na drugoj, trećoj i četvrtoj

poziciji (2+3+4)/2=3 , rang jednak 3

Peti rezultat po rangu

x=18, tri puta sa rangom 6,7 i 8, srednja vrednost je 7

x=21, dva puta sa rangom 9 i 10, srednja vrednost je 9.5

MODELOVANJE TRENDA POVRŠI

• Pod trendom neke površi podrazumeva se bilo kakva sistematska promena većeg obima koja se ravnomerno i predvidivo prostire od jednog do drugog kraja prostorne strukture – površi.

),()( iiii yxfsfz

iiiiii vyxfvsfz ),()(

iiii vybxbaz 21Jednačina površi

Opšti izraz

Matematički, trend je linearna polinomska funkcija koja definiše

površ linearnog trenda.

Da bi odredili trend, neophodno je oceniti parametre a, b1 i b2

Fizička interpretacija parametara jeste sledeća:

a - reprezentuje visinu ravne površi u ishodišnoj tački

topografske podloge (karte), sa xi=yi=0.

b1 - nagib površi u pravcu x ose, a

b2 - nagib površi u pravcu y ose

y

xa

b1

b2

zAA)(AxT1T

2

1

n

1

11

11

b

b

a

,

z

z

,

yx1

yx1

xzA

REGRESIONI MODEL TRENDA

POVRŠI )( 21 iiii ybxbazv

Axzv

Koeficijent određenosti ili

Koeficijent determinacije kreće se između 0 i 1. z

n

i

i

n

i

i

SS

SSE

zz

v

R

1

)(

1

1

2

1

2

2

Značajnost ili adekvatnost modela testiramo primenom Fišerove raspodele

v

p

f

R

f

R

F)1( 2

2

Test statistika

Broj stepeni slobode = (broj parametara modela – 1)

Broj stepeni slobode pri oceni reziduala = (n – 1) - fp

F < F,fp,fv Model adekvatan

Ako je F > Ffp,fv : 1) površ je složena tako da je linearni trend teško definisati, 2) skup datih tačaka

nije dovoljnog obima i 3) površ je neophodno modelovati nekom drugom funkcijom

• pokazuje u kojoj meri je zavisna promenljiva

opisana regresionim modelom

• raste sa povećanjem broja nezavisnih promenljivih

pa se iz tog razloga isti modifikuje novom emrom,

tzv. prilago]enim koeficijentom determinacije

𝑅2

𝑅2