Upload
others
View
10
Download
2
Embed Size (px)
Citation preview
1
• Model proste linearne regresije • Ocjena: Metod najmanjih kvadrata • Standardna greška regresije • Testovi hipoteza o regresionoj vezi • Koliko je dobar regresioni model? • Korelacija • Korišćenje regresionog modela za prognozu
Prosta linearna regresija i korelacija 12
2
Dijagram rasturanja locira parove
podataka troškova reklame na x-osi i
prodaja na y-osi.
Veće (manje) vrijednosti prodaja se
pridružuju većim (manjim) vrijednostima
reklamiranja.
S c a t t e r p l o t o f A d v e r t i s i n g E x p e n d i t u r e s ( X ) a n d S a l e s ( Y )
5 0 4 0 3 0 2 0 1 0 0
1 4 0
1 2 0
1 0 0
8 0
6 0
4 0
2 0
0
A d v e r t i s i n g
S a
l e s
Tendencija – ka pravoj liniji pozitivnog nagiba – linearna veza.
12-1 Statistike
3
X
Y
X
Y
X 0
0
0
0
0
Y
X
Y
X
Y
X
Y
Primjeri dijagrama
4
Ocijenjena linija regresije u uzorku: Y=b0 + b1X + e Y - zavisna promjenljiva, koja se objašnjava ili predviđa; X - nezavisna promjenljiva
b0 – ocjena parametra 0 ;
b1 – ocjena parametra 1;
i e je opažena greška - reziduali prilagođavanja ocijenjene linije regresije
b0 + b1X nizu n podataka.
Ocijenjena linija regresije u uzorku: Y=b0 + b1X + e Y - zavisna promjenljiva, koja se objašnjava ili predviđa; X - nezavisna promjenljiva
b0 – ocjena parametra 0 ;
b1 – ocjena parametra 1;
i e je opažena greška - reziduali prilagođavanja ocijenjene linije regresije
b0 + b1X nizu n podataka.
XbbY1
+ 0
ˆ
:regresije linija Ocijenjena
XbbY1
+ 0
ˆ
:regresije linija Ocijenjena
12-3 Ocjena: Metod najmanjih
kvadrata
5
. { iYiYie ˆ Greška
iX za Yt vrijednosapredvidjen ˆ
iY
Y
X
regresije linija naprilagodje 10
ˆ XbbY
Yi
Yi
Greške u regresiji
6
Metod najmanjih kvadrata
• Minimizirati sumu kvadrata odstupanja:
n
1=i
2
i1
n
1=i
i0
n
1=i
ii
n
1=i
i1
n
1=i
0i
2n
1=i
i
n
1=i
2
i
xxyx
xy
:
)ˆ(y e = SSE
bb
bnb
yi
jednacine Normalne
7
Metod najmanjih kvadrata
Koeficijenti:
221 )( xxn
yxxynb xbyb 10
xbby o 1ˆ
8
Posmatra se zavisnost iznosa troškova od pređenih milja.
Ocijeniti liniju regresije, ako su, na osnovu 25 podataka
date sledeće sume:
Posmatra se zavisnost iznosa troškova od pređenih milja.
Ocijeniti liniju regresije, ako su, na osnovu 25 podataka
date sledeće sume:
85.274
2579448)255333776.1(
25106605
10
xbyb
85.274
2579448)255333776.1(
25106605
10
xbyb
Primjer 12-1
390185024
293426944
106605
79448
2
xy
x
y
x
255333776.179448*79448293426944*25
106605*79448390185024*25
)( 221
xxn
yxxynb
9
5 5 0 0 5 0 0 0 4 5 0 0 4 0 0 0 3 5 0 0 3 0 0 0 2 5 0 0 2 0 0 0 1 5 0 0 1 0 0 0
M i l e s
D o
l l a
r s
8 0 0 0
7 0 0 0
6 0 0 0
5 0 0 0
4 0 0 0
3 0 0 0
2 0 0 0
1 0 0 0
R - S q u a r e d = 0 . 9 6 5
Y = 2 7 4 . 8 5 0 + 1 . 2 5 5 3 3 X
R e g r e s s i o n o f D o l l a r s C h a r g e d a g a i n s t M i l e s
Primjer 12-1
10
Primjer 12-2
• Na osnovu podataka za 15 godina o per capita raspoloživom dohotku (x) i per capita ličnoj potrošnji (y) u SAD-u ( , , , , , ) ocijenjena je linija regresije . Zaokružiti tačnu konstataciju:
– Ako se per capita lična potrošnja poveća za 1$, per capita dohodak će porasti za 0.986156$
– Ako se per capita dohodak poveća za 1$, per capita lična potrošnja će porasti za 0.986156$
– Ako se per capita dohodak poveća za 1$, per capita lična potrošnja će ostati nepromijenjena
– Prosječna lična potrošnja u SAD-u je 343,71033$
64022x 57980y
2751326962x 2259550182y 249318631xy
xy 986156,071033,343ˆ
11
2)-(nSSE
=
) )1
b i 0
(b
parametra ocijenjena 2 manje podataka uk.(n 2)-(n = df
2S
:regresiji u slobode Stepeni
X
Y
Kvadrirati i sabrati sve
regresione greške za
SSE.
12-4 Standardna greška
regresije
22
)ˆ( 1022
n
xybyby
n
yys
12
Primjer 12-2
• Izračunati st. grešku regresije!
8,65215
249318631986156,05798071033,343225995018
22
)ˆ( 1022
n
xybyby
n
yys
13
04972.0 84.40947557
158.318
)1
(
XSS
sbs
:1-12Primjer
04972.0 84.40947557
158.318
)1
(
XSS
sbs
:1-12Primjer
Standardna greška koef. pravca
regresije
221 xnx
ssb
14
)1
()2(,
21
:1
b za povjerenja interval 100% )-(1
)0
()2(,
20
:0
b za povjerenja interval 100% )-(1
bsn
tb
bsn
tb
]35820.1,15246.1[
10287.025533.1
).049720( 2.069)(1.25533=
]28.627,58.77[
43.35285.274
)338.170( 2.069)(274.85=
)()225(,025.0
)0
()225(,025.00
11
bstb
bstb
:povjerenja Intervali 95%
1-12Primjer
]35820.1,15246.1[
10287.025533.1
).049720( 2.069)(1.25533=
]28.627,58.77[
43.35285.274
)338.170( 2.069)(274.85=
)()225(,025.0
)0
()225(,025.00
11
bstb
bstb
:povjerenja Intervali 95%
1-12Primjer
Intervali povjerenja za
regresione parametre
15
Y
X
Y
X
Y
X
Konstantno Y Nesistematska varijacija Nelinearna veza
Test hipoteza: Za postojanje linearne veze između X i Y:
H 0 H 1 Test stati stika:
( - )
.
:
:
( )
1 0
1 0
2
1
1
t n
b
s b
Test hipoteza regresione veze
16
milja.predjenih i troskova
izmedju vezapostoji -zakljucak
nivou 1% pri odbacuje se 0
H
25.25807.2
25.250.049721.25533
=
)1
(
1
01
:1
H
01
:0
H
:1-12Primjer
)23,005.0(
)2-(
t
bs
btn
Test hipoteza za regresioni
koeficijent
04972,0221
xnxs
sb
17
1.jednak koef.
beta je da zakljuciti Mozemo
nivou. 10% pri odbacuje ne se 0
H
14.1671.1
14.10.21
1-1.24=
)1
(
11
11
:1
H
11
:0
H
60,n
__ln_:2-12Primjer
)58,05.0(
,21.0)(,24.1
)2-(
11
t
bs
bt
vezeregresioneeaproporcionTestiranje
n
bsb
Test hipoteza za regresioni
koeficijent
18
Koeficijent determinacije, r2, je deskriptivna mjera jačine regresione veze, koja
mjeri koliko se dobro regresiona linija prilagođava podacima.
. {
Y
X
Y
Y
Y
X
{ } Ukupno odstupanje Objašnjeno odstupanje Neobjašnjeno odstupanje
SSTSSE
SSTSSR
yyyyyy
yyyyyy
12r
SSR + SSE = SST
2)ˆ( 2)ˆ(2)(
)(Regresija (greska)
odstupanje odstupanje odstupanje
Objasnjeno noNeobjasnje = Ukupno
)ˆ( )ˆ( )(
Procenat ukupne
varijacije koja je
objašnjena
regresijom.
12-6 Koliko je dobar regresioni
model?
19
Y
X
r2=0 SSE
SST
Y
X
r2=0.90 S
S
E
SST
SSR
Y
X
r2=0.50 SSE
SST
SSR
5 5 0 0 5 0 0 0 4 5 0 0 4 0 0 0 3 5 0 0 3 0 0 0 2 5 0 0 2 0 0 0 1 5 0 0 1 0 0 0
7 0 0 0
6 0 0 0
5 0 0 0
4 0 0 0
3 0 0 0
2 0 0 0
M i l e s
D o l l a
r s
Koeficijent determinacije
22
22
2
1
2
yny
xnxbr
20
Primjer 12-2
• Izračunati procenat odstupanja koji je
objašnjen modelom.
• r2!
97,0
33,1882991
733,18782639725,0
)15
57980(15225995018
)15
64022(15275132696
986156,02
2
2
22
22
2
1
2
yny
xnxbr
21
Korelacija između dvije sl. promjenljive, X i Y, je mjera stepena linearne veze
između njih.
Populaciona korelacija, u oznaci, može uzeti vrijednost između -1 i 1.
Korelacija između dvije sl. promjenljive, X i Y, je mjera stepena linearne veze
između njih.
Populaciona korelacija, u oznaci, može uzeti vrijednost između -1 i 1.
označava perfektnu negativnu linearnu vezu
-1<
22
Y
X
=0
Y
X
=-.8 Y
X
=.8 Y
X
=0
Y
X
=-1 Y
X
=1
Ilustracija korelacije
23
:*uzorka korelacijeeficijent Ko
YX
YXCov
),(=
:korelacijet koeficijen iPopulacion
Y. i X prosjeci ipopulacion i X
su gdje
)])([(),(
:Y i X za aKovarijans
Y
Y
YX
XEYXCov
*Napomena: Ako je r < 0, b1 < 0 Ako r = 0, b1 = 0 Ako je r > 0, b1 >0
Kovarijansa i korelacija
2222 )()( yynxxn
yxxynr
24
H0: =0 (Nema linearne veze)
H1: 0 (Postoji linearna veza)
Test statistika:
tr
r
n
n( )
2 21
2
nivou 1% pri odbacuje se H
25.25807.2
25.250.0389
0.9824=
2-25
0.9651-1
0.9824=
2
1
:Zadatak
0
005.0
2)2(
t
n
r
rt n
nivou 1% pri odbacuje se H
25.25807.2
25.250.0389
0.9824=
2-25
0.9651-1
0.9824=
2
1
:Zadatak
0
005.0
2)2(
t
n
r
rt n
Test hipoteza za koeficijent
korelacije • Testirati koeficijent korelacije od 0,9824, za seriju od 25
podataka, uz nivo značajnosti 99%. (t=2,807)
2
2222 )()(r
yynxxn
yxxynr
25
1.-4. zadatak
1. Za 9 radnika jedne fabrike posmatra se
zavisnost procenta škarta u njihovoj
proizvodnji od dužine radnog staža (u
mjesecima), i dobijeni su sledeći podaci:
, , , i .
Na osnovu linije regresije, koeficijent
pravca iznosi:
57x
50 y 4092 x 3042 y 284xy
68.0)( 22
1
xxn
yxxynb
26
2. Na osnovu prethodnog zadatka, može se
zaključiti:
– Sa većim radnim stažom, veći je procenat
škarta
– Sa većim radnim stažom, manji je
procenat škarta
– Sa manjim radnim stažom, manji je procenat
škarta
– Ništa od navedenog
27
3. Na osnovu podataka iz 1. zadatka, ako je
slobodan član regresione jednačine
9,866, procenat odstupanja koji je
objašnjen modelom je:
%65,848465,022
22
2
1
2
yny
xnxbr
28
4. Na osnovu podataka iz 1. zadatka, koeficijent
proste linearne korelacije, uz rizik greške od
5%:
Je statistički značajan!
365,27;025.0 t
92.08465.0)()(
2
2222
r
yynxxn
yxxynr
216.6
2
1 2
n
r
r
s
rt
r
29
Primjer 12-2
• Na osnovu podataka za 15 godina o per capita raspoloživom dohotku (x) i per capita ličnoj potrošnji (y) u SAD-u ( , , , , , ) ocijenjena je linija regresije . Zaokružiti tačnu konstataciju:
– Ako se per capita lična potrošnja poveća za 1$, per capita dohodak će porasti za 0.986156$
– Ako se per capita dohodak poveća za 1$, per capita lična potrošnja će porasti za 0.986156$
– Ako se per capita dohodak poveća za 1$, per capita lična potrošnja će ostati nepromijenjena
– Prosječna lična potrošnja u SAD-u je 343,71033$
64022x 57980y
2751326962x 2259550182y 249318631xy
xy 986156,071033,343ˆ
30
Primjer 12-2
Odgovor: Ako se per capita dohodak poveća
za 1$, per capita lična potrošnja će porasti za
0.986156$
• Izračunati st. grešku regresije!
8,65215
249318631986156,05798071033,343225995018
22
)ˆ( 1022
n
xybyby
n
yys
31
Primjer 12-2
• Izračunati procenat odstupanja koji nije objašnjen modelom.
• 1-r2!
• 100-97=3%
97,0
33,1882991
733,18782639725,0
)15
57980(15225995018
)15
64022(15275132696
986156,02
2
2
22
22
2
1
2
yny
xnxbr
32
Primjer 12-2
• Uz 95% nivo pouzdanosti, testirati da li je
koeficijent proste linearne korelacije
značajan.
9849,02 rr
H0: =0 (Nema linearne veze)
H1: 0 (Postoji linearna veza)
Test statistika: tr
r
n
n( )
2 21
2
nivou 5% pri odbacuje se H
52.2016.2
52.200.048
0.9849=
2-15
0.97-1
0.9849=
2
1
:1-12Primjer
0
025.0
2)2(
t
n
r
rt n
nivou 5% pri odbacuje se H
52.2016.2
52.200.048
0.9849=
2-15
0.97-1
0.9849=
2
1
:1-12Primjer
0
025.0
2)2(
t
n
r
rt n
33
12-3. zadatak
• Za 9 parova vrijednosti broja stanovnika u
hiljadama (promjenljiva X) i broja ekspozitura
poslovnih banaka (promjenljiva Y) izračunate
su sledeće vrijednosti: , ,
, , . Pri povećanju broja
stanovnika za hiljadu broj ekspozitura se
linearno povećava u prosjeku za:
1380x 405y 0225252 x
193312y 65960xy
283,0)( 22
1
xxn
yxxynb
34
12-3. zadatak
2. Parametar b0 za regresiju iz prethodnog
zadatka iznosi:
61,110 xbyb
35
12-3. zadatak
3. Na osnovu podataka iz zadatka 12-3.
standardna greška regresije iznosi:
32,122
)ˆ( 1022
n
xybyby
n
yys
36
12-3. zadatak
4. Na osnovu date regresije, uz vjerovatnoću od
0,95, prosječan broj mogućih ekspozitura
poslovnih banaka u gradu koji ima 300 hiljada
stanovnika je:
365,27;025.0 t 51,86300*283,061,1ˆ 1 xbby o
22
2
ˆ
)(1
xnx
xx
ns
p
y p
)56,89;46,83(ˆ)(ˆ ˆ2,
2
ˆ2,
2
pp
yn
ppyn
p styYEsty
37
12-4. zadatak
1. Na bazi istraživanja o godišnjem prihodu u hiljadama
eura (x) i izdacima za otplatu stambenog kredita u
hiljadama eura (y) 8 klijenata jedne banke dobijeni
su sledeći rezultati:
Ako nema prihoda, izdaci za otplatu stambenog kredita
iznose:
5,28y 220 x 71002 x 75,114
2 y 5,897xy
11,0)( 22
1
xxn
yxxynb
euraxbyb 5,5371000*5375,010
38
12-4. zadatak
3. Na bazi podataka iz zadatka 12-4.,
standardna greška regresije je oko:
34,022
)ˆ( 1022
n
xybyby
n
yys
39
12-4. zadatak
3. Na bazi podataka iz zadatka 12-4., uz rizik greške od 5%, možemo zaključiti da je parametar b1 :
Statistički značajan!
447,26;025.0 t01,0221
xnxs
sb
11
1
1 bs
bt