39
1 Model proste linearne regresije Ocjena: Metod najmanjih kvadrata Standardna greška regresije Testovi hipoteza o regresionoj vezi Koliko je dobar regresioni model? Korelacija Korišćenje regresionog modela za prognozu Prosta linearna regresija i korelacija 12

12 Prosta linearna regresija i korelacija · 2018. 5. 14. · 12 Prosta linearna regresija i korelacija . 2 Dijagram rasturanja locira parove podataka troškova reklame na x-osi i

  • Upload
    others

  • View
    10

  • Download
    2

Embed Size (px)

Citation preview

  • 1

    • Model proste linearne regresije • Ocjena: Metod najmanjih kvadrata • Standardna greška regresije • Testovi hipoteza o regresionoj vezi • Koliko je dobar regresioni model? • Korelacija • Korišćenje regresionog modela za prognozu

    Prosta linearna regresija i korelacija 12

  • 2

    Dijagram rasturanja locira parove

    podataka troškova reklame na x-osi i

    prodaja na y-osi.

    Veće (manje) vrijednosti prodaja se

    pridružuju većim (manjim) vrijednostima

    reklamiranja.

    S c a t t e r p l o t o f A d v e r t i s i n g E x p e n d i t u r e s ( X ) a n d S a l e s ( Y )

    5 0 4 0 3 0 2 0 1 0 0

    1 4 0

    1 2 0

    1 0 0

    8 0

    6 0

    4 0

    2 0

    0

    A d v e r t i s i n g

    S a

    l e s

    Tendencija – ka pravoj liniji pozitivnog nagiba – linearna veza.

    12-1 Statistike

  • 3

    X

    Y

    X

    Y

    X 0

    0

    0

    0

    0

    Y

    X

    Y

    X

    Y

    X

    Y

    Primjeri dijagrama

  • 4

    Ocijenjena linija regresije u uzorku: Y=b0 + b1X + e Y - zavisna promjenljiva, koja se objašnjava ili predviđa; X - nezavisna promjenljiva

    b0 – ocjena parametra 0 ;

    b1 – ocjena parametra 1;

    i e je opažena greška - reziduali prilagođavanja ocijenjene linije regresije

    b0 + b1X nizu n podataka.

    Ocijenjena linija regresije u uzorku: Y=b0 + b1X + e Y - zavisna promjenljiva, koja se objašnjava ili predviđa; X - nezavisna promjenljiva

    b0 – ocjena parametra 0 ;

    b1 – ocjena parametra 1;

    i e je opažena greška - reziduali prilagođavanja ocijenjene linije regresije

    b0 + b1X nizu n podataka.

    XbbY1

    + 0

    ˆ

    :regresije linija Ocijenjena

    XbbY1

    + 0

    ˆ

    :regresije linija Ocijenjena

    12-3 Ocjena: Metod najmanjih

    kvadrata

  • 5

    . { iYiYie ˆ Greška

    iX za Yt vrijednosapredvidjen ˆ

    iY

    Y

    X

    regresije linija naprilagodje 10

    ˆ XbbY

    Yi

    Yi

    Greške u regresiji

  • 6

    Metod najmanjih kvadrata

    • Minimizirati sumu kvadrata odstupanja:

    n

    1=i

    2

    i1

    n

    1=i

    i0

    n

    1=i

    ii

    n

    1=i

    i1

    n

    1=i

    0i

    2n

    1=i

    i

    n

    1=i

    2

    i

    xxyx

    xy

    :

    )ˆ(y e = SSE

    bb

    bnb

    yi

    jednacine Normalne

  • 7

    Metod najmanjih kvadrata

    Koeficijenti:

    221 )( xxn

    yxxynb xbyb 10

    xbby o 1ˆ

  • 8

    Posmatra se zavisnost iznosa troškova od pređenih milja.

    Ocijeniti liniju regresije, ako su, na osnovu 25 podataka

    date sledeće sume:

    Posmatra se zavisnost iznosa troškova od pređenih milja.

    Ocijeniti liniju regresije, ako su, na osnovu 25 podataka

    date sledeće sume:

    85.274

    2579448)255333776.1(

    25106605

    10

    xbyb

    85.274

    2579448)255333776.1(

    25106605

    10

    xbyb

    Primjer 12-1

    390185024

    293426944

    106605

    79448

    2

    xy

    x

    y

    x

    255333776.179448*79448293426944*25

    106605*79448390185024*25

    )( 221

    xxn

    yxxynb

  • 9

    5 5 0 0 5 0 0 0 4 5 0 0 4 0 0 0 3 5 0 0 3 0 0 0 2 5 0 0 2 0 0 0 1 5 0 0 1 0 0 0

    M i l e s

    D o

    l l a

    r s

    8 0 0 0

    7 0 0 0

    6 0 0 0

    5 0 0 0

    4 0 0 0

    3 0 0 0

    2 0 0 0

    1 0 0 0

    R - S q u a r e d = 0 . 9 6 5

    Y = 2 7 4 . 8 5 0 + 1 . 2 5 5 3 3 X

    R e g r e s s i o n o f D o l l a r s C h a r g e d a g a i n s t M i l e s

    Primjer 12-1

  • 10

    Primjer 12-2

    • Na osnovu podataka za 15 godina o per capita raspoloživom dohotku (x) i per capita ličnoj potrošnji (y) u SAD-u ( , , , , , ) ocijenjena je linija regresije . Zaokružiti tačnu konstataciju:

    – Ako se per capita lična potrošnja poveća za 1$, per capita dohodak će porasti za 0.986156$

    – Ako se per capita dohodak poveća za 1$, per capita lična potrošnja će porasti za 0.986156$

    – Ako se per capita dohodak poveća za 1$, per capita lična potrošnja će ostati nepromijenjena

    – Prosječna lična potrošnja u SAD-u je 343,71033$

    64022x 57980y

    2751326962x 2259550182y 249318631xy

    xy 986156,071033,343ˆ

  • 11

    2)-(nSSE

    =

    ) )1

    b i 0

    (b

    parametra ocijenjena 2 manje podataka uk.(n 2)-(n = df

    2S

    :regresiji u slobode Stepeni

    X

    Y

    Kvadrirati i sabrati sve

    regresione greške za

    SSE.

    12-4 Standardna greška

    regresije

    22

    )ˆ( 1022

    n

    xybyby

    n

    yys

  • 12

    Primjer 12-2

    • Izračunati st. grešku regresije!

    8,65215

    249318631986156,05798071033,343225995018

    22

    )ˆ( 1022

    n

    xybyby

    n

    yys

  • 13

    04972.0 84.40947557

    158.318

    )1

    (

    XSS

    sbs

    :1-12Primjer

    04972.0 84.40947557

    158.318

    )1

    (

    XSS

    sbs

    :1-12Primjer

    Standardna greška koef. pravca

    regresije

    221 xnx

    ssb

  • 14

    )1

    ()2(,

    21

    :1

    b za povjerenja interval 100% )-(1

    )0

    ()2(,

    20

    :0

    b za povjerenja interval 100% )-(1

    bsn

    tb

    bsn

    tb

    ]35820.1,15246.1[

    10287.025533.1

    ).049720( 2.069)(1.25533=

    ]28.627,58.77[

    43.35285.274

    )338.170( 2.069)(274.85=

    )()225(,025.0

    )0

    ()225(,025.00

    11

    bstb

    bstb

    :povjerenja Intervali 95%

    1-12Primjer

    ]35820.1,15246.1[

    10287.025533.1

    ).049720( 2.069)(1.25533=

    ]28.627,58.77[

    43.35285.274

    )338.170( 2.069)(274.85=

    )()225(,025.0

    )0

    ()225(,025.00

    11

    bstb

    bstb

    :povjerenja Intervali 95%

    1-12Primjer

    Intervali povjerenja za

    regresione parametre

  • 15

    Y

    X

    Y

    X

    Y

    X

    Konstantno Y Nesistematska varijacija Nelinearna veza

    Test hipoteza: Za postojanje linearne veze između X i Y:

    H 0 H 1 Test stati stika:

    ( - )

    .

    :

    :

    ( )

    1 0

    1 0

    2

    1

    1

    t n

    b

    s b

    Test hipoteza regresione veze

  • 16

    milja.predjenih i troskova

    izmedju vezapostoji -zakljucak

    nivou 1% pri odbacuje se 0

    H

    25.25807.2

    25.250.049721.25533

    =

    )1

    (

    1

    01

    :1

    H

    01

    :0

    H

    :1-12Primjer

    )23,005.0(

    )2-(

    t

    bs

    btn

    Test hipoteza za regresioni

    koeficijent

    04972,0221

    xnxs

    sb

  • 17

    1.jednak koef.

    beta je da zakljuciti Mozemo

    nivou. 10% pri odbacuje ne se 0

    H

    14.1671.1

    14.10.21

    1-1.24=

    )1

    (

    11

    11

    :1

    H

    11

    :0

    H

    60,n

    __ln_:2-12Primjer

    )58,05.0(

    ,21.0)(,24.1

    )2-(

    11

    t

    bs

    bt

    vezeregresioneeaproporcionTestiranje

    n

    bsb

    Test hipoteza za regresioni

    koeficijent

  • 18

    Koeficijent determinacije, r2, je deskriptivna mjera jačine regresione veze, koja

    mjeri koliko se dobro regresiona linija prilagođava podacima.

    . {

    Y

    X

    Y

    Y

    Y

    X

    { } Ukupno odstupanje Objašnjeno odstupanje Neobjašnjeno odstupanje

    SSTSSE

    SSTSSR

    yyyyyy

    yyyyyy

    12r

    SSR + SSE = SST

    2)ˆ( 2)ˆ(2)(

    )(Regresija (greska)

    odstupanje odstupanje odstupanje

    Objasnjeno noNeobjasnje = Ukupno

    )ˆ( )ˆ( )(

    Procenat ukupne

    varijacije koja je

    objašnjena

    regresijom.

    12-6 Koliko je dobar regresioni

    model?

  • 19

    Y

    X

    r2=0 SSE

    SST

    Y

    X

    r2=0.90 S

    S

    E

    SST

    SSR

    Y

    X

    r2=0.50 SSE

    SST

    SSR

    5 5 0 0 5 0 0 0 4 5 0 0 4 0 0 0 3 5 0 0 3 0 0 0 2 5 0 0 2 0 0 0 1 5 0 0 1 0 0 0

    7 0 0 0

    6 0 0 0

    5 0 0 0

    4 0 0 0

    3 0 0 0

    2 0 0 0

    M i l e s

    D o l l a

    r s

    Koeficijent determinacije

    22

    22

    2

    1

    2

    yny

    xnxbr

  • 20

    Primjer 12-2

    • Izračunati procenat odstupanja koji je

    objašnjen modelom.

    • r2!

    97,0

    33,1882991

    733,18782639725,0

    )15

    57980(15225995018

    )15

    64022(15275132696

    986156,02

    2

    2

    22

    22

    2

    1

    2

    yny

    xnxbr

  • 21

    Korelacija između dvije sl. promjenljive, X i Y, je mjera stepena linearne veze

    između njih.

    Populaciona korelacija, u oznaci, može uzeti vrijednost između -1 i 1.

    Korelacija između dvije sl. promjenljive, X i Y, je mjera stepena linearne veze

    između njih.

    Populaciona korelacija, u oznaci, može uzeti vrijednost između -1 i 1.

    označava perfektnu negativnu linearnu vezu

    -1<

  • 22

    Y

    X

    =0

    Y

    X

    =-.8 Y

    X

    =.8 Y

    X

    =0

    Y

    X

    =-1 Y

    X

    =1

    Ilustracija korelacije

  • 23

    :*uzorka korelacijeeficijent Ko

    YX

    YXCov

    ),(=

    :korelacijet koeficijen iPopulacion

    Y. i X prosjeci ipopulacion i X

    su gdje

    )])([(),(

    :Y i X za aKovarijans

    Y

    Y

    YX

    XEYXCov

    *Napomena: Ako je r < 0, b1 < 0 Ako r = 0, b1 = 0 Ako je r > 0, b1 >0

    Kovarijansa i korelacija

    2222 )()( yynxxn

    yxxynr

  • 24

    H0: =0 (Nema linearne veze)

    H1: 0 (Postoji linearna veza)

    Test statistika:

    tr

    r

    n

    n( )

    2 21

    2

    nivou 1% pri odbacuje se H

    25.25807.2

    25.250.0389

    0.9824=

    2-25

    0.9651-1

    0.9824=

    2

    1

    :Zadatak

    0

    005.0

    2)2(

    t

    n

    r

    rt n

    nivou 1% pri odbacuje se H

    25.25807.2

    25.250.0389

    0.9824=

    2-25

    0.9651-1

    0.9824=

    2

    1

    :Zadatak

    0

    005.0

    2)2(

    t

    n

    r

    rt n

    Test hipoteza za koeficijent

    korelacije • Testirati koeficijent korelacije od 0,9824, za seriju od 25

    podataka, uz nivo značajnosti 99%. (t=2,807)

    2

    2222 )()(r

    yynxxn

    yxxynr

  • 25

    1.-4. zadatak

    1. Za 9 radnika jedne fabrike posmatra se

    zavisnost procenta škarta u njihovoj

    proizvodnji od dužine radnog staža (u

    mjesecima), i dobijeni su sledeći podaci:

    , , , i .

    Na osnovu linije regresije, koeficijent

    pravca iznosi:

    57x

    50 y 4092 x 3042 y 284xy

    68.0)( 22

    1

    xxn

    yxxynb

  • 26

    2. Na osnovu prethodnog zadatka, može se

    zaključiti:

    – Sa većim radnim stažom, veći je procenat

    škarta

    – Sa većim radnim stažom, manji je

    procenat škarta

    – Sa manjim radnim stažom, manji je procenat

    škarta

    – Ništa od navedenog

  • 27

    3. Na osnovu podataka iz 1. zadatka, ako je

    slobodan član regresione jednačine

    9,866, procenat odstupanja koji je

    objašnjen modelom je:

    %65,848465,022

    22

    2

    1

    2

    yny

    xnxbr

  • 28

    4. Na osnovu podataka iz 1. zadatka, koeficijent

    proste linearne korelacije, uz rizik greške od

    5%:

    Je statistički značajan!

    365,27;025.0 t

    92.08465.0)()(

    2

    2222

    r

    yynxxn

    yxxynr

    216.6

    2

    1 2

    n

    r

    r

    s

    rt

    r

  • 29

    Primjer 12-2

    • Na osnovu podataka za 15 godina o per capita raspoloživom dohotku (x) i per capita ličnoj potrošnji (y) u SAD-u ( , , , , , ) ocijenjena je linija regresije . Zaokružiti tačnu konstataciju:

    – Ako se per capita lična potrošnja poveća za 1$, per capita dohodak će porasti za 0.986156$

    – Ako se per capita dohodak poveća za 1$, per capita lična potrošnja će porasti za 0.986156$

    – Ako se per capita dohodak poveća za 1$, per capita lična potrošnja će ostati nepromijenjena

    – Prosječna lična potrošnja u SAD-u je 343,71033$

    64022x 57980y

    2751326962x 2259550182y 249318631xy

    xy 986156,071033,343ˆ

  • 30

    Primjer 12-2

    Odgovor: Ako se per capita dohodak poveća

    za 1$, per capita lična potrošnja će porasti za

    0.986156$

    • Izračunati st. grešku regresije!

    8,65215

    249318631986156,05798071033,343225995018

    22

    )ˆ( 1022

    n

    xybyby

    n

    yys

  • 31

    Primjer 12-2

    • Izračunati procenat odstupanja koji nije objašnjen modelom.

    • 1-r2!

    • 100-97=3%

    97,0

    33,1882991

    733,18782639725,0

    )15

    57980(15225995018

    )15

    64022(15275132696

    986156,02

    2

    2

    22

    22

    2

    1

    2

    yny

    xnxbr

  • 32

    Primjer 12-2

    • Uz 95% nivo pouzdanosti, testirati da li je

    koeficijent proste linearne korelacije

    značajan.

    9849,02 rr

    H0: =0 (Nema linearne veze)

    H1: 0 (Postoji linearna veza)

    Test statistika: tr

    r

    n

    n( )

    2 21

    2

    nivou 5% pri odbacuje se H

    52.2016.2

    52.200.048

    0.9849=

    2-15

    0.97-1

    0.9849=

    2

    1

    :1-12Primjer

    0

    025.0

    2)2(

    t

    n

    r

    rt n

    nivou 5% pri odbacuje se H

    52.2016.2

    52.200.048

    0.9849=

    2-15

    0.97-1

    0.9849=

    2

    1

    :1-12Primjer

    0

    025.0

    2)2(

    t

    n

    r

    rt n

  • 33

    12-3. zadatak

    • Za 9 parova vrijednosti broja stanovnika u

    hiljadama (promjenljiva X) i broja ekspozitura

    poslovnih banaka (promjenljiva Y) izračunate

    su sledeće vrijednosti: , ,

    , , . Pri povećanju broja

    stanovnika za hiljadu broj ekspozitura se

    linearno povećava u prosjeku za:

    1380x 405y 0225252 x

    193312y 65960xy

    283,0)( 22

    1

    xxn

    yxxynb

  • 34

    12-3. zadatak

    2. Parametar b0 za regresiju iz prethodnog

    zadatka iznosi:

    61,110 xbyb

  • 35

    12-3. zadatak

    3. Na osnovu podataka iz zadatka 12-3.

    standardna greška regresije iznosi:

    32,122

    )ˆ( 1022

    n

    xybyby

    n

    yys

  • 36

    12-3. zadatak

    4. Na osnovu date regresije, uz vjerovatnoću od

    0,95, prosječan broj mogućih ekspozitura

    poslovnih banaka u gradu koji ima 300 hiljada

    stanovnika je:

    365,27;025.0 t 51,86300*283,061,1ˆ 1 xbby o

    22

    2

    ˆ

    )(1

    xnx

    xx

    ns

    p

    y p

    )56,89;46,83(ˆ)(ˆ ˆ2,

    2

    ˆ2,

    2

    pp

    yn

    ppyn

    p styYEsty

  • 37

    12-4. zadatak

    1. Na bazi istraživanja o godišnjem prihodu u hiljadama

    eura (x) i izdacima za otplatu stambenog kredita u

    hiljadama eura (y) 8 klijenata jedne banke dobijeni

    su sledeći rezultati:

    Ako nema prihoda, izdaci za otplatu stambenog kredita

    iznose:

    5,28y 220 x 71002 x 75,114

    2 y 5,897xy

    11,0)( 22

    1

    xxn

    yxxynb

    euraxbyb 5,5371000*5375,010

  • 38

    12-4. zadatak

    3. Na bazi podataka iz zadatka 12-4.,

    standardna greška regresije je oko:

    34,022

    )ˆ( 1022

    n

    xybyby

    n

    yys

  • 39

    12-4. zadatak

    3. Na bazi podataka iz zadatka 12-4., uz rizik greške od 5%, možemo zaključiti da je parametar b1 :

    Statistički značajan!

    447,26;025.0 t01,0221

    xnxs

    sb

    11

    1

    1 bs

    bt