Click here to load reader

Teorija vzorčenja Teorija vzorčenja Teorija vzorčenja Verjetnostne

  • View
    274

  • Download
    8

Embed Size (px)

Text of Teorija vzorčenja Teorija vzorčenja Teorija vzorčenja Verjetnostne

  • Psihologija FF UL, 1. stopnja, Statistino zakljuevanje

    20.11.2011

    1

    Teorija vzorenja

    Univerza v Ljubljani, Filozofska fakulteta, Oddelek za psihologijo tudij prve stopnje Psihologija

    2. semester, predmet Statistino zakljuevanje Izr. prof. dr. Anja Podlesek

    1 2

    Teorija vzorenja

    Spremenljivka

    Statistika

    Parameter

    Napaka vzorenja

    Teorija vzorenja

    Govori o odnosih med populacijo in vzorci, ki jih vleemo iz nje

    Ocenjevanje parametrov populacije na osnovi statistik vzorca

    Testiranje hipotez

    Statistino zakljuevanje temelji na verjetnostni teoriji.

    Verjetnostna porazdelitev opisuje verjetnost posamezne vrednosti nakljune spremenljivke.

    3 http://stattrek.com/Lesson2/DiscreteContinuous.aspx?Tutorial=stat http://itl.nist.gov/div898/handbook/eda/section3/eda36.htm

    Verjetnostne porazdelitve

    Diskretne

    Diskretna spremenljivka ima diskretne vrednosti X1, X2, Xk, ki se pojavljajo z verjetnostjo p1, p2, pk, kjer je p1+p2+ +pk = 1.

    Verjetnostna porazdelitev je limita porazdelitev relativnih frekvenc (deleev) posameznih izidov oz. je porazdelitev v populaciji.

    http://www.stat.sc.edu/~west/javahtml/CLT.html

    4

    +

    Verjetnostne porazdelitve

    Binomska porazdelitev

    Verjetnostne porazdelitve

    Poissonova porazdelitev: Je diskretna verjetnostna porazdelitev, porazdelitev redkih dogodkov.

    =

    ! X = 0, 1, 2 t. dogodkov v nekem asovnem intervalu

    6

    http://stattrek.com/Lesson2/DiscreteContinuous.aspx?Tutorial=stathttp://itl.nist.gov/div898/handbook/eda/section3/eda36.htmhttp://www.stat.sc.edu/~west/javahtml/CLT.htmlhttp://www.stat.sc.edu/~west/javahtml/CLT.html

  • Psihologija FF UL, 1. stopnja, Statistino zakljuevanje

    20.11.2011

    2

    Verjetnostne porazdelitve

    Zvezne

    Zvezna nakljuna spremenljivka lahko zasede zvezno mnoico vrednosti.

    Limita poligona relativnih frekvenc je zvezna porazdelitev.

    Ne govorimo o verjetnosti pojavljanja posameznih vrednosti, ampak intervala vrednosti (verjetnostna) gostotna funkcija (angl. probability density function). Verjetnost, da bo imela nakljuna spremenljivka vrednost v intervalu A, je integral gostotne funkcije nad intervalom A.

    7

    Verjetnostne porazdelitve

    Normalna porazdelitev

    zvezna verjetnostna porazdelitev

    () =1

    2

    2

    M = 0

    = 1, var = 1

    As = 0

    Spl = 0

    8

    Verjetnostne porazdelitve

    Odnos med normalno in binomsko porazdelitvijo: Pri velikem N in e p ali q nista preblizu 0, se binomska porazdelitev pribliuje normalni:

    =

    (aproksimacija je dobra pri Np > 5 (10) ali Nq > 5 (10)).

    Odnos med Poissonovo in normalno porazdelitvijo: Ko gre l proti neskonnosti, se Poissonova porazdelitev pribliuje normalni.

    9

    Verjetnostne porazdelitve so model: za frekvenne porazdelitve spremenljivk v vzorcu

    za porazdelitev statistik, ki jih najdemo v razlinih vzorcih z, t, F, 2

    Modeli, ki jih bomo spoznali, se nanaajo na nakljuno

    vzorenje. Vzorci morajo biti izbrani tako, da so za populacijo reprezentativni.

    Verjetnostne porazdelitve

    10

    Teorija vzorenja

    e poznamo populacijo, lahko doloimo verjetnost, da bomo iz nje potegnili specifien vzorec (s specifino statistiko).

    Obratno delamo pri statistinem zakljuevanju: izmerimo vzorec, sklepamo o populaciji.

    populacija vzorec

    verjetnost

    statistino zakljuevanje/ posploevanje/sklepanje ali inferenna statistika (angl. statistical inference)

    11

    DENIMO, DA POPULACIJO POZNAMO

    12

  • Psihologija FF UL, 1. stopnja, Statistino zakljuevanje

    20.11.2011

    3

    Teorija vzorenja

    e poznamo populacijo, lahko doloimo verjetnost, da bomo iz nje potegnili specifien vzorec (s specifino statistiko).

    Obratno delamo pri statistinem zakljuevanju: izmerimo vzorec, sklepamo o populaciji.

    populacija vzorec

    verjetnost

    statistino zakljuevanje/ posploevanje/sklepanje ali inferenna statistika (angl. statistical inference)

    13 14

    Vzorne porazdelitve

    statistika statistika statistika

    Vzorna porazdelitev

    je porazdelitev statistike neskonnega tevila vzorcev

    Vzorci se razlikujejo.

    15

    Vzorne porazdelitve

    e iz definirane populacije izberemo vse mone vzorce velikosti N, lahko za vsak vzorec doloimo statistike (npr. M, SD). Statistike se od vzorca do vzorca spreminjajo. vzorne porazdelitve statistik

    opisnih statistik vzorca, npr. M, var, p, r

    drugih izrazov, npr.

    Vsako vzorno porazdelitev lahko opiemo: Mstatistike SD = SEstatistike

    21

    21

    MMSE

    MM

    16

    Vzorne porazdelitve

    Mstatistike

    SEstatistike

    M

    SD

    frekvenna porazdelitev spremenljivke

    vzorna porazdelitev statistike

    Vzorne porazdelitve razlinih statistik se razlikujejo: z, F, t, c2 porazdelitve

    17

    Vzorne porazdelitve

    Mstatistike

    SEstatistike

    M

    SD

    frekvenna porazdelitev spremenljivke

    vzorna porazdelitev statistike za manje / veje vzorce

    e je vzorec velik, bo statistika vzorca bolj podobna parametru. Razprenost vzorne porazdelitve se z veanjem vzorca manja.

    Standardna napaka

    Standardna napaka je standardna deviacija napake, tj. razlike med oceno oz. vrednostjo statistike vzorca in pravo vrednostjo oz. vrednostjo populacijskega parametra.

    Pove nam, kako zelo raznolike vzorce lahko priakujemo oz. kakno razliko med statistiko vzorca in parametrom populacije lahko v povpreju priakujemo (iz tega tudi, ali je na vzorec zelo poseben ali ne).

    Standardna napaka:

    se z veanjem vzorcev manja,

    je odvisna od razprenosti spremenljivke v populaciji.

    18

  • Psihologija FF UL, 1. stopnja, Statistino zakljuevanje

    20.11.2011

    4

    19

    NSE

    MM

    SEM = standardni odklon vzornih

    aritmetinih sredin

    = standardna napaka ocene m

    NSE

    2

    N

    ppSE

    )1(p

    Standardna napaka

    Standardna napaka se z veanjem vzorca manja.

    Prvi izrek verjetnostne teorije = zakon velikih tevil. Opisuje, kaj se zgodi, e velikokrat izvedemo meritve Matematino priakovanje za diskretno spremenljivko:

    Z veanjem vzorca se

    pribliuje pj

    Verjetnostna porazdelitev je limita porazdelitev relativnih frekvenc (deleev) posameznih izidov oz. je porazdelitev v populaciji.

    = =

    = /

    Priakovana vrednost E(X) aritmetina sredina populacije, iz katere vzorimo.

    20

    Zakon velikih tevil

    Zakon velikih tevil

    Povpreni rezultat velikega tevila meritev se pribliuje priakovani vrednosti.

    Veje, ko bo tevilo meritev, blije bo povpreni rezultat tej vrednosti.

    Veliki vzorci bolje predstavljajo populacijo kot majhni.

    21

    Vzorna porazdelitev aritmetine sredine

    NSE

    MM

    SEM v primeru neskonnih populacij ali vzorenja z vraanjem

    1

    MM

    p

    p

    N

    NN

    NSE

    SEM v primeru konnih populacij Np velikost populacije N velikost vzorca Enaba velja, ko je Np > N.

    Korekcija za konnost populacije

    M

    M=SEM = SEM

    E(M) = m

    M =

    Iz zakona velikih tevil sledi, da je, e iz

    populacije nakljuno izberemo vzorec

    velikosti N, priakovana vrednost aritmetine

    sredine vzorca (M) enaka populacijski

    sredini ().

    22

    Vzorna porazdelitev aritmetine sredine

    Centralni limitni izrek (angl. central limit theorem)

    = drugi temeljni izrek verjetnostne teorije

    Pravi: Za katerokoli populacijo s sredino m in standardno deviacijo s velja, da se z veanjem vzorca (N gre proti neskonnosti) porazdelitev vzornih sredin pribliuje normalni porazdelitvi s sredino m in varianco s2/n, ne glede na obliko frekvenne porazdelitve vrednosti Xi.

    http://www.vias.org/simulations/simusoft_cenlimit.html

    http://onlinestatbook.com/stat_sim/sampling_dist/index.html

    23

    Vzorna porazdelitev aritmetine sredine

    Je pri velikih vzorcih asimptotino normalna, ne glede na to, kakna je porazdelitev spremenljivke v populaciji.

    Tudi pri majhnih vzorcih je normalna, e se spremenljivka v populaciji porazdeljuje normalno. e se ne, vzorna porazdelitev sredin majhnih vzorcev ni normalna. preveriti normalnost porazdelitve spremenljivke v populaciji!

    24

    http://www.vias.org/simulations/simusoft_cenlimit.htmlhttp://www.vias.org/simulations/simusoft_cenlimit.htmlhttp://www.vias.org/simulations/simusoft_cenlimit.htmlhttp://onlinestatbook.com/stat_sim/sampling_dist/index.htmlhttp://onlinestatbook.com/stat_sim/sampling_dist/index.htmlhttp://onlinestatbook.com/stat_sim/sampling_dist/index.html

  • Psihologija FF UL, 1. stopnja, Statistino zakljuevanje

    20.11.2011

    5

    Vzorna porazdelitev delea

    p =

    N

    pp

    N

    pqSE

    )1(p

    Oblika: Pri velikem N se pribliuje normalni porazdelitvi. (Porazdelitev spremenljivke v populaciji je binomska.)

    Pri neskonnih populacijah ali konnih populacijah z vraanjem

    Pri konnih populacijah brez vraanja 1p

    p

    p

    N

    NN

    N

    pqSE

    p

    p =SEp

    25

    Vzorna porazdelitev standardne deviacije

    NSE

    2

    Samo v primeru, ko je porazdelitev spremenljivke v populaciji (vsaj priblino) normalna.

    Pri velikih vzorcih:

    = se pribliuje normalni

    (pri N > 100).

    26

    =

    Vzorna porazdelitev razlik

    Oblika: Pri velikih vzorcih se pribliuje normalni. Pri majhnih vzorcih se pribliuje normalni porazdelitvi, e se spremenljivka porazdeljuje normalno v obeh populacijah, od koder izhajata vzorca, ki ju primerjamo preveriti za vsak vzorec posebej.

    2

    2G

    2

    1GG2-G1

    G2G1G2-G1

    SESESE

    G zamenjamo z: - M, za primerjavo aritmetinih sredin dveh vzorcev, - p, za primerjavo deleev v dveh vzorcih.

    Enabi veljata: - za neskonne populacije in vzorenje z

    vraanjem. Pri konni populaciji brez vraanja uporabimo korekcijo.

    - v primeru neodvisnih vzorcev.

    27

    KAJ PA, E POPULACIJE NE POZNAMO?

    28

    Teorija vzorenja

    e poznamo populacijo, lahko doloimo verjetnost, da bomo iz nje potegnili specifien vzorec (s specifino statistiko).

    Obratno delamo pri statistinem zakljuevanju: izmerimo vzorec, sklepamo o populaciji.

    populacija vzorec

    verjetnost

    statistino zakljuevanje/ posploevanje/sklepanje ali inferenna statistika (angl. statistical inference)

    29

    Do zdaj smo govorili o vzornih porazdelitvah, ki nastanejo, ko vleemo vzorce iz poznane populacije. s je bila znana

    Kaj pa, e populacije v resnici ne poznamo in poznamo le en sam vzorec ter elimo sklepati o populaciji?

    30

  • Psihologija FF UL, 1. stopnja, Statistino zakljuevanje

    20.11.2011

    6

    SE pri velikih vzorcih in/ali znani varianci populacije

    e je vzorec velik, se vzorna porazdelitev statistike pribliuje normalni.

    Enabe za SEstatistike ustrezno predstavljajo razprnost statistike v vzorni porazdelitvi, e je s znana.

    Pri velikih vzorcih je s zelo verjetno zelo blizu pravi vrednosti s, in zato je tudi SEstatistike zelo blizu pravi SD cenilk.

    31

    SE pri majhnih vzorcih, ko ne poznamo variance v populaciji

    V resnici pa pogosto ne poznamo prave vrednosti standardne deviacije spremenljivke. Posledino uporabljamo izraz standardna napaka za OCENO standardne napake: M =

    Pri majhnih vzorcih, e ne poznamo variance spremenljivke v populaciji (oz. s), je izraun SE statistike bolj negotov SEM, izraunana po predstavljenih enabah za velike vzorce, je pristranska ocena populacijske standardne napake (jo podcenjuje). To je potrebno upotevati!

    32

    Vzorne porazdelitve pri velikih vzorcih

    Metode posploevanja na osnovi velikih vzorcev temeljijo na uporabi normalne verjetnostne porazdelitve.

    Pri velikih vzorcih lahko statistike obravnavamo v standardizirani obliki (z koliko SE se odklanjajo od M vzorne porazdelitve).

    33

    Normalna porazdelitev

    34

    Vzorne porazdelitve pri velikih vzorcih

    35

    Excel: funkciji NORMSDIST(z) NORM.S.DIST NORMSINV(p) NORM.S.INV

    Verjetnost pojavljanja vzorne statistike pri velikih vzorcih

    e poznamo parameter v populaciji, lahko:

    doloimo verjetnost pojavljanja doloene vrednosti vzorne statistike.

    =

    statistike p

    doloimo interval vrednosti statistike, ki jo priakujemo v srednjih k % vzorcev.

    36

  • Psihologija FF UL, 1. stopnja, Statistino zakljuevanje

    20.11.2011

    7

    Vzorne porazdelitve pri majhnih vzorcih

    Pri majhnih vzorcih, e ne poznamo variance oz. s spremenljivke v populaciji (in ocenjujemo SEM): - za standardiziranje odklona vzorne sredine od

    priakovane vrednosti (m) uporabljamo t - za primerjavo vzorne variance s priakovano

    vrednostjo (populacijsko s2) uporabljamo c2 - za standardiziranje odklona razlike med

    sredinama dveh vzorcev in priakovane razlike (m1m2) uporabljamo t

    - za primerjavo razmerij varianc dveh vzorcev s priakovanim razmerjem uporabljamo F

    37

    (Studentova) t porazdelitev

    N

    Mz

    SE

    M

    N

    MN

    SD

    Mt

    /

    '

    /'

    1

    M

    s

    s

    e iz normalno porazdeljene populacije s sredino m vleemo neskonno veliko majhnih vzorcev in v vsakem izraunamo t, tako da v enabo vstavimo sredino vzorca in njegovo oceno populacijske s, tj. , dobimo vzorno porazdelitev t (pri df = N-1). Pri velikih vzorcih se t porazdelitev pribliuje normalni. 38

    (Studentova) t porazdelitev

    je zvezna verjetnostna porazdelitev

    pri ocenjevanju aritmetine sredine spremenljivke, ki se v populaciji normalno porazdeljuje, ko imamo opravka z majhnimi vzorci in ne poznamo s

    df = z df = 30

    39

    Prostostne stopnje

    angl. degrees of freedom df

    df = tevilo vrednosti pri konnem izraunu statistike, ki lahko prosto variirajo (= t. neodvisnih podatkov t. predhodno ocenjenih parametrov)

    X = 1, 2, 3

    =

    = 2 vkljueni trije neodvisni kosi informacije

    = 2

    = 2/3 vkljuena dva neodvisna kosa

    informacije (N-1) pred tem smo ocenili

    40

    Vrednost t, od katere desno lei pod krivuljo doloen dele primerov Excel: funkciji TDIST(X,df,1) T.DIST.RT(X,df) TINV(p,df,1) T.INV.RT(p,df)

    Pogoste so tudi tabele s ploino pod krivuljo pri vednostih, ekstremnejih od t

    Excel: funkciji TDIST(X,df,2) T.DIST.2T(X,df) TINV(p,df,2) T.INV.2T(p,df) 41

    Hi-kvadrat porazdelitev

    e iz normalno porazdeljene populacije s standardno deviacijo s potegnemo N podatkov in izraunamo zgornjo statistiko (odklone raunamo od vzorne M), se ta porazdeljuje po c2 porazdelitvi z df=N-1.

    2

    2

    2

    22

    2

    22

    2

    2

    1

    2

    2

    2

    1

    2

    1 i

    ii2

    ')1(

    )(...)()(

    NSDN

    MXMXMXSS

    zX

    N

    N

    i

    i

    N

    i

    42

    df = N

    df = N 1

    df = N 1

  • Psihologija FF UL, 1. stopnja, Statistino zakljuevanje

    20.11.2011

    8

    Hi-kvadrat porazdelitev

    Z veanjem df se c2 porazdelitev pribliuje normalni.

    Je zvezna verjetnostna porazdelitev, ki jo uporabljamo pri zakljuevanju o varianci.

    43

    Vrednost c2, od katere desno lei pod krivuljo doloen dele primerov

    Excel: funkciji CHIINV(p,df) CHISQ.INV.RT CHIDIST(X,df) CHISQ.DIST.RT

    44

    F porazdelitev

    F porazdelitev se pojavi pri primerjavi varianc dveh vzorcev.

    Oblika F porazdelitve je odvisna od dveh df, in sicer od df, vezane na tevec, in df, vezane na imenovalec zgornje enabe: df1= N1-1, df2 = N2-1.

    1

    1

    1

    1

    1

    2

    2

    2

    1

    2

    1

    2

    22

    2

    22

    2

    11

    2

    11

    j

    2

    jj2

    j

    2

    2

    2

    2

    2

    1

    2

    1

    N

    N

    NSDN

    NSDNF

    N

    SDNs

    s

    sF

    45

    F porazdelitev

    e se vzorec 1 vea proti neskonnemu, se F-porazdelitev pribliuje hi-kvadrat porazdelitvi z df=N2-1. Z veanjem obeh vzorcev proti neskonnemu N se F-porazdelitev pribliuje normalni.

    Je zvezna verjetnostna porazdelitev.

    46 http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_fisher_distri.htm

    Vrednost F, od katere desno lei pod krivuljo 5 % primerov

    Excel: funkciji FINV(p,df1,df2) F.INV.RT FDIST(X,df1,df2) F.DIST.RT

    47

    http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_fisher_distri.htmhttp://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_fisher_distri.htm