Statistika Po Ispitnim Pitanjima - Pandurevic

Embed Size (px)

DESCRIPTION

Skripta iz statistike rađena po knjizi iz medicinske statistike Medicinskog fakulteta Univerziteta u Beogradu. Nije zamjena za zvanični udžbenik. Ili jeste, briga me, ja sam dobio 10.

Citation preview

  • ver 0.8

    STATISTIKA

    skripta

    po ispitnim pitanjima

    Medicinskog fakulteta u Beogradu

    Sran Pandurevi

    februar 2015.

  • Pojam i definicija statistike

    I. Gottfried Achenwal - Univerzitetska statistika

    II. Po njemu statistika = nauka o dravi

    III. Metod kvantitativnog istraivanja masovnih pojava

    Razvoj statistike

    I. Stara 6000 godina (ma daa)

    II. Prvi oblik statistike popis

    A. rimski cenzus

    III. Moderna statistika kraj XVIII, poetak XIX vijeka, prvi organi stat. slube

    IV. Adolf Ketle smatra se osnivaem savremene statistike

    V. Karl Pearson, genetika i eugenika, jako bitan lik, razradio savremenu

    statistiku

    Klasifikacija statistike

    I. Evidenciona statistika: prikupljanje, registrovanje, sreivanje podataka kao

    krajnji cilj

    II. Teorijska statistika: oblast primjenjene matematike, rijeava teorijske

    probleme statistike

    III. Primjenjene statistike: posebne statistike koriene za istraivanje u

    raznim oblastima nauke. Ima ih onoliko koliko ima oblasti istraivanja

    A. Medicinska statistika: nastala 1847. Semmelweiss i smrtnost

    porodilja

    Statistiki metod i metodologija

    I. Statistika kao nauni metod ima dvije osnovne karakteristike: (1)

    masovnost i (2) kvantitativnost

    II. Statistiki istraivanje se primjenjuje na masovne pojave (pojave koje se

    deavaju u velikom broju, ili se ponavljaju u vremenu)

    III. Kvantitativnost je specifinost statistikog metoda i omoguava

    utvrivanje opteg svojstva i zakonitosti individualno promjenljivih pojava

    IV. Etape rada statistikog metoda:

    A. prouavanje pojave i planiranje istraivanja

    B. posmatranje/prikupljanje podataka: najvea etapa po obimu

    C. obrada prikupljenih podataka

    1. sreivanje

    2. opisivanje

    3. analiziranje

    4. generalizacija zakljuka

    V. Dvije vrste greaka u statistikim istraivanjima

    A. greke u radu

    1. sistematske: stalno se ispoljavaju u istom smislu kritino

    ugroavaju istraivanje

    2. sluajne: nasumino se ispoljavaju, efekti na istraivanje se obino

    potiru

    3. perturbacije: pojava se posmatra u neuobiajenimokolnostima,

    to krivi sliku o njoj

    B. greke u zakljuivanju

    1. greke I vrste

    2. greke II vrste

    Osnovni statistiki pojmovi

    I. Statistika: nauka koja se bavi kvantitativnim istraivanjem pojava u cilju

    njihove deskripcije, analize i generalizacije zakljuaka

    II. Statistiki skup: cjelina sastavljena od istovrsnih elemenata sa

    zajednikom varijablom (promjenljivom karakteristikom)

    A. mora biti sastavljen od istovrsnih i meusobno uporedivih elemenata

    B. dvije vrste statistikih skupova:

    1. osnovni skup: skup svih postojeih istovrsnih elemenata

    praktino nedostupan

    2. uzorak: reprezentativni dio osnovnog skupa

    III. Jedinice posmatranja: istovrsni elementi statistikog skupa, nosioci

    obiljeja posmatranja

    IV. Obiljeja posmatranja: karakteristike statistikog skupa, mogu biti

    kvalitativna i kvantitativna

    A. atributivna (kvalitativna): izraavaju se opisno (pol, vrsta oboljenja,

    ishod bolesti itd.)

    B. numerika (kvantitativna): izraavaju se brojevima, i mogu se

    prebrojavati i mjeriti (broj oboljelih, godine ivota, temperatura, lipidi

    u serumu itd.)

    1. diskontinuirana: rezultat prebrojavanja, samo cijeli brojevi (broj

    oboljelih, frekvencija pulsa, eritrociti u krvi itd.)

    2. kontinuirana: rezultat mjerenja, realne vrijednosti (jaina doze,

    krvni pritisak, temperatura itd.)

    V. podatak: bilo kakav zapis o statistikom skupu, jedinicama posmatranja ili

    obiljejima posmatranja

    Grupisanje podataka

    I. Grupisanje: metoda razvrstavanja jedinica posmatranja statistikog skupa u

    grupe i grupne intervale obiljeja posmatranja

    II. Pravila grupisanja:

    A. sveobuhvatnost

    B. sistematinost

    C. odreenost

    III. Redoslijed grupisanja:

    A. utvrivanje minimalne i maksimalne vrijednosti, da bi sve vrijednosti

    stat. skupa bile obuhvaene

    B. utvrivanje raspona vrijednosti, na osnovu ega se utvruje irina

    grupnog intervala

    1. mali intervali vei broj intervala manji gubitak

    informacija/manja preglednost

    2. veliki intervali manji broj intervala vei gubitak

    informacija/vea preglednost

    3. intervali moraju biti iste veliine

    4. donja granica prvog intervala poinje sa 0

    IV. Frekvencija ( f ) :broj jedinica posmatranja koje pripadaju jednoj grupi

    A. apsolutna frekvencija: rezultat prebrojavanja jedinica posmatranja

    B. relativna frekvencija: rezultat odnosa apsolutne frekvencije jedne

    grupe prema ukupnob broju jedinica; izraava se u vidu decimale ili

    procenta

    C. kumulativna frekvencija: sukcesivni zbir frekvencija pojedinih grupa;

    poslednja kumulativna frekvencija je jednaka ukupnom broju jedinica

    posmatranja

    Prikazivanje podataka obuhvata ispitna pitanja:

    I. Tabeliranje

    II. Grafiko prikazivanje

    Tabeliranje

    I. Pregledno prikazivanje prethodno grupisanih podataka tabelom

    II. Pravougaona, izdjeljena horizontalnim i vertikalnim linijama na rubrike

    A. vertikalne rubrike: kolone

    B. horizontalne rubrike: redovi

    III. Tabela mora da bude:

    A. pregledna, sa ogranienim brojem kolona i redova

    B. jasna i razumljiva

    C. potpuna

    D. tehniki dobra i pravilna

    IV. Podjela tabela:

    A. prema broju statistikih serija

    1. proste: 1 serija

    2. sloene: vie serija

    B. prema broju i ralanjenosti obiljeja

    1. elementarne: jedno ralanjeno obiljeje

    2. kombinovane: vie ralanjenih obiljeja

    Grafiko prikazivanje

    I. Metod prikazivanja grupisanih i tabeliranih podataka u vizuelnom obliku

    II. Dvije grupe:

    A. podaci prikazani oznakama i simbolima: kartogrami, simboliki crtei

    B. dijagrami: podaci prikazani geometrijskim oblicima

  • 1. takasti (korelacioni)

    2. linijski

    a. poligon frekvencija

    b. kriva frekvencija

    c. vremenski linijski dijagram

    d. kumulativni dijagram

    e. polarni dijagram

    3. povrinski

    a. stubiasti

    b. tapiasti

    c. histogram frekvencija

    d. kruni (pie)

    e. pravougaoni

    4. prostorni (stereogrami)

    III. Razliite vrste obiljeja zahtijevaju korienje razliitih dijagrama:

    A. numeriki kontinuirani poligon frekvencija, histogram frekvencija

    B. numeriki diskontinuirani tapiasti

    C. atributivni stubiasti, kruni

    Relativni brojevi

    I. Apsolutni brojevi se dobijaju kao rezultat mjerenja, ali se ne mogu koristiti

    za poreenje pojava koje nisu istovjetne. Za te potrebe njih dopunjuju

    relativni brojevi

    II. Relativni brojevi: statistiki parametri koji omoguuju poreenje

    istoimenih i raznoimenih pojava bez obzira na njihov intenzitet

    III. Relativni brojevi se mogu izraunati ako se znaju bar dva broja koji su u

    nekom odnosu jedan prema drugom

    IV. Dobija se kao kolinik dva broja, brojioca (vrijednosti koja se uporeuje) i

    imenioca (vrijednost kojom se uporeuje):

    V. Relativni broj je decimalan broj, i za lake tumaenje se esto mnoi sa 100

    procenti, i sa 1000 promili. Proporcija je relativni broj uvijek 1

    VI. Postoje tri tipa relativnih brojeva

    A. indeks strukture: porede odnos dijela i cjeline

    B. indeks dinamike: pokazuju relativnu promjenu obiljeja u vremenu

    1. bazni indeks: vrijednosti se porede sa istom bazom

    2. lanani indeks: svaka sledea vrijednost se poredi sa prethodnom

    C. koeficijent: poredi intenzitete dvije vrijednosti od kojih je bar jedna

    masovna (natalitet, mortalitet, incidencija, prevalencija)

    Mjere centralne tendencije

    I. Dijele se na dvije grupe:

    A. matematike

    1. aritimetika sredina

    B. pozicione

    1. medijana

    2. mod

    Aritimetika sredina

    I. Dobija se sabiranjem svih vrijednosti ispitivanog obiljeja i dijeljenjem

    zbira sa brojem vrijednosti

    II. Oznaava se sa (iks bar)

    III. Za grupisane vrijednosti se dodaje f, frekvencija vrijednosti koje

    pripadaju odreenoj grupi; aritimetika sredina ovih vrijednosti se zove

    ponderisana aritimetika sredina zato to uticaj vrijednosti na aritimetiku

    sredinu zavisi od njene frekvencije

    IV. U homogenom skupu, kvadrat odstupanja pojedinanih vrijednosti je

    uvijek minimalan za aritimetiku sredinu, u odnosu na bilo koju drugu

    vrijednost ( )

    V. Za heterogeni skup se ne moe koristiti aritimetika sredina, zato to

    ekstremne vrijednosti onemoguuju reprezentativnost aritimetike sredine,

    zbog ega se koriste pozicione mjere u tom sluaju

    Medijana

    I. Srednja vrijednost po poloaju, izraunava se:

    A. vrijednosti se poreaju po veliini u niz

    B. utvrdi se sredina niza

    C. ukoliko je zbir frekvencija

    1. neparan: vrijednost na sredini je medijana

    2. paran: dvije centralne vrijednosti se saberu i podijele sa 2

    1 3 20 99 101 552 612 980 992

    101

    1 3 20 99 101 552 612 980 med 100

    II. Koristi se kada ekstremne vrijednosti ne dozvoljavaju upotrebu

    aritimetike sredine

    Mod

    I. Srednja vrijednost po poloaju, dobija se tako to se odredi vrijednost koja

    se najvie puta pojavljuje u skupu

    1 1 3 99 101 552 612 980 992 1

    II. Ukoliko postoji vie vrijednosti sa maksimalnim frekvencijama

    A. ukoliko su one susjedne vrijednosti, mod je granina vrijednost tih

    grupa

    B. ukoliko su podijeljene sa vie drugih vrijednosti, onda je polimodalna

    raspodjela, to je loe, valjda

    III. Mod se koristi prvenstveno za nominalne vrijednosti

    Odnos mjera centralne tendencije

    I. Kada su vrijednosti pravilno i simetrino rasporeene, aritimetika sredina,

    medijana i mod imaju iste, jednake vrijednosti

    II. Kada su vrijednosti asimetrino rasporeene, medijana se uvijek nalazi

    izmeu moda i aritimetike sredine

    III. Kod unimodalnih simetrinih i umjereno asimetrinih raspodjela

    uestalosti, medijana se nalazi na treini puta od aritimetike sredine ka

    modu:

    Mjere varijabiliteta

    I. Srednje vrijednosti se koriste kod skupova koji se grupiu oko jedne

    vrijednosti, ukoliko to nije sluaj, srednje vrijednosti nemaju svrhu za taj

    skup

    II. Mjere varijabiliteta odreuju da li se, i koliko, vrijednosti skupa grupiu

    oko srednje vrijednosti

    III. Dijele se na:

    A. apsolutne mjere varijabiliteta:

    1. interval varijacije

    2. standardna devijacija

    3. srednje apsolutno odstupanje

    4. kvartili, decili, centili

    5. varijansa

    B. relativne mjere varijabiliteta:

    1. koeficijent varijacije

    2. z vrijednost

    Interval varijacije

    I. Najjednostavnija mjera varijabiliteta

    II. Pokazuje razmak od najmanje do najvee vrijednosti:

    III. Daje informacije samo o ekstremnim vrijednostima, a ne daje nikakve o

    varijabilitetu unutar intervala

    IV. Vei broj vrijednosti takoe utie na ovu mjeru (vea ansa za ekstremne

    vrijednosti)

    Standardna devijacija

    I. Najee upotrebljavana mjera varijabiliteta

    II. Mjeri odstupanje vrijednosti od aritimetike sredine, tj. gustinu

    grupisanja oko a.s.

    III. Manja vrijednost SD znai manje odstupanje, kao i manji varijabilitet, i

    obrnuto

    varijansa

  • IV. Varijansa je srednje kvadratno odstupanje od aritimetike sredine. Dobija

    se kao kolinik sume svih razlika vrijednosti i aritimetike sredine sa

    ukupnim brojem vrijednosti:

    V. Apsolutna je mjera, tako da se moe koristiti samo za uporeivanje

    varijabiliteta istih obiljeja, ukoliko se aritimetike sredine ne razlikuju

    mnogo

    Koeficijent varijacije

    I. Relativna mjera varijabiliteta, omoguava poreenje varijabilnosti razliitih

    obiljeja kao i istih obiljeja sa razliitom aritimetikom sredinom

    II. Dobija se kao kolinik standardne devijacije i aritimetike sredine:

    A. koeficijent varijacije je standardna devijacija izraena u procentima

    aritimetike sredine

    III. CV se koristi i kao mjera homogenosti skupa; homogenost je vea ukoliko

    je CV manji

    A. smatra se da je pojava homogena ako je , u suprotnom je

    heterogena

    IV. CV se upotrebljava u sluaju kada se eli utvrditi:

    A. u kom obiljeju neka grupa varira vie a u kom manje

    B. koja grupa vie varira a koja manje po jednom obiljeju

    z vrijednost

    I. z vrijednost: Odstupanje vrijednosti od aritimetike sredine iskazano u

    standardnim devijacijama:

    II. z vrijednost je pokazatelj relativne pozicije vrijednosti u skupu

    III. Kad je z negativno, onda je vrijednost manja od aritimetike sredine, a

    kada je pozitivna, onda je vea od a.s.

    Poreenje varijabiliteta

    I. Procjena varijabiliteta se vri na osnovu odnosa aritimetike sredine i

    standardne devijacije. Za odnos varijabiliteta dvije pojave, razlikuju se

    sledee situacije:

    A. varijabilitet je isti

    B. varijabilitet je manji tamo gdje je manja

    standardna devijacija, i obrnuto

    C. varijabilitet je vei tamo gdje je manja standardna

    devijacija, i obrnuto

    D. moe se izraunati CV i z vrijednost, tamo gdje su

    oni manji, manji je i varijabilitet

    Mjere oblika raspodjela frekvencija

    I. Raspodjele frekvencija mogu biti simetrine i deformisane

    A. Simetrina distribucija frekvencija se karakterie nagomilavanjem

    vrijednosti oko aritimetike sredine/simetrinim, postepenim padom

    uestalosti lijevo i desno od aritimetike sredine

    B. Deformisana distribucija moe biti:

    1. asimetrina/nagnuta na jednu stranu

    a. nagnuta negativno (ispod aritimetike sredine)/iskoena

    udesno

    b. nagnuta pozitivno (iznad a.s.)/iskoena ulijevo

    2. spljotena/izduena (kurtosis)

    a. vertikalno spljotena, platikurtosis (niska, iroka raspodjela)

    b. bona spljotenost, leptokurtosis (visoka, uska raspodjela)

    Statistika analiza

    I. Matematiko-logiki postupak donoenja zakljuaka o problemu

    istraivanja, na osnovu rezultata adekvatno odabranih i pravilno

    primjenjenih specifinih statistikih metoda

    II. Apsolutna tanost statistikih zakljuaka je nemogua, zato se mora

    utvrditi stepen sigurnosti, odnosno greke

    III. Vjerovatnoa sigurnosti: minimalna vjerovatnoa koja podrava doneseni

    zakljuak. Naspram nje je vjerovatnoa greke maksimalna vjerovatnoa

    dopustive greke u zakljuivanju. Zajedno ine 1, odn. 100%

    IV. Minimalni nivo znaajnosti u medicini je 0,95 maksimalna greka 0,05.

    Drugi definisani nivo znaajnosti je 0,99, odnosno maksimalna greka 0,01

    A. To znai da, sa nivoom znaajnosti od 0,05, postoji ansa od 5% da

    izvedeni rezultati istraivanja nisu tani

    V. Dva tipa statistike analize:

    A. procjena parametara osnovnog skupa preko ispitivanja uzorka.

    Interval povjerenja govori o pouzdanosti procjene

    B. ispitivanje hipoteze o uoenoj pojavi. Provjerava se njena istinitost za

    odreeni nivo znaajnosti. Postupkom provjere istinitosti se

    procjenjuje

    1. znaajnost slinosti oblika raspodjela

    2. znaajnost razlike

    3. znaajnost paralelizma (povezanosti, zavisnosti)

    Ispitivanje hipoteze

    I. Postupak provjere istinitosti naune pretpostavke o pojavi koja se ispituje

    II. Definiu se dvije, suprotne hipoteze: alternativna H1 i nulta H0. Poinje

    se sa prepostavkom da je nulta hipoteza tana

    III. Nulta hipoteza tvrdi da je prouavana pojava nasumina i da nije

    znaajna, i na osnovu nje se provjerava validnost alternativne hipoteze

    IV. Hipoteze se mogu formulisati:

    A. dvosmjerno: nije bitan smjer variranja, bitno je samo da li se vrijednost

    razlikuje od oekivane (npr. H0: puenje ne utie na incidenciju raka

    plua)

    B. jednosmjerno: uzima se u obzir smjer variranja (npr. H0: puenje ne

    utie, ili umanjuje incidenciju raka plua)

    V. Bira se nivo znaajnosti, odnosno, bira se vjerovatnoa greke prve vrste

    ( ), na osnovu prirode ispitivane pojave

    oblasti odbacivanja nulte hipoteze, dvosmjerno

    Greke u zakljuivanju

    I. Poto se statistiki zakljuci baziraju na uzorku, pri ispitivanju hipoteza

    postoji mogunost greke. Procjena ispravnosti hipoteza zato ima 4 ishoda:

    A. prihvaena tana H0 (1- )

    B. prihvaena pogrena H0 ( ) greka II vrste

    C. odbaena pogrena H0 ( )

    D. odbaena tana H0 ( ) greka I vrste

  • II. to je vea , vea je ansa da e biti prihvaena alternativna hipoteza, ali

    i vea ansa da e biti odbaena tana nulta. Istraiva direktno bira ovu

    vrijednost

    III. , sa druge strane, je pod uticajem vie faktora:

    A. stvarna vrijednost parametra uzorka

    B.

    C. veliina uzorka

    D. smjer procjene ispravnosti hipoteze

    IV. i se, stoga, ne dopunjuju do 1, ve, iako smanjenje poveava ansu

    za , poveanje uzorka je smanjuje, tako to smanjuje standardnu greku

    (SE)

    V. Jednosmjerno testiranje hipoteza takoe smanjuje an su za nastanak

    Jaina, efikasnost i osjetljivost metoda

    I. Jaina metoda ( ) je maksimalna mogunost metoda da garantuje tanost

    zakljuka

    A. komplementarna je beti

    II. Efikasnost metoda je relativna jaina metoda. Dobija se poreenjem

    jaine jednog metoda sa standardom. Ukoliko je efikasnost >1, prvi metod je

    efikasniji od standarda

    III. Osjetljivost/robusnost metoda pokazuje ponaanje metoda u uslovima

    razliitog stepena naruenosti pretpostavki o uzorku(normalnost,

    homogenost, simetrinost itd.)

    Analitiki metodi

    I. Specifini statistiki metodi koji se koriste u statistikoj analizi

    II. Postoje dvije glavne vrste:

    A. parametarski: zahtijevaju poznavanje raspodjele uestalosti uzorakog

    skupa i mogunou izraunavanja parametara

    1. primjeri parametara: aritimetika sredina, varijansa, standardna

    devijacija

    2. osnovni zahtjev jeste homogenost ( ), ukoliko je uzorak

    jako mali

    3. lanovi:

    a. z test

    b. t test

    B. neparametarski: mogu se primjenjivati u svim empirijskim situacijama,

    a ukoliko je nemogue iskoristiti parametarski metod, onda je i

    obavezna

    1. parametarski metodi su jai, tako da njih treba koristiti kada je

    mogue

    2. dijele se na dvije podgrupe:

    a. oni koji procjenjuju empirijske uestalosti:

    i.

    ii. Fierov test tane vjerovatnoe

    iii. MekNemarov test

    b. oni koji procjenjuju rangovne vrijednosti

    i. test ekvivalentnih parova

    ii. test sume rangova

    iii. test predznaka

    III. Za procjenu oblika povezanosti/zavisnosti se koristi linearna regresija

    IV. Za procjenu jaine povezanosti se koriste:

    A. parametarski: Pearsonov linearni koeficijent korelacije

    B. neparametarski: Spearmanov koeficijent korelacije rangova

    Vjerovatnoa

    I. Teorija vjerovatnoe se bavi vjerovatnim/sluajnim dogaajima

    II. Sluajni dogaaj je dogaaj koji se u datim uslovima moe oekivati, ali se

    ne mora nuno ostvariti; sigurni/nuni dogaaj se mora ostvariti

    A. Baen novi mora pasti na zemlju pod uticajem gravitacije (nuni

    dogaaj), ali ne mora nuno da padne pismo (sluajan dogaaj)

    III. Vjerovatnoa: mjera anse da se dogodi sluajni dogaaj.

    IV. Vjerovatnoa moe biti:

    A. objektivna:

    1. matematika odnos broja oekivanih ishoda sa ukupnim brojem

    moguih ishoda

    a. za pismo, broj moguih ishoda je 2 (glava/pismo), a oekivan

    je 1 (pismo)

    2. statistika/empirijska vjerovatnoa dobijena posmatranjem vie

    istih dogaaja i biljeenja rezultata

    a. baca se 100 novia, i biljei koliko je palo glava, a koliko

    pisama (npr 54 glave/46 pisama 54% ansa za glave, 46%

    ansa za pisma)

    b. to se vie dogaaja posmatra, statistika vjerovatnoa se

    vie pribliava matematikoj (npr. 1000 bacanja novia

    51% glava, 49% pisma)

    B. subjektivna: lino uvjerenje o vjerovatnoi nekog dogaaja, bazirano

    na linom iskustvu i znanju

    V. Dogaaji mogu po zavisnosti biti:

    A. nezavisni: vjerovatnoa jednog dogaaja ne zavisi od drugog (npr.

    bacanje dva novia)

    B. zavisni: da bi se jedan dogaaj desio, mora da se desi neki drugi

    dogaaj prije njega (npr. bacanje jednog novia tako da prvo padne

    glava, pa pismo)

    VI. Dogaaji mogu po iskljuivosti biti:

    A. iskljuivi: dogaaji koji se ne mogu desiti istovremeno (ne moe

    istovremeno da padne i glava i pismo bacanjem jednog novia)

    B. neiskljuivi: dogaaji koji se mogu desiti istovremeno (osoba ima

    cirozu jetre, osoba ima hepatitis B)

    VII. Zakon adicije:

    A. ako su 2 dogaaja iskljuiva: vjerovatnoa da e se desiti jedan ili

    drugi dogaaj je jednaka zbiru vjerovatnoa jednog i drugog

    B. ako 2 dogaaja nisu iskljuiva: vjerovatnoa da e se desiti jedan ili

    drugi dogaaj je jednaka zbiru jednog i drugog, minus vjerovatnoa da

    e se desiti oba zajedno

    VIII. Zakon multiplikacije: vjerovatnoa da e se dva nezavisna dogaaja oba

    dogoditi (npr. da e u jednom danu u ordinaciju ui alkoholiar i trudnica)

    je jednaka proizvodu vjerovatnoa ta dva dogaaja:

    A. Ukoliko su dogaaji zavisni, jedan dogaaj je nezavistan, a drugi je

    zavistan od pojave prvog (npr. ciroza jetre je zavisna od pojave

    hepatitisa B). Prvo se mora znati vjerovatnoa pojave zavisnog

    dogaaja ukoliko se ostvari nezavisni(P(zavisni|nezavisni)), pa se onda

    ona mnoi sa vjerovatnoom pojave nezavisnog:

    1. BTW to znai da je vjerovatnoa zavisnog dogaaja ako se ne

    dogodi nezavisni = 0

    2. BTW2 relativna vjerovatnoa je vjerovatnoa pojave zavisnog

    ukoliko se ostvari nezavisni dogaaj

    Teorijske raspodjele

    I. Matematiki modeli raspodjela vjerovatnoa

    II. Formiraju se primjenom teorije vjerovatnoe na sloene sluajne

    dogaaje

    III. Sloeni dogaaj znai da se vie dogaaja uzima u obzir (vie bacanja

    novia, vie ispitanika)

    IV. Teorijske raspodjele mogu biti:

    A. kontinuirane kada su glatke na grafiku

    1. normalna raspodjela

    2. t

    3. hi-kvadrat

    B. diskontinuirane kada postoje definisane cjelobrojne vrijednosti

    1. binomna raspodjela

    V. Prikaz vjerovatnoa moe biti:

  • A. parcijalan za svaku pojedinanu vrijednost na osi se pridruuje

    njena vjerovatnoa na osi

    B. kumulativan vjerovatnoa svake sledee vrijednosti na osi je zbir

    svih prethodnih (dobija se neminovno rastui grafik)

    VI. Idealne zamiljene raspodjele koje slue za idealizovanje realnih

    podataka, ime se onda lake dolazi do statistikih zakljuaka. Jako bitno da

    realni podaci koliko-toliko odgovaraju izabranoj teorijskoj raspodjeli, inae

    zakljuci doneseni na osnovu neodgovarajue raspodjele mo bait

    Binomna raspodjela

    I. Diskretna raspodjela vjerovatnoe broja oekivanih ishoda (uspjeha, p)

    naspram suprotnog ishoda (neuspjeha, q)

    II. Njeni parametri su proporcija p (vjerovatnoa oekivanog ishoda) i n

    (broj prostih ishoda), to potpuno definie binom

    III. Koristi se za dvije mogunosti, oekivani ishod (vjerovatnoa p), i

    suprotni ishod (vjerovatnoa q) i izraunava se na sledei nain:

    A. dakle, , koja se crta na osi na grafiku, oznaava vjerovatnou da e

    prostih ishoda biti oekivani ishod

    B. poto ne moe da se desi pola ili 1/3 prostog ishoda, binomna

    raspodjela je prekidna/diskretna

    Normalna raspodjela

    I. Oblika famozne Gausove krive, dobija se tako to se realna kriva pomjeri

    tako da aritimetika sredina pada na 0, a standardna devijacija postaje ,

    po sledeoj formuli (z vrijednost):

    A. ovo se zove standardizacija, ime se omoguava poreenje vrijednosti,

    npr. generalizaciju na itavu populaciju zakljuaka dobijenih na uzorku

    II. Za normalnu raspodjelu, aritimetika sredina, medijana i mod imaju istu

    vrijednost

    III. Standardna devijacija se nalazi na prevojnoj taki krive iz konveksiteta u

    konkavitet

    IV. Povrina izmeu ose i krive je jednaka 1, to je jednako ukupnoj

    vjerovatnoi svih moguih ishoda

    V. Iako je definisana od do , na rastojanju od 3 sd se nalazi 99,74%

    povrine, to joj omoguava da se koristi aproksimacija za druge raspodjele,

    pa i prekidne

    VI. Glavni razlog zato je toliko korisna je centralna granina teorema, koja

    kae: to je vei broj uzoraka, distribucija aritimetikih sredina uzorka e

    sve vie da lii na normalnu raspodjelu, iako uzoraka raspodjela ne mora, i

    nema, normalnu raspodjelu

    t raspodjela [nije ispitno pitanje]

    I. Kada je broj jedinica posmatranja jako mali, distribucija uzorka ne odgovara

    normalnoj raspodjeli dovoljno dobro

    II. Tada se koristi t raspodjela, koja ukljuuje dodatnu varijablu: stepen

    slobode, koji zavisi od broja jedinica posmatranja:

    III. Za razliku od normalne raspodjele, t raspodjela je u stvari grupa krivih,

    koje su sve spljotenije, to je DF manje. Obrnuto, vee DF znai da je t

    raspodjela priblinija normalnoj

    raspodjela [nije ispitno pitanje]

    I. Ako standardnu devijaciju normalne raspodjele kvadriramo (to je

    varijansa) i nacrtamo grafik, dobijamo raspodjelu:

  • A. navedena formula slui za uporeivanje uzorka i populacije, gdje nam

    dobijena vrijednost govori da li emo da prihvatimo nultu hipotezu

    ili ne, na osnovu izabrane znaajnosti ( ). Ima tablica za te stvari.

    Uzorak (Reprezentativni metod u knjizi)

    I. Metod koji omoguava da se do eljenih saznanja doe ispitivanjem dijela

    (uzorka) osnovnog skupa

    II. Uzorak je reprezentativni skup podskup osnovnog skupa :D

    III. Da bi uzorak bio reprezentativan, mora biti sluajan. Postoji vie naina

    formiranja uzorka:

    A. prost sluajan: svaka jedinica osnovnog skupa mora da ima jednaku

    mogunost da postane dio uzorka. Svaka pristrasnost smanjuje tu

    mogunost za neke jedinice

    1. metoda kojom se postie sluajnost jeste softverski random

    number generator, ili kako se to radilo prije 100 godina: tablica

    sluajnih brojeva

    B. sistematski uzorak: sa liste jedinica se uzme dio jedinica po nekom

    sistemu (npr. iz telefonskog imenika se zove svaki 10. broj za anketu).

    Bitno je da je poetak odabiranja sluajan (telefonski imenik se otvori

    na sluajnoj strani)

    C. stratifikovan uzorak:

    1. prvo se skup podjeli na stratume kao to su starosne grupe ili pol

    2. onda se vadi uzorak preko prostog sluajnog ili sistematskog

    uzorkovanja

    IV. Mali uzorci su oni sa 30 jedinica, a veliki sa vie od 30

    V. Preciznost: mjera odstupanja ocjene iz uzorka od teoretske vrijednosti

    dobijene mjerenjem osnovnog skupa. Odreuje se preko z vrijednosti i

    standardne greke (SE). z vrijednost je za nivo znaajnost 0,05 = 1,96 i 0,01

    = 2,58

    A. za mali broj uzoraka se koristi t vrijednost i tablice t testa

    Parametarski metodi za ispitivanje razlike [obuhvata sledea 2 pitanja]

    I. z test

    II. t test

    z test

    I. Baziran na karakteristikama standardne normalne raspodjele i standardne

    z vrijednosti

    II. Parametarski metod za procjenu znaajnosti razlike

    III. Slui za procjenjivanje znaajnosti razlika parametara homogenih

    vrijednosti jedinica posmatranja dvije grupe podataka

    IV. Koristi se za kvantitativne podatke

    V. Zahtijeva poznavanje standardne devijacije osnovnog skupa ili uzroka sa

    kojim se uporeuje

    VI. Izraunava se:

    razlika aritimetikih sredina uzoraka koji se

    uporeuju (ili uzorka i osnovnog skupa)

    VII. Statistiki zakljuak se donosi poreenjem empirijske i teoretske

    vrijednosti z testa. Teoretska vrijednost zavisi od izabranog nivoa

    znaajnosti, kao i smjera procjene testa (dvosmjeran/jednosmjeran). Za

    a za

    t test

    I. Bazira se na t raspodjeli, a inae je isti kao i z test

    II. Otprilike z test za male uzorke (

  • III. Izraunava se tana vjerovatnoa, na sledei nain:

    A. Ne vie, ! znai faktorijel (BTW 0!=1, 1!=1)

    B. Nema tablica, P se uporeuje sa nivoima znaajnosti, pa ako je ,

    prihvata se nulta hipoteza, u suprotnom, istraivanje je uspjelo. se,

    kada se koristi ovaj test, uzima dosta stroije: 0,025 i 0,005 jer zato.

    Medijan test

    I. Neparametarski test, varijacija na temu (svi neparametarski su varijacija

    na temu , jebeni matematiari nematoviti)

    II. Ne treba joj normalnost, simetrinost, raspodjela, isto kao ni

    III. Prave se tablice, ali tako da se za redove (strukturne gradacije) uzimaju

    normalno gradirane grupe kao na , dok se za kolone (funkcionalne

    gradacije) uzimaju samo dvije grupe, na sledei nain:

    A. izrauna se zajednika medijana, a onda se iz skupa izbace sve

    vrijednosti koje su jednake medijani

    B. dalje se podijeli skup na vrijednosti manje i vee od medijane, ije se

    onda frekvencije ubace u kolone, like so:

    Strukturno obiljeje

    Funkcionalno obiljeje Ukupno

    < med > med I gradacija a b a+b

    II gradacija

    c d c+d

    Ukupno a+c b+d a+b+c+d

    = n

    IV. Onda sve isto kao sa

    MekNemarov test

    I. za zavisne, vezane uzorke (npr. jedan uzorak kroz vrijeme, ili meovani

    uzorci), ovdje nazvane diskordantni parovi

    II. Diskordantni parovi su parovi koji se mijenjaju u vremenu, ostali su, jel,

    nediskordantni. Ovako:

    Prvo mjerenje

    Drugo mjerenje Ukupno

    + -

    + a (++) b (+-) a+b - c (-+) d (--) c+d

    Ukupno a+c b+d a+b+c+d

    = n

    A. Kao to se da vidjeti, b i c su se mijenjali izmeu mjerenja ili tagod u

    istraivanju, tako da su to diskordantni parovi

    III. Formula:

    IV. I sa Yates-ovom korekcijom (isto kao kod pogodi kog testa):

    Wilcoxon-ov test ekvivalentnih parova

    I. Neparametarski metod za procjenu znaajnosti razlike

    II. Koristi se za zavisne podatke, kao to je npr. bol prije i posle uzimanja

    lijeka

    III. Koristi se rangiranje rezultata da bi se dobila empirijska vrijednost testa,

    na sledei nain:

    A. razlike izmeu vrijednosti prije i posle tretmana/prvog i drugog

    mjerenja se rangiraju po svojim apsolutnim vrijednostima (nebitan

    predznak) radni rang

    B. znakovi se onda vraaju, i sabiraju se istoznani rangovi

    1. ukoliko ima vie istih vrijednosti, sve dobijaju isti rang koji je

    jednak aritimetikoj sredini ranga prije izjednaavanja. Da

    nacrtam:

    prije posle razlika radni rang

    rang (Rd)

    1 3 +2 |3| +2,5

    1 2 +1 |1| +1,5 3 5 +2 |4| +2,5

    2 3 +1 |2| +1,5 2 -2 -4 |5| -3

    2. dakle, sve se vrijednosti poreaju, pa se za iste uzme srednja

    vrijednost i to je rang (radni rang sam izmislio da bih objasnio

    sutinu)

    a. ako je razlika 0, zanemari tu vrijednost

    C. manji od dva zbira je empirijska vrijednost testa ( )

    D. poredi se sa teorijskom vrijednou, i ako je ( je

    teorijska vrijednost iz tablice), prihvata se alternativna hipoteza. U

    suprotnom, ostaje nulta

    IV. Teorijska vrijednost se dobija po tablici na osnovu sledeih parametara:

    A. broj jedinica posmatranja

    B. izabrani nivo znaajnosti

    C. izabrani smjer testa (jednosmjerni, dvosmjerni)

    V. Osim izraunavanja empirijske i teorijske vrijednosti, ovaj test moe da se

    koristi i za odreivanje smjera i veliine promjene (ako je od

    negativnih vrijednosti, onda je smjer negativan i obrnuto)

    VI. Postoji i fora da ako je broj uzoraka n > 25 da se umjesto jednostavnog

    uporeivanja da li je , koristi sledea formula (to vie uzoraka,

    slinija raspodjela normalnoj):

    1. mda

    Mann-Whitney U test sume rangova

    I. Wilcoxon je prvi izmislio i ovaj test, ali nije bio peder kao Pearson da ga isto

    nazove po sebi, ve ga je prepustio kolegama koji su kasnili dvije godine sa

    otkriem. Bitna injenica

    II. Isto to i test ekvivalentnih parova, ali za nezavisne podatke

    A. analitiki neparametarski metod za procjenu znaajnosti razlike

    III. Glavna pretpostavka ovog testa je da su oba uzorka iz jednog osnovnog

    skupa, to bi znailo da imaju iste medijane. To je nulta hipoteza znaajno

    odstupanje medijane jednog uzorka od drugog podrazumijeva tanost

    alternativne hipoteze

    IV. Takoe se rangira, ali na malo drugaiji nain:

    A. uzimaju se vrijednosti iz oba uzorka i zajedno rangiraju

    B. rangirane vrijednosti se ponovo vrate svojim uzorcima

    C. odreuje se U za oba uzorka ( i ):

    D. Manje U od ta dva se onda uporeuje sa kritinom vrijednou iz tabele

    E. I ovdje moemo da se izdrkavamo ako je manje n vee od 8, i koristimo

    z tabelu kao u testu ekvivalentnih parova, ali tu zajebanciju ostavljam

    itaocu na matu

    Ispitivanje paralelizma [nije ispitno pitanje opusti se]

    I. Svi testovi do sada su traili razliku, ovi trae

    slinost/asocijaciju/povezanost

    II. Dvije varijable su povezane ako promjena jedne (nezavisne) utie na

    promjenu druge (zavisne)

    III. Povezanost moe biti:

    A. direktna/pozitivna: jedna raste, druga raste

    B. reciprona/negativna: jedna raste, druga pada

    IV. Oblik slaganja moe biti:

    A. pravolinijski: definie se jednainom prave ili tagod

    B. krivolinijski: linija talasa

    V. Uoavanje povezanosti je obino odokativno: napravi se dijagram

    rasturanja, ili scatter plot: svaka taka ima x poziciju (nezavisna varijabla) i

    y (pretpostavljena zavisna varijabla)

  • analiza nedvosmisleno kae: to mlae to slae

    VI. Povezanost ima tri karakteristike

    A. smjer: ispituju ga korelacione i regresione metode

    B. jaina: ispituju ga korelacione metode

    C. oblik: ispituju ga regresione metode

    VII. Kao i kod ostalih testova, neparametarski se koriste za heterogene

    uzorke, a parametarski za homogene

    Jednostruka linearna povezanost (Pearson-ov linearni koeficijent korelacije)

    I. Ispituje jainu linearne povezanosti dvije promjenljive: nezavisno

    promjenljive i zavisno promjenljive

    II. Napravi se scatter plot i prvo uoi da li postoji sumnja na korelaciju

    A. ako pravi kao liniju koja ide od dole lijevo ka gore desno (kao /), onda

    postoji ansa da je pozitivna korelacija

    B. ako je linija suprotna (\), onda je vjerovatno korelacija negativna

    C. moe biti i bezveze, kada nema korelacije

    III. Poto je sve to u stvari bullshit, sada se vadi formula:

    A. r je Pearson-ov koeficijent korelacije, i ima odreene karakteristike

    1. uvijek je izmeu -1 i 1

    2. ako je blizu 1, onda je korelacija pozitivna, a kod -1 negativna

    3. korelacija je jaka ako je r vee od 0,70, iznad 0,40 je umjereno

    jaka, a ispod nije dovoljna. Ovo ide u oba pravca (-0.80 i +0,80 su

    podjednako jake)

    IV. Mi vidimo liniju iz taaka, ali to nije to ako ne postoji jo jedna formulica

    koja e to da ozvanii:

    b tangens ugla koji linija regresije zaklapa sa x osom bla bla tru tru

    A. ta je bitno: ova linija nam omoguava ne samo crtanje linije preko

    postojeih podataka, nego i ekstrapolaciju (izvoenje) na nove

    dogaaje! Jednostavno je: zamisli da auto ide po grafiku, , prati liniju.

    Stie do kraja linije, ali ne koi. Kuda e nastaviti?! Pa istim putem,

    nastavljajui zamiljenu liniju u beskonanost. Specijalan sluaj te

    regresije je:

    Linearni trend

    I. Kada je osa vrijeme (minut, dan, godina), a regresija linearna

    II. Nastaje kao i linija regresije, iz postojeih podataka, i onda se

    ekstrapolira taj trend u budunost

    A. npr. poslednjih 10 godina konstantno raste godinji broj

    kardiovaskularnih oboljenja za recimo 5%. Koliko e procenata porasti

    taj broj u 2015.? Jako komplikovano

    Spearman-ova korelacija ranga

    I. Neparametarska metoda za odreivanje korelacije

    II. Manje pouzdana, tako da se koristi u sledeim sluajevima

    A. podaci su neparametarskog karaktera

    B. podaci su heterogeni

    III. Da bi se izraunala, podaci se moraju prvo rangirati:

    A. pravila ista kao i za ostale rangirane testove, dobija se

    IV. je Spearman-ov koeficijent korelacije ranga, koji se dobija na sledei

    nain:

    A. d je diferencija, i oznaava razliku izmeu rangova uporeenih

    vrijednosti 2 uzorka

    V. Moe da isprati i nelinearne korelacije, to je +

    Sran Pandurevi, februar 2015.