Statistika Po Ispitnim Pitanjima - Pandurevic

ver 0.8

STATISTIKA

skripta

po ispitnim pitanjima

Medicinskog fakulteta u Beogradu

Sran Pandurevi

februar 2015.

Pojam i definicija statistike

I. Gottfried Achenwal - Univerzitetska statistika

II. Po njemu statistika = nauka o dravi

III. Metod kvantitativnog istraivanja masovnih pojava

Razvoj statistike

I. Stara 6000 godina (ma daa)

II. Prvi oblik statistike popis

A. rimski cenzus

III. Moderna statistika kraj XVIII, poetak XIX vijeka, prvi organi stat. slube

IV. Adolf Ketle smatra se osnivaem savremene statistike

V. Karl Pearson, genetika i eugenika, jako bitan lik, razradio savremenu

statistiku

Klasifikacija statistike

I. Evidenciona statistika: prikupljanje, registrovanje, sreivanje podataka kao

krajnji cilj

II. Teorijska statistika: oblast primjenjene matematike, rijeava teorijske

probleme statistike

III. Primjenjene statistike: posebne statistike koriene za istraivanje u

raznim oblastima nauke. Ima ih onoliko koliko ima oblasti istraivanja

A. Medicinska statistika: nastala 1847. Semmelweiss i smrtnost

porodilja

Statistiki metod i metodologija

I. Statistika kao nauni metod ima dvije osnovne karakteristike: (1)

masovnost i (2) kvantitativnost

II. Statistiki istraivanje se primjenjuje na masovne pojave (pojave koje se

deavaju u velikom broju, ili se ponavljaju u vremenu)

III. Kvantitativnost je specifinost statistikog metoda i omoguava

utvrivanje opteg svojstva i zakonitosti individualno promjenljivih pojava

IV. Etape rada statistikog metoda:

A. prouavanje pojave i planiranje istraivanja

B. posmatranje/prikupljanje podataka: najvea etapa po obimu

C. obrada prikupljenih podataka

1. sreivanje

2. opisivanje

3. analiziranje

4. generalizacija zakljuka

V. Dvije vrste greaka u statistikim istraivanjima

A. greke u radu

1. sistematske: stalno se ispoljavaju u istom smislu kritino

ugroavaju istraivanje

2. sluajne: nasumino se ispoljavaju, efekti na istraivanje se obino

potiru

3. perturbacije: pojava se posmatra u neuobiajenimokolnostima,

to krivi sliku o njoj

B. greke u zakljuivanju

1. greke I vrste

2. greke II vrste

Osnovni statistiki pojmovi

I. Statistika: nauka koja se bavi kvantitativnim istraivanjem pojava u cilju

njihove deskripcije, analize i generalizacije zakljuaka

II. Statistiki skup: cjelina sastavljena od istovrsnih elemenata sa

zajednikom varijablom (promjenljivom karakteristikom)

A. mora biti sastavljen od istovrsnih i meusobno uporedivih elemenata

B. dvije vrste statistikih skupova:

1. osnovni skup: skup svih postojeih istovrsnih elemenata

praktino nedostupan

2. uzorak: reprezentativni dio osnovnog skupa

III. Jedinice posmatranja: istovrsni elementi statistikog skupa, nosioci

obiljeja posmatranja

IV. Obiljeja posmatranja: karakteristike statistikog skupa, mogu biti

kvalitativna i kvantitativna

A. atributivna (kvalitativna): izraavaju se opisno (pol, vrsta oboljenja,

ishod bolesti itd.)

B. numerika (kvantitativna): izraavaju se brojevima, i mogu se

prebrojavati i mjeriti (broj oboljelih, godine ivota, temperatura, lipidi

u serumu itd.)

1. diskontinuirana: rezultat prebrojavanja, samo cijeli brojevi (broj

oboljelih, frekvencija pulsa, eritrociti u krvi itd.)

2. kontinuirana: rezultat mjerenja, realne vrijednosti (jaina doze,

krvni pritisak, temperatura itd.)

V. podatak: bilo kakav zapis o statistikom skupu, jedinicama posmatranja ili

obiljejima posmatranja

Grupisanje podataka

I. Grupisanje: metoda razvrstavanja jedinica posmatranja statistikog skupa u

grupe i grupne intervale obiljeja posmatranja

II. Pravila grupisanja:

A. sveobuhvatnost

B. sistematinost

C. odreenost

III. Redoslijed grupisanja:

A. utvrivanje minimalne i maksimalne vrijednosti, da bi sve vrijednosti

stat. skupa bile obuhvaene

B. utvrivanje raspona vrijednosti, na osnovu ega se utvruje irina

grupnog intervala

1. mali intervali vei broj intervala manji gubitak

informacija/manja preglednost

2. veliki intervali manji broj intervala vei gubitak

informacija/vea preglednost

3. intervali moraju biti iste veliine

4. donja granica prvog intervala poinje sa 0

IV. Frekvencija ( f ) :broj jedinica posmatranja koje pripadaju jednoj grupi

A. apsolutna frekvencija: rezultat prebrojavanja jedinica posmatranja

B. relativna frekvencija: rezultat odnosa apsolutne frekvencije jedne

grupe prema ukupnob broju jedinica; izraava se u vidu decimale ili

procenta

C. kumulativna frekvencija: sukcesivni zbir frekvencija pojedinih grupa;

poslednja kumulativna frekvencija je jednaka ukupnom broju jedinica

posmatranja

Prikazivanje podataka obuhvata ispitna pitanja:

I. Tabeliranje

II. Grafiko prikazivanje

Tabeliranje

I. Pregledno prikazivanje prethodno grupisanih podataka tabelom

II. Pravougaona, izdjeljena horizontalnim i vertikalnim linijama na rubrike

A. vertikalne rubrike: kolone

B. horizontalne rubrike: redovi

III. Tabela mora da bude:

A. pregledna, sa ogranienim brojem kolona i redova

B. jasna i razumljiva

C. potpuna

D. tehniki dobra i pravilna

IV. Podjela tabela:

A. prema broju statistikih serija

1. proste: 1 serija

2. sloene: vie serija

B. prema broju i ralanjenosti obiljeja

1. elementarne: jedno ralanjeno obiljeje

2. kombinovane: vie ralanjenih obiljeja

Grafiko prikazivanje

I. Metod prikazivanja grupisanih i tabeliranih podataka u vizuelnom obliku

II. Dvije grupe:

A. podaci prikazani oznakama i simbolima: kartogrami, simboliki crtei

B. dijagrami: podaci prikazani geometrijskim oblicima

1. takasti (korelacioni)

2. linijski

a. poligon frekvencija

b. kriva frekvencija

c. vremenski linijski dijagram

d. kumulativni dijagram

e. polarni dijagram

3. povrinski

a. stubiasti

b. tapiasti

c. histogram frekvencija

d. kruni (pie)

e. pravougaoni

4. prostorni (stereogrami)

III. Razliite vrste obiljeja zahtijevaju korienje razliitih dijagrama:

A. numeriki kontinuirani poligon frekvencija, histogram frekvencija

B. numeriki diskontinuirani tapiasti

C. atributivni stubiasti, kruni

Relativni brojevi

I. Apsolutni brojevi se dobijaju kao rezultat mjerenja, ali se ne mogu koristiti

za poreenje pojava koje nisu istovjetne. Za te potrebe njih dopunjuju

relativni brojevi

II. Relativni brojevi: statistiki parametri koji omoguuju poreenje

istoimenih i raznoimenih pojava bez obzira na njihov intenzitet

III. Relativni brojevi se mogu izraunati ako se znaju bar dva broja koji su u

nekom odnosu jedan prema drugom

IV. Dobija se kao kolinik dva broja, brojioca (vrijednosti koja se uporeuje) i

imenioca (vrijednost kojom se uporeuje):

V. Relativni broj je decimalan broj, i za lake tumaenje se esto mnoi sa 100

procenti, i sa 1000 promili. Proporcija je relativni broj uvijek 1

VI. Postoje tri tipa relativnih brojeva

A. indeks strukture: porede odnos dijela i cjeline

B. indeks dinamike: pokazuju relativnu promjenu obiljeja u vremenu

1. bazni indeks: vrijednosti se porede sa istom bazom

2. lanani indeks: svaka sledea vrijednost se poredi sa prethodnom

C. koeficijent: poredi intenzitete dvije vrijednosti od kojih je bar jedna

masovna (natalitet, mortalitet, incidencija, prevalencija)

Mjere centralne tendencije

I. Dijele se na dvije grupe:

A. matematike

1. aritimetika sredina

B. pozicione

1. medijana

2. mod

Aritimetika sredina

I. Dobija se sabiranjem svih vrijednosti ispitivanog obiljeja i dijeljenjem

zbira sa brojem vrijednosti

II. Oznaava se sa (iks bar)

III. Za grupisane vrijednosti se dodaje f, frekvencija vrijednosti koje

pripadaju odreenoj grupi; aritimetika sredina ovih vrijednosti se zove

ponderisana aritimetika sredina zato to uticaj vrijednosti na aritimetiku

sredinu zavisi od njene frekvencije

IV. U homogenom skupu, kvadrat odstupanja pojedinanih vrijednosti je

uvijek minimalan za aritimetiku sredinu, u odnosu na bilo koju drugu

vrijednost ( )

V. Za heterogeni skup se ne moe koristiti aritimetika sredina, zato to

ekstremne vrijednosti onemoguuju reprezentativnost aritimetike sredine,

zbog ega se koriste pozicione mjere u tom sluaju

Medijana

I. Srednja vrijednost po poloaju, izraunava se:

A. vrijednosti se poreaju po veliini u niz

B. utvrdi se sredina niza

C. ukoliko je zbir frekvencija

1. neparan: vrijednost na sredini je medijana

2. paran: dvije centralne vrijednosti se saberu i podijele sa 2

1 3 20 99 101 552 612 980 992

101

1 3 20 99 101 552 612 980 med 100

II. Koristi se kada ekstremne vrijednosti ne dozvoljavaju upotrebu

aritimetike sredine

Mod

I. Srednja vrijednost po poloaju, dobija se tako to se odredi vrijednost koja

se najvie puta pojavljuje u skupu

1 1 3 99 101 552 612 980 992 1

II. Ukoliko postoji vie vrijednosti sa maksimalnim frekvencijama

A. ukoliko su one susjedne vrijednosti, mod je granina vrijednost tih

grupa

B. ukoliko su podijeljene sa vie drugih vrijednosti, onda je polimodalna

raspodjela, to je loe, valjda

III. Mod se koristi prvenstveno za nominalne vrijednosti

Odnos mjera centralne tendencije

I. Kada su vrijednosti pravilno i simetrino rasporeene, aritimetika sredina,

medijana i mod imaju iste, jednake vrijednosti

II. Kada su vrijednosti asimetrino rasporeene, medijana se uvijek nalazi

izmeu moda i aritimetike sredine

III. Kod unimodalnih simetrinih i umjereno asimetrinih raspodjela

uestalosti, medijana se nalazi na treini puta od aritimetike sredine ka

modu:

Mjere varijabiliteta

I. Srednje vrijednosti se koriste kod skupova koji se grupiu oko jedne

vrijednosti, ukoliko to nije sluaj, srednje vrijednosti nemaju svrhu za taj

skup

II. Mjere varijabiliteta odreuju da li se, i koliko, vrijednosti skupa grupiu

oko srednje vrijednosti

III. Dijele se na:

A. apsolutne mjere varijabiliteta:

1. interval varijacije

2. standardna devijacija

3. srednje apsolutno odstupanje

4. kvartili, decili, centili

5. varijansa

B. relativne mjere varijabiliteta:

1. koeficijent varijacije

2. z vrijednost

Interval varijacije

I. Najjednostavnija mjera varijabiliteta

II. Pokazuje razmak od najmanje do najvee vrijednosti:

III. Daje informacije samo o ekstremnim vrijednostima, a ne daje nikakve o

varijabilitetu unutar intervala

IV. Vei broj vrijednosti takoe utie na ovu mjeru (vea ansa za ekstremne

vrijednosti)

Standardna devijacija

I. Najee upotrebljavana mjera varijabiliteta

II. Mjeri odstupanje vrijednosti od aritimetike sredine, tj. gustinu

grupisanja oko a.s.

III. Manja vrijednost SD znai manje odstupanje, kao i manji varijabilitet, i

obrnuto

varijansa

IV. Varijansa je srednje kvadratno odstupanje od aritimetike sredine. Dobija

se kao kolinik sume svih razlika vrijednosti i aritimetike sredine sa

ukupnim brojem vrijednosti:

V. Apsolutna je mjera, tako da se moe koristiti samo za uporeivanje

varijabiliteta istih obiljeja, ukoliko se aritimetike sredine ne razlikuju

mnogo

Koeficijent varijacije

I. Relativna mjera varijabiliteta, omoguava poreenje varijabilnosti razliitih

obiljeja kao i istih obiljeja sa razliitom aritimetikom sredinom

II. Dobija se kao kolinik standardne devijacije i aritimetike sredine:

A. koeficijent varijacije je standardna devijacija izraena u procentima

aritimetike sredine

III. CV se koristi i kao mjera homogenosti skupa; homogenost je vea ukoliko

je CV manji

A. smatra se da je pojava homogena ako je , u suprotnom je

heterogena

IV. CV se upotrebljava u sluaju kada se eli utvrditi:

A. u kom obiljeju neka grupa varira vie a u kom manje

B. koja grupa vie varira a koja manje po jednom obiljeju

z vrijednost

I. z vrijednost: Odstupanje vrijednosti od aritimetike sredine iskazano u

standardnim devijacijama:

II. z vrijednost je pokazatelj relativne pozicije vrijednosti u skupu

III. Kad je z negativno, onda je vrijednost manja od aritimetike sredine, a

kada je pozitivna, onda je vea od a.s.

Poreenje varijabiliteta

I. Procjena varijabiliteta se vri na osnovu odnosa aritimetike sredine i

standardne devijacije. Za odnos varijabiliteta dvije pojave, razlikuju se

sledee situacije:

A. varijabilitet je isti

B. varijabilitet je manji tamo gdje je manja

standardna devijacija, i obrnuto

C. varijabilitet je vei tamo gdje je manja standardna

devijacija, i obrnuto

D. moe se izraunati CV i z vrijednost, tamo gdje su

oni manji, manji je i varijabilitet

Mjere oblika raspodjela frekvencija

I. Raspodjele frekvencija mogu biti simetrine i deformisane

A. Simetrina distribucija frekvencija se karakterie nagomilavanjem

vrijednosti oko aritimetike sredine/simetrinim, postepenim padom

uestalosti lijevo i desno od aritimetike sredine

B. Deformisana distribucija moe biti:

1. asimetrina/nagnuta na jednu stranu

a. nagnuta negativno (ispod aritimetike sredine)/iskoena

udesno

b. nagnuta pozitivno (iznad a.s.)/iskoena ulijevo

2. spljotena/izduena (kurtosis)

a. vertikalno spljotena, platikurtosis (niska, iroka raspodjela)

b. bona spljotenost, leptokurtosis (visoka, uska raspodjela)

Statistika analiza

I. Matematiko-logiki postupak donoenja zakljuaka o problemu

istraivanja, na osnovu rezultata adekvatno odabranih i pravilno

primjenjenih specifinih statistikih metoda

II. Apsolutna tanost statistikih zakljuaka je nemogua, zato se mora

utvrditi stepen sigurnosti, odnosno greke

III. Vjerovatnoa sigurnosti: minimalna vjerovatnoa koja podrava doneseni

zakljuak. Naspram nje je vjerovatnoa greke maksimalna vjerovatnoa

dopustive greke u zakljuivanju. Zajedno ine 1, odn. 100%

IV. Minimalni nivo znaajnosti u medicini je 0,95 maksimalna greka 0,05.

Drugi definisani nivo znaajnosti je 0,99, odnosno maksimalna greka 0,01

A. To znai da, sa nivoom znaajnosti od 0,05, postoji ansa od 5% da

izvedeni rezultati istraivanja nisu tani

V. Dva tipa statistike analize:

A. procjena parametara osnovnog skupa preko ispitivanja uzorka.

Interval povjerenja govori o pouzdanosti procjene

B. ispitivanje hipoteze o uoenoj pojavi. Provjerava se njena istinitost za

odreeni nivo znaajnosti. Postupkom provjere istinitosti se

procjenjuje

1. znaajnost slinosti oblika raspodjela

2. znaajnost razlike

3. znaajnost paralelizma (povezanosti, zavisnosti)

Ispitivanje hipoteze

I. Postupak provjere istinitosti naune pretpostavke o pojavi koja se ispituje

II. Definiu se dvije, suprotne hipoteze: alternativna H1 i nulta H0. Poinje

se sa prepostavkom da je nulta hipoteza tana

III. Nulta hipoteza tvrdi da je prouavana pojava nasumina i da nije

znaajna, i na osnovu nje se provjerava validnost alternativne hipoteze

IV. Hipoteze se mogu formulisati:

A. dvosmjerno: nije bitan smjer variranja, bitno je samo da li se vrijednost

razlikuje od oekivane (npr. H0: puenje ne utie na incidenciju raka

plua)

B. jednosmjerno: uzima se u obzir smjer variranja (npr. H0: puenje ne

utie, ili umanjuje incidenciju raka plua)

V. Bira se nivo znaajnosti, odnosno, bira se vjerovatnoa greke prve vrste

( ), na osnovu prirode ispitivane pojave

oblasti odbacivanja nulte hipoteze, dvosmjerno

Greke u zakljuivanju

I. Poto se statistiki zakljuci baziraju na uzorku, pri ispitivanju hipoteza

postoji mogunost greke. Procjena ispravnosti hipoteza zato ima 4 ishoda:

A. prihvaena tana H0 (1- )

B. prihvaena pogrena H0 ( ) greka II vrste

C. odbaena pogrena H0 ( )

D. odbaena tana H0 ( ) greka I vrste

II. to je vea , vea je ansa da e biti prihvaena alternativna hipoteza, ali

i vea ansa da e biti odbaena tana nulta. Istraiva direktno bira ovu

vrijednost

III. , sa druge strane, je pod uticajem vie faktora:

A. stvarna vrijednost parametra uzorka

B.

C. veliina uzorka

D. smjer procjene ispravnosti hipoteze

IV. i se, stoga, ne dopunjuju do 1, ve, iako smanjenje poveava ansu

za , poveanje uzorka je smanjuje, tako to smanjuje standardnu greku

(SE)

V. Jednosmjerno testiranje hipoteza takoe smanjuje an su za nastanak

Jaina, efikasnost i osjetljivost metoda

I. Jaina metoda ( ) je maksimalna mogunost metoda da garantuje tanost

zakljuka

A. komplementarna je beti

II. Efikasnost metoda je relativna jaina metoda. Dobija se poreenjem

jaine jednog metoda sa standardom. Ukoliko je efikasnost >1, prvi metod je

efikasniji od standarda

III. Osjetljivost/robusnost metoda pokazuje ponaanje metoda u uslovima

razliitog stepena naruenosti pretpostavki o uzorku(normalnost,

homogenost, simetrinost itd.)

Analitiki metodi

I. Specifini statistiki metodi koji se koriste u statistikoj analizi

II. Postoje dvije glavne vrste:

A. parametarski: zahtijevaju poznavanje raspodjele uestalosti uzorakog

skupa i mogunou izraunavanja parametara

1. primjeri parametara: aritimetika sredina, varijansa, standardna

devijacija

2. osnovni zahtjev jeste homogenost ( ), ukoliko je uzorak

jako mali

3. lanovi:

a. z test

b. t test

B. neparametarski: mogu se primjenjivati u svim empirijskim situacijama,

a ukoliko je nemogue iskoristiti parametarski metod, onda je i

obavezna

1. parametarski metodi su jai, tako da njih treba koristiti kada je

mogue

2. dijele se na dvije podgrupe:

a. oni koji procjenjuju empirijske uestalosti:

i.

ii. Fierov test tane vjerovatnoe

iii. MekNemarov test

b. oni koji procjenjuju rangovne vrijednosti

i. test ekvivalentnih parova

ii. test sume rangova

iii. test predznaka

III. Za procjenu oblika povezanosti/zavisnosti se koristi linearna regresija

IV. Za procjenu jaine povezanosti se koriste:

A. parametarski: Pearsonov linearni koeficijent korelacije

B. neparametarski: Spearmanov koeficijent korelacije rangova

Vjerovatnoa

I. Teorija vjerovatnoe se bavi vjerovatnim/sluajnim dogaajima

II. Sluajni dogaaj je dogaaj koji se u datim uslovima moe oekivati, ali se

ne mora nuno ostvariti; sigurni/nuni dogaaj se mora ostvariti

A. Baen novi mora pasti na zemlju pod uticajem gravitacije (nuni

dogaaj), ali ne mora nuno da padne pismo (sluajan dogaaj)

III. Vjerovatnoa: mjera anse da se dogodi sluajni dogaaj.

IV. Vjerovatnoa moe biti:

A. objektivna:

1. matematika odnos broja oekivanih ishoda sa ukupnim brojem

moguih ishoda

a. za pismo, broj moguih ishoda je 2 (glava/pismo), a oekivan

je 1 (pismo)

2. statistika/empirijska vjerovatnoa dobijena posmatranjem vie

istih dogaaja i biljeenja rezultata

a. baca se 100 novia, i biljei koliko je palo glava, a koliko

pisama (npr 54 glave/46 pisama 54% ansa za glave, 46%

ansa za pisma)

b. to se vie dogaaja posmatra, statistika vjerovatnoa se

vie pribliava matematikoj (npr. 1000 bacanja novia

51% glava, 49% pisma)

B. subjektivna: lino uvjerenje o vjerovatnoi nekog dogaaja, bazirano

na linom iskustvu i znanju

V. Dogaaji mogu po zavisnosti biti:

A. nezavisni: vjerovatnoa jednog dogaaja ne zavisi od drugog (npr.

bacanje dva novia)

B. zavisni: da bi se jedan dogaaj desio, mora da se desi neki drugi

dogaaj prije njega (npr. bacanje jednog novia tako da prvo padne

glava, pa pismo)

VI. Dogaaji mogu po iskljuivosti biti:

A. iskljuivi: dogaaji koji se ne mogu desiti istovremeno (ne moe

istovremeno da padne i glava i pismo bacanjem jednog novia)

B. neiskljuivi: dogaaji koji se mogu desiti istovremeno (osoba ima

cirozu jetre, osoba ima hepatitis B)

VII. Zakon adicije:

A. ako su 2 dogaaja iskljuiva: vjerovatnoa da e se desiti jedan ili

drugi dogaaj je jednaka zbiru vjerovatnoa jednog i drugog

B. ako 2 dogaaja nisu iskljuiva: vjerovatnoa da e se desiti jedan ili

drugi dogaaj je jednaka zbiru jednog i drugog, minus vjerovatnoa da

e se desiti oba zajedno

VIII. Zakon multiplikacije: vjerovatnoa da e se dva nezavisna dogaaja oba

dogoditi (npr. da e u jednom danu u ordinaciju ui alkoholiar i trudnica)

je jednaka proizvodu vjerovatnoa ta dva dogaaja:

A. Ukoliko su dogaaji zavisni, jedan dogaaj je nezavistan, a drugi je

zavistan od pojave prvog (npr. ciroza jetre je zavisna od pojave

hepatitisa B). Prvo se mora znati vjerovatnoa pojave zavisnog

dogaaja ukoliko se ostvari nezavisni(P(zavisni|nezavisni)), pa se onda

ona mnoi sa vjerovatnoom pojave nezavisnog:

1. BTW to znai da je vjerovatnoa zavisnog dogaaja ako se ne

dogodi nezavisni = 0

2. BTW2 relativna vjerovatnoa je vjerovatnoa pojave zavisnog

ukoliko se ostvari nezavisni dogaaj

Teorijske raspodjele

I. Matematiki modeli raspodjela vjerovatnoa

II. Formiraju se primjenom teorije vjerovatnoe na sloene sluajne

dogaaje

III. Sloeni dogaaj znai da se vie dogaaja uzima u obzir (vie bacanja

novia, vie ispitanika)

IV. Teorijske raspodjele mogu biti:

A. kontinuirane kada su glatke na grafiku

1. normalna raspodjela

2. t

3. hi-kvadrat

B. diskontinuirane kada postoje definisane cjelobrojne vrijednosti

1. binomna raspodjela

V. Prikaz vjerovatnoa moe biti:

A. parcijalan za svaku pojedinanu vrijednost na osi se pridruuje

njena vjerovatnoa na osi

B. kumulativan vjerovatnoa svake sledee vrijednosti na osi je zbir

svih prethodnih (dobija se neminovno rastui grafik)

VI. Idealne zamiljene raspodjele koje slue za idealizovanje realnih

podataka, ime se onda lake dolazi do statistikih zakljuaka. Jako bitno da

realni podaci koliko-toliko odgovaraju izabranoj teorijskoj raspodjeli, inae

zakljuci doneseni na osnovu neodgovarajue raspodjele mo bait

Binomna raspodjela

I. Diskretna raspodjela vjerovatnoe broja oekivanih ishoda (uspjeha, p)

naspram suprotnog ishoda (neuspjeha, q)

II. Njeni parametri su proporcija p (vjerovatnoa oekivanog ishoda) i n

(broj prostih ishoda), to potpuno definie binom

III. Koristi se za dvije mogunosti, oekivani ishod (vjerovatnoa p), i

suprotni ishod (vjerovatnoa q) i izraunava se na sledei nain:

A. dakle, , koja se crta na osi na grafiku, oznaava vjerovatnou da e

prostih ishoda biti oekivani ishod

B. poto ne moe da se desi pola ili 1/3 prostog ishoda, binomna

raspodjela je prekidna/diskretna

Normalna raspodjela

I. Oblika famozne Gausove krive, dobija se tako to se realna kriva pomjeri

tako da aritimetika sredina pada na 0, a standardna devijacija postaje ,

po sledeoj formuli (z vrijednost):

A. ovo se zove standardizacija, ime se omoguava poreenje vrijednosti,

npr. generalizaciju na itavu populaciju zakljuaka dobijenih na uzorku

II. Za normalnu raspodjelu, aritimetika sredina, medijana i mod imaju istu

vrijednost

III. Standardna devijacija se nalazi na prevojnoj taki krive iz konveksiteta u

konkavitet

IV. Povrina izmeu ose i krive je jednaka 1, to je jednako ukupnoj

vjerovatnoi svih moguih ishoda

V. Iako je definisana od do , na rastojanju od 3 sd se nalazi 99,74%

povrine, to joj omoguava da se koristi aproksimacija za druge raspodjele,

pa i prekidne

VI. Glavni razlog zato je toliko korisna je centralna granina teorema, koja

kae: to je vei broj uzoraka, distribucija aritimetikih sredina uzorka e

sve vie da lii na normalnu raspodjelu, iako uzoraka raspodjela ne mora, i

nema, normalnu raspodjelu

t raspodjela [nije ispitno pitanje]

I. Kada je broj jedinica posmatranja jako mali, distribucija uzorka ne odgovara

normalnoj raspodjeli dovoljno dobro

II. Tada se koristi t raspodjela, koja ukljuuje dodatnu varijablu: stepen

slobode, koji zavisi od broja jedinica posmatranja:

III. Za razliku od normalne raspodjele, t raspodjela je u stvari grupa krivih,

koje su sve spljotenije, to je DF manje. Obrnuto, vee DF znai da je t

raspodjela priblinija normalnoj

raspodjela [nije ispitno pitanje]

I. Ako standardnu devijaciju normalne raspodjele kvadriramo (to je

varijansa) i nacrtamo grafik, dobijamo raspodjelu:

A. navedena formula slui za uporeivanje uzorka i populacije, gdje nam

dobijena vrijednost govori da li emo da prihvatimo nultu hipotezu

ili ne, na osnovu izabrane znaajnosti ( ). Ima tablica za te stvari.

Uzorak (Reprezentativni metod u knjizi)

I. Metod koji omoguava da se do eljenih saznanja doe ispitivanjem dijela

(uzorka) osnovnog skupa

II. Uzorak je reprezentativni skup podskup osnovnog skupa :D

III. Da bi uzorak bio reprezentativan, mora biti sluajan. Postoji vie naina

formiranja uzorka:

A. prost sluajan: svaka jedinica osnovnog skupa mora da ima jednaku

mogunost da postane dio uzorka. Svaka pristrasnost smanjuje tu

mogunost za neke jedinice

1. metoda kojom se postie sluajnost jeste softverski random

number generator, ili kako se to radilo prije 100 godina: tablica

sluajnih brojeva

B. sistematski uzorak: sa liste jedinica se uzme dio jedinica po nekom

sistemu (npr. iz telefonskog imenika se zove svaki 10. broj za anketu).

Bitno je da je poetak odabiranja sluajan (telefonski imenik se otvori

na sluajnoj strani)

C. stratifikovan uzorak:

1. prvo se skup podjeli na stratume kao to su starosne grupe ili pol

2. onda se vadi uzorak preko prostog sluajnog ili sistematskog

uzorkovanja

IV. Mali uzorci su oni sa 30 jedinica, a veliki sa vie od 30

V. Preciznost: mjera odstupanja ocjene iz uzorka od teoretske vrijednosti

dobijene mjerenjem osnovnog skupa. Odreuje se preko z vrijednosti i

standardne greke (SE). z vrijednost je za nivo znaajnost 0,05 = 1,96 i 0,01

= 2,58

A. za mali broj uzoraka se koristi t vrijednost i tablice t testa

Parametarski metodi za ispitivanje razlike [obuhvata sledea 2 pitanja]

I. z test

II. t test

z test

I. Baziran na karakteristikama standardne normalne raspodjele i standardne

z vrijednosti

II. Parametarski metod za procjenu znaajnosti razlike

III. Slui za procjenjivanje znaajnosti razlika parametara homogenih

vrijednosti jedinica posmatranja dvije grupe podataka

IV. Koristi se za kvantitativne podatke

V. Zahtijeva poznavanje standardne devijacije osnovnog skupa ili uzroka sa

kojim se uporeuje

VI. Izraunava se:

razlika aritimetikih sredina uzoraka koji se

uporeuju (ili uzorka i osnovnog skupa)

VII. Statistiki zakljuak se donosi poreenjem empirijske i teoretske

vrijednosti z testa. Teoretska vrijednost zavisi od izabranog nivoa

znaajnosti, kao i smjera procjene testa (dvosmjeran/jednosmjeran). Za

a za

t test

I. Bazira se na t raspodjeli, a inae je isti kao i z test

II. Otprilike z test za male uzorke (

III. Izraunava se tana vjerovatnoa, na sledei nain:

A. Ne vie, ! znai faktorijel (BTW 0!=1, 1!=1)

B. Nema tablica, P se uporeuje sa nivoima znaajnosti, pa ako je ,

prihvata se nulta hipoteza, u suprotnom, istraivanje je uspjelo. se,

kada se koristi ovaj test, uzima dosta stroije: 0,025 i 0,005 jer zato.

Medijan test

I. Neparametarski test, varijacija na temu (svi neparametarski su varijacija

na temu , jebeni matematiari nematoviti)

II. Ne treba joj normalnost, simetrinost, raspodjela, isto kao ni

III. Prave se tablice, ali tako da se za redove (strukturne gradacije) uzimaju

normalno gradirane grupe kao na , dok se za kolone (funkcionalne

gradacije) uzimaju samo dvije grupe, na sledei nain:

A. izrauna se zajednika medijana, a onda se iz skupa izbace sve

vrijednosti koje su jednake medijani

B. dalje se podijeli skup na vrijednosti manje i vee od medijane, ije se

onda frekvencije ubace u kolone, like so:

Strukturno obiljeje

Funkcionalno obiljeje Ukupno

< med > med I gradacija a b a+b

II gradacija

c d c+d

Ukupno a+c b+d a+b+c+d

= n

IV. Onda sve isto kao sa

MekNemarov test

I. za zavisne, vezane uzorke (npr. jedan uzorak kroz vrijeme, ili meovani

uzorci), ovdje nazvane diskordantni parovi

II. Diskordantni parovi su parovi koji se mijenjaju u vremenu, ostali su, jel,

nediskordantni. Ovako:

Prvo mjerenje

Drugo mjerenje Ukupno

+ -

+ a (++) b (+-) a+b - c (-+) d (--) c+d

Ukupno a+c b+d a+b+c+d

= n

A. Kao to se da vidjeti, b i c su se mijenjali izmeu mjerenja ili tagod u

istraivanju, tako da su to diskordantni parovi

III. Formula:

IV. I sa Yates-ovom korekcijom (isto kao kod pogodi kog testa):

Wilcoxon-ov test ekvivalentnih parova

I. Neparametarski metod za procjenu znaajnosti razlike

II. Koristi se za zavisne podatke, kao to je npr. bol prije i posle uzimanja

lijeka

III. Koristi se rangiranje rezultata da bi se dobila empirijska vrijednost testa,

na sledei nain:

A. razlike izmeu vrijednosti prije i posle tretmana/prvog i drugog

mjerenja se rangiraju po svojim apsolutnim vrijednostima (nebitan

predznak) radni rang

B. znakovi se onda vraaju, i sabiraju se istoznani rangovi

1. ukoliko ima vie istih vrijednosti, sve dobijaju isti rang koji je

jednak aritimetikoj sredini ranga prije izjednaavanja. Da

nacrtam:

prije posle razlika radni rang

rang (Rd)

1 3 +2 |3| +2,5

1 2 +1 |1| +1,5 3 5 +2 |4| +2,5

2 3 +1 |2| +1,5 2 -2 -4 |5| -3

2. dakle, sve se vrijednosti poreaju, pa se za iste uzme srednja

vrijednost i to je rang (radni rang sam izmislio da bih objasnio

sutinu)

a. ako je razlika 0, zanemari tu vrijednost

C. manji od dva zbira je empirijska vrijednost testa ( )

D. poredi se sa teorijskom vrijednou, i ako je ( je

teorijska vrijednost iz tablice), prihvata se alternativna hipoteza. U

suprotnom, ostaje nulta

IV. Teorijska vrijednost se dobija po tablici na osnovu sledeih parametara:

A. broj jedinica posmatranja

B. izabrani nivo znaajnosti

C. izabrani smjer testa (jednosmjerni, dvosmjerni)

V. Osim izraunavanja empirijske i teorijske vrijednosti, ovaj test moe da se

koristi i za odreivanje smjera i veliine promjene (ako je od

negativnih vrijednosti, onda je smjer negativan i obrnuto)

VI. Postoji i fora da ako je broj uzoraka n > 25 da se umjesto jednostavnog

uporeivanja da li je , koristi sledea formula (to vie uzoraka,

slinija raspodjela normalnoj):

1. mda

Mann-Whitney U test sume rangova

I. Wilcoxon je prvi izmislio i ovaj test, ali nije bio peder kao Pearson da ga isto

nazove po sebi, ve ga je prepustio kolegama koji su kasnili dvije godine sa

otkriem. Bitna injenica

II. Isto to i test ekvivalentnih parova, ali za nezavisne podatke

A. analitiki neparametarski metod za procjenu znaajnosti razlike

III. Glavna pretpostavka ovog testa je da su oba uzorka iz jednog osnovnog

skupa, to bi znailo da imaju iste medijane. To je nulta hipoteza znaajno

odstupanje medijane jednog uzorka od drugog podrazumijeva tanost

alternativne hipoteze

IV. Takoe se rangira, ali na malo drugaiji nain:

A. uzimaju se vrijednosti iz oba uzorka i zajedno rangiraju

B. rangirane vrijednosti se ponovo vrate svojim uzorcima

C. odreuje se U za oba uzorka ( i ):

D. Manje U od ta dva se onda uporeuje sa kritinom vrijednou iz tabele

E. I ovdje moemo da se izdrkavamo ako je manje n vee od 8, i koristimo

z tabelu kao u testu ekvivalentnih parova, ali tu zajebanciju ostavljam

itaocu na matu

Ispitivanje paralelizma [nije ispitno pitanje opusti se]

I. Svi testovi do sada su traili razliku, ovi trae

slinost/asocijaciju/povezanost

II. Dvije varijable su povezane ako promjena jedne (nezavisne) utie na

promjenu druge (zavisne)

III. Povezanost moe biti:

A. direktna/pozitivna: jedna raste, druga raste

B. reciprona/negativna: jedna raste, druga pada

IV. Oblik slaganja moe biti:

A. pravolinijski: definie se jednainom prave ili tagod

B. krivolinijski: linija talasa

V. Uoavanje povezanosti je obino odokativno: napravi se dijagram

rasturanja, ili scatter plot: svaka taka ima x poziciju (nezavisna varijabla) i

y (pretpostavljena zavisna varijabla)

analiza nedvosmisleno kae: to mlae to slae

VI. Povezanost ima tri karakteristike

A. smjer: ispituju ga korelacione i regresione metode

B. jaina: ispituju ga korelacione metode

C. oblik: ispituju ga regresione metode

VII. Kao i kod ostalih testova, neparametarski se koriste za heterogene

uzorke, a parametarski za homogene

Jednostruka linearna povezanost (Pearson-ov linearni koeficijent korelacije)

I. Ispituje jainu linearne povezanosti dvije promjenljive: nezavisno

promjenljive i zavisno promjenljive

II. Napravi se scatter plot i prvo uoi da li postoji sumnja na korelaciju

A. ako pravi kao liniju koja ide od dole lijevo ka gore desno (kao /), onda

postoji ansa da je pozitivna korelacija

B. ako je linija suprotna (\), onda je vjerovatno korelacija negativna

C. moe biti i bezveze, kada nema korelacije

III. Poto je sve to u stvari bullshit, sada se vadi formula:

A. r je Pearson-ov koeficijent korelacije, i ima odreene karakteristike

1. uvijek je izmeu -1 i 1

2. ako je blizu 1, onda je korelacija pozitivna, a kod -1 negativna

3. korelacija je jaka ako je r vee od 0,70, iznad 0,40 je umjereno

jaka, a ispod nije dovoljna. Ovo ide u oba pravca (-0.80 i +0,80 su

podjednako jake)

IV. Mi vidimo liniju iz taaka, ali to nije to ako ne postoji jo jedna formulica

koja e to da ozvanii:

b tangens ugla koji linija regresije zaklapa sa x osom bla bla tru tru

A. ta je bitno: ova linija nam omoguava ne samo crtanje linije preko

postojeih podataka, nego i ekstrapolaciju (izvoenje) na nove

dogaaje! Jednostavno je: zamisli da auto ide po grafiku, , prati liniju.

Stie do kraja linije, ali ne koi. Kuda e nastaviti?! Pa istim putem,

nastavljajui zamiljenu liniju u beskonanost. Specijalan sluaj te

regresije je:

Linearni trend

I. Kada je osa vrijeme (minut, dan, godina), a regresija linearna

II. Nastaje kao i linija regresije, iz postojeih podataka, i onda se

ekstrapolira taj trend u budunost

A. npr. poslednjih 10 godina konstantno raste godinji broj

kardiovaskularnih oboljenja za recimo 5%. Koliko e procenata porasti

taj broj u 2015.? Jako komplikovano

Spearman-ova korelacija ranga

I. Neparametarska metoda za odreivanje korelacije

II. Manje pouzdana, tako da se koristi u sledeim sluajevima

A. podaci su neparametarskog karaktera

B. podaci su heterogeni

III. Da bi se izraunala, podaci se moraju prvo rangirati:

A. pravila ista kao i za ostale rangirane testove, dobija se

IV. je Spearman-ov koeficijent korelacije ranga, koji se dobija na sledei

nain:

A. d je diferencija, i oznaava razliku izmeu rangova uporeenih

vrijednosti 2 uzorka

V. Moe da isprati i nelinearne korelacije, to je +

Sran Pandurevi, februar 2015.

Documents

Statistika Po Ispitnim Pitanjima - Pandurevic