Upload
srkisrle
View
39
Download
0
Embed Size (px)
DESCRIPTION
Skripta iz statistike rađena po knjizi iz medicinske statistike Medicinskog fakulteta Univerziteta u Beogradu. Nije zamjena za zvanični udžbenik. Ili jeste, briga me, ja sam dobio 10.
Citation preview
ver 0.8
STATISTIKA
skripta
po ispitnim pitanjima
Medicinskog fakulteta u Beogradu
Sran Pandurevi
februar 2015.
Pojam i definicija statistike
I. Gottfried Achenwal - Univerzitetska statistika
II. Po njemu statistika = nauka o dravi
III. Metod kvantitativnog istraivanja masovnih pojava
Razvoj statistike
I. Stara 6000 godina (ma daa)
II. Prvi oblik statistike popis
A. rimski cenzus
III. Moderna statistika kraj XVIII, poetak XIX vijeka, prvi organi stat. slube
IV. Adolf Ketle smatra se osnivaem savremene statistike
V. Karl Pearson, genetika i eugenika, jako bitan lik, razradio savremenu
statistiku
Klasifikacija statistike
I. Evidenciona statistika: prikupljanje, registrovanje, sreivanje podataka kao
krajnji cilj
II. Teorijska statistika: oblast primjenjene matematike, rijeava teorijske
probleme statistike
III. Primjenjene statistike: posebne statistike koriene za istraivanje u
raznim oblastima nauke. Ima ih onoliko koliko ima oblasti istraivanja
A. Medicinska statistika: nastala 1847. Semmelweiss i smrtnost
porodilja
Statistiki metod i metodologija
I. Statistika kao nauni metod ima dvije osnovne karakteristike: (1)
masovnost i (2) kvantitativnost
II. Statistiki istraivanje se primjenjuje na masovne pojave (pojave koje se
deavaju u velikom broju, ili se ponavljaju u vremenu)
III. Kvantitativnost je specifinost statistikog metoda i omoguava
utvrivanje opteg svojstva i zakonitosti individualno promjenljivih pojava
IV. Etape rada statistikog metoda:
A. prouavanje pojave i planiranje istraivanja
B. posmatranje/prikupljanje podataka: najvea etapa po obimu
C. obrada prikupljenih podataka
1. sreivanje
2. opisivanje
3. analiziranje
4. generalizacija zakljuka
V. Dvije vrste greaka u statistikim istraivanjima
A. greke u radu
1. sistematske: stalno se ispoljavaju u istom smislu kritino
ugroavaju istraivanje
2. sluajne: nasumino se ispoljavaju, efekti na istraivanje se obino
potiru
3. perturbacije: pojava se posmatra u neuobiajenimokolnostima,
to krivi sliku o njoj
B. greke u zakljuivanju
1. greke I vrste
2. greke II vrste
Osnovni statistiki pojmovi
I. Statistika: nauka koja se bavi kvantitativnim istraivanjem pojava u cilju
njihove deskripcije, analize i generalizacije zakljuaka
II. Statistiki skup: cjelina sastavljena od istovrsnih elemenata sa
zajednikom varijablom (promjenljivom karakteristikom)
A. mora biti sastavljen od istovrsnih i meusobno uporedivih elemenata
B. dvije vrste statistikih skupova:
1. osnovni skup: skup svih postojeih istovrsnih elemenata
praktino nedostupan
2. uzorak: reprezentativni dio osnovnog skupa
III. Jedinice posmatranja: istovrsni elementi statistikog skupa, nosioci
obiljeja posmatranja
IV. Obiljeja posmatranja: karakteristike statistikog skupa, mogu biti
kvalitativna i kvantitativna
A. atributivna (kvalitativna): izraavaju se opisno (pol, vrsta oboljenja,
ishod bolesti itd.)
B. numerika (kvantitativna): izraavaju se brojevima, i mogu se
prebrojavati i mjeriti (broj oboljelih, godine ivota, temperatura, lipidi
u serumu itd.)
1. diskontinuirana: rezultat prebrojavanja, samo cijeli brojevi (broj
oboljelih, frekvencija pulsa, eritrociti u krvi itd.)
2. kontinuirana: rezultat mjerenja, realne vrijednosti (jaina doze,
krvni pritisak, temperatura itd.)
V. podatak: bilo kakav zapis o statistikom skupu, jedinicama posmatranja ili
obiljejima posmatranja
Grupisanje podataka
I. Grupisanje: metoda razvrstavanja jedinica posmatranja statistikog skupa u
grupe i grupne intervale obiljeja posmatranja
II. Pravila grupisanja:
A. sveobuhvatnost
B. sistematinost
C. odreenost
III. Redoslijed grupisanja:
A. utvrivanje minimalne i maksimalne vrijednosti, da bi sve vrijednosti
stat. skupa bile obuhvaene
B. utvrivanje raspona vrijednosti, na osnovu ega se utvruje irina
grupnog intervala
1. mali intervali vei broj intervala manji gubitak
informacija/manja preglednost
2. veliki intervali manji broj intervala vei gubitak
informacija/vea preglednost
3. intervali moraju biti iste veliine
4. donja granica prvog intervala poinje sa 0
IV. Frekvencija ( f ) :broj jedinica posmatranja koje pripadaju jednoj grupi
A. apsolutna frekvencija: rezultat prebrojavanja jedinica posmatranja
B. relativna frekvencija: rezultat odnosa apsolutne frekvencije jedne
grupe prema ukupnob broju jedinica; izraava se u vidu decimale ili
procenta
C. kumulativna frekvencija: sukcesivni zbir frekvencija pojedinih grupa;
poslednja kumulativna frekvencija je jednaka ukupnom broju jedinica
posmatranja
Prikazivanje podataka obuhvata ispitna pitanja:
I. Tabeliranje
II. Grafiko prikazivanje
Tabeliranje
I. Pregledno prikazivanje prethodno grupisanih podataka tabelom
II. Pravougaona, izdjeljena horizontalnim i vertikalnim linijama na rubrike
A. vertikalne rubrike: kolone
B. horizontalne rubrike: redovi
III. Tabela mora da bude:
A. pregledna, sa ogranienim brojem kolona i redova
B. jasna i razumljiva
C. potpuna
D. tehniki dobra i pravilna
IV. Podjela tabela:
A. prema broju statistikih serija
1. proste: 1 serija
2. sloene: vie serija
B. prema broju i ralanjenosti obiljeja
1. elementarne: jedno ralanjeno obiljeje
2. kombinovane: vie ralanjenih obiljeja
Grafiko prikazivanje
I. Metod prikazivanja grupisanih i tabeliranih podataka u vizuelnom obliku
II. Dvije grupe:
A. podaci prikazani oznakama i simbolima: kartogrami, simboliki crtei
B. dijagrami: podaci prikazani geometrijskim oblicima
1. takasti (korelacioni)
2. linijski
a. poligon frekvencija
b. kriva frekvencija
c. vremenski linijski dijagram
d. kumulativni dijagram
e. polarni dijagram
3. povrinski
a. stubiasti
b. tapiasti
c. histogram frekvencija
d. kruni (pie)
e. pravougaoni
4. prostorni (stereogrami)
III. Razliite vrste obiljeja zahtijevaju korienje razliitih dijagrama:
A. numeriki kontinuirani poligon frekvencija, histogram frekvencija
B. numeriki diskontinuirani tapiasti
C. atributivni stubiasti, kruni
Relativni brojevi
I. Apsolutni brojevi se dobijaju kao rezultat mjerenja, ali se ne mogu koristiti
za poreenje pojava koje nisu istovjetne. Za te potrebe njih dopunjuju
relativni brojevi
II. Relativni brojevi: statistiki parametri koji omoguuju poreenje
istoimenih i raznoimenih pojava bez obzira na njihov intenzitet
III. Relativni brojevi se mogu izraunati ako se znaju bar dva broja koji su u
nekom odnosu jedan prema drugom
IV. Dobija se kao kolinik dva broja, brojioca (vrijednosti koja se uporeuje) i
imenioca (vrijednost kojom se uporeuje):
V. Relativni broj je decimalan broj, i za lake tumaenje se esto mnoi sa 100
procenti, i sa 1000 promili. Proporcija je relativni broj uvijek 1
VI. Postoje tri tipa relativnih brojeva
A. indeks strukture: porede odnos dijela i cjeline
B. indeks dinamike: pokazuju relativnu promjenu obiljeja u vremenu
1. bazni indeks: vrijednosti se porede sa istom bazom
2. lanani indeks: svaka sledea vrijednost se poredi sa prethodnom
C. koeficijent: poredi intenzitete dvije vrijednosti od kojih je bar jedna
masovna (natalitet, mortalitet, incidencija, prevalencija)
Mjere centralne tendencije
I. Dijele se na dvije grupe:
A. matematike
1. aritimetika sredina
B. pozicione
1. medijana
2. mod
Aritimetika sredina
I. Dobija se sabiranjem svih vrijednosti ispitivanog obiljeja i dijeljenjem
zbira sa brojem vrijednosti
II. Oznaava se sa (iks bar)
III. Za grupisane vrijednosti se dodaje f, frekvencija vrijednosti koje
pripadaju odreenoj grupi; aritimetika sredina ovih vrijednosti se zove
ponderisana aritimetika sredina zato to uticaj vrijednosti na aritimetiku
sredinu zavisi od njene frekvencije
IV. U homogenom skupu, kvadrat odstupanja pojedinanih vrijednosti je
uvijek minimalan za aritimetiku sredinu, u odnosu na bilo koju drugu
vrijednost ( )
V. Za heterogeni skup se ne moe koristiti aritimetika sredina, zato to
ekstremne vrijednosti onemoguuju reprezentativnost aritimetike sredine,
zbog ega se koriste pozicione mjere u tom sluaju
Medijana
I. Srednja vrijednost po poloaju, izraunava se:
A. vrijednosti se poreaju po veliini u niz
B. utvrdi se sredina niza
C. ukoliko je zbir frekvencija
1. neparan: vrijednost na sredini je medijana
2. paran: dvije centralne vrijednosti se saberu i podijele sa 2
1 3 20 99 101 552 612 980 992
101
1 3 20 99 101 552 612 980 med 100
II. Koristi se kada ekstremne vrijednosti ne dozvoljavaju upotrebu
aritimetike sredine
Mod
I. Srednja vrijednost po poloaju, dobija se tako to se odredi vrijednost koja
se najvie puta pojavljuje u skupu
1 1 3 99 101 552 612 980 992 1
II. Ukoliko postoji vie vrijednosti sa maksimalnim frekvencijama
A. ukoliko su one susjedne vrijednosti, mod je granina vrijednost tih
grupa
B. ukoliko su podijeljene sa vie drugih vrijednosti, onda je polimodalna
raspodjela, to je loe, valjda
III. Mod se koristi prvenstveno za nominalne vrijednosti
Odnos mjera centralne tendencije
I. Kada su vrijednosti pravilno i simetrino rasporeene, aritimetika sredina,
medijana i mod imaju iste, jednake vrijednosti
II. Kada su vrijednosti asimetrino rasporeene, medijana se uvijek nalazi
izmeu moda i aritimetike sredine
III. Kod unimodalnih simetrinih i umjereno asimetrinih raspodjela
uestalosti, medijana se nalazi na treini puta od aritimetike sredine ka
modu:
Mjere varijabiliteta
I. Srednje vrijednosti se koriste kod skupova koji se grupiu oko jedne
vrijednosti, ukoliko to nije sluaj, srednje vrijednosti nemaju svrhu za taj
skup
II. Mjere varijabiliteta odreuju da li se, i koliko, vrijednosti skupa grupiu
oko srednje vrijednosti
III. Dijele se na:
A. apsolutne mjere varijabiliteta:
1. interval varijacije
2. standardna devijacija
3. srednje apsolutno odstupanje
4. kvartili, decili, centili
5. varijansa
B. relativne mjere varijabiliteta:
1. koeficijent varijacije
2. z vrijednost
Interval varijacije
I. Najjednostavnija mjera varijabiliteta
II. Pokazuje razmak od najmanje do najvee vrijednosti:
III. Daje informacije samo o ekstremnim vrijednostima, a ne daje nikakve o
varijabilitetu unutar intervala
IV. Vei broj vrijednosti takoe utie na ovu mjeru (vea ansa za ekstremne
vrijednosti)
Standardna devijacija
I. Najee upotrebljavana mjera varijabiliteta
II. Mjeri odstupanje vrijednosti od aritimetike sredine, tj. gustinu
grupisanja oko a.s.
III. Manja vrijednost SD znai manje odstupanje, kao i manji varijabilitet, i
obrnuto
varijansa
IV. Varijansa je srednje kvadratno odstupanje od aritimetike sredine. Dobija
se kao kolinik sume svih razlika vrijednosti i aritimetike sredine sa
ukupnim brojem vrijednosti:
V. Apsolutna je mjera, tako da se moe koristiti samo za uporeivanje
varijabiliteta istih obiljeja, ukoliko se aritimetike sredine ne razlikuju
mnogo
Koeficijent varijacije
I. Relativna mjera varijabiliteta, omoguava poreenje varijabilnosti razliitih
obiljeja kao i istih obiljeja sa razliitom aritimetikom sredinom
II. Dobija se kao kolinik standardne devijacije i aritimetike sredine:
A. koeficijent varijacije je standardna devijacija izraena u procentima
aritimetike sredine
III. CV se koristi i kao mjera homogenosti skupa; homogenost je vea ukoliko
je CV manji
A. smatra se da je pojava homogena ako je , u suprotnom je
heterogena
IV. CV se upotrebljava u sluaju kada se eli utvrditi:
A. u kom obiljeju neka grupa varira vie a u kom manje
B. koja grupa vie varira a koja manje po jednom obiljeju
z vrijednost
I. z vrijednost: Odstupanje vrijednosti od aritimetike sredine iskazano u
standardnim devijacijama:
II. z vrijednost je pokazatelj relativne pozicije vrijednosti u skupu
III. Kad je z negativno, onda je vrijednost manja od aritimetike sredine, a
kada je pozitivna, onda je vea od a.s.
Poreenje varijabiliteta
I. Procjena varijabiliteta se vri na osnovu odnosa aritimetike sredine i
standardne devijacije. Za odnos varijabiliteta dvije pojave, razlikuju se
sledee situacije:
A. varijabilitet je isti
B. varijabilitet je manji tamo gdje je manja
standardna devijacija, i obrnuto
C. varijabilitet je vei tamo gdje je manja standardna
devijacija, i obrnuto
D. moe se izraunati CV i z vrijednost, tamo gdje su
oni manji, manji je i varijabilitet
Mjere oblika raspodjela frekvencija
I. Raspodjele frekvencija mogu biti simetrine i deformisane
A. Simetrina distribucija frekvencija se karakterie nagomilavanjem
vrijednosti oko aritimetike sredine/simetrinim, postepenim padom
uestalosti lijevo i desno od aritimetike sredine
B. Deformisana distribucija moe biti:
1. asimetrina/nagnuta na jednu stranu
a. nagnuta negativno (ispod aritimetike sredine)/iskoena
udesno
b. nagnuta pozitivno (iznad a.s.)/iskoena ulijevo
2. spljotena/izduena (kurtosis)
a. vertikalno spljotena, platikurtosis (niska, iroka raspodjela)
b. bona spljotenost, leptokurtosis (visoka, uska raspodjela)
Statistika analiza
I. Matematiko-logiki postupak donoenja zakljuaka o problemu
istraivanja, na osnovu rezultata adekvatno odabranih i pravilno
primjenjenih specifinih statistikih metoda
II. Apsolutna tanost statistikih zakljuaka je nemogua, zato se mora
utvrditi stepen sigurnosti, odnosno greke
III. Vjerovatnoa sigurnosti: minimalna vjerovatnoa koja podrava doneseni
zakljuak. Naspram nje je vjerovatnoa greke maksimalna vjerovatnoa
dopustive greke u zakljuivanju. Zajedno ine 1, odn. 100%
IV. Minimalni nivo znaajnosti u medicini je 0,95 maksimalna greka 0,05.
Drugi definisani nivo znaajnosti je 0,99, odnosno maksimalna greka 0,01
A. To znai da, sa nivoom znaajnosti od 0,05, postoji ansa od 5% da
izvedeni rezultati istraivanja nisu tani
V. Dva tipa statistike analize:
A. procjena parametara osnovnog skupa preko ispitivanja uzorka.
Interval povjerenja govori o pouzdanosti procjene
B. ispitivanje hipoteze o uoenoj pojavi. Provjerava se njena istinitost za
odreeni nivo znaajnosti. Postupkom provjere istinitosti se
procjenjuje
1. znaajnost slinosti oblika raspodjela
2. znaajnost razlike
3. znaajnost paralelizma (povezanosti, zavisnosti)
Ispitivanje hipoteze
I. Postupak provjere istinitosti naune pretpostavke o pojavi koja se ispituje
II. Definiu se dvije, suprotne hipoteze: alternativna H1 i nulta H0. Poinje
se sa prepostavkom da je nulta hipoteza tana
III. Nulta hipoteza tvrdi da je prouavana pojava nasumina i da nije
znaajna, i na osnovu nje se provjerava validnost alternativne hipoteze
IV. Hipoteze se mogu formulisati:
A. dvosmjerno: nije bitan smjer variranja, bitno je samo da li se vrijednost
razlikuje od oekivane (npr. H0: puenje ne utie na incidenciju raka
plua)
B. jednosmjerno: uzima se u obzir smjer variranja (npr. H0: puenje ne
utie, ili umanjuje incidenciju raka plua)
V. Bira se nivo znaajnosti, odnosno, bira se vjerovatnoa greke prve vrste
( ), na osnovu prirode ispitivane pojave
oblasti odbacivanja nulte hipoteze, dvosmjerno
Greke u zakljuivanju
I. Poto se statistiki zakljuci baziraju na uzorku, pri ispitivanju hipoteza
postoji mogunost greke. Procjena ispravnosti hipoteza zato ima 4 ishoda:
A. prihvaena tana H0 (1- )
B. prihvaena pogrena H0 ( ) greka II vrste
C. odbaena pogrena H0 ( )
D. odbaena tana H0 ( ) greka I vrste
II. to je vea , vea je ansa da e biti prihvaena alternativna hipoteza, ali
i vea ansa da e biti odbaena tana nulta. Istraiva direktno bira ovu
vrijednost
III. , sa druge strane, je pod uticajem vie faktora:
A. stvarna vrijednost parametra uzorka
B.
C. veliina uzorka
D. smjer procjene ispravnosti hipoteze
IV. i se, stoga, ne dopunjuju do 1, ve, iako smanjenje poveava ansu
za , poveanje uzorka je smanjuje, tako to smanjuje standardnu greku
(SE)
V. Jednosmjerno testiranje hipoteza takoe smanjuje an su za nastanak
Jaina, efikasnost i osjetljivost metoda
I. Jaina metoda ( ) je maksimalna mogunost metoda da garantuje tanost
zakljuka
A. komplementarna je beti
II. Efikasnost metoda je relativna jaina metoda. Dobija se poreenjem
jaine jednog metoda sa standardom. Ukoliko je efikasnost >1, prvi metod je
efikasniji od standarda
III. Osjetljivost/robusnost metoda pokazuje ponaanje metoda u uslovima
razliitog stepena naruenosti pretpostavki o uzorku(normalnost,
homogenost, simetrinost itd.)
Analitiki metodi
I. Specifini statistiki metodi koji se koriste u statistikoj analizi
II. Postoje dvije glavne vrste:
A. parametarski: zahtijevaju poznavanje raspodjele uestalosti uzorakog
skupa i mogunou izraunavanja parametara
1. primjeri parametara: aritimetika sredina, varijansa, standardna
devijacija
2. osnovni zahtjev jeste homogenost ( ), ukoliko je uzorak
jako mali
3. lanovi:
a. z test
b. t test
B. neparametarski: mogu se primjenjivati u svim empirijskim situacijama,
a ukoliko je nemogue iskoristiti parametarski metod, onda je i
obavezna
1. parametarski metodi su jai, tako da njih treba koristiti kada je
mogue
2. dijele se na dvije podgrupe:
a. oni koji procjenjuju empirijske uestalosti:
i.
ii. Fierov test tane vjerovatnoe
iii. MekNemarov test
b. oni koji procjenjuju rangovne vrijednosti
i. test ekvivalentnih parova
ii. test sume rangova
iii. test predznaka
III. Za procjenu oblika povezanosti/zavisnosti se koristi linearna regresija
IV. Za procjenu jaine povezanosti se koriste:
A. parametarski: Pearsonov linearni koeficijent korelacije
B. neparametarski: Spearmanov koeficijent korelacije rangova
Vjerovatnoa
I. Teorija vjerovatnoe se bavi vjerovatnim/sluajnim dogaajima
II. Sluajni dogaaj je dogaaj koji se u datim uslovima moe oekivati, ali se
ne mora nuno ostvariti; sigurni/nuni dogaaj se mora ostvariti
A. Baen novi mora pasti na zemlju pod uticajem gravitacije (nuni
dogaaj), ali ne mora nuno da padne pismo (sluajan dogaaj)
III. Vjerovatnoa: mjera anse da se dogodi sluajni dogaaj.
IV. Vjerovatnoa moe biti:
A. objektivna:
1. matematika odnos broja oekivanih ishoda sa ukupnim brojem
moguih ishoda
a. za pismo, broj moguih ishoda je 2 (glava/pismo), a oekivan
je 1 (pismo)
2. statistika/empirijska vjerovatnoa dobijena posmatranjem vie
istih dogaaja i biljeenja rezultata
a. baca se 100 novia, i biljei koliko je palo glava, a koliko
pisama (npr 54 glave/46 pisama 54% ansa za glave, 46%
ansa za pisma)
b. to se vie dogaaja posmatra, statistika vjerovatnoa se
vie pribliava matematikoj (npr. 1000 bacanja novia
51% glava, 49% pisma)
B. subjektivna: lino uvjerenje o vjerovatnoi nekog dogaaja, bazirano
na linom iskustvu i znanju
V. Dogaaji mogu po zavisnosti biti:
A. nezavisni: vjerovatnoa jednog dogaaja ne zavisi od drugog (npr.
bacanje dva novia)
B. zavisni: da bi se jedan dogaaj desio, mora da se desi neki drugi
dogaaj prije njega (npr. bacanje jednog novia tako da prvo padne
glava, pa pismo)
VI. Dogaaji mogu po iskljuivosti biti:
A. iskljuivi: dogaaji koji se ne mogu desiti istovremeno (ne moe
istovremeno da padne i glava i pismo bacanjem jednog novia)
B. neiskljuivi: dogaaji koji se mogu desiti istovremeno (osoba ima
cirozu jetre, osoba ima hepatitis B)
VII. Zakon adicije:
A. ako su 2 dogaaja iskljuiva: vjerovatnoa da e se desiti jedan ili
drugi dogaaj je jednaka zbiru vjerovatnoa jednog i drugog
B. ako 2 dogaaja nisu iskljuiva: vjerovatnoa da e se desiti jedan ili
drugi dogaaj je jednaka zbiru jednog i drugog, minus vjerovatnoa da
e se desiti oba zajedno
VIII. Zakon multiplikacije: vjerovatnoa da e se dva nezavisna dogaaja oba
dogoditi (npr. da e u jednom danu u ordinaciju ui alkoholiar i trudnica)
je jednaka proizvodu vjerovatnoa ta dva dogaaja:
A. Ukoliko su dogaaji zavisni, jedan dogaaj je nezavistan, a drugi je
zavistan od pojave prvog (npr. ciroza jetre je zavisna od pojave
hepatitisa B). Prvo se mora znati vjerovatnoa pojave zavisnog
dogaaja ukoliko se ostvari nezavisni(P(zavisni|nezavisni)), pa se onda
ona mnoi sa vjerovatnoom pojave nezavisnog:
1. BTW to znai da je vjerovatnoa zavisnog dogaaja ako se ne
dogodi nezavisni = 0
2. BTW2 relativna vjerovatnoa je vjerovatnoa pojave zavisnog
ukoliko se ostvari nezavisni dogaaj
Teorijske raspodjele
I. Matematiki modeli raspodjela vjerovatnoa
II. Formiraju se primjenom teorije vjerovatnoe na sloene sluajne
dogaaje
III. Sloeni dogaaj znai da se vie dogaaja uzima u obzir (vie bacanja
novia, vie ispitanika)
IV. Teorijske raspodjele mogu biti:
A. kontinuirane kada su glatke na grafiku
1. normalna raspodjela
2. t
3. hi-kvadrat
B. diskontinuirane kada postoje definisane cjelobrojne vrijednosti
1. binomna raspodjela
V. Prikaz vjerovatnoa moe biti:
A. parcijalan za svaku pojedinanu vrijednost na osi se pridruuje
njena vjerovatnoa na osi
B. kumulativan vjerovatnoa svake sledee vrijednosti na osi je zbir
svih prethodnih (dobija se neminovno rastui grafik)
VI. Idealne zamiljene raspodjele koje slue za idealizovanje realnih
podataka, ime se onda lake dolazi do statistikih zakljuaka. Jako bitno da
realni podaci koliko-toliko odgovaraju izabranoj teorijskoj raspodjeli, inae
zakljuci doneseni na osnovu neodgovarajue raspodjele mo bait
Binomna raspodjela
I. Diskretna raspodjela vjerovatnoe broja oekivanih ishoda (uspjeha, p)
naspram suprotnog ishoda (neuspjeha, q)
II. Njeni parametri su proporcija p (vjerovatnoa oekivanog ishoda) i n
(broj prostih ishoda), to potpuno definie binom
III. Koristi se za dvije mogunosti, oekivani ishod (vjerovatnoa p), i
suprotni ishod (vjerovatnoa q) i izraunava se na sledei nain:
A. dakle, , koja se crta na osi na grafiku, oznaava vjerovatnou da e
prostih ishoda biti oekivani ishod
B. poto ne moe da se desi pola ili 1/3 prostog ishoda, binomna
raspodjela je prekidna/diskretna
Normalna raspodjela
I. Oblika famozne Gausove krive, dobija se tako to se realna kriva pomjeri
tako da aritimetika sredina pada na 0, a standardna devijacija postaje ,
po sledeoj formuli (z vrijednost):
A. ovo se zove standardizacija, ime se omoguava poreenje vrijednosti,
npr. generalizaciju na itavu populaciju zakljuaka dobijenih na uzorku
II. Za normalnu raspodjelu, aritimetika sredina, medijana i mod imaju istu
vrijednost
III. Standardna devijacija se nalazi na prevojnoj taki krive iz konveksiteta u
konkavitet
IV. Povrina izmeu ose i krive je jednaka 1, to je jednako ukupnoj
vjerovatnoi svih moguih ishoda
V. Iako je definisana od do , na rastojanju od 3 sd se nalazi 99,74%
povrine, to joj omoguava da se koristi aproksimacija za druge raspodjele,
pa i prekidne
VI. Glavni razlog zato je toliko korisna je centralna granina teorema, koja
kae: to je vei broj uzoraka, distribucija aritimetikih sredina uzorka e
sve vie da lii na normalnu raspodjelu, iako uzoraka raspodjela ne mora, i
nema, normalnu raspodjelu
t raspodjela [nije ispitno pitanje]
I. Kada je broj jedinica posmatranja jako mali, distribucija uzorka ne odgovara
normalnoj raspodjeli dovoljno dobro
II. Tada se koristi t raspodjela, koja ukljuuje dodatnu varijablu: stepen
slobode, koji zavisi od broja jedinica posmatranja:
III. Za razliku od normalne raspodjele, t raspodjela je u stvari grupa krivih,
koje su sve spljotenije, to je DF manje. Obrnuto, vee DF znai da je t
raspodjela priblinija normalnoj
raspodjela [nije ispitno pitanje]
I. Ako standardnu devijaciju normalne raspodjele kvadriramo (to je
varijansa) i nacrtamo grafik, dobijamo raspodjelu:
A. navedena formula slui za uporeivanje uzorka i populacije, gdje nam
dobijena vrijednost govori da li emo da prihvatimo nultu hipotezu
ili ne, na osnovu izabrane znaajnosti ( ). Ima tablica za te stvari.
Uzorak (Reprezentativni metod u knjizi)
I. Metod koji omoguava da se do eljenih saznanja doe ispitivanjem dijela
(uzorka) osnovnog skupa
II. Uzorak je reprezentativni skup podskup osnovnog skupa :D
III. Da bi uzorak bio reprezentativan, mora biti sluajan. Postoji vie naina
formiranja uzorka:
A. prost sluajan: svaka jedinica osnovnog skupa mora da ima jednaku
mogunost da postane dio uzorka. Svaka pristrasnost smanjuje tu
mogunost za neke jedinice
1. metoda kojom se postie sluajnost jeste softverski random
number generator, ili kako se to radilo prije 100 godina: tablica
sluajnih brojeva
B. sistematski uzorak: sa liste jedinica se uzme dio jedinica po nekom
sistemu (npr. iz telefonskog imenika se zove svaki 10. broj za anketu).
Bitno je da je poetak odabiranja sluajan (telefonski imenik se otvori
na sluajnoj strani)
C. stratifikovan uzorak:
1. prvo se skup podjeli na stratume kao to su starosne grupe ili pol
2. onda se vadi uzorak preko prostog sluajnog ili sistematskog
uzorkovanja
IV. Mali uzorci su oni sa 30 jedinica, a veliki sa vie od 30
V. Preciznost: mjera odstupanja ocjene iz uzorka od teoretske vrijednosti
dobijene mjerenjem osnovnog skupa. Odreuje se preko z vrijednosti i
standardne greke (SE). z vrijednost je za nivo znaajnost 0,05 = 1,96 i 0,01
= 2,58
A. za mali broj uzoraka se koristi t vrijednost i tablice t testa
Parametarski metodi za ispitivanje razlike [obuhvata sledea 2 pitanja]
I. z test
II. t test
z test
I. Baziran na karakteristikama standardne normalne raspodjele i standardne
z vrijednosti
II. Parametarski metod za procjenu znaajnosti razlike
III. Slui za procjenjivanje znaajnosti razlika parametara homogenih
vrijednosti jedinica posmatranja dvije grupe podataka
IV. Koristi se za kvantitativne podatke
V. Zahtijeva poznavanje standardne devijacije osnovnog skupa ili uzroka sa
kojim se uporeuje
VI. Izraunava se:
razlika aritimetikih sredina uzoraka koji se
uporeuju (ili uzorka i osnovnog skupa)
VII. Statistiki zakljuak se donosi poreenjem empirijske i teoretske
vrijednosti z testa. Teoretska vrijednost zavisi od izabranog nivoa
znaajnosti, kao i smjera procjene testa (dvosmjeran/jednosmjeran). Za
a za
t test
I. Bazira se na t raspodjeli, a inae je isti kao i z test
II. Otprilike z test za male uzorke (
III. Izraunava se tana vjerovatnoa, na sledei nain:
A. Ne vie, ! znai faktorijel (BTW 0!=1, 1!=1)
B. Nema tablica, P se uporeuje sa nivoima znaajnosti, pa ako je ,
prihvata se nulta hipoteza, u suprotnom, istraivanje je uspjelo. se,
kada se koristi ovaj test, uzima dosta stroije: 0,025 i 0,005 jer zato.
Medijan test
I. Neparametarski test, varijacija na temu (svi neparametarski su varijacija
na temu , jebeni matematiari nematoviti)
II. Ne treba joj normalnost, simetrinost, raspodjela, isto kao ni
III. Prave se tablice, ali tako da se za redove (strukturne gradacije) uzimaju
normalno gradirane grupe kao na , dok se za kolone (funkcionalne
gradacije) uzimaju samo dvije grupe, na sledei nain:
A. izrauna se zajednika medijana, a onda se iz skupa izbace sve
vrijednosti koje su jednake medijani
B. dalje se podijeli skup na vrijednosti manje i vee od medijane, ije se
onda frekvencije ubace u kolone, like so:
Strukturno obiljeje
Funkcionalno obiljeje Ukupno
< med > med I gradacija a b a+b
II gradacija
c d c+d
Ukupno a+c b+d a+b+c+d
= n
IV. Onda sve isto kao sa
MekNemarov test
I. za zavisne, vezane uzorke (npr. jedan uzorak kroz vrijeme, ili meovani
uzorci), ovdje nazvane diskordantni parovi
II. Diskordantni parovi su parovi koji se mijenjaju u vremenu, ostali su, jel,
nediskordantni. Ovako:
Prvo mjerenje
Drugo mjerenje Ukupno
+ -
+ a (++) b (+-) a+b - c (-+) d (--) c+d
Ukupno a+c b+d a+b+c+d
= n
A. Kao to se da vidjeti, b i c su se mijenjali izmeu mjerenja ili tagod u
istraivanju, tako da su to diskordantni parovi
III. Formula:
IV. I sa Yates-ovom korekcijom (isto kao kod pogodi kog testa):
Wilcoxon-ov test ekvivalentnih parova
I. Neparametarski metod za procjenu znaajnosti razlike
II. Koristi se za zavisne podatke, kao to je npr. bol prije i posle uzimanja
lijeka
III. Koristi se rangiranje rezultata da bi se dobila empirijska vrijednost testa,
na sledei nain:
A. razlike izmeu vrijednosti prije i posle tretmana/prvog i drugog
mjerenja se rangiraju po svojim apsolutnim vrijednostima (nebitan
predznak) radni rang
B. znakovi se onda vraaju, i sabiraju se istoznani rangovi
1. ukoliko ima vie istih vrijednosti, sve dobijaju isti rang koji je
jednak aritimetikoj sredini ranga prije izjednaavanja. Da
nacrtam:
prije posle razlika radni rang
rang (Rd)
1 3 +2 |3| +2,5
1 2 +1 |1| +1,5 3 5 +2 |4| +2,5
2 3 +1 |2| +1,5 2 -2 -4 |5| -3
2. dakle, sve se vrijednosti poreaju, pa se za iste uzme srednja
vrijednost i to je rang (radni rang sam izmislio da bih objasnio
sutinu)
a. ako je razlika 0, zanemari tu vrijednost
C. manji od dva zbira je empirijska vrijednost testa ( )
D. poredi se sa teorijskom vrijednou, i ako je ( je
teorijska vrijednost iz tablice), prihvata se alternativna hipoteza. U
suprotnom, ostaje nulta
IV. Teorijska vrijednost se dobija po tablici na osnovu sledeih parametara:
A. broj jedinica posmatranja
B. izabrani nivo znaajnosti
C. izabrani smjer testa (jednosmjerni, dvosmjerni)
V. Osim izraunavanja empirijske i teorijske vrijednosti, ovaj test moe da se
koristi i za odreivanje smjera i veliine promjene (ako je od
negativnih vrijednosti, onda je smjer negativan i obrnuto)
VI. Postoji i fora da ako je broj uzoraka n > 25 da se umjesto jednostavnog
uporeivanja da li je , koristi sledea formula (to vie uzoraka,
slinija raspodjela normalnoj):
1. mda
Mann-Whitney U test sume rangova
I. Wilcoxon je prvi izmislio i ovaj test, ali nije bio peder kao Pearson da ga isto
nazove po sebi, ve ga je prepustio kolegama koji su kasnili dvije godine sa
otkriem. Bitna injenica
II. Isto to i test ekvivalentnih parova, ali za nezavisne podatke
A. analitiki neparametarski metod za procjenu znaajnosti razlike
III. Glavna pretpostavka ovog testa je da su oba uzorka iz jednog osnovnog
skupa, to bi znailo da imaju iste medijane. To je nulta hipoteza znaajno
odstupanje medijane jednog uzorka od drugog podrazumijeva tanost
alternativne hipoteze
IV. Takoe se rangira, ali na malo drugaiji nain:
A. uzimaju se vrijednosti iz oba uzorka i zajedno rangiraju
B. rangirane vrijednosti se ponovo vrate svojim uzorcima
C. odreuje se U za oba uzorka ( i ):
D. Manje U od ta dva se onda uporeuje sa kritinom vrijednou iz tabele
E. I ovdje moemo da se izdrkavamo ako je manje n vee od 8, i koristimo
z tabelu kao u testu ekvivalentnih parova, ali tu zajebanciju ostavljam
itaocu na matu
Ispitivanje paralelizma [nije ispitno pitanje opusti se]
I. Svi testovi do sada su traili razliku, ovi trae
slinost/asocijaciju/povezanost
II. Dvije varijable su povezane ako promjena jedne (nezavisne) utie na
promjenu druge (zavisne)
III. Povezanost moe biti:
A. direktna/pozitivna: jedna raste, druga raste
B. reciprona/negativna: jedna raste, druga pada
IV. Oblik slaganja moe biti:
A. pravolinijski: definie se jednainom prave ili tagod
B. krivolinijski: linija talasa
V. Uoavanje povezanosti je obino odokativno: napravi se dijagram
rasturanja, ili scatter plot: svaka taka ima x poziciju (nezavisna varijabla) i
y (pretpostavljena zavisna varijabla)
analiza nedvosmisleno kae: to mlae to slae
VI. Povezanost ima tri karakteristike
A. smjer: ispituju ga korelacione i regresione metode
B. jaina: ispituju ga korelacione metode
C. oblik: ispituju ga regresione metode
VII. Kao i kod ostalih testova, neparametarski se koriste za heterogene
uzorke, a parametarski za homogene
Jednostruka linearna povezanost (Pearson-ov linearni koeficijent korelacije)
I. Ispituje jainu linearne povezanosti dvije promjenljive: nezavisno
promjenljive i zavisno promjenljive
II. Napravi se scatter plot i prvo uoi da li postoji sumnja na korelaciju
A. ako pravi kao liniju koja ide od dole lijevo ka gore desno (kao /), onda
postoji ansa da je pozitivna korelacija
B. ako je linija suprotna (\), onda je vjerovatno korelacija negativna
C. moe biti i bezveze, kada nema korelacije
III. Poto je sve to u stvari bullshit, sada se vadi formula:
A. r je Pearson-ov koeficijent korelacije, i ima odreene karakteristike
1. uvijek je izmeu -1 i 1
2. ako je blizu 1, onda je korelacija pozitivna, a kod -1 negativna
3. korelacija je jaka ako je r vee od 0,70, iznad 0,40 je umjereno
jaka, a ispod nije dovoljna. Ovo ide u oba pravca (-0.80 i +0,80 su
podjednako jake)
IV. Mi vidimo liniju iz taaka, ali to nije to ako ne postoji jo jedna formulica
koja e to da ozvanii:
b tangens ugla koji linija regresije zaklapa sa x osom bla bla tru tru
A. ta je bitno: ova linija nam omoguava ne samo crtanje linije preko
postojeih podataka, nego i ekstrapolaciju (izvoenje) na nove
dogaaje! Jednostavno je: zamisli da auto ide po grafiku, , prati liniju.
Stie do kraja linije, ali ne koi. Kuda e nastaviti?! Pa istim putem,
nastavljajui zamiljenu liniju u beskonanost. Specijalan sluaj te
regresije je:
Linearni trend
I. Kada je osa vrijeme (minut, dan, godina), a regresija linearna
II. Nastaje kao i linija regresije, iz postojeih podataka, i onda se
ekstrapolira taj trend u budunost
A. npr. poslednjih 10 godina konstantno raste godinji broj
kardiovaskularnih oboljenja za recimo 5%. Koliko e procenata porasti
taj broj u 2015.? Jako komplikovano
Spearman-ova korelacija ranga
I. Neparametarska metoda za odreivanje korelacije
II. Manje pouzdana, tako da se koristi u sledeim sluajevima
A. podaci su neparametarskog karaktera
B. podaci su heterogeni
III. Da bi se izraunala, podaci se moraju prvo rangirati:
A. pravila ista kao i za ostale rangirane testove, dobija se
IV. je Spearman-ov koeficijent korelacije ranga, koji se dobija na sledei
nain:
A. d je diferencija, i oznaava razliku izmeu rangova uporeenih
vrijednosti 2 uzorka
V. Moe da isprati i nelinearne korelacije, to je +
Sran Pandurevi, februar 2015.