FILOZOFIJA STATISTIKE

  • View
    84

  • Download
    5

Embed Size (px)

DESCRIPTION

FILOZOFIJA STATISTIKE. Prof. dr. Davor Eterović EBM-2011/Klinička biostatistika. UZORAK I POPULACIJA. - PowerPoint PPT Presentation

Text of FILOZOFIJA STATISTIKE

  • FILOZOFIJA STATISTIKE

    Prof. dr. Davor Eterovi EBM-2011/Klinika biostatistika

  • UZORAK I POPULACIJA

  • Populacija je veliki skup jedinki odreenog istog svojstva (npr. sve Splianke). Ali, druga se svojstva individualno razlikuju, tj. imaju svoje distribucije (dob, visina, masa, brani status, zanimanje, naobrazba, genotip, krvna slika).

    Kada usporeujemo dvije populacije (npr. Splianke i Katelanke), one se razlikuju u osnovnom obiljeju (prebivalite), dok im se distribucije ostalih svojstava mogu, ali ne moraju bitno razlikovati (npr. vjerojatno Splianke nisu prosjeno vie od Katelanki, ali je mogue da se manje bave poljoprivredom).

  • Populacije moemo usporeivati u cijelosti (rijetko) ili na temelju uzoraka (ee).

    Uzorak: Dio (podskup) populacije (npr. Splianke koje stanuju u Varou su uzorak iz populacije svih Splianki).

  • Uzorak je reprezentativan za populaciju iz koje potie ako su njegova prosjena svojstva (tonije: distribucije svojstava) uglavnom slina prosjenim svojstvima (njihovim distribucijama) matine populacije.

  • Npr. Varoanke se vjerojatno ne razlikuju od prosjenih Splianki u mnogim svojstvima, ali je za pretpostaviti da su im roditelji neto ee roeni Spliani.

    Takoer, stanovnici Meja (i Bavica) vjerojatno nisu reprezentativan uzorak Spliana, ako je ispitivano obiljeje imovinski status, ali to mogu biti u sluaju tjelesne visine.

  • ZATO UZIMAMO UZORKE:

    Cijele su populacije najee nedostupne (npr. u bolnici su u odreenom vremenu samo neki srani bolesnici, a ne svi iz tog grada), ili su prevelike za analizu (predugo, preskupo).

  • Ako populacije usporeujemo na temelju uzoraka, osnovni je preduvjet pouzdanosti zakljuaka da su uzorci reprezentativni za populacije iz kojih potiu, posebno glede ispitivanog obiljeja.

  • Ako npr. usporeujemo Splianke i Omianke, tada je sluajni uzorak od 120 Varoanki vjerojatno reprezentativan za populaciju Splianki ako se usporeuje tjelesna visina, ali nije reprezentativan ako se Splianke i Omianke usporeuju glede porijekla roditelja.

  • Ako uzorak ne moemo birati (npr. bolesnici koji su momentalno dostupni), njegovu reprezentativnost moemo samo procjenjivati, ali na nju ne moemo utjecati. Ako uzorak biramo, najbolja je metoda sluajnog izbora.

  • Sluajni izbor ili randomizirano uzorkovanje (engl. random sampling): svaka jedinka iz populacije ima jednaku ansu biti izabrana u uzorak.

    Metoda sluajnog izbora osigurava reprezentativan uzorak tim sigurnije to je broj jedinki uzorka (N) vei.

  • TO JE ZAJEDNIKO STATISTIKIM ANALIZAMA

  • 1. Zanima nas samo uzorak, ne cijela populacije (npr. mene zanima vaa matematika izobrazba, jer ovu skriptu pravim za vas.

    2. Ispitujemo cijelu populaciju (jednu ili vie njih).

    3. Zakljuujemo iz uzorka (uzoraka) na populaciju (populacije).

    Tri su razliite mogunosti:1. i 2. je jednostavno, statistika u uem smislu se bavi s 3.

  • Statistike metode (u sluaju 3.) koriste se u svrhu:

    PROCJENE POUZDANOSTI ZAKLJUIVANJA NA TEMELJU UZORAKA IZ POPULACIJATri su osnovne namjene statistikih metoda:

  • 1. testiraju hipoteze (pretpostavke) o razliitosti populacija glede nekog svojstva. Primjer je pretpostavka da su mukarci vii od ena, ili da ee dobivaju rak plua.2. procjenjuju intenzitet povezanosti izmeu dvije kategorijske varijable. Primjer je koliko ee puai dobivaju rak plua nego nepuai. 3. procjenjuju mogunost predvianja jednog svojstva (npr. preivljenje infarkata srca) iz jednog ili vie drugih svojstava (dob, spol, veliina infarkta) iste populacije.

  • Ovisno o vrsti ispitivanog svojstva statistike metode koje testiraju hipoteze dijelimo na: metode koje usporeuju metrike varijable (npr. t-test) imetode procjenjuju povezanosti kategorijskih varijabli (npr. test), dok su za ordinalne varijable razvijeni su posebni, neparametrijski testovi.

  • Obino metrike varijable usporeujemo parametrijskim testovim. Bitna je pretpostavka tih testova da je raspodjela aritmetikih sredina normalna, ili barem simetrina. To je uvijek tako ako su same varijable simetrino distribuirane, a za velike uzorke i bez obzira na njihovu raspodjelu (tzv. teorem o sredinjoj graninoj vrijednosti). Ako se radi o malim uzorcima i uz to su jo varijable vrlo nesimetrino rasporeene, parametrijski testovi nisu uporabivi.

  • Neparametrijski testovi ne tretiraju varijable kao brojeve s kojima su mogue matematike operacije, ve kao rangirani niz (zato ih moemo koristiti za ordinalne varijable).

  • Dakle, neparametrijske testove koristimo:

    uvijek za ordinalne varijable ponekad za metrike varijable, kada je broj podataka N mali, a podaci su nesimetrino distribuirani i ne mogu se transformirati u simetrino (normalno) rasporeene.

    Odstupanje od normalne (Gaussove) raspodjele testira se posebnim testovima.

    Inae, neparametrijske testove izbjegavamo jer su manje pouzdani od parametrijskih testova.

  • STATISTIKO ZAKLJUIVANJE

  • Obzirom da nikad ne moemo biti sigurni koliko su uzorci reprezentativni za matine populacije, u statistici nema potpuno sigurnih tvrdnji, sve se vezuje za odreene vjerojatnosti.

  • Na uzorcima iz populacija istraivane varijable se uvijek barem malo razlikuju, bez obzira da li u matinim populacijima stvarna razlika postoji ili ne (npr. izmjerimo svima vama visinu danas i nakon mjesec dana-malo je vjerojatno da emo dobiti potpuno iste aritmetike sredine).

    To su tzv. opaene razlike (nasuprot stvarnim razlikama izmeu matinih populacija).

  • Dakle, opaene se razlike redovno razlikuju od stvarnih. Statistiki testovi procjenjuju kvalitetu opaenih razlika.

    Nul-hipoteza je pretpostavka da se populacijene razlikuju u ispitivanom obiljeju, tj. da su opaene razlike sluajne (da stvarne, populacijske razlike ne postoje).

  • p-vrijednost odgovara vjerojatnosti da je nul-hipoteza tona (tj. vjerojatnosti dobivanja uoene ili jo vee razlike na sluajnim uzorcima iz populacija koje se u istraivanom obiljeju ne razlikuju). 1 - p = odgovara vjerojatnost da nul-hipoteza nije tona, tj. da stvarna razlika postoji i naziva se razina znaajnosti.

  • Tradicionalno (i naalost!) najvaniji rezultat statistikih testova usporedbe su p-vrijednosti. to je p-vrijednost manja, razina znaajnosti je vea, tj. pouzdanija je procjena stvarnih iz uoenih razlika.

  • granina razina znaajnosti ==1- granina p-vrijednost

    Granina je ona razina znaajnosti iznad koje prihvaamo da su uoene razlike stvarne, tj. zanemarujemo malu vjerojatnost (p-vrijednost) da se radi o sluaju.

  • Kaemo da se uzorci statistiki znaajno razlikuju ako je dobivena p-vrijednost testa manja od granine p-vrijednosti: prihvatljive nepouzdanosti u odbacivanju nuil-hipoteze.

    Ako to nije sluaj, tj. ako je p-vrijednost testa vea ili jednaka od granine p-vrijednosti, kaemo da se uzorci ne razlikuju statistiki znaajno.

    U prvom sluaju nul-hipotezu odbacujemo, a u drugom ju prihvaamo

  • U biomedicini je uobiajena 95% granina razina znaajnosti, odnosno uvena graninap-vrijednost = 5%. Usporedbe razlika koji rezultiraju s p
  • Razgranienje pomou granine razine znaajnosti povlai mogunost pogreaka u zakljuivanju:

    Alfa () pogreka (ili pogreka tipa 1) je odbacivanje nul-hipoteze, dok je ona u stvari tona.

    Beta () pogreka (ili pogreka tipa 2) je prihvaanje nul-hipoteze, dok je ona u stvarnosti netona.

  • Vjerojatnost alfa pogreke jednaka je p-vrijednosti. Vjerojatnost da neemo napraviti pogreku tipa 1 je razina znaajnosti (1-p).

    Vjerojatnost beta pogreke ovisi o tome to prihvaamo kao stvarnu razliku u promatranoj veliini. Vjerojatnost da neemo napraviti pogreku tipa 2 zove se snaga istraivanja. Snaga istraivanja raste s veliinom uzorka (N) i s veliinom razlike koju smatramo stvarno znaajnom, a opada s razinom znaajnosti (statistike).

  • Tri su imbenika pouzdanosti zakljuivanja na temelju uzoraka iz populacija: 1. Koliko se populacije zaista razlikuju u istraivanom obiljeju 2. Kolike su irine distribucija, tj. varijabilnosti istraivane varijable u populacijima 3. Kolike su veliine uzoraka iz populacija

  • Dakle, dobivena p-vrijednost tim je manja (procjena je pouzdanija), to su: opaene razlike vee varijabilnosti manje uzorci vei

  • Rasponi pouzdanosti (1)Standardna pogreka aritmetike sredine (SE) govori o gustoi grupiranja prosjeka uzoraka oko prave, populacijske sredine (2/3 rezultata je u podruju prava sredina +/- SE, a 95% u podruju prava sredina +/- 1.96 x SE). Pretpostavke su:1. broj uzoraka relativno velik (nije nuna normalna raspodjela uzoraka!)2. SE dobivena na uzorku jednaka je populacijskoj SE.

    Dokaite (nije teko) da slijedi: 95% je vjerojatno da se prava sredina nalazi u podruju prosjek sluajnog uzorka +/- 1.96 SE.

  • X +/- 1.96 SE (X) naziva se 95% raspon pouzdanosti veliine X (engl. 95% confidence interval; 95% CI). Slino se dobivaju drugi, npr. 99% CI. X moe biti neka neposredna veliina, kao i razlika ili omjer veliina izmeu skupina .

  • Rasponi pouzdanosti (3)1.Na naem je uzorku prosjena visina odraslih Spliana 182 cm (178-186 cm; 95% CI). 2.Rezultati mjerenja hemoglobina pokazuju da je u zdravih mukaraca prosjeno za 10 mg/dl (8-12 mg/dl; 95% CI) vei nego u premenopauzalnih zdravih ena. 3.Krini je pokus pokazao da lijek A sniava dijastoliki arterijski tlak za 4 mm Hg (2-6 mm Hg; 95% CI) vie od lijeka B. 4.Rak plua 8 je puta uestaliji u puaa nego u nepuaa (4-17; 95% C.I.).

  • Rasponi pouzdanosti (4)1. Informativniji od p-vrijednosti: pokazuju veliinu uinka (svojstva, razlike) i preciznost njene procjene, dakle i bioloku (kliniku) i statistiku z