9. predavanje

Embed Size (px)

Citation preview

Studentov t-test Najee upotrebljavan parametrijski test znaajnosti za testiranje nulte hipoteze je Studentov t-test. Koristi se za testiranje znaajnosti razlika izmeu dve aritmetike sredine. Uslovi za primenu t testa: Obe varijable koje se testiraju moraju biti numerike Ukoliko je veliina uzorka manja od 30 jedinica, raspored treba biti normalan ili bar simetrian Za njegovo realizovanje potrebno je poznavati parametre statistikog skupa: veliinu uzorka (n), standardnu devijaciju (SD), i aritmetiku sredinu ( X ). Nije potrebno poznavanje varijanse osnovnog skupa, pa je ovaj tip testa praktiniji od z testa, jer se testiranje hipoteze o aritmetikoj sredini osnovnog skupa najee odvija u uslovima kada je varijansa osnovnog skupa nepoznata. U tim uslovima varijansu osnovnog skupa procenjujemo na osnovu varijanse uzorka, odnosno greku ocene aritmetike sredine osnovnog skupa izraunavamo na osnovu standarne devijacije uzorka po obrascu:

SG =

SDuz n 1

gde je n-1 stepen slobode. Pod uslovom da osnovni skup uma normalan raspored ili da je n>30, a varijansa osnovnog skupa nije poznata, testiranje hipoteze zasniva se na statistici Studentovog t-testa, koji se izraunava po obrascu:t= X uz X os SDuz n 1

gde je X osnovnog skupa hipotetina, unapred poznata vrednost. Studentov t-test se koristi i za testiranje razlike aritmetikih sredina dva velika ili dva mala uzorka, gde je njegova vrednost kolinik izmeu razlike aritmetikih sredina i standardne greke ocene te razlike, pa je njegov opti obrazac:t= razlika X1 X 2 = greka ocene razlike SG X 1 _ X 2

s tan dardna

1

Ve smo istakli: ako se razlike aritmetikih sredina uzoraka simetrino rasporeuju oko prave razlike, onda je logino da i njihove standardne greke imaju normalan raspored oko prave greke, pa mogu da se aproksimiraju normalnim standardizovanim rasporedom.

Tumaenje dobijene vrednsti t testa bazira se na Studentovom t rasporedu sa odreenim brojem stepena slobode i studentovim tablicama kritinih vrednosti t rasporeda (Prilog). Iz svega napred reenog proizilaze pravila: Ako je realizovana t-vrednost manja od granine tabline vrednosti za odgovarajui broj stepena slobode i prag znaajnosti, nulta hipoteza se prihvata kao tana, a odbacuje alternativna hipoteza. t-realizovano < t(SS i 0,05) Ho se ne odbacuje jer je rizik vei od 5% (p>0,05)

Obrnuto, ako je realizovana t-vrednost jednaka ili vea od granine tabline vrednosti, za odgovarajui broj stepena slobode i prag znaajnosti, nulta hipoteza se odbacuje kao netana, a prihvata se alternativna hipoteza: t-realizovano t(SS i 0,05) odbacuje se nulta hipoteza za nivo rizika p=0,05, odnosno za nivo sigurnosti P=0,95 (95%) t-realizovano t(SS i 0,01) odbacuje se Ho i za nivo rizika p=0,01, odnosno za nivo sigurnosti P=0,99 (99%).

Sa poveanjem uzorka t-raspored se pribliava standardizovanom normalnom zrasporedu, i kod velikih uzoraka (n>30 ili n1+n2>60 jedinica) poprima sve osobine ovog rasporeda i t-vrednost se "ponaa" kao z-vrednost.

2

Kod velikih uzoraka gornja pravila o prihvatanju ili neprihvatanju H0 se uproavaju i ne zahtevaju primenu tablice Studentovog t-rasporeda, ve se zakljuivanje zavisno od nivoa dozvoljene granice greke vri na sledei nain: za p=0,05 Ako razlika padne u intervalu 01,96SG nije znaajna; t0,05 Ako razlika padne van intervala 01,96SG znaajna je; Ho se odbacuje; p t(20 i 0,05) = 2,09 i p t(20 i 0,01) = 2,84 i p30 ili n1+n2>60 Zakljuak se donosi na sledei nain: t-realizovano < t = 1,96, prihvata se Ho a odbacuje Ha, p>0,05, t-realizovano t = 1,96 ,odbacuje se Ho a prihvata Ha, p < 0,05, t-realizovano t = 2,58, odbacuje se Ho a prihvata Ha i za nivo p < 0,01. Pimer: Ispitivana je visina holesterola u krvi kod populacije seoskog i gradskog stanovnitva. Merenje je izvreno na sluajnim uzorcima odraslog stanovnitva i kod 200 stanovnika sa sela prosena vrednost holesterola iznosila je X = 7,5, a SD = 0,91. Kod 250 ispitanika iz grada prosena visina holesterola bila je X = 6,73, a SD= 0,85.

7

Da li postoji znaajna razlika izmedju proseka visine holesterola kod gradskog i seoskog stanovnitva i da li je ona posledica razlike u nainu ishrane ili je posledica sluajnog karaktera? Ho: 7,5 6,73 = 0,77 nije statistiki znaajna Ha: 7,5 6,73 = 0,77 je znaajna razlika i posledica je razliitog naina ishrane t= X1 X 22 SD12 SD2 + n1 1 n2 1

=

7,5 6,73 0,912 0,84 2 200 1 250 1

= 9,16

t = 9,16 > t = 1,96 i p t = 2,58 i p0,05, t-realizovano t(SS i 0,05) ,odbacuje se Ho a prihvata Ha, p < 0,05, t-realizovano t(SS i 0,01) , odbacuje se Ho a prihvata Ha i za nivo p < 0,01.

13

Primer: Izmeren je radijalni puls kod dve grupe pacijenata. Jedna grupa je imala ugraen pejsmeker, a druga nije imala. Dobijene su sledee vrednosti: N 1 2 3 4 5 6 7 8 9 10 Sa pejsmejkerom X 12 X1 60 3600 68 4624 70 4900 78 6084 66 4356 71 5041 62 3844 73 5329 69 4761 72 5184 689 47723 Bez pejsmejkera 2 X2 X2 67 4489 72 5184 72 5184 84 7056 69 4761 80 6400 68 4624 74 5476 78 6084 81 6561 745 55819

Da li postoji statistiki signifikantna razlika izmeu proseka radijalnog pulsa kod ove grupe pacijenata? Moraju se izraunati aritmetike sredine i standardne devijacije za obe grupe, prema ve poznatim obrascima:X1 =

Xn1

1

=

689 = 68,9 10 X1 =2

X2 =

Xn2

2

=

745 = 74,5 10

SD1 =

Xn1

2 1

47723 68,9 2 = 5,01 10

SD2 =

Xn1

2 2

X2 =

2

55819 74,5 2 = 5,63 10

Sada se moe pristupiti testiranju. Ho: 74,5-68,9=5,6 nije statistiki znaajna; Ha: 74,5-68,9=5,6 statisticki je znaajna i posledica je ugradnje pejsmejkera.

t=

x1 x 2

(n1 1)SD12 + (n2 1)SD22n1 + n2 2

n1 + n2 n1 n2

=

5,6 9 5,012 + 9 5,63 2 20 18 100

=

5,6 = 2,35 2,38 14

SS = n1 + n2 -2 = 10 + 10 - 2 = 18

Za SS = 18 i za p = 0,05 granina tablina vrednost je t = 2,10

t = 2,35 > t (18 i 0,05) = 2,10 i p < 0,05 Kako je realizovana t-vrednost od 2,35 vea od granine tabline vrednosti t=2,10, za broj stepeni slobode 18 i prag znaajnosti od p=0,05, to odbacujemo nultu hipotezu i prihvatamo alternativnu sa grekom p>0,05 i sigurnou P>95% tvrdimo: razlika od 5,6 izmeu prosenog radijalnog pulsa pacijenata sa i bez pejs mejkera je statistiki znaajna. t = 2,35 < t (18 i 0,01) = 2,88 i p > 0,01 Greka p0,01, tako da ne moemo tvrditi i sa sigurnou veom i od 99% da je razlika signifikantna.

U SPSS-u se t test razlike izmeu aritmetikih sredina dva mala nezavisna uzorka radi kao i t test za dva velika nezavisna uzorka.t-test razlike izmeu aritmetikih sredina dva mala zavisna uzorka

15

Da bi se izbeglo izraunavanje koeficijenta linearne korelacije, kod dva mala zavisna uzorka primenjuje se posebna tehnika izraunavanja, poznata kao t-test diferencije. Princip "diferencije" sastoji se u tome da se niz individualnih razlika, tretira kao poseban uzorak, za koga se izraunava X diferencije , SDdiferencije i SGdiferencije. Vrednost t-testa se dobija, kao kolinik aritmetike sredine diferencije ( X diferencije ) i standardne greke diferencije (SGdiferencije) pa je njegova formula:t=

x

dif

SG dif

Pri tumaenju realizovane t-vrednosti obavezna je primena i Studentovih tablica trasporeda Stepen slobode se odreuje po formuli: S.S = n - 1. Ako je: t-realizovano < t(SS i 0,05), prihvata se Ho a odbacuje Ha, p>0,05, t-realizovano t(SS i 0,05) ,odbacuje se Ho a prihvata Ha, p < 0,05, t-realizovano t(SS i 0,01) , odbacuje se Ho a prihvata Ha i za nivo p < 0,01. Primer: Izmeren je sistolni pritisak kod jednog fudbalskog tima, neposredno pre i neposredno posle odigrane utakmice. Dobijene su sledee vrednosti: fudbaler pre posle 1 128 137 2 132 135 3 138 136 4 120 130 5 140 148 6 135 140 7 135 140 8 140 140 9 145 150 10 135 134 11 148 150

Da li postoji statistiki znaajna razlika u sistolnom krvnom pritisku fudbalera pre i posle utakmice?

Ho: Ne postoji signifikantna razlika u sistolnom pritisku fudbalskog tima pre i posle utakmice Ha: Postoji signifikantna razlika u sistolnom pritisku fudbalskog tima pre i posle utakmice

Sada pravimo radnu tabelu: Fudbaler N 1 2 Sistolni pritisak pre ( X 1 ) 128 132 posle ( X 2 ) 137 135 niz diferencije X 2 X1 9 3 d = ( X 2 X 1 ) X dif94 =5 3 4 = 1

d2 25 1 16

3 4 5 6 7 8 9 10 11

138 120 140 135 135 140 145 135 148 -

136 130 148 140 140 140 150 134 150 -

-2 10 8 5 5 0 5 -1 2 44

2 4 = 6 10 4 = 6 84 = 4 5 4 =1 5 4 =1 0 4 = 4 5 4 =1 1 4 = 5 2 4 = 2 0

36 36 16 1 1 16 1 25 4 162

X dif =

(X

2

X1 )

n

=

44 = 4 proseno poveanje pulsa po jednom fudbaleru 11

SDdif =

[( XSDdif n 1 =

2

X 1 ) X dif

]

2

n

=

dn

2

=

162 = 3,84 11

SGdif =

=

3,84 11 1

=

3,84 10

=

3,84 = 1,22 3,16

t=

x

dif

SGdif

4 = 3,28 1,22

S.S. = n-1 = 11-1 = 10 t = 3,28 > t (10 i 0,05) = 2,23 i p < 0,05 Kako je realizovana t-vrednost od 3,28 vea od granine tabline vrednosti, t=2,23, za broj stepeni slobode 10 i prag znaajnosti od p=0,05, to odbacujemo nultu i prihvatamo alternativnu hipotezu sa grekom p95% tvrdimo da postoji signifikantna razlika u sistolnom pritisku fudbalskog tima pre i posle utakmice.

t = 3,28 > t (10 i 0,01) = 3,17 i p < 0,01 Kako je realizovana t-vrednost od 3,28 vea od granine tabline vrednosti, t=3,17, za broj stepeni slobode 10 i prag znaajnosti od p=0,01, to i na ovom nivou odbacujemo nultu hipotezu i sa sigurnou veom od 99% tvrdimo da je razlika statistiki znaajna.

17

U SPSS-u se testiranje razlike izmeu aritmetikih sredina zavisnih uzoraka vri na sledei nain: Da bi se aktivirao t test za zavisne uzorke treba otii u Analyse/Compare Means/Paired-Samples T Test.

Nakon toga se pojavi sledei prozor:

18

Zatim se obelei varijabla sa vrednostima pre eksperimenta, tj. varijabla pre i na taj nain prebaci u Current Selection na mesto prve varijable (Variable 1) i posle eksperimenta, tj. varijabla posle i stavi na mesto druge varijable (Variable 2).

Tako uparene vrednosti pre i posle eksperimenta se prebace u Paired Variables.

19

Klikne se na OK i u Output-u dobiju rezultati:

U poslednjoj tabeli se ita vrednost t testa (u koloni t) i greka p (u koloni Sig. 2-tailed).

t-test proporcije

Na istim principima na kojima se testira i ocenjuje razlika izmeu dve aritmetike sredine moe da se oceni i znaajnost razlike izmeu dve proporcije. Proporcije moguih jednakih uzoraka dobijenih iz istog osnovnog skupa, rasporeuju se u vidu binomnog rasporeda oko prave proporcije skupa. Kada su uzorci vei od 30 jedinica i kada je verovatnoa "povoljnog" dogaaja blizu vrednosti od 0,5 mogu da se koriste tablice normalnog rasporeda. Za distribuciju proporcija uzoraka, kao i za aritmetike sredine uzoraka, moe da se izrauna standardna greka proporcije, koja pokazuje koliko je proporcija nekog uzorka udaljena od prave proporcije osnovnog skupa, odnosno to je vanije - koliko je prava proporcija osnovnog skupa udaljena od proporcije uzorka. Ako je uzorak dovoljno veliki (n > 30, neki smatraju i n > 100), obrazac za standardnu greku proporcije je:SG p = pq ili SG p = n p (1 p ) n

20

gde je: n - veliina uzorka, a p i q - proporcije dihotomnih modaliteta, odnosno p je relativno (proporcionalno) uee posmatranog modaliteta u uzorku. Standardnu greku razlike proporcija dva uzorka, izraunavamo kao koren iz zbira kvadrata greaka proporcija:SG p1 p2 = p1 q1 p 2 q 2 ili + n1 n2 SG p1 p2 = p1 (1 p1 ) p 2 (1 p 2 ) + n1 n2

Da bi se pokazala statistika znaajnost razlike proporcija dva uzorka (p1 - p2) i odbacila nulta hipoteza kod proporcija, ta razlika mora da bude odgovarajui broj puta vea od njene standardne greke pa je obrazac za t-test razlike proporcija dva velika nezavisna uzorka: t= p1 p 2 p1 q1 p 2 q 2 + n1 n2

Zakljuak se donosi na sledei nain: t-realizovano < t = 1,96, prihvata se Ho a odbacuje Ha, p>0,05, t-realizovano t = 1,96 ,odbacuje se Ho a prihvata Ha, p < 0,05, t-realizovano t = 2,58, odbacuje se Ho a prihvata Ha i za nivo p < 0,01. Primer: U grupi od 150 mukaraca od hipertenzije je obolelo 45, a u grupi od 200 ena iste starosne dobi od hipertenzije je bolovalo 70. Da li postoji statistiki znaajna razlika meu polovima po zastupljenosti hipertenzije? H0: Ne postoji signifikantna razlika izmeu zastupljenosti hipertenzije kod mukaraca i ena Ha: Postoji signifikantna razlika izmeu zastupljenosti hipertenzije kod mukaraca i ena U postupku najpre izraunavamo proporcije za oba uzorka:

p1 =

45 = 0,3 ; q1 = 1 p1 = 0,7 150 70 p2 = = 0,35 ; q 2 = 1 p 2 = 0,65 200

Diferencija = p2 p1 = 0,35 0,3 = 0,05 ili 5% Iz dobijenih vrednosti sledi: t = 0,99 < t = 1,96 i p > 0,05

21

Kako je dobijena vrednost t=0,99 manja od 1,96, ne postoji statistiki znaajna razlika izmeu zastupljenosti hipertenzije kod mukaraca i ena. Nulta hipoteza nije odbaena jer je p>0,05. Kod t testa razlike proporcija dva velika zavisna uzorka u obrazac se uvodi korektivni faktor zbog korelacije meu posmatranim modalitetima, pa formula glasi:t= p1 p 2 p1 q1 p 2 q 2 + 2r12 n1 1 n 2 1 p1 q1 p 2 q 2 + n1 n2

Na ilustraciji t testa razlike izmeu proporcija dva mala uzorka neemo se zadravati, jer se u praksi znatno vieupotrebljava neparametrijski 2 test.

Zadaci za vebanje

1. U porodilitu u Niu je izmereno 70 novoroenadi i dobijene su sledee vrednosti: X = 3450 g , SD=280g. Na osnovu raznih istraivanja, postavljena je hipoteza da prosena teina novoroenadi u Niu iznosi X = 3400 g . Da li se izmerena telesna teina 70 novoroenadi razlikuje od poznatog proseka za ceo grad?

2. Izvreno je merenje telesne visine deaka treg razreda dve osnovne kole u Niu i dobijeni su sledei rezultati: SD = 6,3 kola A n=290 X = 138,3 SD = 7,2 kola B n=320 X = 141,1 Da li se prosene telesne visine deaka dve kole znaajno razlikuju? 3. Merena je prosena vrednost sistolnog krvnog pritiska nakon maksimalnog tranja deonice od 100m. U istraivanju je uestvovalo 80 ena i 100 mukaraca. Prosena vrednost sistolnog pritiska (u mm Hg) za ene nakon optereenja je iznosila 155, a kod mukaraca 140. Da li postoji signifikantna razlika izmeu prosenog sistolnog pritiska mukaraca i ena? 4. Odreivan je hemoglobin periferne krvi zdravih ispitanika i dobijene su sledee vrednosti od: X = 88 i SD = 2,4 za 25 mukaraca i X = 83 i SD = 1,4 za 23 ene. Da li je hemoglobin znaajno razliit u odnosu na pol?

22

5. Odabrana su dva uzorka od po 20 pacijenata sa povienim holesterolom u krvi. Jedna grupa je leena dotadanjim poznatim terapijskim metodama. Po zavretku leenja dobijene su sledee vrednosti: X = 6,5mmol / l i SD = 0,7. Druga grupa pacijenata je pored klasine terapije bila podvrgnuta i specifinoj dijeti. Posle istog vremena leenja kao i kod prve grupe, dobijene su sledee vrednosti: X = 6,25 i SD = 0,6. Da li je dijeta imala uticaj na smanjenje holesterola u krvi? 6. U jednom epidemiolokom istraivanju iji je zadatak bio da se utvrde mogui etioloki faktori za nastanak nekog oboljenja ispitivano je 100 osoba i meren nivo hemoglobina pre i nakon izlaganja faktorima i dobijene su sledee vrednosti: X pre = 15,5 ,SD pre = 3,2 , Xposle

= 20,1 , SD posle = 3,8 . Da li postoji signifikantna razlika izmeu

prosene visine hemoglobina ispitanika pre i nakon izlaganja faktorima rizika? 7. Izmerene su vrednosti albumina (g/l) 12 ispitanika pre i posle tretmana i dobijene su sledee vrednosti: ispitanici pre posle 1 58 57 2 52 62 3 53 51 4 46 49 5 58 68 6 49 65 7 46 54 8 53 59 9 51 44 10 57 66 11 48 64 12 45 45

Da li je dolo do znaajnog snienja albumina posle tretmana?

23

Prilog. Studentova t-distribucija.SS 0,10 0,05 p 0,01 0,001

10%1 2 3 5 8 9 10 18 20 22 24 40 60 120

5% 12,70 4,30 3,18 2,57 2,31 2,26 2,23 2,10 2,09 2,07 2,06 2,02 2,00 1,98 1,96

1% 63,66 9,93 5,84 4,03 3,36 3,25 3,17 2,88 2,85 2,82 2,80 2,70 2,66 2,62 2,58

0,1% 636,62 31,60 12,92 6,87 5,04 4,78 4,59 3,92 3,85 3,79 3,75 3,55 3,46 3,37 3,29

6,31 2,92 2,35 2,02 1,86 1,83 1,81 1,73 1,72 1,72 1,71 1,68 1,67 1,66 1,64

24

25