46

Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

  • Upload
    others

  • View
    15

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Vjeºbe - StatistikaPraktikum

Statisti£ki testovi (1)

Page 2: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Usporedba o£ekivanja dviju normalno distribuiranihpopulacija (t-test)

Nevezani uzorci

Mjerimo neko statisti£ko obiljeºje u dvije razli£ite populacije inezavisno sakupimo dva slu£ajna uzorka

(X11, . . . ,X1,n1) i (X21, . . . ,X2,n2).

(mjerene vrijednosti iz jedne populacije nisu u nikakvoj vezi smjerenim vrijednostima iz druge populacije)

Pretpostavke - normalna distribuiranost i jednake varijance:

X1i ∼ N (µ1, σ2)

X2i ∼ N (µ2, σ2)

Ozna£imo uzora£ke sredine i varijance dva uzorka s X̄1, X̄2, S̃2

1, S̃2

2.

Page 3: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Za testiranje hipoteza

H0 : µ1 = µ2

H1 : µ1 6= µ2 \ µ1 < µ2 \ µ1 > µ2

test statistika je

T =X̄1 − X̄2

Sd

1√1

n1+ 1

n2

∼H0 tn1+n2−2,

pri £emu je Sd procjenitelj standardne devijacije na osnovu dvauzorka

Sd =

√(n1 − 1)S̃2

1+ (n2 − 1)S̃2

2

n1 + n2 − 2.

R sintaksa:t.test(x, y, alternative = c("two.sided", "less",

"greater"), var.equal = TRUE)

Page 4: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Ukoliko ne znamo da li su varijance jednake, tj.

X1i ∼ N (µ1, σ2

1)

X2i ∼ N (µ2, σ2

2)

Tada se moºe pokazati da test statistika pribliºno ima t distribuciju,ali s druk£ijim brojem stupnjeva slobode

Ovo je tzv. Welchov t-test, a u R-u se dobiva analogno, ispu²taju¢ipretpostavku var.equal=TRUE

t.test(x, y, alternative = c("two.sided", "less",

"greater"))

Page 5: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Primjer 1.

Studentska sluºba ºeli vidjeti postoji li razlika u prosje£noj dobi izme�ustudenata koji studiraju na klasi£an na£in i onih koji studiraju putemInterneta. Prikupljeni podaci o dobi nalaze se u datoteci student.txt.Na nivou zna£ajnosti α = 0.05, postoji li razlika izme�u dobi ove dvijeskupine studenata?

Page 6: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Vezani uzorci (spareni podaci)

�esto imamo potrebu uspore�ivati neku karakteristiku u zavisnimuzorcima (npr. usporediti u£inkovitost nekog lijeka na istimpacijentima, prije i poslije tretmana).

U takvim slu£ajevima uzorci nisu nezavisni pa prethodni testovi nisuprikladni.

Dakle, imamo dva uzorka

(X11, . . . ,X1,n) i (X21, . . . ,X2,n).

i pretpostavljamo normalnu distribuiranost:

X1i ∼ N (µ1, σ2

1)

X2i ∼ N (µ2, σ2

2)

Page 7: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Znamo daD := X1i − X2i ∼ N (µ1 − µ2, σ2),

i ºelimo testirati

H0 : µ1 − µ2 = 0

H1 : µ1 − µ2 6= 0 \ µ1 − µ2 < 0 \ µ1 − µ2 > 0

²to se svodi na t-test na jednom uzorku.

R sintaksa:t.test(x, y, alternative = c("two.sided", "less",

"greater"), paired = TRUE)

Page 8: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Primjer 2.

U datoteci ocjene.txt nalaze se podaci o ocjenama koje daju dva sucana nekom natjecanju. Testirajte jesu li njihove prosje£ne ocjene zna£ajnorazli£ite uz razinu zna£ajnosti 0.05, uz pretpostavku normalnedistribuiranosti ocjena.

Page 9: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Usporedba varijanci dviju normalno distribuiranih populacija(F -test)

Pretpostavke

X1i ∼ N (µ1, σ2

1)

X2i ∼ N (µ2, σ2

2)

Za testiranje hipoteza

H0 : σ21

= σ22

H1 : σ216= σ2

2\ σ2

1< σ2

2\ σ2

1> σ2

2

test statistika je

T =S̃2

1

S̃2

2

∼H0 F(n1−1,n2−1).

R sintaksavar.test(x, y, alternative = c("two.sided", "less",

"greater"))

Page 10: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Primjer 3.

Za podatke iz student.txt testirajte jesu li varijance jednake ili ne nanivou zna£ajnosti 0.05.

Page 11: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Usporedba o£ekivanja dviju populacija na osnovu velikihuzoraka

Mjerimo neko statisti£ko obiljeºje u dvije razli£ite populacije inezavisno sakupimo dva slu£ajna uzorka

(X11, . . . ,X1,n1) i (X21, . . . ,X2,n2).

Neka je

E [X1i ] = µ1, Var(X1i ) = σ21<∞ ∀i

E [X2i ] = µ1, Var(X2i ) = σ22<∞ ∀i

Ozna£imo uzora£ke sredine i konzistentne procjene varijanci dvauzorka s X̄1, X̄2, σ̂

2

1, σ̂2

2.

Page 12: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Za testiranje hipoteza

H0 : µ1 = µ2

H1 : µ1 6= µ2 \ µ1 < µ2 \ µ1 > µ2

test statistika je

T =X̄1 − X̄2√σ̂21n1

+σ̂22n2

∼H0∼A N (0, 1),

i kriti£no podru£je se odre�uje kao kod z-testa na jednom uzorku.

Page 13: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Usporedba proporcija

Specijalan slu£ajan prethodnog testa za obiljeºje iz Bernoullijevedistribucije, tj. nezavisno sakupimo dva slu£ajna uzorka

(X11, . . . ,X1,n1) i (X21, . . . ,X2,n2).

Neka je

X1i ∼(

0 11− p1 p1

), X2i ∼

(0 1

1− p2 p2

)Ozna£imo procjenitelje za p1 i p2 (uzora£ke sredine)p̂1 = X̄1, p̂2 = X̄2.

Neka je p̂ procjenitelj vjerojatnosti uspjeha za oba uzorka zajedno

p̂ =n1p̂1 + n2p̂2n1 + n2

.

Page 14: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Za testiranje hipoteza

H0 : p1 = p2

H1 : p1 6= p2 \ p1 < p2 \ p1 > p2

test statistika je

T =p̂1 − p̂2√p̂(1− p̂)

1√1

n1+ 1

n2

∼H0∼A N (0, 1),

i kriti£no podru£je se odre�uje kao kod z-testa na jednom uzorku.

R funkcija: (ova funkcija temelji se na druga£ijoj test statistici kojaima χ2 distribuciju)prop.test(x, n, alternative = c("two.sided", "less",

"greater"))

Page 15: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Primjer 4.

U nekom gradu su se dvije osobe kandidirale za gradona£elnika. Grad jepodijeljen na dva dijela: A i B. U dijelu A je uzet uzorak od 300 glasa£a imedu njima je 168 glasovalo za prvog kandidata, dok je u dijelu B izuzorka od 200 glasa£a njih 96 glasovalo za prvog kandidata. Je li prvikandidat popularniji u dijelu A? (α = 0.05)

Page 16: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Zadaci

Zadatak 1.

U paketu BSDA prona�ite bazu Achieve koja sadrºi podatke orezultatima testa iz matematike 25 u£enika srednje ²kole po spolu.Pretpostavimo da su podaci normalno distribuirani. Provjerite moºemo lipretpostaviti jednakost varijanci u dvije populacije (α = 0.05)? Postoji lirazlika u prosje£nom rezultatu u£enika i u£enica na razini zna£ajnosti0.05? Testirajte je li prosje£an rezultat u£enica ve¢i od u£enika na razinizna£ajnosti 0.05?

Page 17: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Zadatak 2.

U paketu BSDA prona�ite bazu Asthmati. Baza sadrºi podatke o 9pacijenata koji boluju od astme. Pacijentima je prvo dan laºni lijek(placebo) a zatim pravi lijek te su biljeºeni indeksi koji mjere teºinusimptoma (ve¢a vrijednost - teºi simptomi). Pretpostavimo da surezultati normalno distribuirani. Testirajte moºe li se na nivou zna£ajnosti0.05 re¢i da je lijek djelotvoran?

Page 18: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Zadatak 3.

Tvornica automobila naru£uje sklop mjenja£a od dva kooperanta.Povremeno se dogodi da isporu£eni mjenja£i budu neispravni. U baziAutogear nalaze se podaci o broju neispravnih mjenja£a dva kooperanta,A i B, tijekom 20 mjeseci. Pretpostavimo da su podaci normalnodistribuirani. Postoji li, na razini zna£ajnosti 0.05, razlika u prosje£nombroju neispravnih mjenja£a izme�u dva kooperanta? Provjerite moºemo lipretpostaviti jednakost varijanci u dvije populacije (α = 0.05)? Za kojegproizvo�a£a mjenja£a bi se tvornica trebala odlu£iti?

Page 19: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Zadatak 4.

U paketu BSDA nalazi se baza Blood koja sadrºi podatke o krvnom tlaku15 osoba. Tlak je izmjeren dva puta, jednom je mjerenje izvr²io ure�aj, ajednom lije£nik ekspert. Pretpostavimo da su vrijednosti normalnodistribuirane. Na razini zna£ajnosti 0.05, razlikuju li se u prosjekuizmjerene vrijednosti, tj. jesu li ure�aj i lije£nik jednako precizni?

Page 20: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Zadatak 5.

U paketu BSDA nalazi se baza Bones koja sadrºi podatke o gusto¢i kosti35 ºena koje su �zi£ki aktivne i 35 ºena koje nisu �zi£ki aktivne. Na nivouzna£ajnosti 0.05, imaju li �zi£ki aktivne ºene u prosjeku gu²¢e kosti?

Page 21: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Zadatak 6.

Poljoprivrednik je isprobao zasijati novu vrstu skupljeg sjemena. Zanimaga ho¢e li s novom vrstom sjemena njegov prinos biti manje varijabilan.Sa svojih njiva, izra£unao je podatke o prinosima po m2 na nekolikomjesta, ovisno o tome je li zasijano novo ili standardno sjeme. Podaci senalaze u datoteci sjeme.txt i pretpostavimo da su normalnodistribuirani. Je li na nivou zna£ajnosti prinos s novim sjemenom manjevarijabilan?

Page 22: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Zadatak 7.

Sredinom 80-tih godina pro²log stolje¢a provedeno je istraºivanje outjecaju £estog uzimanja aspirina na rizik od sr£anog udara. Tijekom 5godina ispitanici su svaki drugi dan uzimali tablete, jedna skupina jeuzimala aspirin, a druga skupina je uzimala placebo. Od 11034 ispitanikana placebu njih 189 je doºivilo sr£ani udar. Od 11037 ispitanika naaspirinu njih 104 je doºivilo sr£ani udar. Smanjuje li uzimanje aspirinarizik od sr£anog udara, na nivou zna£ajnosti 0.05?

Page 23: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Kontigencijske tablice

Promatramo dvodimenzionalno diskretno obiljeºje (X ,Y ) i neka jedan slu£ajan uzorak

(X1,Y1) . . . , (Xn,Yn).

Ozna£imo slike slu£ajnih varijabli X i Y i slu£ajnog vektora (X ,Y )

ImX = {a1, . . . , ar},ImY = {b1, . . . , bc}

⇒ Im(X ,Y ) = {(ai , bj) : 1 ≤ i ≤ r , 1 ≤ j ≤ c} .Neka je

Nij = frekvencija od (ai , bj) u uzorku

Ni = marginalna frekvencija od ai u uzorku

Mj = marginalna frekvencija od bj u uzorku

Ni =c∑

j=1

Nij , Mj =r∑

i=1

Nij .

Page 24: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Kontigencijska frekvencijska tablica

X\Y b1 b2 · · · bc Σa1 N11 N12 · · · N1c N1

a2 N21 N22 · · · N2c N2

......

.... . .

......

ar Nr1 Nr2 · · · Nrc Nr

Σ M1 M2 · · · Mc n

Page 25: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Primjer 5.

U jednom razredu od n = 30 u£enika promatra se ocjena iz matematike(X) i �zike (Y ).

(1, 3), (4, 3), (2, 2), (3, 2), (1, 2), (1, 1),

(2, 2), (4, 4), (2, 2), (5, 5), (3, 3), (2, 2),

(3, 3), (4, 4), (5, 5), (3, 5), (2, 1), (2, 3),

(2, 2), (2, 2), (3, 3), (3, 2), (4, 4), (2, 2),

(3, 3), (2, 1), (3, 2), (3, 2), (3, 2), (2, 2).

Page 26: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Kontigencijska frekvencijska tablica

X\Y 1 2 3 4 5 Σ1 1 1 1 0 0 32 2 8 1 0 0 113 0 5 4 1 0 104 0 0 1 3 0 45 0 0 0 0 2 2Σ 3 14 7 3 3 30

Tablica relativnih frekvencija

X\Y 1 2 3 4 5 Σ1 1/30 1/30 1/30 0 0 3/302 2/30 8/30 1/30 0 0 11/303 0 5/30 4/30 1/30 0 10/304 0 0 1/30 3/30 0 4/305 0 0 0 0 2/30 2/30Σ 3/30 14/30 7/30 3/30 3/30 1

Page 27: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

χ2 test o nezavisnosti

Pretpostavimo da imamo dvodimenzionalno obiljeºje i ºelimotestirati

H0 : X i Y su nezavisna obiljeºja

H1 : X i Y su zavisna obiljeºja

Ozna£imo

pij = P(X = ai ,Y = bj),

pi = P(X = ai ),

qj = P(Y = bj).

Onda H0 moºemo zapisati kao

H0 : pij = piqj , za sve i , j

Procijenimo pi i qj relativnim frekvencijama

p̂i =Ni

n, q̂j =

Mj

n.

Page 28: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Tada, u uvjetima H0, o£ekivane frekvencije su

n̂ij = np̂i q̂j =NiMj

n.

Test statistika

H =r∑

i=1

c∑j=1

(Nij − n̂ij)2

n̂ij∼H0∼A χ2((r − 1)(c − 1)).

R sintaksa chisq.test(x)

Page 29: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Primjer 6.

Utvrdite da li su ocjene koje u£enici dobivaju iz matematike i iz �zikenezavisne. (α = 0.05)

Page 30: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

χ2 test o homogenosti

Pretpostavimo da nas zanima razdioba istog diskretnog statisti£kogobiljeºja u m razli£itih populacijama.�elimo na osnovu nezavisnih uzoraka uzetih iz tih populacija testiratinul-hipotezu da su razdiobe od X u tim populacijama jednake(homogene).Neka su X (i) slu£ajne varijable koje predstavljaju X u i-toj populacijiIz svake populacije nezavisno odabiremo slu£ajan uzorak

X(1)1, . . . ,X (1)

n1

X(2)1, . . . ,X (2)

n2

...

X(m)1

, . . . ,X (m)nm

Neka je

X (i) ∼(a1 · · · akpi1 · · · pik

), i = 1, . . . ,m,

pj = P(X = aj), j = 1, . . . , k.

Page 31: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Tablica frekvencija uzoraka

populacija \X a1 a2 · · · ak Σ1 N11 N12 · · · N1k n12 N21 N22 · · · N2k n2...

......

. . ....

...m Nm1 Nm2 · · · Nmk nmΣ M1 M2 · · · Mk n

�elimo testirati

H0 : X (1) D= X (2) D

= · · · D= X (m), tj. pij = pj , j = 1, . . . , k, i = 1, . . . ,m

H1 : ∃i , j t.d. X (i)D

6= X (j)

Page 32: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Test statistika je ista kao i prije

H =m∑i=1

k∑j=1

(Nij − n̂ij)2

n̂ij∼H0∼A χ2((m − 1)(k − 1)).

R sintaksa chisq.test(x)

Page 33: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Test o nezavisnosti i homogenosti se provode jednako, ali imajurazli£ite hipoteze.

U £emu je razlika?Razlika proizlazi iz dizajna eksperimenta za koji se provodi test.Kod testa nezavisnosti, uzorkovanje se vr²i tako da se iz cijelepopulacije bira slu£ajan uzorak koji se onda klasi�cira pokategorijama. U tom slu£aju je i broj realizacija po kategorijamaslu£ajan. (primjer: ispitamo ocjene na cijelom razredu, ne znamokoliko ¢e biti primjerice petica iz matematike)Kod testa homogenosti, uzorkovanje se vr²i nezavisno pokategorijama. To zna£i da je veli£ina uzorka po kategorijamautvr�ena unaprijed. (primjer: odlu£imo promatrati ocjene iz �zike za10 u£enika koji imaju 1 iz matematike, 5 u£enika koji imaju 2 izmatematike itd.)

Ako se radi o jednostavnom slu£ajnom uzorku, tada su nezavisnost ihomogenost ekvivalentne.

Page 34: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Zadaci

Zadatak 8.

Neki fakultet ima £etiri smjera: elektrotehnika, brodogradnja, strojarstvoi ra£unarstvo. Odabran je slu£ajan uzorak od 500 studenata i dobivenipodaci su dani sljede¢om tablicom.Ovisi li odabir smjera o spolu na razini zna£ajnosti 0.05?

elektroteh. brodogradnja strojarstvo ra£unarstvo Σstudent 100 80 70 50 300

studentica 50 50 50 50 200Σ 150 130 120 100 500

Page 35: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Zadatak 9.

Za obradu odre�enog nastavnog gradiva primjenjene su dvije razli£itenastavne metode. Metoda M1 primijenjena je u skupini A od 100 u£enika,a metoda M2 u skupini B od 200 u£enika. Da bi se utvrdio u£inak, svi suu£enici ispitani i ocijenjeni odgovaraju¢om ocjenom od 1 do 5.Jesu li obje metode jednako u£inkovite na razini zna£ajnosti 0.05?Analizirajte o£ekivane frekvencije pod uvjetom da je nulta hipotezaistinita u odnosu na opaºene frekvencije? Koja metoda daje boljerezultate?

skupina \ ocjena 1 2 3 4 5 ΣA 14 26 34 16 10 100B 18 36 58 56 32 200Σ 32 62 92 72 42 300

Page 36: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Zadatak 10.

180 ljudi ispitano je u istraºivanju kojemu je cilj odrediti postoji lipovezanost izme�u pu²enja i povi²enog krvnog tlaka. Testirajte postoji lipovezanost na razini zna£ajnosti 0.05.

nepu²a£ blagi pu²a£ te²ki pu²a£ Σnormalan tlak 48 26 19 93povi²en tlak 21 36 30 87

Σ 69 62 49 180

Page 37: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Zadatak 11.

U paketu BSDA nalazi se baza Politic koja sadrºi podatke iz ankete ukojoj su se ispitanici odlu£ivali izme�u tri politi£ke stranke i zabiljeºen jenjihov spol. Ovisi li odabir politi£ke stranke o spolu? (α = 0.05)

Page 38: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

Testovi na dva uzorka Testovi za dvodimenzionalna obiljeºja

Zadatak 12.

Provedeno je istraºivanje o rasprostranjenosti alkoholizma za £etirikategorije zanimanja posebno. Je li alkoholizam jednako rasprostranjen unavedenim populacijama?

alkoholi£ari nealkoholi£ari Σsluºbenici 32 268 300nastavnici 51 199 250menadºeri 67 233 300trgovci 83 267 350

Σ 233 967 1200

Page 39: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

1

Vježbe 5. – statistički testovi ########################################################################### # t-test - Usporedba očekivanja dviju normalno distribuiranih populacija # ########################################################################### ######################################### # Nevezani uzorci ######################################### # Primjer 1. #testiramo: # H0: mu1 = mu2 # H1: mu1 != mu2 #Uočimo da su dva uzorka nezavisna, dob jednih ne ovisi o dobi drugih. Primjerice, ako su jedni stariji, ne znači da će drugi # biti stariji ili mlađi. stud <- read.table("student.txt", header=TRUE) str(stud) attach(stud) t.test(Klas, Inter, var.equal=TRUE) # p-vrijednost veća od 0.05 -> ne odbacujemo nultu hipotezu. Na razini značajnosti 0.05 ne možemo tvrditi # da se prosječna dob razlikuje. #Ako nismo sigurni u jednakost varijanci, onda je bolje koristiti Welchovu verziju t-testa #jednostavno izostavimo var.equal=TRUE, jer je default opcija var.equal=FALSE t.test(Klas, Inter) ######################################### # Vezani uzorci ######################################### ################# # Primjer 2. #testiramo: # H0: mu1 = mu2 # H1: mu1 != mu2 #Uočimo da podaci nisu nezavisni jedni od drugih jer očito svaki sudac ocjenjuje istu stvar. Očekujemo da ako jedan sudac # da veću ocjenu, onda će i drugi i obrnuto. To je baš karakteristika zavisnosti. Stoga moramo koristiti t-test za sparene podatke! ocjene <- read.table("ocjene.txt", header=TRUE) str(ocjene) attach(ocjene) t.test(S1,S2,alternative=c("two.sided"), paired=TRUE) #p-vrijednost manja od 0.05, odbacujemo H_0, i zaključujemo da se na nivou značajnosti 0.05

Page 40: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

2

# ocjene dva suca razlikuju. #KAD BI POGREŠNO NAPRAVILI t-test za nevezane uzorke t.test(S1,S2,alternative=c("two.sided")) #ne bi odbacili H_0 - POGREŠNO! ########################################################################### # F-test - Usporedba varijanci dviju normalno distribuiranih populacija # ########################################################################### #Primjer za bazu studenti #testiramo: # H0: sigma1^2 = sigma^2 # H1: sigma1^2 != sigma^2 var.test(Klas, Inter) #na nivou značajnosti ne odbacujemo H_0 var(Klas) var(Inter) ########################################################################### # Usporedba proporcija # ########################################################################### #Primjer #Radi se o usporedbi proporcija u dva dijela grada #testiramo # H0: pA = pB # H1: pA > pB #funkcija prop.test kao prvi parametar uzima vektor frekvencija, a kao drugi vektor s ukupnim brojem podataka glasovi <- c(168,96) broj <- c(300,200) prop.test(glasovi, broj, alternative="greater") #p<0.05 => odbacujemo H0 i zaključujemo da je prvi kandidat popularniji u dijelu grada A #Kasnije ćemo vidjeti da je ovo zapravo isto kao Chi^2 test za dvije populacije, ali tamo ne možemo testirati #hipoteze veće i manje. ######################################## ## ZADACI ######################################## ############### #### Zadatak 1. #

Page 41: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

3

library(BSDA) Achieve str(Achieve) zenski <- Achieve$Score[Achieve$Gender==1] muski <- Achieve$Score[Achieve$Gender==2] zenski muski #ili se može iz trećeg stupca pa maknuti NA vrijednosti #zenski <- Achieve$Female[!is.na(Achieve$Female)] #Prvo testiramo: # H0: sigma1^2 = sigma^2 # H1: sigma1^2 != sigma^2 var.test(zenski,muski) #p-vrijednost >0.05 pa ne odbacujemo H_0. Nema dokaza da je varijanca različita. #Sad testiramo uz pretpostavku jednakosti varijanci hipoteze: # H0: mu1 = mu2 # H1: mu1 != mu2 t.test(zenski,muski,var.equal=TRUE) #p-vrijednost <0.05 pa odbacujemo H_0. Prosječan rezultat razlikuje se kod muških i ženskih učenika #Sad testiramo uz pretpostavku jednakosti varijanci hipoteze: # H0: mu1 = mu2 # H1: mu1 > mu2 t.test(zenski,muski,alternative="greater",var.equal=TRUE) #"greater" znači prva varijabla ima veće očekivanje od druge #p-vrijednost <0.05 pa odbacujemo H_0. Učenice imaju veći prosječni rezultat. ############### #### Zadatak 2. # Asthmati str(Asthmati) attach(Asthmati) #Radi se o t-testu za sparene podatke, jer su to jedni te isti pacijenti, pa svakako dva uzorka nisu nezavisna #Neka je mu1 očekivanje od Placebo i mu2 očekivanje od Drug #Testiramo hipoteze # H0: mu1 = mu2 (lijek nije djelotvoran, nema poboljšanja # H1: mu1 > mu2 (lijek je djelotvoran, smanjio se prosječni indeks težine simptoma) t.test(Placebo,Drug,paired=TRUE,alternative="greater") #p<0.05 => Odbacujemo H_0, tj. na nivou značajnosti 0.05 možemo tvrditi da je lijek djelotvoran.

Page 42: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

4

############### #### Zadatak 3. # Autogear str(Autogear) attach(Autogear) #Neka je mu1 očekivanje od A i mu2 očekivanje od B #Testiramo hipoteze # H0: mu1 = mu2 # H1: mu1 != mu2 t.test(A,B) #p<0.05 => Odbacujemo H_0, tj. na nivou značajnosti 0.05 možemo tvrditi da se dvije tvornice razlikuju # u prosječnom broju neispravnih mjenjača. #testiramo jesu li varijance jednake var.test(A,B) #p>0.05 pa ne odbacujemo H_0 (jednake varijance). Dakle, ne možemo tvrditi da su varijance različite. t.test(A,B, var.equal=TRUE) #I uz tu pretpostavku će rezultat biti isti, p-vrijednost se nezntno promjeni # Mean(B) je veći od mean(A), pa se čini da je druga tvornica lošija (veći broj neispravnih) #Sad ćemo testirati i to # H0: mu1 = mu2 # H1: mu1 < mu2 t.test(A,B, var.equal=TRUE, alternative="less") #p<0.05, pa na nivou značajnosti 0.05 odbacujemo H0 i zaključujemo da prva tvornica ima #manji prosječan broj neipravnih mjenjača. Treba se odlučiti za prvu tvornicu. ############### #### Zadatak 4. # Blood str(Blood) attach(Blood) #Radi se o sparenim podacima, tlak se mjeri na istim osobama, pa uzorci nisu nezavisni. #Ako uređaj izmjeri više, za očekivati je da će i liječnik i obrnuto. #Testiramo # H0: mu1 = mu2 # H1: mu1 != mu2 t.test(Machine, Expert, paired=TRUE) #p>0.05 => ne možemo odbaciti nultu hipotezu na razini značajnosti 0.05 #Nema dokaza da se preciznost uređaja i liječnika razlikuje

Page 43: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

5

############### #### Zadatak 5. # Bones str(Bones) aktiv <- Bones$Density[Bones$group==1] neaktiv <- Bones$Density[Bones$group==2] #Testiramo # H0: mu1 = mu2 # H1: mu1 > mu2 t.test(aktiv,neaktiv,alternative="greater") #p>0.05 pa na nivou značajnosti 0.05 ne možemo odbaciti H0, tj. nema dokaza da fizički aktivne žene imaju gušće kosti ############### #### Zadatak 6. # sjeme <- read.table("sjeme.txt", header=TRUE) str(sjeme) sjeme attach(sjeme) #Treba testirati jesu li varijance u dva uzorka jednake ili je varijanca veća za standardno sjeme #hipoteze # H0: sigma1^2 = sigma2^2 # H1: sigma1^2 > sigma2^2 var.test(standardno, novo, alternative="greater") #p>0.05 pa ne odbacujemo H0, stoga, nema dokaza da je varijabilnost prinosa manja za novo sjeme ############### #### Zadatak 7. # #Radi se o usporedbi proporcija, svaka osoba je bernoullijeva sl. var. - ili doživi srčani udar ili ne. #Neka je p1 vjerojatnost srčanog udara za osobu na placebu i p2 za osobu na aspirinu. #Hipoteze # H0: p1 = p2 # H1: p1 > p2 su <- c(189,104) ukupno <- c(11034,11037) prop.test(su,ukupno,alternative="greater") #p<0.05 pa odbacujemo H0 na razini značajnosti 0.05. Redovno uzimanje aspirina smanjuje rizik od srčanog udara.

Page 44: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

6

######################################## ## Kontigencijske tablice ######################################## ?table ocjene <- read.table("ocjeneMF.txt", header=TRUE) ocjene str(ocjene) #Funkcija koja daje kontigencijsku tablicu na osnovu niza podataka je table() #Može primiti razne argumente (data.frame, vektore i sl) kont <- table(ocjene) kont table(ocjene$mat, ocjene$fiz) #prva varijabla će biti retci druga stupci kontigencijske tablice margin.table(kont, 1) #daje marginalne frekvencije po 1-retcima, 2-stupcima margin.table(kont, 2) #Tablica relativnih frekvencija dobije se funkcijom prop.table #Zadavanjem dodatnog parametra 1 ili 2, dobiju se #uvjetne relativne frekvencije od fiz uvjetno na mat=i, odnosno od mat uvjetno na fiz=i prop.table(kont) prop.table(kont,1) prop.table(kont,2) ########################################################################### # Chi^2 test o nezavisnotsti # ########################################################################### #Primjer #Funkcija chisq.test prima kao argument kontigencijsku tablicu, ili općenito bilo koju matricu #Bitno je da su elementi nenegativni cijeli brojevi (moguće je zadati i vektore podataka, ali bolje je prije složiti kontigencijsku tablicu kont chisq.test(kont) #p<0.05 pa odbacujemo nultu hipotezu o nezavisnosti, tj. na razini značajnosti 0.05 postoji veza između #ocjena iz matematike i fizike #Warning koji dobijemo je zbog malog broja podataka po ćelijama, tada bi aproksimacija test #statistike mogla biti neprecizna. ######################################## ## ZADACI ######################################## ############### #### Zadatak 8.

Page 45: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

7

# #Radi se o chi^2 testu nezavisnosti. Uzorak je na cijeloj populaciji, a i pitanje je postavljeno tako. #Hipoteze # H0: smjer je nezavisan o spolu # H1: postoji zavisnost #trebamo napraviti kontigencijsku tablicu. #jednostavno ćemo stavit podatke u matricu tabl <- matrix(c(100,80,70,50,50,50,50,50), byrow=TRUE, ncol=4) tabl #(postoje brojni načini zadavanja matrice - pogledati prve vježbe) #Možemo dodati imena stupcima i retcima da dobijemo ljepši pregled colnames(tabl) <- c("elektrotehnika", "brodogradnja", "strojarstvo", "racunarstvo") rownames(tabl) <- c("student","studentice") tabl chisq.test(tabl) #p>0.05 pa na nivou značajnosti ne odbacujemo H0. Nema dokaza da odabir smjera ovisi o spolu na razini značajnosti 0.05. ############### #### Zadatak 9. # #Radi se o chi^2 testu homogenosti. Veličina uzorka u A i B je unaprijed određena. #I na osnovu pitanja zaključujemo da se radi o testu homogenosti. #Hipoteze # H0: distribucija ocjena je ista i kod metode A i kod metode B # H1: distribucija nije ista tabl <- matrix(c(14,26,34,16,10,18,36,58,56,32), byrow=TRUE, ncol=5) tabl colnames(tabl) <- c("1", "2", "3", "4", "5") rownames(tabl) <- c("A","B") tabl chisq.test(tabl) #p<0.05 pa odbacujemo H0 na nivou značajnosti 0.05. Dvije metode rezultiraju različitm distribucijama ocjena, na nivou značajnosti 0.05. chisq.test(tabl)$expected #daje očekivane frekvencije, ako je H0 istinita chisq.test(tabl)$observed #tablica koju smo unijeli #idemo zaokružit te brojeve round(chisq.test(tabl)$expected) chisq.test(tabl)$observed #možemo promatrati i razlike: chisq.test(tabl)$observed - round(chisq.test(tabl)$expected) #više je boljih ocjena kof druge metode - ona je bolja. #### Zadatak 10. #

Page 46: Vjeºbe - Statistika Praktikum Statisti£ki testovi (1) · estoviT na dva uzorka estoviT za dvodimenzionalna obiljeºja Zadaci Zadatak 1. U paketu BSDA prona ite bazu Achieve koja

8

#Radi se o chi^2 testu o nezavisnosti. #Hipoteze # H0: nezavisna obilježja # H1: nisu nezavisna tabl <- matrix(c(48,26,19,21,36,30), byrow=TRUE, ncol=3) tabl colnames(tabl) <- c("nepusac", "blagi pusac", "teski pusac") rownames(tabl) <- c("normalan tlak","povisen tlak") tabl chisq.test(tabl) #p<0.05 pa odbacujemo H0 na nivou značajnosti 0.05. Postoji veza između pušenja i krvnog tlaka. #### Zadatak 11. # #Radi se o chi^2 testu o nezavisnosti. #Hipoteze # H0: nezavisna obilježja # H1: nisu nezavisna library(BSDA) str(Politic) #Sad imamo podatke i treba nam kontigencijska tablica koju dobijemo s table() kont <- table(Politic) kont chisq.test(kont) #p>0.05 pa na nivou značajnosti ne odbacujemo H0. Nema dokaza da odabir političke stranke ovisi o spolu. #### Zadatak 12. # #Radi se o chi^2 testu o homogenosti. Populacije se fiksno odabrane i u svakoj od njih je nezavisno provedena anketa. #Testiramo homogenost. #Hipoteze # H0: alkoholizan je jednako rasprotranjen # H1: nije jednako rasprotranjen tabl <- matrix(c(32,268,51,199,67,233,83,267), byrow=TRUE, ncol=2) tabl colnames(tabl) <- c("alkoholičar", "nealkoholičar") rownames(tabl) <- c("službenici","nastavnici", "menadžeri", "trgovci") tabl chisq.test(tabl) #p<0.05 pa odbacujemo H0 na nivou značajnosti 0.05. Alkoholizam nije jednako distribuiran među različitim zanimanjima.