Hi-kvadrat test i njegove primjene

  • View
    271

  • Download
    10

Embed Size (px)

Text of Hi-kvadrat test i njegove primjene

  • Fakultet elektrotehnike i raunarstva Sveuilite u Zagrebu

    Ani Grubii

    Hi-kvadrat test i njegove primjene

    seminarski rad

    kolegij: Otkrivanje znanja u skupovima podataka prof.dr.sc. Bojana Dalbelo-Bai

    Split, veljaa 2004.

  • 1

    Sadraj:

    1. UVOD ........................................................................................................................... 2 2. TABLICE KONTIGENCIJE ............................................................................................... 3 3. DEFINICIJA 2 ............................................................................................................. 3

    4.1. Jedan uzorak ........................................................................................................ 5 4.2. Dva ili vie nezavisnih uzoraka.......................................................................... 11 4.3. Dva nezavisna uzorka (McNemarov test) .......................................................... 14

    5. NEKI OSNOVNI UVJETI ZA UPOTREBU HI-KVADRAT TESTA.......................................... 15 6. PRIMJER PRIMJENE HI-KVADRAT TESTA...................................................................... 16 7. ZAKLJUAK................................................................................................................ 26 8. LITERATURA .............................................................................................................. 27

  • 2

    1. Uvod

    Svijet u kojem ivimo i koji elimo razumjeti pun je razliitosti i neodreenosti, to otvara put za granu znanosti zvanu Statistika. Statistika nas ui kako donositi ispravne zakljuke i odluke u svijetu neodreenosti. U svakodnevnom ivotu prikupljamo mnotvo podataka. Statistika nam daje metode za njihovo organiziranje i saeto prikazivanje te izvlaenje zakljuaka na osnovu informacija sadranih u tim podacima. Raunala nam omoguavaju lake pohranjivanje podataka koje bismo inae bacili. Unutar svih tih podataka skriva se potencijalno korisna informacija, koja se rijetko iskoritava. Posao znanstvenika jest razumijeti podatke, otkriti uzorke koji odreuju kako funkcionira fiziki svijet, te ih zatim pretvoriti u teorije koje se mogu koristiti i za predvianje onoga to e se dogoditi u novim situacijama. Inteligentno analizirani podaci vrijedan su izvor prihoda. Oni mogu dovesti do novih otkria i komercijalnih prednosti. Da bi se dolo do znaajnih rezultata, vano je poznavati svoje podatke. Dakle, prvo to trebamo napraviti s bilo kojim skupom podataka je pogledati ga i prikazati na razliite naine. Da li prikaz tih podataka daje normalnu distribuciju, da li ima istaknutih elemenata, da li ima vie vrhunaca,?

    U ovom radu bit e opisan jedan od statistikih testova prilagodbe - 2-test. Hi-kvadrat test spada u grupu statistikih testova koji ne ukljuuju usporedbe. Uvaj test se koristi za ispitivanje nezavisnosti (eng. indepedence) dvije varijable ili faktora, sluajnosti (eng. randomness), te dobrote prilagodbe (eng. goodness-to-fit). Na kraju rada, nakon definiranja 2-testa i opisa naina primjene na razliitim uzorcima, bit e opisana primjena ovog testa na podacima vezanima za testiranje grupe od 41 studenta na dvijema grupama testova. Dobiveni podaci bit e analizirani upotrebom programskog paketa Statistica 6.0., te e na temelju dobivenih izrauna hi-kvadrat testa biti doneseni zakljuci o povezanost izmeu dvije grupe testova, tj. o vjerojatnosti povezanosti.

  • 3

    2. Tablice kontigencije

    Pretpostavimo da u odreenom skupu moguih dogaaja (vidi Tablicu 1), dogaaji E1, E2, E3, , Ek se pojavljuju u frekvencijama pojavljivanja fo1, fo2, fo3, , fok (opaene frekvencije), a prema pravilima vjerojatnosti frekvencije pojavljivanja su ft1, ft2, ft3, , ftk (oekivane frekvencije).

    Tablica 1. Dogaaj E1 E2 E3 Ek Opaena frekvencija fo1 fo2 fo3 fok Oekivana frekvencija ft1 ft2 ft3 ftk

    Tablica 1. u kojoj su opaene frekvencije prikazane u jednom retku, naziva se jednosmjerna klasifikacijska tablica. Kako ima k stupaca naziva se i 1 x k tablica. Poopavanjem dolazi se do dvosmjerne klasifikacijske tablice ili h x k tablice gdje opaene frekvencije zauzimaju h redaka i k stupaca. Ovakve tablice se esto nazivaju tablice kontigencije. Svakoj opaenoj frekvenciji u h x k tablici kontigencije odgovara jedna oekivana frekvencija koja se rauna prema pravilima vjerojatnosti. Ove frekvencije koje se nalaze u elijama tablice kontigencije nazivaju se frekvencije elije. Zbroj frekvencija svakog retka ili stupca naziva se marginalna frekvencija. Broj stupnjeva slobode se rauna prema formuli: (h-1)(k-1).

    3. Definicija 2

    Postupak nazvan hi-kvadrat test se upotrebljava u veini sluajeva ako se radi o kvalitativnim podacima ili ako tim podacima distribucija znaajno odstupa od normalne. Ve u poetku treba naglasiti da se hi-kvadrat test rauna samo s frekvencijama pa u raun nije doputeno unositi nikakve mjerne jedinice. Osnovni podaci istraivanja mogu biti i mjerne vrijednosti, ali u hi-kvadrat unose se samo njihove frekvencije. Hi-kvadrat test je vrlo praktian test koji moe osobito posluiti onda kad elimo utvrditi da li neke dobivene (opaene) frekvencije odstupaju od frekvencija koje bismo oekivali pod odreenom hipotezom. Kod ovog testa katkada traimo postoji li povezanost izmeu dvije varijable i on pokazuje vjerojatnost povezanosti. Moemo pretpostaviti da neka teorijska raspodjela dobro opisuje opaenu raspodjelu frekvencija. Da bismo tu pretpostavku (hipotezu) provjerili, primjenjujemo ovaj test. Rezultati dobiveni u uzorcima ne podudaraju se uvijek s teoretskim rezultatima koji se oekuju prema pravilima vjerojatnosti. Npr. iako prema teoriji oekujemo da kad god bacimo valjan novi 100 puta dobijemo 50 glava i 50 pisama, rijetko kada se dobije ovakav rezultat.

  • 4

    esto elimo znati da li se opaene frekvencije znaajno razlikuju od oekivanih frekvencija. Ta razlika se rauna se prema sljedeoj formuli:

    =t

    t

    fff 202 )( (1)

    pri emu f0 znai opaene frekvencije, a ft oekivane (teoretske) frekvencije, tj. frekvencije koje bismo oekivali pod nekom odreenom hipotezom, te vrijedi:

    == Nff to - ukupna frekvencija (2) Izraz ekvivalentan formuli (1) je sljedei:

    = Nff

    t

    o2

    2 (3)

    Broj stupnjeva slobode definiran je kao broj nezavisnih varijabli ukljuenih u izraun 2 . Nalazimo ga na sljedei nain: = broj razreda broj ogranienja. Razmotrimo pokus koji daje n opaenih frekvencija fi. elimo li provjeriti hipotezu da ta opaanja slijede neku teorijsku raspodjelu, najprije izraunamo oekivane teorijske vrijednosti fti. Opaene frekvencije, naravno, odstupaju od teorijskih, a mi elimo donijeti odluku moemo li ta odstupanja pripisati sluaju. Nul-hipoteza je: "Opaanja slijede teorijsku raspodjelu". Nul-hipoteza je hipoteza koju testiramo i oznaavamo je s H0. Ona se iskazuje kao nedostatak razliitosti ili uinka. Nul-hipoteza se odbacuje ako test znaajnosti pokae da su podaci nekonzistentni s nul-hipotezom. Granina vrijednost je vrijednost testa za koje se nul-hipoteza odbacuje. Znaajnost testa je vjerojatnost odbacivanja nul-hipoteze kada je istinita, tj. vjerojatnost da su promatrani podaci ekstremniji od stvarnih rezultata kad je nul-hipoteza istinita. Mala znaajnost testa znai da su podaci toliko ekstremni da su nevjerojatni pod ovom nul-hipotezom. Znaajnost testa nije vjerojatnost da je nul hipoteza lana. Mala znaajnost testa ne znai da postoji mala vjerojatnost da je nul-hipoteza istinita. Nul-hipoteza se odbacuje za znaajnost testa 0.05 ili 5%. Najee upotrebljavamo hi-kvadrat test u ovim sluajevima:

    1. Kad imamo frekvencije jednog uzorka pa elimo ustanoviti odstupaju li te frekvencije od frekvencija koje oekujemo uz neku hipotezu.

    2. Kad imamo frekvencije dvaju ili vie nezavisnih uzoraka te elimo ustanoviti razlikuju li se uzorci u opaenim svojstvima.

    3. Kad imamo frekvenciju dvaju zavisnih uzoraka, koji imaju dihotomna svojstva, te elimo ustanoviti razlikuju li se uzorci u mjernim svojstvima, tj. je li dolo do promjene.

  • 5

    4.1. Jedan uzorak Prvi primjer: 48 lijenika iznijelo je miljenje o tome treba li eni u porodu dati analgeziju. Dobiveni su odgovori: 26 odgovora da, 12 odgovora ne znam i 10 odgovora ne. Postavit emo nul-hipotezu: nema razlike izmeu dobivenih odgovora i sluajno rasporeenih odgovora. Kad bi odgovori bili dani potpuno sluajno, svaki bi od njih imao jednaku vjerojatnost pa bismo svaki odgovor oekivali 48/3=16 puta. Dakle, oekivana frekvencija za svaki odgovor bila bi 16. Prikaimo rezultate u tablici:

    Da Ne znam Ne Ukupno f0 26 12 10 48 ft 16 16 16 48

    Izraunajmo podatke potrebne za formulu (1):

    f0 ft f0 - ft (f0 - ft)2 t

    t

    fff 20 )(

    26 16 10 100 100/16=6,25 12 16 -4 16 16/16=1 10 16 -6 36 36/16=2,25 =9,50

    50,9)( 2

    20 ==

    t

    t

    fff

    Princip interpretacije dobivenog rezultata 2 : kad ne bi nali nikakve razlike izmeu opaanih i oekivanih frekvencija, izraz 2 bi bio 0. to su razlike izmeu opaanih i oekivanih frekvencija vee, to je vei i definitivni izraz 2 . Prema tome, to je hi-kvadrat manji, to je vjerojatnije da treba prihvatiti postavljenu hipotezu, a to je hi-kvadrat vei, to je vjerojatnije da postavljenu hipotezu treba odbaciti, jer se opaeni rezultati znatno razlikuju od onih koje bismo pod odreenom hipotezom oekivali. Tablica graninih vrijednosti 2 pokazuje do koje vrijednosti (uz odreeni broj stupnjeva slobode) smatramo da je hi-kvadrat jo uvijek dovoljno visok, a da bismo mogli odbaciti hipotezu, odnosno, koliko mora najmanje iznositi hi-kvadrat pa da odbacimo hipotezu. Kao praktino pravilo moe posluiti injenica da centralna vrijednosti hi-kvadrata uz neki stupanj slobode iznosi otprilike toliko koliko imamo stupnjeva slobode. Pre