Osnove statistike u društvenim i obrazovnim - marul.ffst.hrmarul.ffst.hr/~abubic/nastava/statistika/statistika_prirucnik... · Ovaj priručnik može se koristiti kao literatura za

Osnove statistike u društvenim i obrazovnim

znanostima

(Priručnik u postupku recenzije)

doc.dr.sc. Andreja Bubić

Filozofski fakultet

Sveučilište u Splitu

Ovaj priručnik može se koristiti kao literatura za kolegij PEDAGOŠKA STATISTIKA

koji će se održati u ak.god. 2013/2014.

Sadržaj

SADRŽAJ

PREDGOVOR ........................................................................................................................................ 1

1. OSNOVNI POJMOVI U STATISTICI........................................................................................... 3

1.1. MJERNE SKALE ......................................................................................................................... 8

1.2. UZORKOVANJE ....................................................................................................................... 10

2. DESKRIPTIVNA STATISTIKA .................................................................................................. 13

2.1. ORGANIZACIJA PRIKUPLJENIH PODATAKA I PRIKAZIVANJE REZULTATA ........... 13

2.1.2. Tablično i grafičko prikazivanje podataka .......................................................................... 17

2.2. MJERE SREDIŠNJIH VRIJEDNOSTI ..................................................................................... 23

2.2.1. Aritmetička sredina ............................................................................................................. 23

2.2.2. Centralna vrijednost (medijan) ............................................................................................ 24

2.2.3. Dominantna vrijednost (mod).............................................................................................. 25

2.2.4. Ostale mjere središnjih vrijednosti ...................................................................................... 25

2.3. MJERE RASPRŠENJA REZULTATA ..................................................................................... 26

2.3.1. Raspon rezultata .................................................................................................................. 26

2.3.2. Varijanca ............................................................................................................................. 27

2.3.4. Standardna devijacija .......................................................................................................... 28

2.3.5. Koeficijent varijabilnosti ..................................................................................................... 29

2.3.6. Ostale mjere raspršenja........................................................................................................ 30

2.4. DISTRIBUCIJE REZULTATA ................................................................................................. 31

2.4.1. Normalna distribucija .......................................................................................................... 31

2.5. POLOŽAJ REZULTATA U SKUPINI ...................................................................................... 34

2.5.1. z-vrijednosti ......................................................................................................................... 34

2.5.2. Centili i decili ...................................................................................................................... 37

3. INFERENCIJALNA STATISTIKA ............................................................................................. 39

3.1. POGREŠKE MJERENJA .......................................................................................................... 41

3.2. PROCJENA PARAMETARA ................................................................................................... 43

3.2. TESTIRANJE HIPOTEZA ........................................................................................................ 45

3.3. TEMELJNI STATISTIČKI POSTUPCI .................................................................................... 50

3.3.1. Odabir prikladnog statističkog postupka ............................................................................. 51

3.4. t-TEST ........................................................................................................................................ 53

3.5. HI-KVADRAT TEST ................................................................................................................ 57

3.6. OSTALI TESTOVI ZA USPOREDBU SKUPINA PODATAKA ............................................ 61

3.7. KORELACIJA ........................................................................................................................... 64

Sadržaj

4. OSNOVE RADA S RAČUNALNIM PROGRAMOM STATISTICA .......................................... 66

4.1. UNOS I ORGANIZACIJA PODATAKA .................................................................................. 69

4.1.1. Definiranje varijabli ............................................................................................................ 69

4.1.2. Unos i organizacija podataka............................................................................................... 72

4.2. RAČUNANJE OSNOVNIH PARAMETARA DESKRIPTIVNE STATISTIKE ..................... 77

4.3. TEMELJNI POSTUPCI INFERENCIJALNE STATISTIKE ................................................... 82

4.3.1. Računanje t-testa ................................................................................................................. 82

4.3.2. Računanje hi-kvadrat testa .................................................................................................. 84

4.3.4. Računanje korelacija ........................................................................................................... 86

5. IZVJEŠTAVANJE O REZULTATIMA PROVEDENOG ISTRAŽIVANJA .................................. 88

6. ZADACI ZA VJEŽBANJE ............................................................................................................... 91

6.1. Rješenja zadataka ....................................................................................................................... 97

7. PREPORUČENA LITERATURA .................................................................................................. 101

PRILOZI .............................................................................................................................................. 102

PRILOG 1: KLJUČNI SIMBOLI ................................................................................................... 103

PRILOG 2: KLJUČNE FORMULE ................................................................................................ 105

PRILOG 3: STATISTIČKE TABLICE .......................................................................................... 107

Predgovor

1

PREDGOVOR

Ovaj je priručnik namijenjen studentima Odsjeka za učiteljski studij i Odsjeka za pedagogiju

Filozofskog fakulteta Sveučilišta u Splitu kao pomoć u svladavanju temeljnih statističkih

znanja i provedbi samostalne obrade podataka prikupljenih unutar istraživanja. Mnogo je

razloga zbog kojih vaš nastavni plan uključuje učenje statistike.

Kao studenti, obvezni se pohađati kolegij posvećen statistici. Osim toga, imat ćete

priliku susresti se sa statistikom prilikom izrade završnih i diplomskih radova, ali i unutar

brojnih nastavnih predmeta prilikom čitanja preporučene i obvezne literature. S obzirom da se

osnovna saznanja vezana uz obrazovne znanosti temelje na znanstvenim istraživanjima, za

njihovo praćenje i razumijevanje važno je poznavati osnove metodologije i statistike.

Kao budući pedagozi i učitelji, sa statistikom ćete se susretati u svakodnevnom radu.

Radeći u učionici koristit ćete statistiku prilikom ocjenjivanja, zaključivanja ocjena ili

prikazivanja uspjeha učenika njihovim roditeljima ili drugim kolegama. U svakodnevnom

radu čitat ćete znanstvene radove i udžbenike koji će prenositi saznanja utemeljena na

znanstvenoj metodologiji i statistici. Možda ćete i sami provoditi istraživanja u suradnji s

drugim kolegama, ili samostalno, za potrebe unaprjeđenja svoje prakse.

Kao građani, sa statistikom se svakodnevno susrećete dok čitate novine, gledate

televiziju, koristite računalo ili pričate s prijateljima. Razumijevanje statistike dio je opće

kulture, i ono vam pomaže da se bolje i uspješnije snalazite u svakodnevnom životu.

To su samo neki od osnovnih razloga koji ukazuju na važnost učenja statistike. Često

se misli da je statistika, iako možda važna, jako teška i matematički zahtjevna, što ne mora

nužno biti točno. Iako se radi o širokom području koje uključuje brojne složene pristupe i

analize, temeljni statistički principi nisu toliko kompleksni i ne zahtijevaju opsežno

matematičko predznanje. Da biste razumjeli osnove statistike koje će vam biti potrebne za

praćenje literature, provedbu jednostavnijeg istraživanja te izradu završnog, diplomskog ili

znanstvenog rada, potrebno je poznavati samo osnovne matematičke operacije, biti pažljiv i

motiviran za učenje. Osim toga treba dakako naučiti ponešto o statistici i temeljnim

statističkim postupcima, kao i o načinima na koji vam računalni programi mogu pomoći

prilikom statističke obrade podataka. Uz te osobne preduvjete i temeljna znanja svatko može

naučiti kako samostalno obraditi, prikazati i interpretirati podatke prikupljene istraživanjem.

Predgovor

2

Cilj je ovog priručnika pomoći vam da i sami naučite temeljne principe statističkog

rasuđivanja i provedbe osnovnih statističkih postupaka. U njemu će biti prikazane sve

statističke teme s kojima ćete se upoznati u okviru nastave iz statistike, kao i manji broj

dodatnih tema koje nisu predviđene nastavnim programom. Na taj način unutar priručnika

ćete se moći upoznati s osnovnim postupcima koje ćete susresti u nastavi, ali i pročitati neke

preporuke za korištenje složenijih analiza čije detaljnije opise možete pronaći u preporučenoj

literaturi. Naime, osim kao pomoć u nastavi iz statistike, ovaj je priručnik izrađen i kako bi

vam pomogao u obradi podataka prikupljenih unutar manjih istraživanja koja ćete u

budućnosti provoditi samostalno ili u suradnji s kolegama. Upravo zato on uključuje osnovne

statističke termine koji trebate znati prije početka obrade podataka iz istraživanja s

jednostavnijim istraživačkim nacrtom, što uključuje i neke pojmove koji prelaze okvire vašeg

nastavnog programa.

Iz tog razloga, osim upoznavanja čitatelja s osnovnim statističkim pojmovima i

postupcima koje možete pronaći u prva tri poglavlja, priručnik uključuje i osnovne

informacije o principima rada u jednom računalnom paketu za statističku obradu podataka.

Radi se o paketu STATISTICA koji je odabran stoga što ga možete pronaći i koristiti u

računalnim učionicama vašeg Fakulteta, te će se stoga koristiti i u okviru nastave iz statistike.

Također, ovaj priručnik uključuje i poglavlje posvećeno izvještavanju o rezultatima

provedenih postupaka koja će vam pomoći u pripremi završnih i diplomskih radova tijekom

studija, kao i znanstvenih radova i prezentacija istraživanja tijekom studija ili nakon diplome.

Nadamo se da će vam informacije prezentirane u ovom priručniku pomoći u lakšem

usvajanju znanja iz statistike, kao i budućem samostalnom korištenju osnovnih statističkih

postupaka.

Osnovni pojmovi u statistici

3

1. OSNOVNI POJMOVI U STATISTICI

Statistika je znanstvena disciplina (grana primijenjene matematike) koja se bavi

prikupljanjem, obradom, interpretacijom i prezentacijom podataka, a ima primjenu u gotovo

svim znanostima. Statistika je jako povezana s teorijom vjerojatnosti koja svoje korijene vuče

još iz antičkih vremena kada su se pojavili prvi izračuni vjerojatnosti u igrama na sreću.

Međutim, značajniji razvoj statistika je doživjela u 17. stoljeću, kada se u većoj mjeri počinju

bilježiti brojčani indikatori prirodnih, političkih i socijalnih komponenti države koji polako

postaju osnova za donošenje objektivnijih državnih odluka. Utoliko se i sama riječ statistika

veže uz latinsku riječ status (stanje) te talijansku riječ statista, koja označava osobu koja se

bavi državničkim poslovima. Tijekom vremena statistika se počela sve više vezivati uz teoriju

vjerojatnosti, te njezina primjena postaje sve šira. Polako se počinje koristiti i u astronomiji, a

zatim i u području biologije, agrikulture, fizike te drugih prirodnih i društvenih znanosti. Iako

modernu statistiku primijenjenu u različitim znanostima ne treba nužno označavati posebnim

imenima, ponekad se može susresti i takva praksa. Tako se, na primjer, npr. njezina primjena

u pedagoškim i ostalim obrazovnim znanostima ponekad naziva pedagoška statistika.

Korištenje statistike u istraživačkom radu ima više prednosti. Prije svega, statistika

nam omogućuje sređivanje podataka u smislenom i prigodnom obliku. Uz pomoć statistike

možemo biti znatno precizniji u opisivanju pojava, ali nam uz to ona omogućuje i neke

složenije oblike zaključivanja. Naime, uz pomoć statistike možemo uočavati zakonitosti,

predviđati kretanje neke pojave te lakše identificirati uzročno-posljedične veze među

različitim osobinama ili pojavama. Međutim, postoje i neke poteškoće koje se javljaju

prilikom korištenja statistike. One prije svega uključuju povremenu nemogućnost

kvantifikacije svih pojava koje nas zanimaju, zbog čega neke zaključke ponekad ne možemo

donijeti čak ni uz pomoć najsloženijih statističkih postupaka. Također, uz veliki broj

statističkih postupaka veže se mogućnost pojave pogrešaka koje uvijek treba imati u vidu

prilikom donošenja zaključaka. Slično tome, uvijek treba imati na umu da u istraživanjima u

pravilu radimo s nepreciznim pokazateljima (npr. brojčane ocjene) koji nam nikad ne mogu

otkriti svu složenost pojave koja nas zanima. Osim ovih nedostataka koji se vežu uz samu

prirodu istraživačkog rada i statistike, postoje i neki nedostaci koji se vežu uz praktične,

ljudske aspekte korištenja ove discipline. Oni uključuju nesavjesnu primjenu neprikladnih

statističkih postupaka, neprimjerene interpretacije točno izračunatih rezultata te

precjenjivanje, odnosno pretjeranu generalizaciju dobivenih zaključaka. Zbog ovih


4

nedostataka treba naglasiti kako je uvijek važno provjeravati i nadograđivati zaključke

donesene na temelju provedenih istraživanja i primijenjenih statističkih postupaka.

Statističke metode se koriste u dvije osnovne svrhe: (1) kako bi se opisala i analizirala

mjerena pojava na razini skupa prikupljenih podataka čime se bavi deskriptivna statistika te

(2) kako bi se na temelju podataka dobivenih mjerenjem na jednom užem skupu, tzv. uzorku,

generaliziralo, odnosno zaključivalo o stanju u široj populaciji što omogućuju metode

inferencijalne statistike.

Stoga, prvi koraci statističke obrade uključuju deskriptivne analize kojima je cilj

opisati izmjereni skup podataka navođenjem frekvencija, mjera središnjih vrijednosti

(vrijednosti koje reprezentiraju taj skup) i pripadajućeg raspršenja (mjere koja nam pokazuje

koliko središnja vrijednost dobro reprezentira spomenuti skup), te ga slikovno (grafički) ili

tablično prikazati. Nakon toga možemo u daljnjim analizama koristiti brojne postupke

inferencijalne statistike koje međusobno razlikujemo s obzirom na svrhu primjene, složenost,

vrstu modela na kojima se zasnivaju, te osobine izmjerenih podataka na kojima se žele

primijeniti. Dok deskriptivna statistika ostaje u okvirima prikupljenih podataka koje želi

preciznije numerički okarakterizirati, inferencijalna statistika omogućuje složenije oblike

zaključivanja koji se odnose ne samo na izmjereni uzorak, već i na širu populaciju iz koje on

potječe i koju predstavlja. Međutim, kod takvih analiza uvijek se izlažemo mogućnostima

pogreške, a u zaključke koje donosimo u pravilu nikad ne možemo biti potpuno sigurni. S

obzirom na to, logika i postupci inferencijalne statistike povezani su s teorijom vjerojatnosti

koja nam pomaže u razumijevanju nesigurnosti koja se veže uz zaključke koje želimo donijeti

nakon provedbe ovih metoda.

O teoriji vjerojatnosti, odnosno grani matematike koja se bavi analizom slučajnih

pojava ste zasigurno već imali prilike ponešto čuti. Na primjer, često se govori o vjerojatnosti

osvajanja nekog dobitka na igrama na sreću, ili vjerojatnosti obolijevanja od neke bolesti. U

ovim slučajevima vjerojatnost predstavlja kvantificiranu šansu ili mogućnost da će se nešto

dogoditi. Ako smo potpuno sigurni da će se nešto dogoditi kolokvijalno kažemo da je šansa

100%, odnosno u terminima vjerojatnosti ona iznosi 1. Ukoliko je potpuno sigurno da se

nešto neće dogoditi vjerojatnost iznosi 0, dok se svi ostali slučajevi vjerojatnosti nalaze

između apsolutne sigurnosti (vjerojatnost 1) i apsolutne nemogućnosti (vjerojatnost 0). Tako

vjerojatnost od 0.1 znači da očekujemo da će se neki događaj po slučaju dogoditi u jednoj od

deset situacija, a vjerojatnost od 0.5 da će se dogoditi u jednoj od dvije situacije. Na primjer,


5

kod bacanja novčića očekujemo da postoji vjerojatnost od 0.5 da će se pojaviti pismo, i

vjerojatnost od 0.5 da će se pojaviti glava, što znači da bismo u dva bacanja očekivali da će

jednom pasti pismo, a jednom glava. Međutim, to se ne dogodi uvijek, i mi nikad ne znamo

što će se točno dogoditi prije pada samog novčića. Dakle, vjerojatnosti nam govore što bi se

moglo, ili što očekujemo da će se dogoditi na temelju znanja o sustavu unutar kojeg se javlja

neka pojava koja nas zanima. Teorija vjerojatnosti nudi brojna pravila i zakonitosti na temelju

kojih se za brojne situacije može izračunati vjerojatnost pojave nekih događaja. U ovom

priručniku o tim zakonitostima neće biti riječi, jer one za razumijevanje opisanih metoda i

statističkih postupaka nisu nužne. Međutim, važno je znati i uvijek imati u vidu činjenicu da

se veliki dio statistike naslanja na teoriju vjerojatnosti, i da kod primjene metoda

inferencijalne statistike uvijek baratamo s vjerojatnostima, a ne sa sigurnim činjenicama.

Stoga uvijek treba biti posebno pažljiv prilikom pripreme i provedbe istraživanja (npr. odabira

uzorka) te interpretacije dobivenih podataka, jer naše odluke mogu jako utjecati na

vjerodostojnost nalaza i mogućnost primjene dobivenih rezultata.

Prije nego što se detaljnije usmjerimo na statistiku, potrebno je vrlo kratko navesti i

osnovne metodološke pojmove koje ćemo koristiti u ovom priručniku. Savjetujemo vam da o

metodologiji provođenja znanstvenih istraživanja više naučite iz preporučene literature jer se

radi o znanjima koja trebate savladati prije početka planiranja i provođenja istraživanja.

Nakon toga, organizacija svakog istraživanja počinje formuliranjem cilja i problema

istraživanja koji odražavaju našu motivaciju i pitanja na koja želimo odgovoriti istraživanjem.

U pravilu se na svako istraživačko pitanje može odgovoriti na više načina, te u sljedećem

koraku istraživač treba odabrati jedan od njih, odnosno treba definirati procedure kojima će

pokušati odgovoriti na postavljena pitanja. Dakle, istraživač treba osmisliti istraživački nacrt

kojim će definirati što će se, i kako mjeriti. To uključuje određivanje varijabli koje želi

uključiti u istraživanje, način mjerenja tih varijabli (primjerice korištenjem upitnika, anketa, i

sl.), način odabira osoba koje će sudjelovati u istraživanju, itd. Na primjer, ako nas zanima

odnos između socioekonomskog statusa djece i njihovog uspjeha u školi, trebamo odrediti

koga ćemo ispitati: koje ćemo razrede i koje škole uključiti u naše istraživanje, hoćemo li

ispitati učenike iz jednog ili više gradova ili sela, itd.

Prilikom odabira pojedinaca koje želimo uključiti u istraživanje treba dobro razmisliti

na koga se sve odnosi pretpostavljeni odnos varijabli koji želimo provjeriti istraživanjem, npr.

da li su to učenici prvoškolci, učenici nižih razreda osnovne škole, ili možda svi učenici u

Republici Hrvatskoj. Svi ti učenici tada predstavljaju populaciju, i naš je cilj na temelju


6

provedenog istraživanja naučiti nešto o toj populaciji. Međutim, u istraživanjima gotovo nikad

nemamo priliku ispitati sve članove populacije, već umjesto toga biramo jedan njezin manji

dio, tzv. uzorak, na kojem se provodi mjerenje. Svaki od učenika koji sudjeluje u našem

istraživanju pritom predstavlja jednog ispitanika ili sudionika istraživanja.

Osim uzorka, trebamo odlučiti što ćemo i kako mjeriti. Na primjer, u prethodnom

primjeru odlučiti smo izmjeriti socioekonomski status učenika i njihov školski uspjeh, uz koje

možemo zabilježiti još neke dodatne informacije za koje mislimo da bi mogle biti važne (npr.

dob, spol, obiteljski status učenika, i dr.). Sve takve osobine, pojave ili procese koje možemo

opažati i mjeriti unutar istraživanja predstavljaju različite varijable. Varijabla je osobina koja

može poprimiti različite vrijednosti (za razliku od konstante koja uvijek ima jednaku

vrijednost), pa ovaj pojam koristimo za skup podataka iste vrste, npr. spol, dob ili

zadovoljstvo životom. U (eksperimentalnim) istraživanjima razlikujemo dvije vrste varijabli,

nezavisne i zavisne. Nezavisna varijabla je ona varijabla koju manipuliramo i čiji nas utjecaj

na mjerenu pojavu zanima. Za razliku od toga, zavisna varijabla je varijabla čije promjene

pratimo, odnosno varijabla koju mjerimo. U istraživanjima nas često zanima utjecaj nezavisne

na zavisnu varijablu: npr. ako istraživanjem želimo ispitati kako najavljivanje testova utječe

na uspjeh učenika, onda nam način najave testa predstavlja nezavisnu, a uspjeh na testu

učenika zavisnu varijablu. Tijekom ovako osmišljenog istraživanja za svakog od naših

ispitanika prikupit ćemo po jedan rezultat na nezavisnoj (način na koji je najavljen test), te

jedan na zavisnoj varijabli (ocjenu ili bodove na testu). Ako uz spomenutu zavisnu i

nezavisnu varijablu odlučimo prikupiti još neke informacije o učeniku, onda će one

predstavljati dodatne varijable u istraživanju.

Jednom kad odlučimo koje varijable želimo izmjeriti, trebamo odlučiti kako ćemo to

napraviti. Dakle, u ranijem primjeru socioekonomski status učenika možemo odrediti

korištenjem pitanja o primanjima roditelja, obrazovanju roditelja, obiteljskoj imovini ili

nekim drugim indikatorima, dok njihov školski uspjeh možemo izmjeriti korištenjem ocjena

iz nekih odabranih predmeta, ukupnog prosjeka ocjena, ili uz pomoć bodova prikupljenih na

testu pripremljenom za potrebe istraživanja. Pritom svaki način mjerenja ima svoje prednosti i

nedostatke, te može ponuditi jedinstvenu perspektivu na mjerenu varijablu. Osim sadržajnih

specifičnosti, različiti načini mjerenja varijabli imaju i svoju statističku važnost. Na primjer,

uspjeh učenika možete zabilježiti vrlo grubo, tako da samo razlikujete one koji su prošli ili

pali neki test. Ili možete poredati učenike prema uspjehu, pa zabilježiti koji je učenik bio

najbolji, koji drugi po uspjehu, i tako do najgoreg. Ili možete biti precizniji, pa zabilježiti

dobivene ocjene (1-5) ili broj bodova (npr. 1-40) postignutih na testu. Ti se različiti načini


7

mjerenja uspjeha razlikuju ne samo sadržajno, već i statistički. Naime, razlike u preciznosti

mjerenja reflektiraju različite mjerne skale koje jako utječu na statističke analize koje ćete

nakon provedbe mjerenja smjeti primijeniti.

Bez obzira na koju se mjernu skalu odlučili, prilikom mjerenja ciljanih varijabli na

nekom uzorku uvijek se izlažemo određenim pogreškama o kojima će kasnije biti više riječi.

Statističke metode nam pomažu nositi se s tim pogreškama, i to onima koje nisu posljedica

sustavnih pristranosti. Naime, u istraživanjima uvijek polazimo od pretpostavke da svaki

mjereni rezultat predstavlja (jednostavnu linearnu) kombinaciju konstantnih faktora ili

pravog rezultata mjerenja, odnosno vrijednosti koja nas zanima, i slučajnih varijacija,

takozvanih nesistematski varijabilnih faktora. Neki od tih nesistematski varijabilnih faktora

povećavaju, a neki smanjuju mjerene vrijednosti, pri čemu je njihov ukupni zbroj jednak nuli.

Na primjer, ako u skupini učenika mjerimo vrijeme potrebno za rješavanje zadatka, ne

možemo očekivati da ćemo kod svakog djeteta uspjeti izmjeriti pravu vrijednost mjerenja,

odnosno stvarno vrijeme potrebno za rješavanje zadatka. Naime, na dobivene rezultate

nerijetko će djelovati i neki slučajni faktori koji će ponekad produžavati a ponekad skraćivati

rješavanje zadatka. Na primjer, kod nekih učenika neočekivana buka može produžiti

rješavanje, dok neki učenici mogu načuti točno rješenje i stoga neopravdano imati kraći

izmjereni rezultat. Ti će slučajni faktori ponekad smanjiti, a ponekad povećati pravo vrijeme

rješavanja, a na kraju će se na razini cijele skupine međusobno poništiti. Nesistematski

varijabilni faktori kompliciraju istraživanja, i povećavaju broj mjerenja koje moramo provesti

da bismo dobili pouzdane podatke. Međutim, statistika se može „nositi“ s ovim faktorima jer

nam statističke metode pomažu da njihovo djelovanje „neutraliziramo“ i donesemo prikladne

zaključke. Za razliku od njih, kod djelovanja sistematskih faktora statističke metode nam ne

mogu puno pomoći. Ukoliko smo inteligenciju učenika mjerili u trenutku kad su ti učenici bili

pod velikim stresom ili jako umorni, možemo pretpostaviti da su stres ili umor sistematski,

kod svih učenika, smanjili uspjeh na primijenjenim testovima. Međutim, samo na temelju

provedenog mjerenja ne možemo napraviti ništa da bismo procijenili kolika je ta pogreška i

kakva bi mogla biti stvarna inteligencija kod te skupine učenika.

Dakle, prilikom planiranja istraživanja istraživač treba donijeti brojne odluke koje

uvelike određuju kvalitetu i primjenjivost dobivenih rezultata. Njih ćete lakše donijeti ukoliko

u okviru preporučene literature naučite više o metodologiji provođenja znanstvenih

istraživanja. U ovom priručniku detaljnije ćemo se pozabaviti samo onim temama koje

izravno utječu na statističko odlučivanje, a to su prije svega mjerne skale i uzorkovanje.


8

1.1. MJERNE SKALE

Mjerenje predstavlja pridruživanje brojeva nekom atributu ili pojavi prema unaprijed

utvrđenim pravilima. Ovisno o tim pravilima, prilikom mjerenja neke pojave moguće je

koristiti različite mjerne skale ili ljestvice čije karakteristike određuju koji se statistički

postupci mogu koristiti prilikom kasnije obrade podataka prikupljenih tim mjerenjem. Četiri

su osnovne vrste skala: nominalna, ordinalna te dvije metričke skale, intervalna i omjerna

skala.

Nominalnu skalu mjerenja pronalazimo kod kategorijalnih ili kvalitativnih varijabli,

odnosno onih varijabli kod kojih ispitanike možemo razlikovati prema dvije ili više kategorija

među kojima ne postoji nikakav prirodni slijed (nema kriterija prema kojemu bi se neke

vrijednosti mogle odrediti kao “veće od” ili „manje od“ drugih). Stoga nominalna skala ne

predstavlja pravu skalu mjerenja, već imenovanje nominalnih obilježja varijable. Na primjer,

završena srednja škola predstavlja kategorijalnu varijablu koju možemo brojčano označiti na

sljedeći način: 1 - gimnazija, 2 - stručna škola, 3 – tehnička škola i 4 - umjetnička ili sportska

škola. Međutim, takve brojčane oznake nisu „prirodne“ i nepromjenjive, što znači da smo ih

mogli i drugačije definirati, na primjer kao: 1 - stručna škola, 2 - gimnazija, 3 - umjetnička ili

sportska škola i 4 – tehnička škola.

Kao što je vidljivo u primjeru, pripadnost različitim kategorijama ove varijable može

se vezati uz određenu brojčanu vrijednost, ali ona je potpuno proizvoljno određena. S obzirom

na broj kategorija koje se unutar varijable mogu odrediti, razlikujemo binarne (dihotomne)

varijable koje imaju samo dvije, te multikategorijalne varijable koje imaju više kategorija.

S obzirom na osobitosti nominalnih skala, u obradi podataka prikupljenih na tim

skalama dozvoljeno je koristiti samo ograničeni broj statističkih postupaka: dominantnu

vrijednost, proporcije, hi-kvadrat test i neke druge vrste analiza koje se temelje na

frekvencijama.

Kod ordinalnih (rangovnih ili ljestvičnih) skala mjerena varijabla ima vrijednosti

koje se nižu prema određenom redoslijedu koji odražava izraženost mjerenog svojstva. Dakle,

brojevi kod ovih skala nisu proizvoljno određeni, već slijede neki prirodni raspored. Međutim,

taj redoslijed vrijednosti reflektira samo poredak, odnosno relativne razlike mjerenja bez

točnog stupnjevanja tih razlika. Primjer ordinalne skale je završni poredak sportaša na

natjecanjima. Pobjednik koji dobije zlatnu medalju ima najbolji rezultat na natjecanju, onaj


9

koja dobije srebrnu medalju je drugi, a brončanu treći po uspjehu. Međutim, rang predstavlja

relativno grubo određenje položaja jer nam ne govori ništa o pravom rezultatu pojedinca.

Stoga ne možemo tvrditi da je sportaš sa srebrnom medaljom uspješniji od onoga s

brončanom jednako onoliko koliko je pobjednik natjecanja uspješniji od njega.

S obzirom na karakteristike ordinalnih skala, u obradi podataka na ovim skalama se

najčešće koristi centralna vrijednost, rang korelacija i drugi postupci koji se temelje na

rangovima, te neki dodatni oblici neparametrijskih metoda za testiranje hipoteza.

Metričke ili kvantitativne skale vezuju se uz varijable kojima možemo pridružiti

realne brojeve i na njima koristiti matematičke operacije. Njihove vrijednosti mogu biti

diskontinuirane (diskretne ili međusobno razdvojene) ili kontinuirane. Diskontinuirane

varijable su one koje mogu poprimiti konačan broj svojstava i koje se bilježe isključivo

cjelobrojno, npr. broj izlazaka na ispit. Kontinuirane varijable, za razliku od toga, mogu

poprimiti bilo koju vrijednost unutar nekog intervala i mogu se zapisivati i decimalnim

brojevima, npr. dužina, težina, itd. Općenito kod metričkih varijabli jednake razlike u

brojevima na skali predstavljaju jednake razlike u promatranom svojstvu – dakle, dvije osobe

koje imaju 55 i 57 kilograma jednako se međusobno razlikuju po težini kao i osobe koje imaju

74 i 76 kilograma.

Unutar metričkih skala razlikujemo dvije preostale temeljne vrste skala: intervalne i

omjerne. Intervalne skale su one metričke skale koje ne posjeduju apsolutnu već samo

relativnu nulu, kao što je slučaj sa skalom temperature mjerenom u stupnjevima Celzijusa.

Dakle, kod njih su položaj nule i mjerne jedinice određeni dogovorno. Stoga kod ovih skala

nije moguće koristiti omjere. Na primjer, nije moguće reći da je temperatura od 25°C dvaput

hladnija od 50°C, iako vrijedi da je razlika između 75 i 50°C jednaka onoj od 50 i 25°C. Kod

omjerne (odnosne) skale jednake razlike brojeva također predstavljaju jednake razlike

mjerenog svojstva. Uz to, kod ovih skala postoji i apsolutna nula, te je stoga ovdje dopušteno

koristiti omjere. Primjeri omjerne skale su visina učenika ili vrijeme.

Kod rezultata izmjerenih na metričkim skalama moguće je koristiti najveći broj

statističkih postupaka, uključujući i široki spektar tzv. parametrijskih postupaka (ako su

zadovoljeni i ostali uvjeti za njihovo korištenje). Iako za odabir prikladnog statističkog

postupka nije svejedno imamo li podatke na intervalnoj ili omjernoj skali mjerenja, u praksi se

ove dvije vrste skala rijetko razlikuju.


10

1.2. UZORKOVANJE

Uzorkovanje je postupak formiranja uzorka iz populacije, odnosno odabira ispitanika koji će

sudjelovati u nekom istraživanju. Populaciju čine svi mogući članovi neke skupine s

određenim značajkama (ponekad se naziva i statistički skup). Uzorak je dio populacije na

kojem provodimo istraživanje. Na primjer, ukoliko želimo saznati više o utjecaju najave

testova na uspjeh učenika, cilj nam je provesti istraživanje čije ćemo rezultate moći podijeliti

s kolegama u drugim školama i donijeti zaključke koji će biti korisni za osmišljavanje

budućih strategija organizacije nastave. Međutim, u svom istraživanju gotovo sigurno nećemo

moći uključiti sve učenike na koje će se odnositi doneseni zaključci, već ćemo umjesto toga

odabrati malu skupinu učenika i na njoj provesti mjerenje. Općenito smo u istraživanjima

gotovo uvijek usmjereni na mjerenje uzoraka jer je ponekad populaciju nemoguće, preskupo

ili presloženo izmjeriti, a ponekad tako nešto ne bi imalo smisla raditi (npr. ako mjerenjem

uništavamo elemente skupa).

Način odabira uzorka reflektira naše ciljeve i želju za kasnijom generalizacijom

zaključaka, pri čemu je taj izbor nažalost uvijek ograničen praktičnim mogućnostima. Važno

je naglasiti da nam je kod odabira uzorka cilj odabrati onu skupinu ispitanika koja što bolje

reprezentira populaciju kojoj pripada jer nam to omogućuje bolje zaključivanje i predviđanje

pojava. Na temelju toga koliko dobro uzorak predstavlja ciljanu populaciju, moguće je

odrediti njegovu reprezentativnost za ciljanu populaciju, odnosno stupanj njegove

(ne)pristranosti. Na primjer, ukoliko se prilikom ispitivanja spremnosti maturanata za državu

maturu odlučimo zbog lake dostupnosti testirati samo manji razred naprednih učenika, zbog

pristranosti uzorka možemo očekivati da ćemo dobiti nerealno pozitivnu procjenu spremnosti

maturanata za testiranje.

Bez obzira na njegovu kvalitetu, treba imati na umu da uzorak nikada nije potpuni

preslik populacije. Naime, prilikom mjerenja uvijek smo izloženi određenim pogreškama

mjerenja o kojima će kasnije biti više riječi.

S obzirom na osobine uzorka na kojem provodimo istraživanje, razlikujemo dvije

temeljne kategorije, tzv. probabilističke i neprobabilističke uzorke. Probabilistički uzorci se

temelje na zakonima vjerojatnosti, odnosno kod njih svaki član populacije ima poznatu

vjerojatnost izbora u uzorak. Među probabilističke uzorke spadaju jednostavni slučajni,

sustavni, stratificirani, klaster i stupnjeviti uzorak. Za razliku od toga, kod neprobabilističkih

uzoraka nije poznata vjerojatnost izbora pojedinih članova populacije u uzorak. Iako to


11

predstavlja nedostatak, u određenim slučajevima su ovakvi uzorci jednostavniji za formiranje

i prikladniji s obzirom na potrebe istraživača. Među neprobabilističke uzorke spadaju

prigodni, kvotni, namjerni te uzorak „snježne grude“. U istraživanjima se najčešće koriste

sljedeće vrste uzoraka:

• JEDNOSTAVNI SLUČAJNI UZORAK: Uzorak kod kojeg svaki član populacije

ima jednaku vjerojatnost biti odabran, pri čemu se odabir može izvršiti putem, na primjer,

tablica slučajnih brojeva. Slučajni uzorak je obično i reprezentativan za populaciju, dok za

one uzorke kod kojih neki članovi imaju veću vjerojatnost da budu odabrani kažemo da su

pristrani.

• SUSTAVNI (SISTEMATSKI) UZORAK: Uzorak kod kojeg se članovi populacije

biraju uz pomoć nekog pravilnog algoritma (npr. svaki peti učenik u imeniku). Vrlo često je

ovaj uzorak također reprezentativan za populaciju, što dakako ovisi o korištenom algoritmu za

odabir ispitanika.

• STRATIFICIRANI UZORAK: Uzorak koji pokušava zadržati strukturu populacije

za koju znamo da se sastoji od određenih slojeva. Pritom se članovi svakog sloja biraju po

principu slučajnog uzorka. Na primjer, ako neku školu pohađa 25% učenika iz manjinskih

skupina, isti postotak tih učenika ćemo zadržati i u uzorku, pri čemu ćemo pojedinačne

učenike u tim skupinama odabrati po slučaju.

• KVOTNI UZORAK: Uzorak se bira tako da se odrede stratumi ili skupine (npr.

skupine učenika s različitim općim uspjehom), a istraživač po svom slobodnom izboru iz

svakog predviđenog stratuma odabere unaprijed definirani broj ispitanika (npr. po 30 učenika

s izvrsnim, vrlo dobrim, dobrim, dovoljnim i nedovoljnim uspjehom). Ovaj je uzorak sličan

stratificiranom uzorku, ali kod njega vjerojatnost izbora pojedinih članova populacije u

uzorak nije poznata.

• PRIGODNI UZORAK: Uzorak čija struktura nije unaprijed definirana, već se u

njega uključuju oni pojedinci koji su istraživaču dostupni, odnosno osobe koje zateknemo na

željenom mjestu u trenutku mjerenja. Ovaj se uzorak u praksi često koristi, jer se vrlo

jednostavno može praktično organizirati. Na primjer, profesori i studenti često provode

istraživanja na uzorcima učenika ili studenata koji su im lako dostupni i koje zateknu na

nastavi, što ne mora samo po sebi biti problematično. Međutim, primjenjivost ovakvog uzorka

jako ovisi o predmetu mjerenja te je stoga uvijek na početku važno razmisliti o tome hoće li

njegovo uključivanje na bilo koji način ugroziti planirano istraživanje.


12

Odabir uzorka predstavlja vrlo važan dio svakog istraživanja koji jako može utjecati

na kvalitetu dobivenih podataka te je na njega stoga posebno usmjeriti posebnu pažnju. Osim

odabira vrste uzorka i načina odabira ispitanika, važno je odrediti i broj ispitanika koje želimo

uključiti u uzorak. Prilikom određivanja veličine uzorka treba prije svega uzeti u obzir

varijabilnost pojave koju mjerimo i željenu preciznost koju bismo htjeli postići prilikom

mjerenja. Naime, ako ne postoji varijabilnost unutar pojave koju mjerimo, odnosno ako sve

osobe imaju jednako izraženo svojstvo, dovoljno nam je izmjeriti samo jednog ispitanika da

bismo dobili rezultat kojeg tražimo. Međutim, ako je pojava jako varijabilna, potrebno nam je

mnogo više ispitanika. Također, ako želimo veću preciznost unutar istraživanja i manju

pogrešku mjerenja, u istraživanje ćemo uključiti više ispitanika. U nekim situacijama kod

odabira veličine uzorka treba uzeti u obzir i veličinu populacije, frekvenciju ciljane pojave u

populaciji, planirane analize rezultata i mogući „otpad“, odnosno napuštanje istraživanja od

strane odabranih ispitanika. Načelno, prije početka istraživanja istraživač može uz pomoć

posebnih statističkih postupaka odrediti broj ispitanika koje bi trebao imati u uzorku ukoliko

želi imati određenu razinu preciznosti prikupljenih podataka. Čitatelj o tim postupcima više

može saznati u preporučenoj literaturi. Ovdje ćemo samo naglasiti kako je u pravilu važnije

da je uzorak reprezentativan nego pretjerano velik, te je stoga ključno obraditi pozornost na

kvalitetan odabir ispitanika u planirano istraživanje.

Organizacija i prikazivanje podataka

13

2. DESKRIPTIVNA STATISTIKA

Jednom kad ste prikupili određene podatke potrebno ih je organizirati, prikazati i statistički

obraditi. Metode deskriptivne statistike omogućuju nam upravo takvu organizaciju, opis i

osnovnu analizu prikupljenih podataka.

2.1. ORGANIZACIJA PRIKUPLJENIH PODATAKA I PRIKAZIVANJE

REZULTATA

Organizacija podataka prije svega uključuje kodiranje, odnosno kvantificiranje svih varijabli,

i njihovo unošenje u tablicu s podacima. Kod nekih varijabli je taj proces jednostavan jer su

izmjerene na metričkim skalama, pa podatke samo trebamo unijeti u tablicu. Na primjer, ako

smo u istraživanju zadovoljstvo životom mjerili korištenjem upitnika unutar kojeg su

ispitanici na pitanja odgovarali koristeći skalu od 5 stupnjeva (1 do 5), rezultate ispitanika već

imamo u brojčanoj formi i samo ih takve trebamo unijeti. Treba spomenuti da će i takve

podatke ponekad trebati promijeniti, odnosno rekodirati, o čemu će biti riječi u poglavlju

posvećenom korištenju računalnih programa prilikom obrade podataka.

Nešto je složeniji proces kodiranja nominalnih varijabli koje nisu unaprijed

kvantificirane, odnosno pretvaranja opisnih vrijednosti unutar tih varijabli u brojeve. Na

primjer, varijablu spola ispitanika ne možete koristiti u statističkoj obradi ukoliko ga nekako

(proizvoljno) brojčano ne odredite, tako da primjerice kodu „muški“ dodijelite broj 1, a kodu

„ženski“ broj 2. Uz to, prilikom kodiranja dobro je razmisliti kako ćete riješiti situacije u

kojima neki podaci nedostaju jer npr. ispitanik nije dao podatke ili su vam napisani odgovori

nečitljivi. Pritom trebate odlučiti kako ćete te podatke kodirati i kasnije ih tretirati u

statističkim analizama. Najčešće je dobro dodati dodatan kod, odnosno brojčanu vrijednost

koja predstavlja kategoriju „nema odgovora“ i koju nećete pomiješati s ostalim vrijednostima

koje su se pojavili unutar varijable. Te ćemo podatke još spominjati u 5. poglavlju.

Nakon toga, u većini slučajeva možete prikupljene podatke unijeti u tablicu s

podacima. Najčešće ćete tu tablicu organizirati unutar prikladnog računalnog programa, bilo

Microsoft Excela ili nekog specijaliziranog programa za statističku obradu podataka. Bez

obzira na to kakav program pritom budete koristili, podatke ćete unijeti na način da u redove

tablice smještate pojedine ispitanike, a u stupce varijable koje ste izmjerili unutar istraživanja.

Ukoliko ste u istraživanju s istim instrumentima (anketama, upitnicima, testovima) ispitali


14

četiri različite skupine ispitanika, primjerice učenike različitih škola, sve njihove podatke ćete

dakako unijeti u istu tablicu jer njihova pripadnost pojedinoj skupini samo odražava neku

kategoriju jedne od varijabli unutar vašeg istraživanja (vrsta škole).

Ponekad ćete nakon unosa izmjerenih podataka u tablici primijetiti da su podaci unutar

nekih varijabli jako raspršeni i da ih je teško smisleno prikazati. U takvim slučajevima, ovisno

o vrsti i broju tih podataka, možete se odlučiti podatke grupirati u razrede.

2.1.1. Grupiranje prikupljenih podataka u razrede

Nakon što smo prikupili željene podatke, cilj nam je što bolje ih organizirati kako bismo ih

mogli grafički ili tablično predočiti, provjeriti oblik njihove distribucije (raspodjele) i prije

statističke obrade provjeriti pogodnost primjene određenih statističkih postupaka. Svaka bi

statistička obrada trebala započeti grafičkim prikazom rezultata. Često nam to prikazivanje,

kao i daljnju statističku analizu, olakšava grupiranje podataka. Takvo grupiranje nema smisla

raditi ako među prikupljenim podacima imamo mali broj mogućih vrijednosti (npr. kod

školskih ocjena radi se o pet vrijednosti). Međutim, ono nam može jako koristiti ako imamo

veliki raspon mogućih podataka, naročito ako neki od njih imaju male frekvencije (npr. ako

smo izmjerili kvocijent inteligencije na skupini od 25 učenika koji su postigli rezultate u

rasponu od 86 do 137).

Kako grupirati rezultate?

Proces grupiranja rezultata može se opisati kao slijed nekoliko koraka:

1. Određivanje broja razreda u koje želimo grupirati rezultate. Taj se broj određuje

proizvoljno, u skladu s dolje navedenim preporukama.

2. Određivanja raspona unutar svakog razreda, tzv. intervala razreda. Interval razreda

računa se po formuli:

interval razreda = totalni raspon / broj razreda.

Totalni raspon (TR) se odnosi na ukupni broj mogućih rezultata, kojeg računamo kao

razliku najvećeg i najmanjeg rezultata uvećanu za jedan:

TR = (xmax – xmin) +1

xmax – najveći izmjereni rezultat

xmin – najmanji izmjereni rezultat


15

Nakon što smo izračunali vrijednost intervala razreda, dobiveni omjer možemo

zaokružiti na veću vrijednost (nikada manju) i tako osigurati da nam svi izmjereni

rezultati uđu u predviđene razrede.

3. Određivanje donje i gornje granice svakog razreda. U pravilu se granice razreda

određuju tako da preciznošću odgovaraju mjerenim podacima. Dakle, ako imamo

rezultate koji su u formatu cijelih brojeva, onda i granice razreda određujemo kao

cijele brojeve. Osim toga, moguće je odrediti i tzv. pravu gornju i pravu donju granicu

razreda o kojima možete više saznati u preporučenoj literaturi.

4. Prikazivanje distribucije rezultata, odnosno određivanje frekvencije rezultata u

svakom razredu. Frekvencija (učestalost) nekog podatka je broj pojavljivanja tog

podatka – npr. u skupini rezultata „1, 1, 2, 2, 2, 3“ broj 1 ima frekvenciju 2, broj 2

frekvenciju 3, a broj 3 frekvenciju 1. Osim frekvencije, za svaki podatak moguće je

izračunati i proporciju ili relativnu frekvenciju koja predstavlja omjer obične

frekvencije i ukupnog broja podataka (npr. relativna frekvencija broja 2 u prethodnom

primjeru je 3/6, odnosno 0.5), te postotak koji predstavlja omjer obične frekvencije i

ukupnog broja podataka pomnožen sa 100 (broj 2 se u prethodnom primjeru pojavio u

50% slučajeva). Zbroj proporcija svih rezultata iznosi 1, a postotaka 100.

Kod grupiranja rezultata neke korake i vrijednosti određujemo samostalno, odnosno

proizvoljno (npr. broj razreda u koje želimo grupirati podatke), dok su nam drugi unaprijed

definirani. Prilikom grupiranja podataka u razrede moguće je, a ponekad i nužno, slijediti

nekoliko preporuka za grupiranje rezultata:

• Intervali razreda (kvantitativne kategorije) ne smiju se preklapati, odnosno svaki

izmjereni podatak mora biti smješten u jedan razred.

• Svi intervali razreda trebaju biti jednake veličine.

• Treba preferirati neparan broj razreda.

• Preporučljivo je da broji razreda bude u rasponu od 5-15.

• Što je broj mjerenja manji, broj razreda treba biti manji, i obrnuto.

• Ako je moguće, treba izbjegavati distribucije s praznim razredima.

• Ponekad je teško iz prvog pokušaja odabrati optimalan broj razreda. Zato je prilikom

odabira broja razreda preporučljivo pokušati s više mogućih načina grupiranja, pa

odabrati onaj koji daje najbolju distribuciju.


16

Primjer grupiranja rezultata

Grupirajte sljedeću skupinu podataka koji predstavljaju bodove koje je grupa od 40 učenika

postigla na testu iz matematike.

72 66 55 74 78 70 83 76

84 68 60 77 54 76 80 68

70 86 67 81 61 72 65 70

61 61 70 63 61 69 69 80

64 57 71 59 68 71 76 73

Želimo grupirati rezultate i za to odabiremo broj od 5 razreda. Taj broj je opravdan s

obzirom na to da želimo neparni broj razreda te da imamo relativno mali broj izmjerenih

podataka. Zatim izračunavamo interval razreda koji predstavlja omjer totalnog raspona

(ukupni broj rezultata ((86-54)+1=32+1=33)) i proizvoljno odabranog broja razreda (5).

Dakle, računamo 33/5=6.6. To ćemo zatim zaokružiti na 7.

Sljedeći korak je određivanje gornjih i donjih granica pojedinačnih razreda. Kod

odabira početne vrijednosti, odnosno donje granice prvog razreda krećemo od 53. Iako se radi

o broju koji je manji od najmanje izmjerene vrijednosti, biramo ga zbog prethodnog

zaokruživanja vrijednosti. S obzirom na to da nam je interval razreda 7, gornja granica prvog

razreda mora biti 59 što omogućuje da se u njemu nađe 7 mogućih rezultata (53, 54, 55, 56,

57, 58, 59). Na isti način možemo odrediti donje i gornje granice svakog sljedećeg razreda.

Nakon što smo odredili granične vrijednosti pojedinačnih razreda, trebamo smjestiti

rezultate u razrede, odnosno odrediti frekvenciju rezultata unutar svakog od njih. U tu svrhu

možemo koristiti dolje prikazanu pomoćnu tablicu. Prilikom popunjavanja tablice idemo

rezultat po rezultat i označavamo koje smo rezultate uvrstili u tablicu. U donjoj tablici

prikazani su rezultati grupiranja rezultata iz prethodnog primjera.

Pomoćna tablica za grupiranja rezultata u razrede

Razred Granice razreda Frekvencija Ukupni broj rezultata

1. 53-59 4

2. 60-66 9

3. 67-73 15

4. 74-80 8

5. 81-87 4


17

2.1.2. Tablično i grafičko prikazivanje podataka

Podaci prikupljeni u nekom istraživanju mogu se prikazati slikovno, uz pomoć grafičkog

prikaza, i tablično. Nema previše smisla prikazivati iste podatke i tablično i grafički pa se,

ovisno o ciljevima i preglednosti prikaza, treba odlučiti za jednu od ovih metoda. U

organizaciji tabličnih i grafičkih prikaza treba biti fleksibilan, i uskladiti ih s ciljevima

prikazivanja. Također, ovisno o tome gdje se tablica ili graf prikazuju, oni se moraju / mogu

formatirati, odnosno organizirati i pripremiti u skladu s relevantnim konvencijama. Na

primjer, postoje pravila na temelju kojih se prikazuju rezultati u završnim i diplomskim

radovima, dok različiti znanstveni časopisi također imaju definirane konvencije izvještavanja

o rezultatima koje treba poštivati.

I. Tablično prikazivanje podataka

Nekoliko je smjernica koje treba poštivati prilikom tabličnog prikazivanja podataka.

• Svaka tablica mora imati redni broj i naslov. Naslov mora biti kratak i jasan, a tablica

“samo-pojašnjavajuća”. Ukoliko je potrebno, ispod tablice se može dodati i Legenda koja

pojašnjava eventualne skraćenice ili informacije koje inače iz same tablice ne bi bile

jasne. Dodatna pojašnjenja moraju biti naznačena uz tablicu, a ne u tekstu. Čitatelj mora

razumjeti sadržaj tablice bez čitanja teksta, dakle na temelju naslova, legende i onoga što

se u tablici nalazi.

• Naslov tablice smješta se iznad tablice, i treba biti centriran na stranici. Tekst “Tablica br”

se piše kosim slovima (bez točke nakon broja), a sam naslov tablice u običnom tekstu.

Veličina slova u naslovu tablice treba biti malo manja od veličine slova u ostatku teksta.

Tablica treba biti centrirana na stranici.

• U tablicama treba izbjegavati okomite crte, a vodoravnima treba odvajati zaglavlje i

podnožje tablice, ili pak neke veće cjeline tablice međusobno.

• Stupce i retke treba jasno i sažeto označiti. Vrijednosti u redovima ili stupcima treba

smisleno poredati (npr. najprije prikazati aritmetičku sredinu, pa onda standardnu

devijaciju, a ne obrnuto). Najčešće je uputno prikazane veće brojeve razložiti u skupove

po 3 znamenke (npr. umjesto 457635 napisati 457 635). Ako se neki podatak iz tablice

želi istaknuti (npr. statistička značajnost), to se može učiniti zvjezdicom čije značenje

treba dodatno komentirati ispod tablice.


18

• Tablicu se u tekstu navodi njezinim rednim brojem (npr. u tekstu navesti „vidi Tablicu 3“;

ili „u Tablici 3 nalaze se rezultati“, ili u zagradi napisati „Tablica 3“ nakon rečenice koja

spominje u njoj prikazane podatke).

Primjeri tablica organiziranih prema gornjim naputcima

Tablica 1

Aritmetičke sredine (M) i standardne devijacije (SD) rezultata dobivenih primjenom skala

depresivnosti i zadovoljstva životom kod mlađih i starijih građana Hrvatske i Francuske.

Skale Dob

ispitanika Hrvatska Francuska

M SD M SD

Depresivnost

Mladi 75 11.2 77 14.1

Stari 83 13.3 82 15.2

Svi 82 12.5 80 14.6

Zadovoljstvo

životom

Mladi 55 17.5 71 14.5

Stari 64 18.2 62 14.6

Svi 58 18.0 66 14.4

Tablica 2

Broj studenata i studentica upisanih na studijske grupe Pedagogija i Povijest u akademskoj godini

2000/2001.

Spol

studenata

Studijska grupa

Ukupno

Pedagogija Povijest

Ženski 29 16 45

Muški 1 14 15

Ukupno 30 30 60


19

II. Grafičko prikazivanje podataka

Slikovni prikazi koriste se za pregledno prikazivanje važnih informacija vezanih uz

provedeno istraživanje. Grafovi predstavljaju jedan oblik slikovnih prikaza koji omogućuju

jasno i cjelovito zahvaćanje odnosa među podacima. Grafičko prikazivanje je korisno za

razumijevanje dobivenih rezultata, a može se koristiti i za procjenjivanje vrijednosti koje

mjerenjem nisu izravno utvrđene korištenjem metoda interpolacije i ekstrapolacije. Grafičko

prikazivanje rezultata je naročito važno za otkrivanje posebnih ili neočekivanih karakteristika

rezultata, te nam olakšava usporedbu različitih vrijednosti, trendova i odnosa među

rezultatima.

Općenita preporuka prilikom grafičkog prikazivanja jest da treba što jasnije i

jednostavnije prikazati dobivene rezultate. Kako biste u tome uspjeli, možete slijediti nekoliko

jednostavnih principa:

• Svaki slikovni prikaz mora imati redni broj i naslov. Prilikom označavanja, grafovi i

drugi oblici slikovnih prikaza se nazivaju “Slika br.”, nakon čega slijedi kratak i jasan

naslov.

• Redni broj i naslov slikovnog prikaza smještaju se ispod grafičkog prikaza. Tekst

“Slika br.” se piše kosim slovima (s točkom nakon broja), a sam naslov slike u

običnom tekstu. Veličina slova i prored u naslovu slike trebaju biti malo manji od

veličine slova u ostatku teksta. Slikovni prikaz treba biti centriran na stranici.

• U velikom broju slučajeva, grafičkom prikazu treba dodati Legendu koja sadrži

objašnjenja potrebna za razumijevanje prikaza. Čitatelj mora razumjeti sadržaj slike

bez čitanja teksta, dakle na temelju naslova, legende i samog grafičkog prikaza.

• Slikovni prikaz treba biti jasan i čitljiv. Posebnu pažnju treba posvetiti odabiru boja

različitih kategorija, veličini i čitljivosti slova na slici, i sl.

• Navođenje grafičkog prikaza u tekstu čini se preko rednog broja slike (npr. vidi Sliku

1).

Postoje različite vrste grafičkih prikaza podataka čiji odabir ovisi o vrsti prikupljenih

podataka i cilju njihovog prikazivanja. Među njima najčešće koristimo histograme i poligone

frekvencija, i to prije svega za prikazivanje raspodjele podataka unutar različitih varijabli.

Osim njih, dakako, postoje i brojne druge vrste grafičkih prikaza od kojih ćemo ovdje

spomenuti samo one najosnovnije.


20

• Kružni dijagram (torta-dijagram; eng. “pie-chart”)

Ovaj oblik grafičkog prikaza koristi se za prikazivanje raspodjele podataka unutar neke

varijable, odnosno za prikazivanje učestalosti pojave pojedinih kategorija neke varijable.

Dakle, u kružnom dijagramu trebaju biti vidljive pojedine kategorije varijable i postotci

podataka unutar tih kategorija. Radi se o jednostavnom obliku slikovnog prikaza koji je

koristan za prezentaciju nekih osnovnih informacija iz provedenog istraživanja, naročito

ukoliko se ti podaci žele prezentirati neznanstvenoj javnosti. U pravilu se ovim prikazima

zbog preglednosti izvještava o raspodjelama varijabli s malim brojem kategorija. Pritom je

važno jasno naznačiti koji dijelovi kružnog dijagrama prikazuju pojedinačne kategorije što se,

ovisno o broju kategorija i preglednosti, može prikazati u posebnoj legendi ili unutar samog

dijagrama (Slika 1).

Primjer grafičkog prikaza – kružni dijagram:

Slika 1. Uspjeh studenata I. godine na ispitu iz Pedagoške psihologije. Prikazan je postotak studenata

koji su na ispitu dobili pojedinačne ocjene.

• Dijagram u obliku stupaca / stupčasti dijagram

Dijagram u obliku stupaca / stupčasti dijagram prikazuje odnos između neke kvalitativne

varijable i njezine frekvencije. Sastoji se od niza pravokutnika čije površine (i visine)

odgovaraju frekvenciji svake kategorije. Pritom se na apscisi (os x) nanose vrijednosti

pojedinih kategorija, dok se na ordinati (os y) najčešće mogu naći frekvencije. Poseban oblik

ovog grafičkog prikaza predstavlja histogram.

• Histogram

Histogram predstavlja stupčasti dijagram s kontinuiranim varijablama. Sastoji se od niza

pravokutnika čije površine (i visine) odgovaraju frekvenciji svakog intervala. Pritom se na


21

apscisi (os x) nanose vrijednosti mjerenja, dok se na ordinati (os y) najčešće mogu naći

frekvencije.

Primjer grafičkog prikaza – histogram frekvencija:

Slika 2. Raspodjela ocjena na kraju školske godine kod 60 učenika i 60 učenica trećih razreda

područne škole X.

• Poligon frekvencija

Poligon frekvencija prikazuje odnos između neke varijable i njezine frekvencije. Predstavljen

je linijom koju definiraju točke čija visina pokazuje frekvenciju svakog intervala. Histogram

se lako može transformirati u poligon frekvencija ukoliko se na sredinu gornje linije svakog

pravokutnika postavi točka koja onda predstavlja osnovu za izradu poligona.

Primjer grafičkog prikaza – poligon frekvencija:

Slika 3. Raspodjela ocjena na kraju školske godine kod skupine od 60 učenika i 60 učenica trećih

razreda područne škole X.


22

Prilikom izrade stupčastog dijagrama, histograma i poligona frekvencija treba voditi

računa o:

• Odnosu dužine apscise i ordinate: Dužina ordinate treba biti oko 2/3 dužine

apscise.

• Prekidanju apscise ili ordinate;

• Označavanju jedinica na osima: Nije potrebno označavati sve izmjerene

vrijednosti, već treba nanositi uporišne vrijednosti, obično cijele brojeve.

• Organizaciji ordinate: Kod ovih grafičkih pristupa na osi y najčešće se nalazi

frekvencija, iako se ponekad mogu koristiti i postotci ili proporcije.

• Optimalnoj organizaciji: Pomoću ovih grafičkih prikaza može se prikazati i

više od jedne distribucije. Pritom treba biti pažljiv u organizaciji grafa i ne

zaboraviti uz njega prikazati jasnu legendu.

Isti ili slični principi vrijede i za grafičke prikaze koji opisuju odnos dviju varijabli,

odnosno pokazuju kako se jedna varijabla mijenja pod utjecajem druge varijable. Pritom se

načelno na os x nanosi nezavisna, a na os y zavisna varijabla.

Osim ovdje spomenutih postoji još i brojni drugi oblici grafičkih prikaza koji se u

manjoj mjeri koriste prilikom osnovnog izvještavanja o raspodjelama dobivenih podataka.

Tako, na primjer, tzv. box & whisker plot oblik grafičkog prikazivanja može biti koristan za

identifikaciju ekstremnih rezultata unutar nekog skupa podataka, dok se tzv. scatterplot

grafički prikaz koristi za prikazivanje povezanosti među varijablama. Načelno, mnogo je vrsta

grafičkih prikaza, kao i njihovog načina formatiranja, od kojih istraživač prilikom

izvještavanja o rezultatima sam mora odabrati njemu najprimjerenija rješenja. Pri izradi

grafičkih prikaza u pravilu se služimo računalnim programima, od kojih Microsoft Excel kao i

računalni programi za statističku obradu podataka nude brojne mogućnosti koje su često

dovoljne za primjereno prikazivanje rezultata. U ovom priručniku prikazane su samo osnovne

informacije o grafičkom prikazivanju rezultata, dok detaljnije informacije o ovoj temi možete

pronaći u preporučenoj literaturi.

Mjere središnjih vrijednosti i raspršenja rezultata

23

2.2. MJERE SREDIŠNJIH VRIJEDNOSTI

Računanje središnje vrijednosti predstavlja jedan od najčešće primjenjivanih statističkih

postupaka kojeg koristimo kako bismo sažeto i zorno prikazali određeni skup podataka.

Računanjem središnje vrijednosti cijeli skup podataka zamjenjujemo jednom vrijednošću za

koju smatramo da ga dobro reprezentira, te stoga moramo biti jako pažljivi prilikom odabira

prikladne mjere središnje vrijednosti.

2.2.1. Aritmetička sredina

Aritmetička sredina (M) predstavlja jednu od najčešće korištenih mjera središnjih vrijednosti.

Ona se smatra najboljim pokazateljem prave vrijednosti mjerenja, i jedina je vrijednost koju je

opravdano koristiti u složenijim obradama podataka. Aritmetička sredina određuje se kao

omjer zbroja svih vrijednosti u nekom skupu i ukupnog broja opažanja.

N

xM

x – svaki pojedinačni rezultat mjerenja

Σ – sigma, simbol za zbroj

N – broj rezultata

Aritmetička sredina predstavlja težište rezultata, jer je zbroj odstupanja pojedinačnih

rezultata od aritmetičke sredine jednak 0, dok je zbroj kvadrata tih odstupanja manji od zbroja

kvadrata odstupanja od bilo koje druge vrijednosti u nekom skupu podataka. Treba naglasiti

da je aritmetičku sredinu opravdano koristiti samo ako su ispunjeni sljedeći uvjeti:

• Postoje pravi mjerni podaci koji su točno određeni barem na intervalnoj mjernoj

skali.

• Izmjeren je dovoljan broj podataka (veći od 30).

• Svi rezultati su dobiveni mjerenjem u istim uvjetima.

• Distribucija rezultata je normalna (vidi Poglavlje 2.4.1), dakle i simetrična.

S obzirom na to da na vrijednost aritmetičke sredine djeluje svaki rezultat svojom

veličinom, kod računanja aritmetičke sredine veliki problem predstavlja postojanje

ekstremnih vrijednosti, odnosno rezultata koji jako odstupaju od većine izmjerenih vrijednosti

unutar jednog skupa. Općenito, što su podaci unutar nekog skupa podataka homogeniji,

aritmetička sredina bolje reprezentira taj skup.


24

Primjer računanja aritmetičke sredine:

Mjerenjem smo dobili sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8. Izračunajte

aritmetičku sredinu.

4.415

66

15

876655444433322

M

2.2.2. Centralna vrijednost (medijan)

Za razliku od aritmetičke sredine, centralna vrijednost (C) nije vrijednost koju možete

direktno izračunati uz pomoć neke formule, te se stoga za nju može reći da predstavlja

vrijednost položaja. Naime, centralna vrijednost predstavlja onaj rezultat koji se u nizu

rezultata poredanih po veličini nalazi točno po sredini. Na nju ne utječu vrijednosti pojedinih

rezultata već samo njihov broj, te je stoga pogodna za korištenje u situacijama kada se unutar

skupa podataka može pronaći nekoliko ekstremnih rezultata.

Prilikom određivanja centralne vrijednosti najprije je potrebno odrediti položaj te

vrijednosti (RC) u nizu rezultata poredanih po veličini. Pritom se koristi formula:

5.02

NRc


Nakon što smo odredili položaj centralne vrijednosti, moramo odrediti i njezinu

vrijednost. Ukoliko pred sobom imamo neparni broj rezultata, onda samo trebamo očitati onu

vrijednost koja se nalazi na rednom položaju kojeg smo izračunali u prethodnoj formuli. Ako

se radi o parnom broju rezultata, onda je centralna vrijednost jednaka prosjeku dviju susjednih

vrijednosti. Npr. ako imamo pet rezultata, centralna vrijednost je ona koja se nalazi na trećem

mjestu, a ako ih imamo četiri onda se radi o prosjeku (aritmetičkoj sredini) rezultata koji se

nalaze na drugom i trećem mjestu.

Primjer računanja centralne vrijednosti:

Mjerenjem smo dobili sljedeće rezultate: 7, 8, 4, 2, 3, 3, 3, 4, 2, 5, 4, 4, 5, 6, 6. Izračunajte

centralnu vrijednost.

Najprije treba poredati rezultate po veličini: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8.

85.02

15Rc ; C = 4


25

2.2.3. Dominantna vrijednost (mod)

Dominantna vrijednost (D) predstavlja onu vrijednost koja među rezultatima dominira

čestinom pojavljivanja, odnosno onu vrijednost koja ima najveću frekvenciju. Na nju utječe

samo broj, ali ne i vrijednost pojedinačnih rezultata. Stoga se preporučuje koristiti ju ako

imamo velik broj rezultata od kojih neki mogu biti i ekstremni, te ako samo jedna vrijednost

dominira čestinom. Naime, često se događa da skupina rezultata nema samo jednu, već više

vrijednosti s jednakom najvećom frekvencijom. U slučaju da npr. distribucija ima dva ili više

jednakih vrhova tada se očitaju dvije ili više dominantnih vrijednosti, te govorimo o

bimodalnim (distribucija s dvije dominantne vrijednosti) ili multimodalnim (distribucija s više

od dvije dominantne vrijednosti) distribucijama. Iako dominantna vrijednost predstavlja

najslabiju mjeru središnjih vrijednosti, u nekim situacijama i ona može biti informativna i

korisna.

Primjer računanja dominantne vrijednosti:

Mjerenjem smo dobili sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8. Odredite

dominantnu vrijednost.

D = 4

2.2.4. Ostale mjere središnjih vrijednosti

Osim gore spomenutih, ponekad se mogu koristiti i druge mjere središnjih vrijednosti. One

uključuju harmoničnu i geometrijsku sredinu koje se mogu koristiti samo kod omjernih skala

mjerenja.

Harmonična sredina se koristi kada želimo izračunati prosjeke nekih odnosa (npr.

prosječni km/h, broj slova u minuti), a smije se računati ako broj nije negativan ili nula.

Geometrijska sredina se pretežno koristi kao prosječna mjera brzine nekih promjena,

te se također smije računati ako broj nije negativan ili nula.

Važna napomena:

U nekim skupovima moguće je izračunati više od jedne mjere središnjih vrijednosti,

najčešće aritmetičku sredinu, centralnu vrijednost i dominantnu vrijednost. Ako to napravimo,

usporedba ovih vrijednosti nešto nam može reći i o obliku distribucije (raspodjele) rezultata, o

čemu će biti govora kasnije.


26

2.3. MJERE RASPRŠENJA REZULTATA

Kao što smo opisali u prethodnom poglavlju, deskriptivna statistika omogućuje nam da cijeli

skup podataka zamijenimo jednom, središnjom vrijednošću. Ta nam vrijednost, međutim, ne

govori ništa o tome koliko taj podatak dobro reprezentira izmjerene podatke.

Na primjer, zamislite tri skupa podataka: „30 30 40 40 40 40 40 50 50“, „10 10 20 20

30 40 50 60 60 70 70“ i „10 10 10 10 70 70 70 70“. Aritmetička sredina ova tri skupa

podataka je jednaka i iznosi 40. To znači da ta vrijednost predstavlja, a na neki način i

zamjenjuje podatke tih skupova. U slučaju prvog skupa, vrijednost 40 tako zamjenjuje devet

različitih podataka čije su vrijednosti jednake ili bliske prosječnoj (30, 40, 50), dok nam u

drugom skupu predstavlja i druge, znatno udaljenije vrijednosti kao što su 10 ili 70. Na kraju,

u trećem skupu podataka aritmetička sredina 40 zamjenjuje osam vrijednosti koje se svi od

nje jako razlikuju. Dakle, u tom je slučaju aritmetička sredina jako slab predstavnik skupa na

temelju kojeg je izračunata, te se u ovom slučaju ne bi smjela ni računati. Stoga su

informacije o međusobnom razlikovanju rezultata jako važne, i u istraživanjima u pravilu

moraju uvijek biti dostupne. Njih nam nude neke od mjera raspršenja (razlikovanja) rezultata

koje ćemo sada opisati.

2.3.1. Raspon rezultata

Raspon podataka poredanih prema veličini predstavlja razliku najvećeg i najmanjeg podatka.

Radi se o vrlo jednostavnoj mjeri raspršenja koja je intuitivno lako razumljiva. Međutim, ona

počiva na samo dvije vrijednosti rezultata te je stoga jako osjetljiva na ekstremne rezultate.

Osim toga, raspon najčešće raste s porastom broja mjerenja (rezultata), te predstavlja vrlo

nesigurnu mjeru raspršenja rezultata. Prilikom izvještavanja o rasponu rezultata najčešće je

korisno navesti i najveće i najmanje izmjerene vrijednosti, a ne njihovu razliku.

Raspon = xmax – xmin

Primjer računanja raspona rezultata:

Mjerenjem smo dobili sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8. Odredite

raspon rezultata.

Raspon = 8 - 2 = 6


27

2.3.2. Varijanca

Varijanca (SD2) predstavlja jednu od informativnijih mjera raspršenja rezultata koja se smije

računati samo uz aritmetičku sredinu. Varijanca predstavlja prosjek sume kvadriranih

odstupanja svakog rezultata od aritmetičke sredine. Dakle, varijanca se računa tako da

izračunamo razliku između svakog rezultata i aritmetičke sredine, zatim te razlike kvadriramo

i zbrojimo, te na kraju zbroj podijelimo s ukupnim brojem rezultata.

N

MxSD

2

2)(

x – svaki pojedinačni rezultat mjerenja

M - aritmetička sredina


Kao što je vidljivo iz formule, kod računanja varijance veća odstupanja kvadriranjem

dolaze više do izražaja, te se na taj način „kažnjava“ postojanje ekstremnih rezultata u

mjerenju. Općenito, varijanca se kao samostalna vrijednost ne koristi često, iako je ona vrlo

korisna prilikom provođenja složenijih statističkih analiza o čemu više možete saznati u

preporučenoj literaturi.

Važno je naglasiti da se gore napisana formula za varijancu načelno koristi kada

radimo s podacima iz cijele populacije. Ukoliko su naši podaci dobiveni mjerenjem uzorka,

preciznije je koristiti modificiranu formulu:

1

)( 2

2

N

MxSD

Primjer računanja varijance:

Mjerenjem (na vrlo maloj populaciji) dobili smo sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4. Odredite

varijancu dobivenih rezultata.

Najprije određujemo aritmetičku sredinu rezultata, a zatim varijancu:

37

21

7

4433322

M

57.07

4

7

)34()34()33()33()33()32()32( 22222222

SD


28

2.3.4. Standardna devijacija

Standardna devijacija (SD) usko je povezana s varijancom. Ona predstavlja drugi korijen iz

vrijednosti varijance, odnosno drugi korijen iz prosjeka sume kvadriranih odstupanja

pojedinačnih rezultata od aritmetičke sredine. Slično kao i kod varijance, i za računanje

standardne devijacije postoje dvije formule – jednu koristimo kad imamo podatke mjerene na

populaciji, a drugu ukoliko su podaci izmjereni na uzorku. U praksi to znači da ćemo najčešće

koristiti formulu za mjerenje na uzorku, s obzirom na to da vrlo rijetko imamo priliku

izmjeriti sve jedinke neke ciljane populacije.

Mjerenje na populaciji Mjerenje na uzorku

N

MxSD

2)(

1

)( 2

N

MxSD

x –pojedinačni rezultat mjerenja



Standardna devijacija je najčešće korištena mjera raspršenja koju u pravilu uvijek

treba navoditi uz aritmetičku sredinu. Najjednostavnije rečeno, to je vrijednost koja označava

tipičnu, ili prosječnu kvadriranu razliku između pojedinačnih rezultata i aritmetičke sredine

nekog skupa. Što je standardna devijacija manja, to nam aritmetička sredina bolje reprezentira

dobivene rezultate jer se oni u prosjeku manje razlikuju od nje. Kao ni varijanca, ni

standardna devijacija ne računa se uz ostale mjere središnjih vrijednosti, već samo uz

aritmetičku sredinu. Ako poznajemo vrijednosti aritmetičke sredine i standardne devijacije za

neki skup rezultata, možemo rekonstruirati još neke njegove karakteristike, o čemu će biti

riječi u idućem poglavlju.

Primjer računanja standardne devijacije:

Mjerenjem (na vrlo maloj populaciji) dobili smo sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4. Odredite

standardnu devijaciju dobivenih rezultata.

Najprije određujemo aritmetičku sredinu rezultata, a zatim standardnu devijaciju:

37

21

7

4433322

M

75.057.07

4

7

)34()34()33()33()33()32()32( 2222222

SD


29

2.3.5. Koeficijent varijabilnosti

Kada su nam za dva skupa podataka poznate dvije aritmetičke sredine i standardne devijacije,

možemo reći da smo te skupove relativno cjelovito definirali. Na prvi pogled se može činiti

da je na temelju tih informacija lako brzo odrediti koji od ta dva skupa ima veću, a koji manju

aritmetičku sredinu i varijabilitet. Međutim, kao što ćete naučiti u poglavlju o inferencijalnoj

statistici, ukoliko naši skupovi podataka predstavljaju uzorke, zaključak o postojanju

„statistički stvarnih“, odnosno statistički značajnih razlika između aritmetičkih sredina treba

provjeriti posebnim statističkim testovima (npr. t-test ili analiza varijance). Ali, ukoliko naši

skupovi podataka predstavljaju populacije, odnosno ako smo u njih uključili sve jedinice koje

nas zanimaju, aritmetičke sredine zaista možemo jednostavno matematički usporediti i

odrediti koja je od njih veća, a koja manja. Ukoliko su aritmetičke sredine potpuno jednake, i

standardne devijacije možemo usporediti na isti način. Međutim, ako se aritmetičke sredine

dva ciljana skupa podataka razlikuju, nije nam dopušteno jednostavno usporediti njihove

standardne devijacije kako bismo odredili koji od ta dva skupa rezultata više varira.

Umjesto toga, trebamo izračunati drugu, standardiziranu mjeru raspršenja koju

nazivamo koeficijent varijabilnosti (V). Ovaj koeficijent koristimo kada želimo znati koja od

dvije ili više skupina rezultata relativno više varira, odnosno ako nas zanima: (a) u kojem

svojstvu neka skupina varira više, a u kojem manje ili (b) koja od ispitanih skupina varira

više, a koja manje u istom svojstvu.

100M

SDV

SD – standardna devijacija

M – aritmetička sredina

Primjer računanja koeficijenta varijabilnosti:

Prilikom primjene dva testa, jednog kratkog testa s pet pitanja i jednog dužeg s 50 pitanja,

dobiveni su sljedeći rezultati: a) 2, 2, 3, 3, 3, 4, 4 i b) 20, 30, 30, 30, 30, 30, 40. Odredite koji

od ova dva skupa ima veći varijabilitet.

Najprije računamo aritmetičku sredinu i standardnu devijaciju rezultata. Te ćemo

vrijednosti uvrstiti u formulu za koeficijent varijabilnosti.

Prvi skup podataka:

37

21

7

4433322

aM


30

75.057.07

4

7

)34()34()33()33()33()32()32( 2222222

aSD

%2510025.01003

75.0 xVa

Drugi skup podataka:

307

210

7

40303030303020

Mb

35.557.287

200

7

)3040()3030()3030()3030()3030()3030()3020( 2222222

bSD

%8.17100178.010030

35.5 xVa

Iako ima manju standardnu devijaciju, varijabilitet je veći u prvom skupu podataka.

2.3.6. Ostale mjere raspršenja

Osim gore spomenutih, ponekad se mogu koristiti i druge mjere raspršenja rezultata.

Jedna od tih mjera koja nam može biti od koristi naziva se poluinterkvartilno

raspršenje, odnosno interkvartilni raspon. Ova se mjera računa uz centralnu vrijednost, na

rezultatima poredanim po veličini. Određuje se kao razlika između rezultata koji se nalazi na

granici trećeg ili gornjeg kvartila (rezultat koji razdvaja 75% najnižih rezultata od onih većih)

i onoga koji se nalazi na granici prvog ili donjeg kvartila (rezultat koji razdvaja 25% najnižih

podataka od ostalih). Više o računanju poluinterkvartilnog raspršenja saznajte u preporučenoj

literaturi.

Osim spomenutih, postoje i druge mjere raspršenja, npr. indeks srednjeg odstupanja

s kojim ćete se rijetko susretati.

Distribucije rezultata

31

2.4. DISTRIBUCIJE REZULTATA

Distribuciju (raspodjelu) rezultata čine sve učestalosti, odnosno pojedinačni rezultati i

njihove frekvencije unutar nekog skupa podataka. Kao što već znate, postoji veliki broj

različitih oblika distribucija od kojih smo neke već spominjali. Kratak pregled nekih oblika

distribucija prikazan je na Slici 4.

Kvadratična /

uniformna U - distribucija Bimodalna Normalna

Slika 4. Oblici nekoliko različitih vrsta distribucija.

2.4.1. Normalna distribucija

Normalna distribucija (Slika 5) predstavlja temeljni oblik distribucije koji u statistici ima

neobično veliku važnost. Ona predstavlja osnovu za razumijevanje pojmova statističke

vjerojatnosti. Ponekad se, prema njemačkom matematičaru C. Gaussu, naziva i Gaussova

krivulja. Njezine temeljne osobine su zvonolik oblik, simetričnost i asimptotsko približavanje

apscisi, što drugim riječima znači da se ona približava, ali nikad ne dodiruje apscisu.

Slika 5. Normalna distribucija.

Veliki broj pojava i osobina (ne sve!) u prirodi distribuira se normalno. Slično tome,

u istraživanjima koja se provode na uzorcima također je često moguće očekivati ovu

distribuciju, i to onda kada su ispunjeni sljedeći uvjeti:

• U prirodi zaista postoji neka stabilna vrijednost mjerenja, te ako se osobina koju

mjerimo zaista distribuira normalno u populaciji.


32

• Imamo dovoljno velik broj mjerenja.

• Svi izmjereni rezultati dobiveni su korištenjem iste metode i prikupljeni u istim

uvjetima.

• Skupina koju mjerimo homogena je po svim osobinama, osim one koju mjerimo

po kojoj je heterogena.

Općenito, kada u nekom istraživanju izmjerimo određeno svojstvo i prikažemo

rezultate, vrlo rijetko će se dogoditi da su oni distribuirani u obliku „idealne“ normalne

distribucije. Naime, češće ćemo imati priliku susresti se s nekim manjim varijacijama, među

kojima su ključne razlike u „širini“, odnosno zaobljenosti, i simetriji distribucije.

Vezano uz varijacije u zaobljenosti, odnosno kurtičnosti distribucije razlikujemo

mezokurtične distribucije kakva je i normalna distribucija, leptokurtične, odnosno uske,

visoke distribucije kod kojih se većina rezultata grupira oko aritmetičke sredine i koje imaju

malo raspršenje i platikurtične, odnosno široke distribucije u kojima ima relativno puno

rezultata koji se razlikuju od aritmetičke sredine i koje imaju veliko raspršenje. Na Slici 6 su

prikazane tri takve distribucije koje se međusobno razlikuju po širini, odnosno statistički

gledano, prema raspršenju rezultata.

Slika 6. Usporedba mezokurtične, leptokurtične i platikurtične distribucije.

Osim po zaobljenosti, distribucije često razlikujemo i prema stupnju simetrije. Kao

što je spomenuto ranije, prava normalna distribucija je potpuno simetrična te su stoga kod nje

sve mjere središnjih vrijednosti (aritmetička sredina, centralna i dominantna vrijednost)

međusobno jednake.

Za razliku od toga, kod asimetričnih distribucija to nije slučaj. Na Slici 7 pogledajte

odnos pojedinačnih središnjih vrijednosti kod pozitivno asimetrične, odnosno distribucije kod

koje postoji više ekstremnih rezultata viših vrijednosti i negativno asimetrične, odnosno

distribucije kod koje postoji više ekstremnih rezultata nižih vrijednosti.


33

Simetrična Pozitivno asimetrična Negativno asimetrična

M=C=D D ‹ C ‹ M M ‹ C ‹ D

Slika 7. Usporedba simetrične i dviju asimetričnih distribucija.

Općenito, ukoliko distribucija rezultata izmjerenih na nekom uzorku značajno odstupa

od normalne, to može biti indikator da se mjerena pojava ni u populaciji ne distribuira

normalno. S druge strane, jednako često ili češće nam to može ukazivati na pogreške u

odabiru uzorka, odnosno na postojanje nekih pristranosti u mjerenju (djelovanje sistematskih

faktora na dobivene rezultate). Na primjer, ukoliko na testu matematike veliki broj djece

dobije ocjene vrlo dobar i izvrstan, odnosno ako je distribucija podataka negativno

asimetrična, to nam može ukazivati na to da je test bio prelagan.

Važno je napomenuti da je u istraživanjima uvijek važno provjeriti oblik distribucije.

Osim vizualnim pregledom grafičkih prikaza, to se može objektivno napraviti korištenjem

testova za provjeru asimetrije i zaobljenosti distribucije. U praksi se za provjeru normaliteta

distribucije vrlo često koristi tzv. Kolmogorov-Smirnovljev test o kojem možete više saznati u

preporučenoj literaturi. Ako izmjerena distribucija rezultata nije normalna, treba izbjegavati

korištenje parametrijskih metoda obrade koje se inače koriste kod normalno distribuiranih

rezultata, jer to može dovesti do pogrešnih zaključaka.

Normalna distribucija je u praksi jako važna jer, među ostalim, predstavlja osnovu za

izračunavanje položaja rezultata u skupini i vjerojatnosti pojave određenog rezultata u nizu

mjerenja. To možemo lako napraviti za bilo koje mjerenje ukoliko nam je poznata aritmetička

sredina i standardna devijacija rezultata koji se normalno distribuiraju.

Položaj rezultata u skupini

34

2.5. POLOŽAJ REZULTATA U SKUPINI

Ukoliko smo u nekoliko istraživanja izmjerili jednu ili više pojava i želimo usporediti

pojedinačne rezultate tih mjerenja, to ne možemo napraviti samo usporedbom mjerenih

vrijednosti jer one često nisu usporedive (npr. moguće je da su izmjerene na različitim

mjernim skalama). Na primjer, ako ste učenicima zadali dva testa od kojih je jedan imao

ukupno 10, a drugih ukupno 50 bodova, trebate pronaći način da usporedite bodove pojedinih

učenika na ta dva testa, ili da na temelju njih izračunate neku ukupnu ocjenu. Bilo bi

problematično jednostavno zbrojiti postignute bodove jer se, na primjer, dva testa mogu

razlikovati prema težini. Stoga je potrebno rezultate standardizirati, odnosno pretvoriti ih u

neki standardni oblik. Pritom najčešće koristimo tzv. z-vrijednosti.

2.5.1. z-vrijednosti

Logika z-vrijednosti temelji se na pretvaranju svakog rezultata u standardiziranu

vrijednost temeljenu na udaljenosti tog rezultata od aritmetičke sredine skupine kojoj pripada.

Z-vrijednosti se računaju kao omjer odstupanja svakog rezultata od aritmetičke sredine i

standardne devijacije distribucije iz koje dolaze.

SD

Mxz

x - svaki pojedinačni rezultat

SD – standardna devijacija


Pretvaranjem distribucije izmjerenih vrijednosti u onu z-vrijednosti dobijemo novu

distribuciju čija je aritmetička sredina 0, a standardna devijacija 1. Ta je distribucija

standardizirana, što znači da su i druge osobine, primjerice udio rezultata koje uključuje, te

distribucije poznate. Općenito, unutar cijele normalne distribucije uvijek se nalazi isti

postotak rezultata, a to isto možemo reći i za pojedine dijelove te distribucije. Kod normalne

distribucije se tako praktično svi rezultati (99.73%) nalaze u rasponu aritmetička sredina ± 3

standardne devijacije. Unutar raspona aritmetička sredina ± 2 standardne devijacije nalazi se

95.44%, a unutar raspona aritmetička sredina ± 1 standardne devijacije 68.26% rezultata

(Slika 8).


35

Slika 8. Udio rezultata u različitim odsječcima normalne distribucije.

Osim toga, kod normalne distribucije je moguće izračunati točan postotak, odnosno

broj rezultata koji se nalaze u nekom rasponu unutar distribucije dobivenih podataka. To

možemo napraviti pomoću formule za izračunavanje z-vrijednosti i statističke tablice koja

nam za svako standardizirano odstupanje (z) pokazuje postotak rezultata koji se nalaze

između te vrijednosti i aritmetičke sredine (prilog Tablica 1: z-vrijednosti normalne krivulje

za zadane postotke površine od aritmetičke sredine).

Primjer računanja z-vrijednosti:

Mjerenjem nekog uzorka dobili smo skup od 6000 normalno distribuiranih rezultata

čija je aritmetička sredina 100, a standardna devijacija 10. Odredite koja je vjerojatnost da je

neki rezultat veći ili jednak od rezultata 103.

3.010

3

10

100103

z

U Statističkim tablicama za z=0.3 možemo iščitati vrijednost 11.79. Ta nam vrijednost

pokazuje postotak rezultata između aritmetičke sredine i rezultata 103. Međutim, nas zanima

koliko je rezultata iznad 103, pa taj postotak računamo kao 50% - 11.79% = 38.21%. Dakle,

38.21% ispitanika imalo je rezultat jednak ili veći od 103.

Na temelju gore navedenog postupka, u nekoj distribuciji možemo odrediti npr. točan

položaj rezultata u nekoj skupini, broj ispitanika koji su postigli rezultate veće ili manje od

neke vrijednosti, broj ispitanika koji je postigao rezultat unutar određenog raspona, itd. Pri


36

izračunavanju tih vrijednosti, važno je pažljivo pratiti organizaciju tablice te prije samog

izračuna grafički prikazati problem koji se pokušava riješiti.

Važno je naglasiti da je uz pomoć z-vrijednosti moguće i kombinirati rezultate dvaju

ili više testova, npr. zbrojiti z-vrijednost pojedinca na nekoliko testova kako bi se odredio

njegov ukupni / prosječan uspjeh u skupini.

Primjer primjene z-vrijednosti:

Na ispitu iz mature kojeg su polagali iz hrvatskoj jezika, matematike i fizike, učenici su

postigli sljedeći uspjeh:

HRVATSKI MATEMATIKA FIZIKA

M 55 40 70

SD 10 2 20

Dva učenika su na testovima postigla sljedeće rezultate:


UČENIK A 45 42 70

UČENIK B 45 40 80

Izračunajte koji je učenik ukupno postigao bolji rezultat.

Da biste riješili ovaj zadatak najprije trebate bodove koji su učenici postigli pretvoriti u z-

vrijednosti.


UČENIK A 010

4545

z 1

2

4042

z 0

20

7070

z

UČENIK B 010

4545

z 0

2

4040

z 5.0

20

7080

z

Zatim treba izračunati ukupne z-vrijednosti za te učenika.

UČENIK A: zA=0+1+0=1

UČENIK B: zB=0+0+0.5=0.5

Dakle, bolji uspjeh ukupno je postigao učenik A (iako je apsolutno imao manje

izmjerenih bodova od učenika B).


37

2.5.2. Centili i decili

Osim z-vrijednosti, postoje i drugi načini određivanja položaja rezultata u skupini. Vrlo često

se u tu svrhu koriste skale centila i decila, naročito kod distribucija koje nisu distribuirane

normalno. Decili pritom predstavljaju vrijednosti koje skup dijele na 10 jednakih dijelova,

dok su centili vrijednosti koje skup dijele na 100 jednakih dijelova. Logika njihovog

korištenja slična je ranije spominjanom računanju kvartila kod kojih se niz rezultata dijeli na

četiri jednaka dijela (granica drugog kvartila je centralna vrijednost). Slično tome, kod decila

se određuju granice koje dijele niz rezultata poredanih po veličini u skupine od po 10%

rezultata, dok se kod centila radi o skupinama od po 1% rezultata. To se može napraviti uz

pomoć z-vrijednosti jer se u normalnoj distribuciji za ciljani granični postotak rezultata može

odrediti z-vrijednost uz koju se on vezuje, a zatim i originalni izmjereni rezultat.

Međutim, još je jednostavnije odrediti decile ili centile pomoću bruto, odnosno

izmjerenih vrijednosti. Na primjer, kod određivanja decila najprije je potrebno rezultate

poredati po veličini. Nakon toga, određuju se gornje granične vrijednosti decila kojih ima 9.

Prva granica odvaja prvih 10% ispitanika, druga prvih 20%, itd. Granica 5. decila je centralna

vrijednost. Prema istoj logici mogu se odrediti i granične vrijednosti centila.

Računski decil u kojem se nalazi neki rezultat možemo izračunati pomoću formule:

10xN

rangd

Prema istoj logici, računski se centil u kojem se nalazi neki rezultat može izračunati

pomoću formule:

100xN

rangc

Kao što je spomenuto, skale decila i centila često se koriste kada nije opravdano

koristiti z-vrijednosti ili kad se rezultati žele prikazati nestatističarima. Na primjer, ukoliko

radite u školi i nekom roditelju želite objasniti kakav uspjeh njegovo dijete ima u usporedbi s

ostalom djecom u razredu, u tu je svrhu često lakše koristiti decile od z-vrijednosti. Dakako, i

u tom slučaju treba roditelju ukratko objasniti što decili predstavljaju, ali za očekivati je da će

on to lako razumjeti jer se radi o „intuitivnoj“ skali koju nerijetko koristimo i u

svakodnevnom životu.


38

Iako korisne, ove skale imaju svojih ograničenja jer su grube, neaditivne i

neekvidistantne, te se stoga u složenijim analizama ne koriste. Također, kod računanja decila i

centila u kojima se nalazi određeni rezultat često dobivene rezultate treba zaokružiti kako bi

se pripadajući decil ili centil mogao jednoznačno odrediti, što predstavlja dodatni izvor

nepreciznosti ovih skala.

Primjer računanja decila i centila:

Mjerenjem smo dobili sljedeće rezultate: 7, 8, 4, 2, 3, 8, 8, 3, 3, 4, 9, 2, 5, 4, 4, 5, 6, 6, 10, 9. U

kojem se decilu, a u kojem centilu nalazi rezultat 7?

Najprije treba poredati rezultate po veličini: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8, 8, 8,

9, 9, 10. Zatim možemo očitati rang rezultata koji nas zanima, i koji iznosi 14.

71020

14 xd ; d = 7

Rezultat 7 nalazi se u sedmom decilu.

7010020

14 xc ; c = 70

Rezultat 7 nalazi se u sedamdesetom centilu.

Inferencijalna statistika

39

3. INFERENCIJALNA STATISTIKA

Metode inferencijalne statistike omogućuju nam da na temelju podataka dobivenih

mjerenjem na uzorku generaliziramo, odnosno donosimo zaključke o stanju u cijeloj

populaciji. Unutar inferencijalne statistike ključno je poznavati osnovne zakonitosti

uzorkovanja koje, kao što je objašnjeno u poglavlju o deskriptivnoj statistici, predstavlja

postupak formiranja uzorka iz populacije, odnosno odabira ispitanika koji će sudjelovati u

nekom istraživanju. Populaciju pritom čine svi mogući članovi neke skupine s određenim

značajkama, dok uzorak predstavlja dio populacije na kojem provodimo istraživanje.

Općenito smo u istraživanjima gotovo uvijek usmjereni na mjerenje uzoraka jer je

ponekad populaciju nemoguće, preskupo ili presloženo izmjeriti. Važno je naglasiti da nam je

kod odabira uzorka cilj odabrati skupinu ispitanika koja što bolje reprezentira populaciju kojoj

pripada jer nam to omogućuje bolje zaključivanje i predviđanje pojava. Prilikom organizacije

mjerenja moguće je izabrati različite vrste uzoraka, pri čemu se često koristi jednostavni

slučajni uzorak, odnosno uzorak kod kojeg svaki član populacije ima jednaku vjerojatnost biti

odabran. Slučajni uzorak je obično i reprezentativan za populaciju, dok za one uzorke kod

kojih neki članovi imaju veću vjerojatnost da budu odabrani kažemo da su pristrani.

Bez obzira na kvalitetu odabranog uzorka, treba imati na umu da uzorak nikada nije

potpuni preslik populacije. Naime, prilikom mjerenja uvijek smo izloženi određenim

pogreškama mjerenja koje trebamo uzeti u obzir prilikom interpretacije rezultata. S obzirom

na to, kada na temelju uzorka želimo zaključivati o stanju u populaciji (npr. predvidjeti

izraženost neke osobine u populaciji ili provjeriti postojanje razlika među grupama), te

pogreške moramo uzeti u obzir. Kako prilikom samog mjerenja nikad ne možemo znati

veličinu pogreške koja se vezuje upravo uz to mjerenje, kao ni pravo stanje u populaciji, u

praksi sve zaključke donosimo s određenom vjerojatnošću ili uz određeni stupanj sigurnosti.

Dakle, uz naše se zaključke uvijek veže mogućnost pogreške o čijoj vjerojatnosti pojave, koju

nazivamo i razinom rizika, uvijek moramo izvijestiti uz rezultat izračunatog testa unutar

istraživanja. Sam istraživač određuje željeni stupanj sigurnosti na kojem želi temeljiti svoje

zaključke: najčešće se pritom odlučuje za stupanj sigurnosti od 95% (razinu rizika od 5%) ili

99% (razinu rizika od 1%).

Različite postupke i testove unutar inferencijalne statistike međusobno razlikujemo

prije svega s obzirom na svrhu u koju se koriste. Tako postupke načelno možemo podijeliti u

one kojima je cilj provjeriti ili opisati razlike između dviju ili više skupina varijabli (npr. t-

test) i one kojima je cilj odrediti veze između pojedinih varijabli (npr. korelacija). Nadalje,


40

različite vrste postupaka moguće je podijeliti s obzirom na vrstu modela koje koriste, pa tako

razlikujemo parametrijske i neparametrijske metode o kojima će kasnije biti više riječi.

Također, s obzirom na složenost postupaka, odnosno broj varijabli koje uzimaju u obzir

razlikujemo univarijantne (uzimaju u obzir jednu varijablu), bivarijantne (uzimaju u obzir

dvije varijable) ili multivarijantne tehnike (uzimaju u obzir više od dvije varijable). Dodatno

se različite vrste postupaka mogu razlikovati s obzirom na osobine uzoraka i izmjerenih

podataka na kojima se primjenjuju (npr. analize za zavisne i nezavisne skupine).

Pritom treba posebno naglasiti da odabir prikladne statističke metode u istraživanju

prvenstveno ovisi o istraživačkom pitanju na koje želimo odgovoriti, te da je u pravilu jako

korisno provedbu istraživanja organizirati imajući u vidu planirane analize. Naime, provedba

statističkih postupaka nikad ne može zamijeniti ili nadomjestiti eventualne nedostatke

provedenih istraživanja koji kasnije ograničavaju moguće primjene dobivenih rezultata. Isto

tako, treba uvijek biti jako pažljiv prilikom interpretacije dobivenih rezultata, jer se u praksi

vrlo često susreću primjeri neopravdanog zaključivanja o, primjerice, uzrocima pojave

statistički značajnih razlika izračunatih putem t-testa ili uzročno-posljedičnom odnosu

varijabli za koje je utvrđeno samo postojanje povezanosti, odnosno statistički značajne

korelacije.


41

3.1. POGREŠKE MJERENJA

Ako bismo iz neke populacije odabrali veliki broj uzoraka jednake veličine i za svaki od njih

odredili prosječnu vrijednost, aritmetičke sredine tih uzoraka međusobno bi se razlikovale

iako svi ti uzorci dolaze iz iste populacije (i nju predstavljaju). Ukoliko bismo sve te

aritmetičke sredine uzoraka grafički prikazali, vidjeli bismo da bi se aritmetičke sredine

populacije grupirale oko prave aritmetičke sredine populacije, a njihova bi distribucija

nalikovala normalnoj. Što su izmjereni uzorci veći, to će distribucija njihovih aritmetičkih

sredina biti sličnija normalnoj i imati manju standardnu devijaciju. Štoviše, čak i ako

distribucija populacije nije normalna, kod velikih uzoraka (često N>30) će distribucija

aritmetičkih sredina biti normalna. To nazivamo teoremom centralne granice (Slika 9).

Slika 9. Primjeri distribucija rezultata u populaciji (slike u retku 1), te distribucija aritmetičkih sredina

uzoraka različite veličine (slike u retcima 2 i 3).

Dakle, možemo zaključiti kako aritmetička sredina velikog broja uzoraka neće točno

odgovarati pravoj aritmetičkoj sredini populacije, već će se od nje više ili manje razlikovati.

Isto vrijedi i za ostale karakteristike uzorka, npr. standardnu devijaciju ili proporciju.

Pogreška uzorka predstavlja upravo tu razliku između vrijednosti dobivenih mjerenjem

uzorka i stvarnog stanja u populaciji. Razlozi zbog kojih dolazi do pogrešaka mjerenja

uključuju: neslučajnost uzorka ili selektivni otpad ispitanika, netočne i/ili neiskrene odgovore

ispitanika, nejasna pitanja, pogrešan unos podataka i sl. Pogreška uzorka bit će veća kod

manjih uzoraka koji slabije reprezentiraju populaciju iz koje potječu.

Iako se pogreška uzorka može izračunati za sve vrijednosti uzorka, u praksi se ona

najčešće računa za aritmetičku sredinu i proporciju. U tim slučajevima govorimo o


42

(standardnoj) pogrešci aritmetičke sredine (SEM; ponekad se označava i kao SDM) i

(standardnoj) pogrešci proporcije (SEP; ponekad se označava i kao SDp).

Formula za računanje pogreške

aritmetičke sredine N

SDSEM SD - standardna devijacija

N- broj ispitanika

p – proporcija jedne kategorije

q – proporcija druge kategorije

Formula za računanje pogreške

proporcije N

pxqSEP

q=1-p

Primjer određivanja pogreške aritmetičke sredine:

U skupini od 64 učenika izmjerena je prosječna visina od 155 cm, uz standardnu devijaciju 8.

Izračunajte pogrešku aritmetičke sredine ovog uzorka.

18

8

64

8SEM

Primjer određivanja pogreške proporcije:

U skupini od 64 ukupno upisanih studenta jedne generacije, njih je 58 uspješno upisalo

sljedeću akademsku godinu. Izračunajte pogrešku proporcije u ovom uzorku.

p = 58/64 = 0.91

q = 1-0.91 = 0.09

035.0001.064

082.0

64

09.091.0

xSEP


43

3.2. PROCJENA PARAMETARA

Ukoliko na nekom uzorku prikupimo određene podatke i odredimo vrijednost aritmetičke

sredine na temelju koje želimo odrediti stvarnu aritmetičku sredinu populacije, preporučljivo

je prognozirati ne samo jednu, već raspon vrijednosti. To radimo zato jer se uz vrijednosti

izmjerene na uzorku uvijek veže određena pogreška koju pokušavamo neutralizirati manje

preciznim prognozama, odnosno prognoziranjem raspona umjesto jedne vrijednosti i

navođenjem stupnja uvjerenja u donesene zaključke.

Proces određivanja raspona u kojem se, uz određenu sigurnost (rizik), nalazi vrijednost

u populaciji ili parametar populacije naziva se procjena parametara. Parametar se pritom

može odnositi na npr. aritmetičku sredinu, proporciju, ili raspršenje unutar populacije. Za

procjenu parametra potrebno je znati vrijednost uzorka i pogrešku koja se veže uz vrijednost

uzorka.

U praksi se procjena parametara najčešće radi za aritmetičku sredinu (kod podataka na

intervalnim i omjernim skalama mjerenja), te proporciju (kod podataka na nominalnoj skali

mjerenja). Pritom se koriste formule za računanje pripadajućih pogrešaka uzoraka s kojima

smo se već upoznali. Nakon što smo izračunali pogrešku uzorka, tu mjeru možemo koristiti za

procjenu granica pouzdanosti. Granice pouzdanosti označavaju raspon u kojem se, uz

određeni stupanj sigurnosti kojeg odabire sam istraživač, nalazi prava vrijednost populacije.

Kod određivanja granica pouzdanosti uvijek krećemo od vrijednosti uzorka kojoj dodajemo i

od koje oduzimamo jednaku vrijednost prema formulama:

Procjena aritmetičke sredine

populacije

M 2.58 SEM (uz 99% sigurnosti)


Procjena proporcije u populaciji

p 2.58 SEP (uz 99% sigurnosti)


Dakle, prilikom predviđanja stanja u populaciji na temelju izmjerenog uzorka u

pravilu ne možemo biti potpuno sigurni u svoje zaključke, te se stoga ograničavamo na manje

precizne prognoze. Granice pouzdanosti pritom reflektiraju upravo stupanj naše sigurnosti u

prognozu: što smo sigurniji u taj zaključak, to su granice pouzdanosti uže, odnosno u takvim

slučajevima možemo predviđati uži raspon mogućih populacijskih vrijednosti. Kada u našem


44

mjerenju ne bi postojala nikakva pogreška, mogli bismo prognozirati samo jednu vrijednost, i

to onu koja je izračunata unutar uzorka.

Primjer određivanja intervala pouzdanosti aritmetičke sredine:

Na ispitu iz statistike održanog na kraju ak.god. 2012/2013. skupina od 60 studenata postigla

je prosječno 48 od mogućih 80 bodova (SD = 9.3). Profesor koji predaje taj predmet je rekao

da se radi o uobičajenom postignuću studenata koji se ne razlikuje od očekivanog uspjeha od

50 bodova. Da li je profesor u pravu?

20.160

3.9SEM

Procjena uz 1% rizika da se pravi prosječni uspjeh nalazi u ovom rasponu:

48 ± 2.58 x 1.2 = 48 ± 2.98 (45.02 do 50.98)

Uz stupanj sigurnosti od 99% možemo zaključiti da profesor u pravu, odnosno da se

postignuti uspjeh statistički značajno ne razlikuje od očekivanog.


45

3.2. TESTIRANJE HIPOTEZA

Testiranje hipoteza predstavlja sistematski proces kojim provjeravamo potvrđuju li podaci

prikupljeni unutar određenog istraživanja testirane znanstvene teorije i hipoteze. Postupak

procjene parametara s kojim ste se ranije upoznali predstavlja jedan od jednostavniji oblika

testiranja hipoteza, tako da ste se s nekim osnovnim postavkama ovog procesa već susreli.

Testiranje hipoteza provodi se kroz nekoliko koraka koji započinju formuliranjem hipoteze

koja predstavlja odgovor na postavljeno istraživačko pitanje, nastavljaju se odabirom i

provođenjem prikladnog statističkog postupka, a završavaju odlukom o valjanosti postavljene

hipoteze.

Postupkom testiranja hipoteza možemo, na primjer, provjeriti:

Oblik distribucije frekvencija: najčešće to radimo kako bismo odredili da li je neka

distribucija normalna ili ne.

Pripada li uzorak određenoj populaciji. Na primjer, ukoliko u skupini darovite djece

primijenimo test inteligencije, možemo usporediti dobivenu vrijednost s prosječnom

vrijednosti za koju nam je poznato da vrijedi u populaciji (u slučaju inteligencije je to

100), i zatim odrediti da li se daroviti svojom inteligencijom ističu u usporedbi s

drugom djecom njihove dobi.

Pripadaju li dva ili više uzoraka istoj populaciji, odnosno postoji li statistički značajna

razlika između dviju ili više skupina podataka. Na primjer, na ovaj način možemo

provjeriti da li se učenici različitog socioekonomskog statusa razlikuju po ocjenama iz

nekog predmeta.

Povezanost dviju ili više varijabli. Na primjer, možemo provjeriti da li je količina

domaćeg rada kojeg učenici trebaju napraviti tijekom semestra povezana s količinom

znanja koju steknu iz nekog predmeta

1. KORAK: Postavljanje hipoteze

Znanstvena istraživanja predstavljaju sustavne načine provjere postavki određenih

znanstvenih teorija ili odgovaranja na neka praktična pitanja. Na početku istraživanja

formuliraju se istraživački problemi i hipoteze, odnosno pretpostavljeni odgovori na te

probleme. Važno je razlikovati dvije vrste hipoteza: istraživačke hipoteze koje odražavaju

teorijska ili istraživačeva uvjerenja o očekivanim rezultatima, te nul ili nulte hipoteze (H0)

koje predstavljaju statističke hipoteze u koje sam istraživač ne mora vjerovati, ali ih treba

postaviti kako bi ih provođenjem statističkih postupaka provjerio. Pritom je nul hipoteza


46

statistička hipoteza koja pretpostavlja nepostojanje značajnih efekata, npr. nepostojanje

razlika između skupina ispitanika, nepostojanje korelacije između varijabli i slično. Nul

hipotezu testiramo korištenjem statističkih postupaka, nakon čega tu hipotezu možemo

odbaciti ukoliko dobijemo statistički značajan efekt, odnosno prihvatiti ako ne pokažemo

statistički značajan rezultat.

Iako i istraživačke hipoteze mogu pretpostavljati nepostojanje nekog efekta, one su

znatno češće formulirane afirmativno. Na primjer, zamislite da radite u srednjoj školi, i imate

dojam da djeca iz bogatijih obitelji bolje usvajaju gradiva iz tehničkih i znanstvenih predmeta

od djece iz siromašnijih obitelji. Čini vam se da je to možda vezano uz veću dostupnost knjiga

i informatičke tehnologije kod djece iz bogatijih obitelji, te razmišljate o tome da ravnatelju

predložite otvaranje informatičke radionice koja bi djeci bila stalno dostupna, i u kojoj bi i

siromašniji učenici imali stalan pristup tehnologiji važnoj za učenje. Međutim, prije toga

želite svoju sumnju i provjeriti, te organizirate istraživanje u kojem ćete ispitati postoji li

povezanost između ekonomskog statusa obitelji djeteta i uspjeha u odabranim predmetima.

Pritom je vaša istraživačka hipoteza afirmativna, odnosno vi smatrate da veza između tih

dviju varijabli postoji. Štoviše, vaša je istraživačka hipoteza direktivna, odnosno ona

uključuje pretpostavljeni smjer povezanosti: smatrate da djeca iz bogatijih obitelji imaju više

ocjene iz odabranih predmeta. Za razliku od toga, nedirektivna hipoteza bi bila ona kod koje

istraživač nema pretpostavke o smjeru efekta, ali pretpostavlja da nekakav efekt postoji. Na

primjer, u istraživanju povezanosti dobi nastavnika i uspjeha učenika istraživač može imati

nedirektivnu afirmativnu hipotezu jer očekuje razliku među učenicima, ali nije siguran da li će

za bolji uspjeh učenika biti presudno (veće i bolje) iskustvo starijih nastavnika ili (veća)

pristupačnost i motivacija mlađih nastavnika.

Primjer nul hipoteze:

H0: Ne postoji statistički značajna razlika između dječaka i djevojčica u verbalnoj

inteligenciji.

2. KORAK: Odabir prikladnog statističkog postupka i razine statističke značajnosti

Nakon što smo postavili hipotezu, trebamo odabrati prikladnu statističku analizu kojom ćemo

odgovoriti na postavljeno istraživačko pitanje. Pritom odabir statističkih testova i postupaka u

istraživanju ovisi o nekoliko činitelja:

postavljenom istraživačkom pitanju

vrsti i veličini ispitanog uzorka te


47

karakteristikama prikupljenih podataka (osobinama i broju korištenih varijabli;

mjernim skalama; distribuciji dobivenih rezultata).

Jedan od najvažnijih čimbenika koje trebamo odrediti prilikom odabira prikladnog

statističkog postupka je vrsta uzoraka koje smo imali u istraživanju. Naime, ukoliko našim

istraživanjem želimo provjeriti razlikuju li se dvije različite skupine ispitanika koje smo

izmjerili, onda među opažanjima imamo dva nezavisna skupa, ili dva nezavisna uzorka

podataka koje moramo usporediti. Ukoliko nas, međutim, zanima razlika između uspjeha

jedne te iste skupine ispitanika na dva testa ili dvije situacije, onda našu analizu provodimo na

dva međusobno zavisna skupa podataka, odnosno na zavisnim uzorcima.

3. KORAK: Provedba statističkog postupka i odluka o prihvaćanju ili odbacivanju nul

hipoteze

Nakon odabira prikladnog statističkog postupka, možemo krenuti u njegovo računanje kod

kojeg koristimo standardne procedure opisane u udžbenicima iz statistike. Općenito je lako

pronaći informacije o tome kako provesti odabrani statistički postupak, pri čemu veliki dio

izračuna najčešće možemo prepustiti računalnim programima za statističku obradu podataka.

Provedba velikog broja statističkih postupaka temelji se na računanju testovne

vrijednosti koja vrijedi za izmjereni skup podataka, i njezinom usporedbom s nekom

teoretskom, tzv. kritičnom vrijednosti tog testa. Pritom ta kritična vrijednost odražava

testovnu vrijednost koju bismo očekivali u mjerenju na nekom zamišljenom, „usporednom

uzorku“ kod kojeg zaista vrijedi nul hipoteza, odnosno kod kojeg ne postoji statistički

značajni efekt kojeg testiramo. Unutar distribucije tog usporednog uzorka određuje se kritična

vrijednost kod koje bi nul hipotezu trebalo odbaciti. Naime, ta vrijednost predstavlja rezultat

koji bi se u teoriji (i praksi) mogao dobiti čak i ukoliko nul hipoteza zaista vrijedi, ali je taj

ishod malo vjerojatan. Stoga ta vrijednost služi kao referentna točka s kojom se uspoređuje

vrijednost statističkog testa koja je dobivena unutar provedenog istraživanja kako bi se na

temelju te usporedbe donijela odluka o prihvaćanju ili odbacivanju nul hipoteze.

Spomenuta kritična razina rezultata može se odrediti korištenjem različitih statističkih

tablica za prikladne statističke testove unutar kojih možete očitati graničnu vrijednost testa

vezanu uz broj stupnjeva slobode (eng. degrees of freedom) uzroka. Stupnjevi slobode mogu

se definirati kao korigirani broj rezultata izmjerenih uzoraka, pri čemu se kod svakog testa oni

računaju uz pomoć različitih formula. Pritom treba naglasiti da određivanje kritičnog rezultata

unutar usporedne distribucije ovisi i o željenom stupnju sigurnosti na kojem istraživač želi

temeljiti svoje zaključke. Naime, slično kao kod procjene parametara, istraživač sam određuje


48

tu razinu pri čemu se najčešće odlučuje za stupanj sigurnosti od 95% (razinu rizika od 5%) ili

99% (razinu rizika od 1%) (Slika 10). Ukoliko je rezultat dobiven provedbom odabranog testa

manje ekstreman od kritične vrijednosti koju smo očitali u tablicama, zaključujemo da nul

hipoteza vrijedi i da ne postoji statistički značajan efekt. Ukoliko, međutim, dobiveni rezultat

bude toliko ekstreman da se odbaci nul hipoteza, smatra se da je rezultat dosegao statističku

značajnost. Ukoliko podatke obrađujemo uz pomoć računalnog programa za statističku

obradu podataka ne trebamo statističke tablice, jer program automatski provodi usporedbu i

izvještava nas o vjerojatnosti slučajne pojave dobivenog rezultata. Prilikom donošenja tih

zaključaka nikad ne možemo biti apsolutno sigurni da smo u pravu, jer uvijek baratamo s

vjerojatnostima. Stoga je važno napomenuti sljedeće:

Čak i ako odbacimo nul hipotezu to ne znači da je alternativna, odnosno

istraživačka hipoteza potvrđena.

Ako prihvatimo nul hipotezu ne možemo reći da smo "dokazali nul hipotezu".

Naime, iako dobiveni rezultati nisu dovoljno snažni da odbace nul hipotezu, to ne

znači da ona nije pogrešna.

Slika 10. Područje prihvaćanja nul hipoteze uz stupnjeve sigurnosti od 95% i 99%.

4. KORAK: Izvještavanje o prihvaćanju ili odbacivanju nul hipoteze

Nakon provedbe statističkog postupka treba izvijestiti o dobivenim rezultatima. To se radi na

način da se jasno navede korišteni test, napiše dobiveni rezultat provedenog testa, ukoliko je

potrebno i pripadajući stupnjevi slobode (df), te vjerojatnost slučajne pojave dobivenog

rezultata (p). Pritom se vjerojatnost p može navesti ili kao točna vrijednost (npr. p = 0.12) ili

kao relativna vrijednost (npr. p < 0.05), koju možete napisati i bez decimalne točke (p < .05).


49

Osim ovih, moguće je prilikom izvještavanja navesti i veličinu izmjerenog učinka, o čemu

možete više doznati u preporučenoj literaturi.

Uz izvještavanje o brojčanim vrijednostima izračunatih testova, moguće je i opisno

navesti što dobiveni rezultat govori o nul hipotezi (da li je prihvaćamo ili odbacujemo),

odnosno o statističkoj značajnosti dobivenog efekta (da li je statistički značajan ili ne).

Ukoliko se razlika između podataka pokaže statistički značajnom, možemo zaključiti da se

ona vjerojatno nije dogodila slučajno (jer je jako malo vjerojatna). Na primjer, ako vidite p <

0.05 u nekom istraživanju, to znači da se taj rezultat slučajno mogao pojaviti u manje od 5 od

ukupno 100 slučajeva, a p < 0.01 znači da je to bilo moguće u manje od 1 od ukupno 100

slučajeva. Ukoliko uz navedene brojčane parametre u znanstvenom istraživanju želite opisno

prokomentirati rezultate, preporučljivo je uz komentar o statističkoj značajnosti navesti i

smjer, odnosno značenje razlike ukoliko je ona statistički značajna (npr. ako se dvije skupine

statistički značajno razlikuju po nekom svojstvu, navesti koja ima više, a koja manje izraženo

to svojstvo). Ukoliko dobiveni rezultati pokazuju da ne postoji statistički značajna razlika

između skupova podataka, bilo kakva razlika između aritmetičkih sredina koju ste „golim

okom“ opazili prije provedbe testa ne smije se interpretirati jer statistička analiza pokazuje da

je ona posljedica slučaja.

Primjer navođenja dobivenih rezultata:

t(65)=3.2, p<0.05 ili t(65)=3.2, p=0.03

Pogreške kod testiranja hipoteza

Prilikom testiranja hipoteza uvijek se izlažemo, a ponekad ćemo i počiniti, jednu od mogućih

pogrešaka koje se u procesu testiranja mogu pojaviti. Općenito razlikujemo dvije vrste

pogrešaka: pogrešku tipa I i tipa II. Pogreška tipa I (α-pogreška) je pogreška kod koje

odbacujemo nul hipotezu, iako je ona točna, dok kod pogreške tipa II (β) ne odbacujemo nul

hipotezu, iako zapravo postoji razlika među uzorcima.

Osnovni statistički postupci i analize

50

3.3. TEMELJNI STATISTIČKI POSTUPCI

Općenito, statističke postupke i testove možemo podijeliti na parametrijske i neparametrijske

postupke. Parametrijski testovi vezani su uz normalnu distribuciju, te u najvećem broju

slučajeva predstavljaju efikasniji odabir za obradu podataka. Naime, kao testovi koji koriste

preciznije podatke oni imaju veću snagu od neparametrijskih testova.

Snaga testa pritom predstavlja vjerojatnost odbacivanja nul hipoteze koja nije točna

ili prihvaćanja one koja je točna. Što je snaga testa veća to je vjerojatnije da ćemo

istraživanjem pokazati stvarni efekt, odnosno rjeđe ćemo počiniti neke od pogrešaka koje se

vezuju uz statističke analize.

Međutim, važno je naglasiti da se parametrijski testovi mogu koristiti samo kada su

zadovoljene osnovne pretpostavke za njihovo korištenje (prema teorijskom okviru):

Opažanja moraju biti nezavisna. Odabir bilo koje jedinice iz populacije ne smije

utjecati na odabir neke druge jedinice (mjerenja, ispitanika). Taj se uvjet odnosi na sve

parametrijske testove.

Mjerenje mora biti provedeno najmanje na intervalnoj ljestvici.

Statističke jedinice (opažanja) moraju potjecati iz normalno distribuirane populacije.

Kad određujemo dolaze li naši podaci iz normalne populacije, možemo uzeti u obzir

podatke iz ranijih mjerenja koji nam mogu biti informativni. Također, možemo

formalno primijeniti test normaliteta distribucije prikupljenih podataka. U tu se svrhu

najčešće koristi Kolmogorov-Smirnov test kojeg automatski možemo izračunati uz

pomoć računalnih programa za statističku obradu. Ukoliko imamo veliki uzorak,

normalitet distribucije često ne predstavlja veći problem.

Populacije kod kojih testiramo razliku moraju imati istu varijancu (ili u nekim

slučajevima poznat omjer varijanci).

Dakle, parametrijski postupci primjenjuju se kod mjerenih i normalno distribuiranih

skupina podataka. Međutim u praksi često imamo situaciju da istražujemo pojavu koja se ne

distribuira normalno, ili zbog nekih drugih razloga naš uzorak ne zadovoljava uvjete za

korištenje parametrijskih testova. U tim slučajevima možemo koristiti tzv. neparametrijske

testovime koji ne ovise o normalitetu distribucije. Također, te testove možemo koristiti

ukoliko imamo podatke koji se nalaze na nominalnoj ili ordinalnoj skali mjerenja, odnosno

ukoliko računamo s frekvencijama ili rangovima. Uz to, neparametrijske testove ponekad i

moramo koristiti, na primjer ukoliko u uzorku imamo premali broj opažanja (manji od 10).


51

Neparametrijski testovi često imaju jednostavniju logiku korištenja te su stoga pogodni za

korištenje u situacijama u kojima ne smijemo odabrati parametrijske postupke. Dakako,

nepametrijski postupci se mogu koristiti i ako imamo zadovoljene uvjete za korištenje

parametrijskih, ali takav odabir ne bi bio previše racionalan. Naime, jednostavnija logika

izračuna kao i činjenica da se ovi testovi temelje na manje preciznim osobinama podataka

(rangovima ili učestalosti) znače da bismo pretvaranjem izmjerenih podataka na ordinalnu ili

pak nominalnu skalu izgubili veliki dio informacija koje nam nude složenije skale. Stoga ovi

testovi imaju manju snagu, što znači da kod njih postoji veća vjerojatnost da nećemo uočiti

neke efekte koji stvarno postoje u populaciji.

3.3.1. Odabir prikladnog statističkog postupka

Kao što je ranije spomenuto, odabir statističkih testova i postupaka u istraživanju ovisi o

istraživačkom pitanju i nacrtu istraživanja, vrsti i veličini uzorka te karakteristikama

izmjerenih podataka. Sve te informacije moraju se uzeti u obzir prije provedbe statističke

analize. U tablici su navedeni temeljni činitelji koje treba uzeti u obzir kod izbora statističkih

postupaka i testova koji se mogu primijeniti u određenoj situaciji. Ona se može koristiti kao

vodič prilikom odabira prikladnog statističkog postupka, čiji detaljan postupak možete

pronaći opisan u naprednijim statističkim udžbenicima ili priručnicima računalnih programa

za statističku obradu podataka.

Tablica 3

Neke osnovne vrste statističkih postupaka i činitelji važni za njihov odabir

Osobine

podataka Podaci na

nominalnoj skali

mjerenja

Podaci na ordinalnoj

ili

intervalnoj/omjernoj

skali bez normalne

distribucije

Podaci na

intervalnoj ili

omjernoj skali

mjerenja s

normalnom

distribucijom

Cilj

istraživanja

Usporedba jedne skupine

rezultata i nekih

hipotetskih vrijednosti

Procjena

parametara

Hi-kvadrat test*

Wilcoxonov test za

jedan uzorak

Procjena parametara

t-test za jedan uzorak

Usporedba dvaju

nezavisnih uzoraka (dviju

različitih skupina

ispitanika)

Hi-kvadrat test

(Fisherov test)

t-test za proporcije

Medijan test

Mann-Whitneyev U-test

Test homogenog niza

Siegel-Tukeyev test

t-test za nezavisne

uzorke*


52

Usporedba dvaju zavisnih

uzoraka (dva skupa

podataka jedne skupine

ispitanika)

McNemarov test

(hi-kvadrat test za

zavisne uzorke)

Test predznaka

Wilcoxonov test

ekvivalentnih parova

t-test za zavisne

uzorke*

Usporedba više od dva

nezavisna uzorka (više od

dvije različite skupine

ispitanika)

Hi-kvadrat test*

Prošireni medijan test

Kruskal Wallisov test

Analiza varijance

Usporedba više od dva

zavisna uzorka (više od

dva skupa podataka jedne

skupine ispitanika)

Cochraneov Q

Friedmanov test

Fergusonov test

monotonije trenda

Analiza varijance s

ponovljenim

mjerenjima

Određenje povezanosti

dviju varijabli mjerenih

na jednom skupu

ispitanika

Cramerov „fi“

koeficijent

Koeficijent

kontingencije

Spearmanov koeficijent

korelacije („ro“)

Kendallov koeficijent

(„tau“)

Pearsonov koeficijent

korelacije*

Napomena: Nema potrebe učiti napamet testove koje u kolegiju nećemo obrađivati; oni koje trebate

znati označeni su zvjezdicom (*).

Osim ovih, unutar statistike se ponekad koriste i druge vrste postupaka o kojima

možete više saznati u preporučenoj literaturi. Iako mnoge od njih možda nikad nećete

susretati, treba ovdje spomenuti jednu vrstu postupka za koju ste zasigurno imali prilike čuti.

Radi se o metodi faktorske analize, odnosno postupku koji nam omogućuje da u nekim

situacijama veliki broj različitih varijabli svedemo na manji broj faktora. Na primjer, ako u

istraživanju želite izmjeriti zainteresiranost nastavnika prema učenicima, u tu možete svrhu

primijeniti upitnik koji se sastoji od nekoliko desetaka različitih pitanja. Pritom se sva ta

pitanja mogu odnositi na jednu, dvije ili možda tri osobine nastavnika, npr. njegovu ugodnost,

emocionalnu toplinu i savjesnost. Stoga kasnije u obradi podataka nema smisla sva pitanja

analizirati pojedinačno, nego treba povezati (npr. zbrojiti) ona koja mjere istu osobinu. Da

biste to mogli napraviti, trebate ispitati ili provjeriti koja pitanja mjere iste osobine, odnosno

identificirati tzv. zajedničke faktore koji leže u temelju izmjerenih varijabli. To vam

omogućuje faktorska analiza koja se često koristi u obrazovnim istraživanjima. Međutim,

treba naglasiti da se radi o vrlo složenoj tehnici koju ima smisla koristiti samo ukoliko zaista

znate što i kako želite računati, te se stoga preporuča s njom se upoznati tek nakon što

svladate nešto složenija metodološka i statistička znanja. Umjesto toga, u ostatku ovog

priručnika prikazat ćemo dva najčešće korištena testa za usporedbu skupova podataka u

jednostavnijim istraživanjima. Jedan od njih predstavlja parametrijske (t-test), a drugi

neparametrijske testove (hi-kvadrat test). Osim toga ukratko ćemo se upoznati s osnovnim

vrstama neparametrijskih testova, analizom varijance i korelacijama.


53

3.4. t-TEST

t-test predstavlja jedan od najčešće korištenih parametrijskih testova koji se koristi za

testiranje statističke značajnosti razlike između dvije aritmetičke sredine. Osim t-testa kojim

se testiraju razlike između aritmetičkih sredina, postoje i nešto rjeđe korišteni t-testovi kojima

se testiraju razlike između proporcija (češće se u tim slučajevima koristi hi-kvadrat test) ili

razlika između jedne skupine podataka i neke unaprijed definirane vrijednosti.

Nekoliko je temeljnih uvjeta primjene t-testa između dvije aritmetičke sredine:

Izmjereni rezultati trebaju se nalaziti barem na intervalnim skalama.

Izmjereni podaci trebaju se normalno distribuirati.

Uzorci trebaju imati homogene, odnosno podjednake varijance (ili barem podjednak

broj ispitanika).

Postoje različiti postupci za računanje t-testa koji se međusobno razlikuju ovisno o:

vrsti uzorka: Razlikujemo t-test za zavisne i t-test za nezavisne uzorke.

broju ispitanika: Razlikujemo t-test za velike i t-test za male uzorke (velikim

uzorcima se najčešće smatraju oni s 30 i više ispitanika).

smjeru istraživačke hipoteze: Razlikujemo jednosmjerni i dvosmjerni t-test.

Dvosmjernim testom se testira postojanje statistički značajne razlike bez obzira na

smjer te razlike, dok se kod jednosmjernog testa i smjer razlike uzima u obzir.

Općenito se dvosmjerni testovi češće koriste i automatski se računaju kod korištenja

računalnih programa za statističku obradu podataka. Za jednosmjerni test istraživači se

ponekad odluče ukoliko istraživanjem žele provjeriti direktivne istraživačke hipoteze

(vidi Poglavlje 3.2).

Bez obzira na podvrstu t-testa koju odaberemo, testiranje značajnosti razlika između

aritmetičkih sredina temelji se na određivanju razlike između izmjerenih aritmetičkih sredina.

Kao što sada već znate, takva razlika izmjerena na uzorku samo je djelomično informativna

jer se uz nju, kao i ostale karakteristike izmjerenih uzoraka, vezuje određena pogreška.

Naime, ukoliko bismo iz jedne populacije uzimali puno parova uzoraka, njihove bi

aritmetičke sredine ponekad bile jednake, ali bi se ponekad i razlikovale unatoč tome što oni

predstavljaju istu populaciju. Ukoliko bismo pokušali napraviti grafički prikaz dobivenih

razlika, vidjeli bismo se te izračunate (slučajne) razlike između parova uzoraka distribuiraju


54

normalno. Na temelju te distribucije zaključili bismo da je ponekad čak i slučajno moguće

dobiti razlike među izmjerenim uzorcima. Pritom veličina tih „dopuštenih“ slučajnih razlika

ovisi o preciznosti i kvaliteti našeg mjerenja. U statistici, tu kvalitetu odražava vrijednost koju

nazivamo „standardna pogreška razlika između aritmetičkih sredina“, a koju je nužno uzeti u

obzir prilikom izračuna statističke značajnosti opaženih razlika među uzorcima. Stoga se

prema osnovnoj formuli t-test računa kao omjer između izmjerene razlike dvaju uzoraka i

spomenute standardne pogreške razlike. Međutim, s obzirom na to da mi u mjerenju ne

možemo izravno izmjeriti standardnu pogreške razlike, ona se računa na temelju standardnih

pogrešaka aritmetičkih sredina izmjerenih na uzorcima.

Prilikom računanja t-testa treba dobro obratiti pažnju na karakteristike uzoraka koje

uspoređujemo, s obzirom na to da postoje različite formule za računanje t-testa kod zavisnih i

nezavisnih uzoraka ispitanika. Ukoliko samostalno računate t-test, trebate razlikovati formule

za t-test za male i velike skupine ispitanika, pri čemu se uzorci s više od 30 ispitanika

uglavnom smatraju dovoljno velikima za korištenje formula za velike uzorke. Međutim,

ukoliko koristite računalni program za računanje testa, on će broj ispitanika automatski uzeti u

obzir.

t-test za velike

nezavisne uzorke

2

2

2

1

21

SEMSEM

MMt

df=(N1 -1) + (N2-1)


SEM - pogreška aritmetičke

sredine

df – stupnjevi slobode

N – broj ispitanika

r – Pearsonov koeficijent

korelacije

t-test za velike

zavisne uzorke 21

2

2

2

1

21

2 SEMrSEMSEMSEM

MMt

df=N-1

Kao što je vidljivo, formule t-testa za zavisne i nezavisne uzorke su vrlo slične.

Razlikuju se samo po tome što se kod zavisnih uzoraka dodatno u obzir uzima korelacija

između rezultata svakog ispitanika u dvije točke mjerenja (vidi Poglavlje 3.8).

Kod računanja t-testa potrebno je izračunati ne samo t-vrijednost, već i pripadajuće

stupnjeve slobode na temelju kojih se određuje granična vrijednost t-testa koju možete iščitati

iz statističke tablice za t-test (prilog Tablica 2: Granične vrijednosti t-testa uz različite razine

rizika i stupnjeve slobode). Prilikom navođenja rezultata t-testa navodi se najprije vrijednost t-

testa (t) uz pripadajuće stupnjeve slobode (df), a zatim i vjerojatnost slučajne pojave (p)

dobivene t-vrijednosti. Ukoliko je vjerojatnost slučajne pojave manja od 5% (ili 1%), razliku


55

možemo proglasiti statistički značajnom (uz rizik od 5% ili 1%). Ukoliko je vjerojatnost

slučajne pojave veća od 5% (ili 1%) možemo zaključiti da razlika nije statistički značajna (uz

rizik od 5% ili 1%), odnosno da je posljedica slučaja. To ujedno znači da kasnije u

interpretaciji rezultata tu razliku trebamo tretirati kao da ne postoji, iako nam se možda

„golim okom“ čini da bi se dvije skupine međusobno mogle razlikovati.

Na kraju treba naglasiti i kako nam rezultati t-testa koji pokazuju postojanje statistički

značajne razlike ne govore ništa o tome zašto se ta razlika pojavila, odnosno koji su njezini

uzroci. Zato treba biti jako oprezan s interpretacijom dobivenih rezultata, jer je u pravilu

uvijek moguće identificirati više od jednog mogućeg razloga pojave takve razlike.

Primjer računanja t-testa za nezavisne uzorke

Na testu znanja iz matematike u razredu od 30 djece postignut je prosječni uspjeh od 16.5

bodova uz standardnu devijaciju 1.3. Na istom testu, 35 djece iz susjednog razreda postiglo je

prosječno 15 bodova uz standardnu devijaciju 2. Razlikuju li se dva razreda po svom uspjehu

na testu iz matematike?

Hipoteza H0: Nema razlika između dvaju razreda na testu iz matematike

Kod računanja t-testa najprije možemo izračunati pogreške aritmetičkih sredina dvaju

uzoraka, a zatim i samu vrijednost t-testa.

Prije interpretacije dobivenih rezultata trebamo odrediti graničnu vrijednost t-testa koja

se određuje na temelju stupnjeva slobode, koji u ovom slučaju iznose: df=(35-1) + (30-1)=63.

Uz razinu rizika od 1% u tablici se može očitati granična vrijednost 2.66.

3.53 > 2.66 (Dobiveni t veći je od tabličnog t uz 1% pogreške).

Dobiveni rezultat: t(63)=3.53, p<0.01

53.342.0

5.1

18.0

5.1

12.006.0

5.1

34.024.0

155.16

34.092.5

2

35

2

24.048.5

3.1

30

3.1

22

2

1

t

SEM

SEM


56

Uz razinu rizika od 1%, možemo odbaciti nul hipotezu i zaključiti da se aritmetičke

sredine ovih dvaju uzoraka međusobno statistički značajno razlikuju, odnosno da su učenici iz

prvog razreda postigli bolji uspjeh iz matematike.

Primjer računanja t-testa za zavisne uzorke

Na testu znanja iz matematike u razredu od 30 djece postignut je prosječni uspjeh od 16.5

boda uz standardnu devijaciju 1.3. Taj je isti razred na prethodnom testu iz istog predmeta

postigao u prosjeku 15 bodova uz standardnu devijaciju 2. Povezanost rezultata učenika na

dva testa iznosi 0.6. Razlikuje li se uspjeh ovih učenika u dva testa iz matematike?

Hipoteza H0: Nema razlika između rezultata skupine učenika na dva testa iz

matematike.

Prije interpretacije dobivenih rezultata trebamo odrediti graničnu vrijednost t-testa koja

se određuje na temelju stupnjeva slobode, koji u ovom slučaju iznose df=30-1=29. Uz razinu

rizika od 1% u tablici se može očitati granična vrijednost 2.76.

5.17 > 2.76 (Dobiveni t veći je od tabličnog t uz 1% pogreške).

Dobiveni rezultat: t(29)=5.17, p<0.01.

Uz razinu rizika od 1%, možemo odbaciti nul hipotezu i zaključiti da se aritmetičke

sredine ovih dvaju uzoraka međusobno statistički značajno razliku, odnosno da su učenici

bolje riješili drugi test iz matematike.

Ako trebamo usporediti vrijednosti više od 2 skupine rezultata ne smijemo koristiti t-

test zbog problema višestrukih usporedbi i povećanja vjerojatnosti pogreške tipa I. Umjesto

toga koristimo analizu varijance.

17.529.0

5.1

083.0

5.1

104.0187.0

5.1

36.024.06.0236.024.0

155.16

36.048.5

2

30

2

24.048.5

3.1

30

3.1

22

2

1

xxxt

SEM

SEM


57

3.5. HI-KVADRAT TEST

Hi-kvadrat test predstavlja neparametrijski test kojeg koristimo kad radimo s podacima

izmjerenim na nominalnoj skali mjerenja. Ovaj test možemo upotrijebiti ako želimo provjeriti

odgovara li neka izmjerena distribucija onoj koju bismo teorijski očekivali, ili razlikuju li se

distribucije dvaju ili više skupina podataka. On se temelji na usporedbi dobivenih

(izmjerenih) frekvencija (ne postotaka!) različitih skupina ispitanika i očekivanih

(teorijskih) frekvencija koje je potrebno odrediti prije računanja samog testa.

t

to

f

ff 22 )(

df=k-1 ili df=(k1-1) (k2-1)

fo - opažene frekvencije;

ft - teoretske frekvencije;

k – broj kategorija unutar pojedinih

(jedne ili više) varijabli

Teorijske se frekvencije pritom određuju na temelju istraživačke hipoteze i

postavljenog istraživačkog pitanja. Odabir teorijskih frekvencija najčešće predstavlja kritični i

ključni dio izračuna hi-kvadrat testa i na ovaj korak uvijek treba usmjeriti posebnu pažnju.

Naime, ne postoji jedan „recept“ za računanje teorijskih frekvencija, jer ono ovisi o broju

varijabli kao i našim očekivanjima vezanim uz to kakva bi distribucija „trebala biti“ u slučaju

da ispitivani efekt ne postoji. Najčešće pritom očekujemo da se podaci distribuiraju normalno

(na primjer, da je u nekom ispitu najviše ocjena dobar, a najmanje odličan i nedovoljan) ili

jednolično (na primjer, da u dva skupa podataka bude jednaki broj ispitanika). Među dolje

navedenim primjerima možete pronaći dva relativno česta primjera izračuna teorijskih

frekvencija, a ostale primjere i pravila možete potražiti u preporučenoj literaturi.

Prilikom određenja dobivenih i teoretskih frekvencija treba imati na umu da njihov

zbroj treba biti jednak, te da je važno prilikom postavljanja tablice hi-kvadrat testa u obzir

uzeti ne samo situacije u kojima se pojavilo neko svojstvo, nego i one u kojima se ono nije

pojavilo.

Slično kao kod računanja t-testa, kod hi-kvadrat testa potrebno je izračunati ne samo

vrijednost samog testa, već i pripadajuće stupnjeve slobode na temelju kojih se određuje

granična vrijednost hi-kvadrat testa. Nju možete pronaći u statističkoj tablici za hi-kvadrat test

(prilog Tablica 3: Granične vrijednosti hi-kvadrat testa uz različite razine rizika i stupnjeve


58

slobode) ili će vam je računalni program za statističku obradu podataka automatski uzeti u

obzir prilikom provedbe testa.

Prilikom navođenja rezultata hi-kvadrat testa navodi se najprije vrijednost testa ( 2 )

uz pripadajuće stupnjeve slobode (df), a zatim i vjerojatnost slučajne pojave (p) dobivene

vrijednosti hi-kvadrat testa. Ukoliko je p-vrijednost manja od 5% (ili 1%) razliku možemo

proglasiti statistički značajnom (uz rizik od 5% ili 1%).

Kod korištenja hi-kvadrat testa treba naglasiti i to da se u slučaju malog broja

ispitanika (ili kategorija), može primijeniti tzv. Yatesova korekcija unutar hi-kvadrat testa.

Također, kod zavisnih uzoraka možete primijeniti posebnu verziju ovog testa, tzv.

McNemarov test.

Primjer računanja hi-kvadrat testa kod istraživanja s jednom varijablom:

U skupini od 24 djevojčice istražena je čestina sudjelovanja u izvanškolskim aktivnostima.

Dobiveni rezultati pokazali su da je ukupno 7 djevojčica pohađalo neku sportsku aktivnost,

njih 11 strani jezik, dok ih se 6 upisalo u debatni klub. Preferiraju li djevojčice određenu

slobodnu aktivnost, ili sve biraju jednakom čestinom?

Hipoteza H0: Djevojčice jednako često biraju svaku od mogućih slobodnih aktivnosti.

Nakon što smo izračunali teorijske frekvencije na temelju hipoteze o jednolikoj

raspodjeli (vidi Tablicu), možemo izračunati i sami hi-kvadrat test.

SPORTOVI STRANI

JEZIK

DEBATNI

KLUB U K U P N O

OPAŽENE

FREKVENCIJE 7 11 6 24

TEORIJSKE

FREKVENCIJE 24/3=8 24/3=8 24/3=8 24

75.15.0125.1125.0

8

)86(

8

)811(

8

)87(

2

2222


59

Broj stupnjeva slobode: df=3-1=2. Uz razinu rizika od 5% u tablici se može očitati

granična vrijednost 5.99.

1.75 < 5.99 (Dobiveni hi-kvadrat je manji od graničnog uz 5% pogreške).

Dobiveni rezultat: 0.05>,75.1)2(2 p

Uz razinu rizika od 5%, možemo prihvatiti nul hipotezu i zaključiti da djevojčice

jednako često biraju sve testirane slobodne aktivnosti.

Primjer računanja hi-kvadrat testa kod istraživanja s dvije varijable:

U skupini od 50 djece, 25 dječaka i 25 djevojčica, istražena je čestina sudjelovanja u

izvanškolskim aktivnostima. Dobiveni rezultati pokazali su da je ukupno 7 djevojčica

pohađalo neku sportsku aktivnost, njih 12 strani jezik, dok ih 6 nije upisalo nikakvu aktivnost.

U uzorku dječaka, njih 10 je pohađalo sportsku aktivnost, 5 strani jezik, a 10 ih nije pohađalo

nikakvu aktivnost. Razlikuju li se dječaci i djevojčice po odabiru slobodnih aktivnosti?

Hipoteza H0: Dječaci i djevojčice ne razlikuju se po odabiru slobodnih aktivnosti

SPORTOVI STRANI

JEZIK

NEMA

AKTIVNOSTI U K U P N O

DJEVOJČICE 7 12 6 25

DJEČACI 10 5 10 25

U K U P N O 17 17 16 50

Najprije trebamo izračunati teorijske frekvencije za svaku pojedinačnu kućicu u

tablici. To radimo tako da izračunamo umnožak ukupnog broja ispitanika u pripadajućem

stupcu i retku, i tu vrijednost podijelimo s ukupnim brojem ispitanika.


60

850

1625

5.850

1725

5.850

1725

850

1625

5.850

1725

5.850

1725

23

22

21

13

12

11

T

T

T

T

T

T

f

f

f

f

f

f

Zatim možemo izračunati i sami hi-kvadrat test.

4.45.044.126.05.044.126.0

8

)810(

5.8

)5.85(

5.8

)5.810(

8

)86(

5.8

)5.812(

5.8

)5.87(

2

2222222

Broj stupnjeva slobode: df=(2-1)(3-1)=2. Uz razinu rizika od 5% u tablici se može

očitati granična vrijednost 5.99.

4.4 < 5.99 (Dobiveni hi-kvadrat je manji od graničnog uz 5% pogreške).

Dobiveni rezultat: 0.05>,2,4.42 pdf

Uz razinu rizika od 5%, možemo prihvatiti nul hipotezu i zaključiti da se dječaci i

djevojčice međusobno ne razlikuju po izboru slobodnih aktivnosti.


61

3.6. OSTALI TESTOVI ZA USPOREDBU SKUPINA PODATAKA

Testovi prikazani u Poglavljima 3.6. i 3.7., t-test i hi-kvadrat test, predstavljaju vjerojatno

najčešće testove za usporedbu skupina podataka. Kao što je ranije opisano, t-test se može

koristiti za usporedbu aritmetičkih sredina dviju skupina podataka, dok hi-kvadrat test

računamo kada želimo usporediti frekvencije unutar skupina podataka. U praksi poznavanje

samo ova dva testa najčešće nije dovoljno za provedbu cjelovite statističke obrade jer ta

obrada vrlo često zahtijeva drugačije oblike analiza, npr. usporedbu više skupina podataka ili

provjeru odnosa među izmjerenim varijablama, dok ponekad prikupljeni podaci ne

ispunjavaju temeljne uvjete za provedbu parametrijskog postupka kao što je t-test.

Već smo ranije spomenuli kako prilikom usporedbe dviju skupina podataka koje ne

zadovoljavaju temeljne uvjete primjene t-testa treba koristiti prikladni neparametrijski test.

Ovakvih testova ima relativno mnogo, i o njima više možete saznati u preporučenoj literaturi.

Ovdje ćemo, međutim, ipak spomenuti neke temeljne testove koji se u praksi najčešće koriste,

kako biste ih u budućnosti mogli prepoznati ili o njima lakše potražiti potrebne informacije.

Od neparametrijskih testova za usporedbu dva skupa nezavisnih podataka u praksi ćete

najčešće susretati i koristiti dva testa: medijan test i Mann-Whitneyev U test. Pritom se

izračun medijan testa temelji na logici hi-kvadrat testa kojim se provjerava pripadaju li dva

uzorka populaciji s istim medijanom, dok se Mann-Whitneyev U test temelji na usporedbi

rangiranih podataka dviju skupina podataka. Od neparametrijskih testova za usporedbu dva

skupa zavisnih podataka treba spomenuti jednostavni test predznaka te Wilcoxonov test

ekvivalentnih parova koji se u praksi češće koristi.

Ukoliko se sami odlučite koristiti neki neparametrijski test, preporuča se primijeniti

Mann-Whitneyev U test kod nezavisnih ili Wilcoxonov test ekvivalentnih parova kod

zavisnih uzoraka, i to uz pomoć nekog računalnog programa za statističku obradu podataka.

Jednom kad izračunate ove testove, interpretacija dobivenih podataka je slična onoj kod t-

testa: dobivene z-vrijednosti kod Mann-Whitneyevog U testa ili T-vrijednosti kod

Wilcoxonovog testa ekvivalentnih parova uspoređuju se s graničnim vrijednostima ovih

testova uz određeni broj ispitanika koje možete pronaći u prikladnim statističkim tablicama, te

se zatim interpretiraju jednako kao kod t-testa. Dakle, ako je dobivena vrijednost testa veća od

granične uz odabrani stupanj sigurnosti, razliku možete interpretirati kao statistički značajnu.

Osim za usporedbu dviju skupina podataka, neparametrijski testovi se mogu koristiti i

za usporedbu većeg broja skupina. Pritom se za usporedbu većeg broja nezavisnih skupina

najčešće koristi Kruskal-Wallisov test, a za usporedbu većeg broja zavisnih skupina


62

Friedmanov test. Međutim, kod uspoređivanja više skupina podataka znatno veću snagu ima

parametrijski statistički postupak koji se naziva analize varijance. S obzirom na složenost

ovog postupka, u ovom priručniku ona neće biti detaljno opisana. Međutim, u ostatku ovog

poglavlja ukratko se možete upoznati s osnovnim uvjetima i principima primjene analize

varijance, kako biste njezinu provedbu kasnije jednostavnije mogli organizirati. Pritom je

preporučljivo analizu varijance primjenjivati pomoću odgovarajućih računalnih programa za

statističku obradu podataka uz pomoć kojih ćete relativno jednostavno dobiti željene rezultate.

Kao i ostali parametrijski postupci, i analiza varijance se može koristiti samo ukoliko

su ispunjeni neki temeljni uvjeti koji su u principu jednaki onima za t-test. Pritom je

najvažnije da svi uzorci imaju homogene varijance, te da su podaci unutar različitih skupina

međusobno nezavisni. Ukoliko su ti uvjeti zadovoljeni, možete pomoću analize varijance

usporediti tri ili više skupina podataka. Međutim, pritom treba naglasiti da postoji više vrsta

analiza varijance, čija primjena ovisi o karakteristikama skupina podataka koje ispitujete.

Pritom je ključno znati da li su vaše skupine podataka međusobno zavisne ili nezavisne, te

odražavaju li varijacije unutar jedne ili više varijabli. Na primjer, ukoliko želite usporediti

prosječno zadovoljstvo školom kod učenika prvog, drugog, trećeg i četvrtog razreda osnovne

škole, to možete napraviti uz pomoć jednostavne ili jednosmjerne analize varijance koja će

vam pokazati da li se te četiri skupine međusobno razlikuju prema izmjerenom zadovoljstvu.

U ovom slučaju vaše istraživanje uključuje jednu zavisnu varijablu (zadovoljstvo školom) i

jednu nezavisnu varijablu (razred) koja ima četiri razine (prvi, drugi, treći, četvrti razred),

odnosno četiri moguće vrijednosti prema kojima se razlikuju prikupljene skupine podataka.

Rezultat tako provedene analize varijance je F-omjer, vrijednost koja predstavlja opći

pokazatelj postojanja statistički značajnih razlika među ispitanim skupinama. Jednom

izračunat, taj se F-omjer može prikazati i interpretirati na isti način kao i vrijednost t-testa:

treba pritom izvijestiti o vrijednosti F-omjera, pripadajućim stupnjevima slobode i razini

značajnosti F-omjera. Ukoliko je ta vrijednost značajna, dobiveni rezultat pokazuje da se

testirane skupine, odnosno učenici različitih razreda, međusobno razlikuju prema zadovoljstvu

školom, ali vam ne govori ništa o razlikama među pojedinačnim parovima skupina. Naime,

moguće je da su sve skupine međusobno različite (npr. najzadovoljniji su učenici prvog, pa

drugog, pa trećeg, pa četvrtog razreda), ili da se samo neke od njih međusobno razlikuju (npr.

učenici prvog razreda su najzadovoljniji, nakon njih slijede učenici drugog razreda, dok su

učenici trećeg i četvrtog razreda nezadovoljniji od onih iz prvog i drugog razreda, ali se

međusobno ne razlikuju). S obzirom na to da vam F-omjer ne daje informacije o razlikovanju

pojedinačnih skupina, nakon izračuna F-vrijednosti možete provesti i dodatne testove za


63

usporedbu pojedinačnih parova skupina unutar istraživanja (tzv. post-hoc testovi). Te testove

pritom smijete računati samo ako je F-omjer statistički značajan.

Osim uz pomoć jednostavne analize varijance, četiri ili više skupina podataka možete

usporediti i uz pomoć složene ili višesmjerne analize varijance ukoliko ste u istraživanje

uključili dvije ili više nezavisnih varijabli s po dvije ili više razina. Na primjer, ovu vrstu

analize trebali biste koristiti ukoliko ste u istraživanju uspoređivali zadovoljstvo školom kod

četiri skupine učenika koje su formirane na temelju dvije nezavisne varijable s po dvije razine.

Na primjer, ako ste u istraživanje uključili varijablu spol s dvije razine muški/ženski i

varijablu razred s razinama prvi/četvrti razred, uz pomoć ovog postupka usporedit ćete

skupine učenica prvih razreda, učenika prvih razreda, učenica četvrtih razreda i učenika

četvrtih razreda. Rezultati dobiveni ovim postupkom pokazat će vam glavni efekt svake

varijable i njihovu interakciju, odnosno u ovom primjeru glavni efekt spola (npr. djevojčice

su općenito zadovoljnije školom od dječaka), glavni efekt dobi (npr. učenici prvog razreda su

općenito zadovoljniji školom od učenika četvrtog razreda), te interakciju spola i dobi (npr.

učenice su u četvrtom razredu zadovoljnije školom od učenika, dok su u prvom razredu

učenici zadovoljniji od učenica). Dakle, izračun složene analize varijance rezultirat će s

najmanje tri F-omjera koja ćete interpretirati jednako kao i kod jednostavne analize varijance.

Također, treba spomenuti još jednu vrstu analize varijance, tzv. analizu varijance s

ponovljenim mjerenjima koju ćete koristiti ukoliko imate u potpunosti, ili djelomično

zavisne podatke mjerenja. S obzirom na složenost i širinu ovog, ali i ostalih oblika analize

varijance, preporuča se da o njima više saznate u preporučenoj literaturi.


64

3.7. KORELACIJA

Korelacijskom analizom provjerava se postojanje veze između pojava ili njihovih obilježja,

odnosno postojanje, smjer i veličina povezanosti između dvije varijable. Primjer takve

povezanosti predstavlja odnos težine i visine: u prosjeku, više osobe su i teže od onih nižeg

rasta. Koeficijent korelacije kojeg pritom izračunavamo predstavlja vrijednost koja pokazuje

snagu i smjer odnosa između dva događaja ili mjerenja.

Predznak korelacije daje informaciju o smjeru odnosa između dvije varijable.

Pozitivna korelacija pokazuje da se dva faktora zajedno povećavaju ili smanjuju, kao što je

slučaj s visinom i težinom. Negativna korelacija pokazuje da povećavanje jednog faktora

rezultira smanjivanjem drugoga, pa tako, na primjer, učenici koji manje pričaju tijekom

nastave postižu bolje rezultate na testovima.

Što se veličine (snage) povezanosti tiče, raspon korelacije kreće se u rasponu od -1.00

do +1.00. Što je korelacija bliža vrijednosti 1.00 ili -1.00, to je odnos jači. Na primjer,

koeficijent korelacije između visine i težine iznosi oko 0.70 i predstavlja snažnu povezanost,

dok je korelacija između inteligencije i boje kose oko 0.00 (ne postoji povezanost). Kada se

izračuna koeficijent korelacije između dviju varijabli, prije daljnje interpretacije dobivene

vrijednosti treba izračunati da li je dobivena vrijednost statistički značajna ili ne, pa tek tada

interpretirati dobivene rezultate. Prilikom interpretacije koeficijenta korelacije treba naglasiti

da korelacija pokazuje povezanost, ali ne govori ništa o uzročno-posljedičnom odnosu između

dvije varijable. Na primjer, činjenica da postoji povezanost između ocjena studenata u okviru

različitih kolegija ne znači da ocjena iz jednog kolegija utječe ili uzrokuje one iz drugih

kolegija, već najčešće reflektira činjenicu da se studenti međusobno razlikuju po tome koliko

općenito uče i zalažu se na nastavi.

S obzirom na karakteristike varijabli i prikupljenih podataka moguće je koristiti

različite koeficijente korelacije. Najčešće korišteni koeficijent korelacije je Pearsonov

koeficijent korelacije (r) koji se računa ukoliko su zadovoljeni neki temeljni uvjeti:

Povezanost između dviju varijabli je linearna.

Rezultati obje varijable izraženi su barem na intervalnoj skali.

Distribucije obiju varijabli su normalne, odnosno simetrične.

Prikupili smo više od 30 parova podataka.


65

Postoje i brojni drugi koeficijenti korelacije koji se koriste ukoliko nisu zadovoljeni

uvjeti za korištenje Pearsonovog koeficijenta, primjerice Spearmanov koeficijent korelacije,

koeficijent kontingencije, itd.

Prilikom računanja vrijednosti koeficijenta korelacije preporučljivo je koristiti neki

računalni program za statističku obradu podataka. Unutar tih programa moguće je i grafički

prikazati dobivenu korelaciju korištenjem tzv. scatterplot grafičkih prikaza. Nakon

izračunavanja vrijednosti koeficijenta korelacije u tim programima, o njoj se treba izvijestiti

na način da se navede vrijednost koeficijenta uz pripadajuće stupnjeve slobode, a zatim i

razinu značajnosti. Pritom se stupnjevi slobode računaju prema formuli:

df = N – 2 N – broj ispitanika

Primjer navođenja rezultata korelacije: r(29)=0.47, p<0.01.

Kao što je ranije spomenuto, izračunati koeficijent korelacije ukazuje na dvosmjernu

povezanost dviju varijabli. Međutim, ukoliko postoje dvije varijable za koje znamo da su

povezane i koliko, postoje statistički postupci koji nam omogućuju da na temelju vrijednosti

unutar jedne od njih prognoziramo vrijednosti unutar druge varijable. Na primjer, ako znamo

kakva je povezanost općeg uspjeha studenata iz dodiplomskog studija i ocjena iz statistike na

diplomskom studiju, na početku nastave iz statistike za svakog studenta možemo predvidjeti

očekivane ocjene ukoliko nam je poznat njihov prosjek iz dodiplomskog studija. Pritom taj

prosjek, odnosno varijablu na kojoj temeljimo prognozu nazivamo prediktorska varijabla

(prediktor), a varijablu koju prognoziramo kriterijska varijabla (kriterij). Statistički

postupak koji nam omogućuje takvu vrstu predviđanja naziva se regresijska analiza. Ovisno

o tome koristimo li jednog ili više prediktora za predviđanje kriterija, možemo razlikovati

jednostavne i multiple regresijske analize o kojima možete više saznati u preporučenoj

literaturi.

Rad u programu za statističku obradu podataka STATISTICA

66

4. OSNOVE RADA S RAČUNALNIM PROGRAMOM

STATISTICA

U prvom dijelu ovog priručnika opisani su neki temeljni principi statističkog razmišljanja i

logika primjene osnovnih statističkih postupaka. Iako to znanje predstavlja nužan preduvjet za

provedbu statističke obrade podataka prikupljenih unutar istraživanja, njega treba nadopuniti

informacijama o korištenju računalnih programa namijenjenih statističkoj obradi podataka.

Naime, u današnje vrijeme obrade podataka dominantno se rade uz pomoć takvih programa

koji omogućuju brže, efikasnije, a ponekad i točnije računanje čak i jako složenih statističkih

postupaka. Stoga će u završnom dijelu priručnika ukratko biti prikazane osnove rada sa

STATISTICOM, jednim od računalnih programa namijenjenih statističkoj obradi podataka.

Osim STATISTICE, podatke prikupljene unutar istraživanja možete obraditi i korištenjem

drugih statističkih aplikacija, npr. SPSS-a ili R-a. Također, neke osnovne analize kao i

grafičko prikazivanje rezultata moguće je provesti u Microsoft Excelu. Svaki od programa

namijenjenih statističkoj obradi podataka nudi brojne mogućnosti koje u ovom priručniku

nećemo detaljno opisivati. Umjesto toga, cilj je ovog poglavlja ukratko prikazati temeljne

principe rada u STATISTICI i objasniti kako uz pomoć ovog programa možete izračunati

statističke postupke prikazane u provom dijelu priručnika. Za detaljnije upute ili informacije o

postupcima koji u priručniku nisu obrađeni preporuča se konzultirati preporučenu literaturu.

Osnove rada u programu STATISTICA, npr. pokretanje i zatvaranje programa, čuvanje

datoteka i ostale osnovne radnje, slične su onima kod ostalih aplikacija unutar Windowsa, te

ih stoga nećemo detaljno svih opisivati. Također, rad sa STATISTICOM olakšat će vam znanje

engleskog jezika. Prije opisa osnovnih principa rada u STATISTICI treba naglasiti kako u

ovom programu možete otvoriti i podatke koje ste već sačuvali u drugim programima, npr.

Microsoft Excelu i SPSS-u. Slično tome, nakon rada s nekim skupom podataka u STATISTICI

te podatke, kao i rezultate provedenih analiza, možete sačuvati u formatu STATISTICE, ali i

drugih programa, npr. Microsoft Excelu ili u pdf formatu.

Ukoliko nakon rada s nekim skupom podataka unesene podatke sačuvate kao

dokument unutar STATISTICE, taj ćete dokument kasnije prepoznati po ekstenziji .sta.

Na početku, program STATISTICA možete pokrenuti na nekoliko načina:

dvostrukim klikom miša na ikonu STATISTICE (Slika 11),

odabirom ikone STATISTICE u izborniku Start, ili

otvaranjem nekog već postojećeg dokumenta sačuvanog u STATISTICI.


67

Slika 11. Pokretanje programskog sustava STATISTICA.

Nakon pokretanja programskog sustava STATISTICA na ekranu se pojavljuje osnovno

radno okruženje programa. Ukoliko na samom početku rada sa programom STATISTICA

želite otvoriti neki već postojeći dokument s podacima, tu opciju (Open a STATISTICA data

file) trebate odabrati u prozoru Welcome to STATISTICA (Slika 12). U ovom izborniku vam se

nudi i mogućnost otvaranja Microsoft Excel dokumenta, što može biti jako korisno ukoliko ste

podatke već ranije unijeli.

Slika 12. Prozor koji se pojavljuje prilikom ulaza u sustav STATISTICA.

Ukoliko na početku želite unijeti nove podatke, trebate zatvoriti prozor Welcome to

STATISTICA nakon čega će se pojaviti prozor za unos podataka (Data:Spreadsheet1; Slika

13). Ovo ujedno predstavlja i osnovno sučelje, odnosno radno okružje unutar STATISTICE.

Slično kao i kod drugih programa, na vrhu prozora nalazi se ime datoteke, a sam se prozor

sastoji od nekoliko osnovnih elemenata:

Dugmad za kontrolu prozora i dugmad za kontrolu dokumenta, te klizači koji

pomažu za kretanje po dokumentu nalaze se na vrhu i s desne strane radnog

prozora.

Glavna linija izbornika sadrži osnovne izbornike od kojih su neki slični onima koje

susrećete u drugim programima (npr. Home, Edit, View, Help), dok su drugi

specifični za program STATISTICA (npr. Statistics, Graphs, Data Mining).


68

Linija s alatima nalazi se ispod glavne linije izbornika, i uključuje poveznice na

specifične alate koje nude glavni izbornici.

Statusna linija se nalazi na dnu ekrana, i na njoj se nalaze podaci vezani za trenutni

dokument, npr. nazivi otvorenih radnih prozora.

Prostor za rad, odnosno radna površina (Slika 13) unutar koje u pravilu možete

vidjeti otvoren prozor s podacima ili prozore s rezultatima provedenih analiza.

Dakle, unutar ovog prostora možete unositi i provjeravati unesene podatke ili

pregledavati rezultate statističkih analiza.

Općenito treba naglasiti da program STATISTICA, slično kao i Microsoft Excel,

podatke i rezultate kasnijih analiza organizira i prikazuje u različitim prozorima ili radnim

listovima. Stoga je tijekom obrade važno paziti na otvorene radne prozore, što možete pratiti

na dnu ili s lijeve strane ekrana.

Slika 13. Osnovno radno okruženje unutar prostora STATISTICA (Prozor za unos podataka;

Data:Spreadsheet1).


69

4.1. UNOS I ORGANIZACIJA PODATAKA

4.1.1. Definiranje varijabli

Prije nego što započnete unositi prikupljene i pripremljene (provjerene i kodirane) podatke u

pojedina polja unutar prozora za unos podataka, potrebno je u prvom retku prozora imenovati

relevantne varijable. Tako za imenovanje prve varijable treba dvostrukim klikom na polje

Var1 otvoriti prozor za imenovanje te varijable (Slika 14). Tada na mjestu gdje piše Name

(„Var1“) trebate upisati ime prve varijable, npr „ispitanik“, „spol“ ili „ocjena“. Istraživač sam

određuje imena varijabli koja trebaju odražavati logiku istraživanja. Općenito se preporučuje

prilikom imenovanja koristiti kratka i sažeta imena varijabli, te svakoj varijabli dati različiti

naziv. Na primjer, ukoliko želite unijeti podatke iz ankete o ponašanju učenika tijekom

nastave koja sadrži 10 pitanja, trebate pripremiti 10 varijabli koje možete sažeto imenovati

tako da označite naziv ankete i broj pitanja na koji se varijabla odnosi (nastava_1, nastava_2,

itd.).

Slika 14. Prozor za imenovanje varijable.

Osim naziva varijable moguće je unutar prozora za imenovanje varijabli odrediti i

nekolicinu drugih karakteristika mjerene varijable. Među tim karakteristikama treba istaknuti

određivanje vrste varijable (Type) kao numeričke ili tekstualne (text). Ako se radi o

numeričkoj varijabli preporučuje se koristiti vrstu double jer je kod nje dozvoljen unos

decimalnih brojeva, dok se ovisno o količini podataka može koristiti i integer ili byte.


70

Uz to, moguće je odrediti postoje li unutar prikupljenih podataka neke vrijednosti koje

nedostaju ili koje treba ignorirati u obradi (eng. missing data). Naime, ponekad ispitanici ne

odgovore na neka pitanja, ili prilikom odgovaranja napišu neke besmislene odgovore. U

preporučenoj literaturi možete saznati više o načinima nošenja s takvim situacijama, pri čemu

je prvi korak označavanje takvih vrijednosti koje nedostaju u polje MD code unutar prozora

za imenovanje varijabli. Ovako označeni podaci kasnije neće biti uključeni u statističke

analize koje budete provodili, ali će ostati zabilježeni što vam u nekim slučajevima može biti

korisno.

Na dnu izbornika u okviru prostora označenog kao Long name (label, or formula with

Functions) moguće je napisati duže, opisno ime varijable koje će vam pomoći u organizaciji i

razumijevanju podataka. To je naročito korisno kod korištenja skraćenih imena varijabli,

pogotovo ako u skupu podataka imate više varijabli sa sličnim imenima ili planirate

prikupljene podatke koristiti i u budućnosti. Na primjer, ukoliko ste prilikom upisivanja

podataka iz nekog upitnika ili ankete prilikom imenovanja varijabli koristili skraćene nazive,

npr. nastava_1, nastava_2, itd., u ovo polje za svaku varijablu možete upisati duži naziv ili

puno pitanje iz upitnika na koje se varijabla odnosi što će vam kasnije omogućiti lakše

snalaženje i razumijevanje rezultata provedenih analiza.

Osim toga, u prostoru Long name (label, or formula with Functions) možete kreirati

nove varijable, odnosno uz pomoć formule možete odrediti kako izračunati vrijednosti

varijable koju definirate. To može biti korisno ukoliko želite formirati kompozitnu varijablu

na temelju nekih već postojećih varijabli. Na primjer, ukoliko ste prikupili podatke o broju

bodova ili ocjenama koje su studenti postigli na dva kolokvija iz predmeta Osnove statistike,

ovdje možete formirati novu varijablu koja će predstavljati primjerice prosjek ili zbroj tih

bodova ili ocjena (Slika 15).

Slika 15. Izračunavanje nove varijable na temelju postojećih varijabli.


71

S desne strane prozora za imenovanje varijabli nalazi se još nekoliko dodatnih „tipki“

koje nude korisne opcije prilikom detaljnog definiranja varijabli. Na primjer, odabirom tipke

Text Labels možete označiti kodove korištene prilikom kodiranja varijabli. U nekim

slučajevima je to nepotrebno, naročito kod kvantitativnih varijabli kod kojih je značenje

brojeva jasno samo po sebi, npr. kod varijable dob. Međutim, u nekim slučajevima, naročito

kod kvalitativnih varijabli, ova opcija može biti jako korisna, pa se stoga uvijek preporuča

kod nominalnih varijabli označiti značenje pojedinih kodova. Na primjer, kao što je prikazano

na Slici 16, kod varijable “spol” ovdje možete napisati koji ste numerički kod koristili za

označavanje ispitanika muškog (npr. broj 1), a koji za označavanje ispitanika ženskog spola

(npr. broj 2).

Slika 16. Prozor za označavanje kodova unutar pojedinih varijabli (Text Labels).

Uz to, korisna je i tipka Values/Stats koju možete odabrati ukoliko želite vidjeti

osnovne karakteristike neke varijable, uključujući i ukupni broj ispitanika koji imaju podatke

na toj varijabli, pojedinačne podatke koji se pojavljuju unutar mjerenja, te aritmetičku sredinu

i standardnu devijaciju ove varijable (Slika 17). Ovu opciju nema smisla koristiti prilikom

definiranja varijabli, ali nakon unosa podataka ona može biti jako korisna za pregled osnovnih

karakteristika unesenih podataka.

Slika 17. Prozor Values/Stats.


72

Podatke o novom imenu i karakteristikama varijable možete sačuvati pritiskom tipke

OK. Ukoliko želite odjednom upisati imena više varijabli, od jedne do druge možete se kretati

i bez zatvaranja izbornika za imenovanje varijabli, odnosno uz pomoć strelica smještenih

ispod tipke Cancel.

4.1.2. Unos i organizacija podataka

Nakon imenovanja varijabli možete započeti s unosom podataka. Podatke ćete

upisivati u polja unutar radnog lista, odnosno prozora za unos podataka prikazanog na Slici

13, u koja se ulazi uz pomoć miša ili tipkovnice. U odabrana polja se mogu upisivati cijeli ili

decimalni brojevi, kao i slova ili riječi u slučaju tekstualnih varijabli. Ukoliko se u polje unose

decimalni brojevi, za odvajanje decimalnog dijela koristi se zarez. Pritom pojedinačne

podatke za svakog ispitanika u pravilu treba unositi u retke tablice, dok će u stupcima biti

prikazane pojedine varijable. Redoslijed upisa varijabli i ispitanika određuje sam istraživač,

pri čemu taj redoslijed na kraju nema nikakvog utjecaja na rezultate provedenih statističkih

analiza.

Nakon što ste definirali varijable i unijeli prikupljene podatke u STATISTICU, vrlo

često ćete se naći u situaciji da pripremljeni dokument trebate mijenjati ili nadopunjavati, što

možete napraviti slično kao i kod drugih programa. Na primjer, ponekad ćete nakon unosa

podataka trebati dodavati, brisati, prebacivati ili reorganizirati ispitanike ili formirane

varijable. Ponekad ćete određene statističke postupke željeti provesti na dijelu ispitanika, zbog

čega ćete trebati odabrati dio ispitanika prilikom određivanja parametara za provođenje tih

postupaka. Također, vrlo često ćete prije detaljnih statističkih analiza trebati na temelju već

definiranih kreirati nove varijable. Taj je postupak ranije opisan u okviru prikaza izbornika

za imenovanje varijabli.

Uz to, često ćete prilikom obrade podataka željeti rekodirati varijable, odnosno

promijeniti neke postojeće vrijednosti unutar neke varijable. To se naročito često događa kada

se u istraživanju koriste ankete ili upitnici sastavljeni od niza pitanja na koja ispitanici

odgovaraju na skali od više stupnjeva, pri čemu su neka pitanja formulirana tako da veći broj

na skali odražava veću izraženost nekog svojstva, dok je kod drugih pitanja unutar istog

upitnika veća izraženost svojstva karakteristična za ispitanike koji su zaokružili manji broj na

skali. Ukoliko ste koristili takav upitnik kojeg u analizu želite uključiti tako da za svakog


73

ispitanika izračunate ukupni zbroj ili prosjek zaokruženih procjena unutar svih pitanja (što

vrlo često ima smisla), prije izračuna nove, sumarne varijable morate osigurati da u svim

pitanjima veći broj na skali ima jednako značenje, odnosno da svugdje odražava ili veći ili

manji stupanj izraženosti željenog svojstva. To možete napraviti tako da rekodirate samo dio

pitanja unutar upitnika kod kojih trebate obrnuti značenje brojeva na korištenoj skali (npr. kod

skale 1-5, prilikom rekodiranja broj 1 postaje 5, 2 postaje 4, 4 postaje 2, 5 postaje 1, dok 3

ostaje 3).

STATISTICA nudi sve gore opisane, kao i brojne druge oblike reorganizacije podataka

koji su dostupni putem više izbornika i naredbi. Jedan od najjednostavnijih načina provedbe

osnovnih oblika reorganizacije podataka nudi vam izbornik koji se otvara nakon pritiska na

desnu tipku miša bilo na varijablu (Slika 18), ispitanika ili neko polje unutar radnog lista. Taj

izbornik uključuje mogućnosti kopiranja, dodavanja ili pomicanja varijabli ili ispitanika,

sortiranja podataka, itd.

Slika 18. Ponuđeni izbornik nakon pritiska na desnu tipku miša.

Također, brojne mogućnosti za reorganizaciju podataka nudi vam izbornik Data kojeg

možete pronaći u glavnoj alatnoj traci. U njemu možete pronaći neke opcije koje vam nudi

ranije spomenuti prozor za imenovanje varijabli (npr. Text labels) ili koje možete pronaći

nakon pritiska na desnu tipku miša (sortiranje podataka, dodavanje ispitanika ili varijabli).

Osim toga, uz pomoć ovog izbornika možete standardizirati varijable, rangirati podatke,


74

odrediti način tretiranja vrijednosti koje nedostaju unutar podataka i slično. Ovaj izbornik

nudi vam i već spomenutu mogućnost rekodiranja, odnosno zamjena korištenih kodova u

odabranim varijablama. Na primjer, ukoliko želite rekodirati vrijednosti kodova 1 i 2 koje ste

ranije koristili za kodiranje varijable spola, trebate odabrati opciju Recode, i u prozoru za

rekodiranje odrediti stare i nove vrijednosti te varijable (Slika 19).

Slika 19. Prozor za rekodiranje vrijednosti odabrane varijable.

Nakon formiranja varijabli te unosa i organizacije dobivenih podataka preporučljivo je

provjeriti da li ste sve željene informacije točno unijeli. To možete napraviti vizualnom

inspekcijom, ili provjerom osnovnih karakteristika unesenih podataka i definiranih varijabli

(npr. raspon izmjerenih rezultata), u čemu vam može pomoći ranije opisana opcija

Values/Stats. Uz to, vrlo je korisno prije provedbe složenijih statističkih analiza grafički

prikazati dobivene podatke, kako biste provjerili oblike distribucija (čiji normalitet možete i

testirati prikladnim statističkim testom) i postojanje ekstremnih rezultata te stekli uvid u neke

druge osobitosti prikupljenih podataka. Pritom možete koristiti različite vrste grafičkih

prikaza, primjerice histogram kojeg smo ranije spominjali, kao i potencijalno vrlo korisne box

& whisker plot, scatterplot ili stem-and-leaf (stablo i lišće) grafičke prikaze o kojima više

možete saznati u preporučenoj literaturi. Ukoliko provjerom podataka utvrdite neke

nelogičnosti ili postojanje ekstremnih rezultata, prije daljnjih analiza preporučljivo je

provjeriti da li su svi podaci dobro uneseni. Naime, često se prilikom unosa velikog broja

podataka događaju pogreške (npr. vrijednosti 5 i 1 koje su trebale biti unesene u dva polja

greškom se unesu u jedno polje kao broj 51) koje kasnije mogu jako utjecati na dobivene

rezultate. Stoga je važno provjeriti njihovo postojanje usporedbom datoteke s podacima iz

originalnih anketa/upitnika, te ih u slučaju potrebe ispraviti. Ukoliko i nakon ispravki

pogrešaka uočite nelogičnosti ili ekstremne vrijednosti kod nekih varijabli, njihovo postojanje


75

trebate uzeti u obzir prilikom odabira statističkih postupaka tijekom obrade podataka kao i

prilikom interpretacije dobivenih zaključaka.

Nakon unošenja i provjere kvalitete podataka datoteka je spremna za obradu podataka

u svrhu testiranja hipoteza. Jedan primjer unesenih podataka spremnih za obradu nalazi se na

Slici 20. Ti podaci uključuju šest varijabli (oznaku ispitanika, spol studenta, bodove studenta

iz I. kolokvija, bodove iz II. kolokvija, ukupni broj bodova iz oba kolokvija i završnu ocjenu).

Slika 20. Prikaz skupa podataka unutar STATISTICE.

U sljedećim poglavljima prikazat ćemo kako se uz pomoć STATISTICE mogu

izračunati neki osnovni postupci deskriptivne i inferencijalne statistike o kojima je ranije bilo

riječi. Svaki od tih postupaka može se pronaći u okviru izbornika glavne alatne trake i

pojedinih modula koje oni nude. Pritom je računanje svake željene analize relativno

jednostavno, i može se provesti odabirom nekoliko različitih opcija ili tipki ponuđenih unutar

tih izbornika. Međutim, iako sama provedba pojedinih testova u principu nikada nije složena,

odabir prikladnog postupka i kasnija interpretacija rezultata često može biti jako zahtjevna.

Zato je važno prije same obrade naučiti neke temeljne principe statističkog zaključivanja i

obrađivanja podataka koje možete pronaći u prvom dijelu ovog priručnika i u preporučenoj

literaturi.


76

Jednom kad znate odabrati prikladne statističke postupke, možete ih relativno

jednostavno provesti unutar STATISTICE koja će vam zatim dobivene rezultate prikazati u

posebnim prozorima. Ukoliko tako dobivene rezultate budete željeli trajno sačuvati, to možete

napraviti u formatu STATISTICE ili nekih drugih programa (odabirom izbornika Save as), ili

ih jednostavno kopirati i zalijepiti u drugi željeni program, npr. Microsoft Excel. To se

naročito odnosi na situacije u kojima niste zadovoljni izgledom grafičkih prikaza koje

pripremi STATISTICA, te biste ih stoga htjeli sami pripremiti u nekom drugom programu.

Dakako, u izvještavanju o rezultatima provedenih analiza možete koristiti i grafičke prikaze

koje pripremi STATISTICA, naročito s obzirom na to da vam ovaj program nudi brojne

mogućnosti formatiranja grafova u skladu s vašim potrebama. Također, s obzirom na to da se

u STATISTICI nalaze svi relevantni podaci, ponekad je grafičke prikaze i najjednostavnije

pripremiti unutar ovog programa. Kao što ćete kasnije pročitati, grafove možete pripremiti

unutar većeg broja različitih izbornika i modula. Najjednostavnije ćete ih, međutim, pronaći u

okviru izbornika Graphs kojeg možete pronaći u glavnoj alatnoj traci.

Na kraju treba napomenuti da STATISTICA „pamti“ provedene analize, odnosno da

jednom izračunate rezultate neće prebrisati onima novih analiza, već će svaki pojedinačni

rezultat otvoriti u posebnom prozoru koji će ostati otvoren i dostupan dok ga sami ne

zatvorite. Pritom ćete popis otvorenih prozora s rezultatima moći pratiti u lijevom dijelu

radnog prozora te se odabirom željene analize kasnije na njih vratiti (Slika 26a). Osim toga,

nakon što provedete jednu analizu na odabranom setu varijabli i odlučite se vratiti na isti

izbornik za računanje, STATISTICA će se zapamtiti vaše ranije odabire koje ćete zatim moći

nastaviti specificirati. Ukoliko želite započeti novu analizu prije toga možete zatvoriti prozor s

ranijim analizama, a zatim krenuti u odabir novih varijabli i ostalih mogućnosti statističke

analize.


77

4.2. RAČUNANJE OSNOVNIH PARAMETARA DESKRIPTIVNE

STATISTIKE

Nakon unosa podataka moguće je započeti primjerenu statističku obradu. To prije svega

uključuje izračunavanje osnovnih deskriptivnih pokazatelja svih varijabli, npr. prikazivanje

raspodjele frekvencija, izračunavanje mjera središnjih vrijednosti i raspršenja, i dr. U tu svrhu

poslužit će glavni izbornik Statistics kojeg možete pronaći unutar glavne alatne trake, te prije

svega njegov prvi izbornik Basic Statistics and Tables namijenjen osnovnim statističkim

analizama (Slika 21). Taj izbornik omogućava grafičko prikazivanje raspodjele rezultata,

izradu tablica frekvencija i računanje osnovnih pokazatelja deskriptivne statistike, usporedbu

dviju ili više skupina podataka korištenjem t-testa i analize varijance, izračun koeficijenta

korelacije i drugo.

Slika 21. Izbornik Basic Statistics and Tables.

Među ponuđenim mogućnostima unutar izbornika Basic Statistics and Tables koristan

će na početku biti modul Descriptive statistics čiji je glavni prozor prikazan na Slici 22.

Slika 22. Rad u modulu Descriptive Statistics.


78

Prije provedbe analiza u okviru ovog modula potrebno je na početku odabrati željene

varijable za deskriptivnu analizu što se može napraviti odabirom tipke Variables (Slika 23).

Nakon odabira varijabli možete pritisnuti tipku OK. Ukoliko planiranu statističku analizu

želite provesti samo na dijelu ispitanika, i njih možete odabrati u okviru modula Descriptive

Statistics. Tu opciju vam nudi tipka Select cases koja se nalazi po sredini lijeve strane

osnovnog prozora ovog modula (Slika 22). Nakon što ste odabrali željene varijable, a moguće

i ispitanike, u okviru prozora Descriptive Statistics možete krenuti u provedbu željenih

statističkih postupaka.

Slika 23. Prozor za odabir varijabli koje želite obraditi.

Ukoliko nakon odabira varijabli želite za njih izračunati osnovne statističke

pokazatelje (raspon, aritmetička sredina, standardna devijacija, broj ispitanika) možete

odabrati naredbu Summary Statistics ili Summary. Ukoliko osim tih osnovnih indikatora želite

izračunati još neke statističke mjere, npr. centralnu vrijednost, to možete napraviti odabirom

željenih mjera u okviru podizbornika Advanced (Slika 24).


79

Slika 24. Prozor za odabir dodatnih mjera u okviru podizbornika Advanced.

U okviru modula Descriptive Statistics možete i grafički prikazati željene varijable

odabirom tipki Graphs 1, Graphs 2 ili Histograms. Odabirom tipke Frequency tables možete

prikazati raspodjelu frekvencija u okviru odabrane varijable.

Raspodjelu frekvencija možete odrediti i u okviru podizbornika Normality (Slika 25),

koji vam također nudi mogućnost testiranja normaliteta distribucije odabrane varijable

(Kolmogorov-Smirnov & Lilliefors test for normality). U okviru ovog izbornika možete

odabrati i broj intervala kojeg želite zadržati u okviru jedinične vrijednosti (number of

intervals). U većini slučajeva vam ova opcija neće trebati, te je stoga preporučljivo prilikom

definiranja načina kategorizacije odabrati kategorijalnu kategorizaciju (integer intervals

(categories)) koja je primjerena za cjelobrojne (diskretne) varijable.

Slika 25. Ponuđene opcije u okviru podizbornika Normality.


80

Nakon provedbe analize, STATISTICA će izračunate mjere deskriptivne statistike i

raspodjele podataka prikazati u posebnom prozoru (Slika 26a i b). Kao što vidite, u desnom

dijelu prozora s podacima prikazane su varijable koje ste ranije odabrali za provedbu

statističkih analiza, a nakon toga su za njih u različitim stupcima prikazani rezultati

provedenih analiza. Primjetite i kako se u krajnjem lijevom dijelu prozora nalaze navedene

sve provedene analize kojima ćete se tijekom daljnjih analiza i naknadno moći vratiti.

Slika 26 a-b. Primjeri rezultata izračunatih u STATISTICI. U prvom primjeru nalaze se osnovni

deskriptivni parametri odabranih varijabli (broj ispitanika, aritmetička sredina, najmanja i najveća

vrijednosti, i standardna devijacija), a u drugom raspodjela frekvencija u odabranoj varijabli.

Treba naglasiti da se, osim u modulu Descriptive Statistics, tablice frekvencija i

histogrami mogu izraditi i uz pomoć posebnog modula unutar izbornika Basic Statistics and

Tables, koji se naziva Frequency tables (Slika 27).


81

Slika 27. Odabir modula Frequency tables u okviru izbornika Basic Statistics and Tables.

Otvaranjem ovog modula (Slika 28) nude vam se mogućnosti izrade tablica

frekvencija, crtanja grafičkih prikaza, izračuna osnovnih parametara deskriptivne statistike,

kao i testiranja normaliteta distribucije koje možete pronaći odabirom različitih alata unutar

glavne linije ovog izbornika (npr. u okviru podizbornika Descr. ili Normality).

Slika 28. Rad u modulu Frequency tables.


82

4.3. TEMELJNI POSTUPCI INFERENCIJALNE STATISTIKE

4.3.1. Računanje t-testa

t-test za nezavisne uzorke možete izračunati u okviru izbornika Basic Statistics and Tables

unutar kojeg trebate odabrati modul t-test, independent by groups, dok odabirom modula t-

test, dependent samples možete izračunati t-test za zavisne uzorke (Slika 21). Slično kao i kod

deskriptivne statistike, u okviru ovih modula na početku trebate odabrati skupine podataka

koje želite usporediti.

Kod t-testa za nezavisne uzorke potrebno je odabrati tipku Variables, nakon čega će se

otvoriti prozor za odabir varijabli (Slika 29). Tada ćete u lijevom dijelu prozora moći odabrati

nezavisnu varijablu (Grouping variable) koja određuje pripadnost ispitanika određenoj

skupini, dok ćete u desnom dijelu prozora odabrati zavisne varijable (Dependent variables).

Slika 29. Prozor za odabir varijabli kod računanja t-testa za nezavisne uzorke.

U okviru modula za t-test moguće je specificirati još neke željene parametre (Slika

30), o čemu možete više saznati u okviru preporučene literature. Nakon odabira tipke

Summary ili Summary T-tests otvorit će se tablica s rezultatima t–testa.


83

Slika 30. Prozor za računanje t-testa za nezavisne uzorke.

Kod računanja t-testa za zavisne uzorke varijable za usporedbu također možete

odrediti odabirom tipke Variables. Tada ćete u lijevom dijelu prozora moći odabrati parove

varijabli koje želite međusobno usporediti. U okviru izbornika za t-test moguće je specificirati

još neke željene parametre, o čemu možete više saznati u preporučenoj literaturi. Nakon

odabira tipke Summary ili Summary T-tests otvorit će se tablica s rezultatima t-testa (Slika

31). Kao što vidite na slici, među tim rezultatima nalazi se više različitih indikatora koji

uključuju, među ostalima, i vrijednosti aritmetičkih sredina i standardnih devijacija uzoraka.

Od svih vrijednosti navedenih u ovoj tablici prilikom izvještavanja o dobivenim rezultatima

kasnije će biti potrebno navesti vrijednost t-testa, pripadajuće stupnjeve slobode i razinu

značajnosti u skladu s ranije navedenim smjernicama (u ovom slučaju t(29) = 2.76, p < 0.01).

Slika 31. Primjeri rezultata t-testa za zavisne uzorke izračunatog u STATISTICI.

Kao što je navedeno u drugim dijelovima priručnika, ukoliko želite usporediti više od

dvije skupine podataka, umjesto t-testa trebate odabrati analizu varijance koju možete pronaći

unutar izbornika Statistics koji vam nudi modul ANOVA (Slika 32). Pritom jednosmjernu

analizu varijance nudi modul One-way ANOVA, pri čemu treba spomenuti da ovu analizu

također možete pronaći u okviru izbornika Basic Statistics and Tables (modul Breakdown &


84

one-way ANOVA). Složenu ili višesmjernu analizu varijance možete izračunati uz pomoć

modula Factorial ANOVA, dok vam modul Repeated measures ANOVA omogućuje računanje

analize varijance s ponovljenim mjerenjima.

Slika 32. Izbornik za računanje analize varijance.

4.3.2. Računanje hi-kvadrat testa

U programu STATISTICA hi-hvadrat test se računa putem modula Tables and Banners koji se

nalazi u okviru izbornika Basic Statistics and Tables. Nakon toga otvorit će se novi prozor u

okviru kojeg trebate izabrati opciju Specify tables (select variables) (Slika 33a). Tu ćete

odabrati varijable koje želite analizirati (Slika 33b), nakon čega možete pritisnuti tipku OK.

Zatim u okviru glavne linije izbornika, unutar podizbornika Options, trebate odabrati Pearson

& M-L Chi Square (Slika 33c), a nakon toga u podizborniku Advanced opciju Detailed two-

way tables (Slika 33d).


85

Slika 33a-d. Računanje hi-kvadrat testa u STATISTICI.

Nakon odabira svih potrebnih parametara i odabira tipke Summary otvorit će se tablica

s rezultatima hi-kvadrat testa (Slika 34). Prilikom izvještavanja o dobivenim rezultatima

kasnije će biti potrebno navesti vrijednost hi-kvadrat testa, pripadajuće stupnjeve slobode i

razinu značajnosti u skladu s ranije navedenim smjernicama (u ovom slučaju

0.05>,41.2)3(2 p ).


86

Slika 34. Primjeri rezultata hi-kvadrat testa za zavisne uzorke izračunatog u STATISTICI.

Ostale neparametrijske testovi (Slika 35) u STATISTICI možete pronaći u okviru

izbornika Nonparametrics kojeg možete pronaći u glavnom izborniku Statistics.

Slika 35. Prozor za odabir neparametrijskih testova.

4.3.4. Računanje korelacija

Korelaciju, odnosno statističku mjeru povezanosti dviju varijabli, možete izračunati uz pomoć

modula Correlation matrices kojeg ćete pronaći u okviru izbornika Basic Statistics and

Tables. Nakon pokretanja ovog modula, na ekranu će se pojaviti prozor Product-Moment and

Partial Correlations (Slika 36) u kojem ćete moći izračunati simetrične kvadratne

korelacijske matrice odabirom tipke One variable list ili tzv. kroskorelacijske matrice

odabirom tipke Two variable list (rectangle.matrix).


87

Slika 36. Prozor Product-Moment and Partial Correlations za računanje korelacija.

Nakon odabira opcije One variable list moći ćete odabrati parove varijabli čiju

povezanost želite izračunati. Nakon toga svoj izbor možete potvrditi pritiskom na OK, nakon

čega ćete korelacije izračunati odabirom tipke Summary ili Summary: Correlations. Nakon

što ste izračunali korelacije prikazati će vam se matrica Pearsonovih koeficijenata korelacija

između odabranih varijabli (Slika 37). Među njima će crvenom bojom biti obilježeni

statistički značajni koeficijenti korelacije, dok će ostali biti prikazani crnom bojom. Osim

toga, STATISTICA će izračunati i aritmetičku sredinu i standardnu devijaciju odabranih

varijabli.

Slika 37. Primjer rezultata provedene koreleacijske analize u programu STATISTICA.

Izvještavanje o rezultatima

88

5. IZVJEŠTAVANJE O REZULTATIMA PROVEDENOG

ISTRAŽIVANJA

U prethodnim poglavljima ovog priručnika upoznali ste se s logikom statističkog razmišljanja

i nekim osnovnim statističkim analizama, kao i s temeljnim principima rada u jednom

računalnom programu za statističku obradu podataka. Znanja koja ste prikupili pomoći će

vam da samostalno obradite podatke prikupljene u vašim istraživanjima. Kao što je navedeno

u prvom dijelu priručnika, već u fazi planiranja tih istraživanja, trebat ćete razmišljati o

mogućim i željenim statističkim postupcima koje ćete provesti nakon prikupljanja podataka.

Pritom će odabir tih statističkih postupaka ovisiti o vašim istraživačkim problemima,

istraživačkom nacrtu te karakteristikama prikupljenih podataka. Prilikom obrade podataka u

rijetkim situacijama ćete prikupljene podatke obrađivati „ručno“, samo uz pomoć kalkulatora.

Znatno češće pritom ćete koristiti neki računalni program za obradu podataka, npr.

STATISTICU ili SPSS, dok ćete se kod jednostavnijih analiza (npr. određivanja mjera

deskriptivne statistike) ili izrade grafičkih prikaza moći poslužiti i Microsoft Excelom.

Obrada podataka vama će dati odgovore na postavljena pitanja, što može biti dovoljno

ukoliko ste istraživanje proveli s ciljem odgovaranja na neki praktični problem. Međutim,

znatno češće ćete istraživanje provesti s namjerom da ga kasnije publicirate, bilo u svom

završnom ili diplomskom radu, bilo u nekom znanstvenom časopisu. Ukoliko se za to

odlučite, trebat ćete naučiti nešto i o uobičajenom načinu izvještavanja o dobivenim

rezultatima unutar takvih publikacija. Načelno, način izvještavanja o rezultatima je relativno

sličan u svim oblicima znanstvenih publikacija: rezultate treba prikazati jasno i jednoznačno,

te pritom poštivati neke osnovne principe izvještavanja o statističkim analizama. U najvećem

broju publikacija kratak prikaz glavnih rezultata dobivenih u provedenom istraživanju treba

pripremiti unutar posebnog odlomka rada koja se najčešće naziva „Rezultati istraživanja“.

Unutar ovog odlomka nije potrebno napisati sve rezultate koji se teoretski mogu izračunati na

temelju prikupljenih podataka, već samo one koji daju odgovore na postavljene istraživačke

probleme. Prikaz rezultata treba organizirati smisleno, tako da prati postavljene istraživačke

probleme i hipoteze. Ovisno o složenosti provedenog istraživanja i povezanosti pojedinih

istraživačkih problema, ovaj je dio moguće organizirati cjelovito, ili ga podijeliti u više

dijelova.

Prilikom prikazivanja rezultata istraživanja najprije treba opisati važne karakteristike

uzorka ispitanika koji su sudjelovali u istraživanju (broj sudionika, struktura uzorka prema

spolu, dobi ili drugim varijablama). Nakon toga treba prikazati rezultate statističkih postupaka


89

korištenih za odgovaranje na pojedinačne istraživačke probleme, odnosno testiranje

pojedinačnih istraživačkih hipoteza. U pravilu se na početku prikazuju jednostavniji rezultati

(najčešće indikatori deskriptivne statistike), a nakon toga složeniji (rezultati analiza

inferencijalne statistike).

Navođenje rezultata istraživanja treba biti sažeto, precizno i jasno. Ono ne treba

uključivati sadržajno i teorijsko tumačenje rezultata, ali treba prikazati dobivene brojčane

vrijednosti i prikladnu statističku interpretaciju. Prikaz rezultata treba biti samodostatan,

odnosno glavni nalazi provedenog istraživanja čitatelju trebaju biti jasni na temelju čitanja

samo ovog dijela. Često se unutar istraživanja dobiveni rezultati mogu prikazati na više

načina, u tekstu ili uz pomoć tabličnog ili grafičkog prikaza. Istraživač sam određuje način

prikazivanja rezultata, pri čemu treba izbjegavati ponavljanje. Ukoliko se rezultati prikazuju

tablično ili grafički, u tekstu se treba pozvati na tablicu ili graf bez ponavljanja brojčanih

vrijednosti navedenih u njima. Također, nema smisla prikazivati iste podatke i tablično i

grafički pa se, ovisno o ciljevima i preglednosti prikaza, treba odlučiti samo za jedan od ovih

prikaza. Ovdje treba spomenuti i to da se ponekad, u nekvalitetnim publikacijama, mogu

pronaći tablice koje su samo kopirane iz računalnog programa, bez ikakvog dodatnog

formatiranja. U njima nerijetko čak ostanu zaglavlja ili drugi dijelovi tablica na engleskom

jeziku, iako je rad pisan na hrvatskom. Takva je praksa neprihvatljiva, te se tablični i grafički

prikazi uvijek trebaju primjereno formatirati prije njihovog publiciranja.

Prilikom prikazivanja dobivenih rezultata posebnu pažnju treba obratiti na slikovne i

tablične prikaze rezultata, kao i na navođenje statističkih simbola i rezultata statističkih

analiza. Smjernice za prikazivanje rezultata već su ranije opisane, dok među smjernicama

koje treba poštivati prilikom navođenja statističkih simbola i rezultata statističkih analiza

treba izdvojiti sljedeće:

• Statističke simbole, osim grčkih slova, u tekstu i tablici treba navoditi kosim slovima.

• Prilikom navođenja statističkih simbola treba osigurati njihovu razumljivost i

čitljivost. Iako se u znanstvenim radovima osnovni simboli (npr. za aritmetičku

sredinu ili standardnu devijaciju) ne trebaju posebno pojašnjavati, to je u završnim i

diplomskih radovima preporučljivo napraviti u tekstu ili posebnoj legendi. Neki od

osnovnih statističkih simbola prikazani su u Tablici 2.

• Kod pisanja decimalnih brojeva treba koristiti točku.

• Prilikom navođenja rezultata dobivenih analizama preporučeno je većinu izračunatih

vrijednosti (npr. standardna devijacija, t-test, najčešće aritmetička sredina) zaokružiti


90

na dvije decimale ili jednu decimalu (ponekad aritmetička sredina). Frekvencije se

najčešće navode kao cijeli brojevi ili brojevi s jednom decimalom.

• Ukoliko je vrijednost neke mjere manja od 1 (npr. kod razine značajnosti koja je

uvijek manja od 1), nije potrebno pisati nulu prije decimalne točke.

• Prilikom navođenja rezultata statističkih analiza nije potrebno detaljno objašnjavati

teorijsku osnovu i način provođenja odabranog postupka. Također, nije potrebno

navoditi nul hipotezu, jer je ona samorazumljiva i predstavlja sastavni dio teorijskog

određenja testa. Umjesto toga, treba navesti svrhu provođenja odabranog postupka,

odnosno istraživačko pitanje na koje se njime pokušava odgovoriti. Dobivene rezultate

treba izložiti sažeto i precizno.

• Kod navođenja rezultata deskriptivne statistike uz frekvencije se u pravilu navode i

postotci, i to najčešće u zagradi, a uz središnje vrijednosti skupa rezultata i pripadajuća

raspršenja. Na primjer:

• Navođenje frekvencija: 30 (15%)

• Navođenje aritmetičke sredine i standardne devijacije: M = 31.2 (SD = 10.42)

• Kod navođenja rezultata analiza inferencijalne statistike, treba navesti naziv

korištenog testa, pripadajuće stupnjeve slobode (navedene u zagradi nakon oznake

testa) i razinu značajnosti (p). Na primjer:

• Navođenje t-testa: t(32) = 3.21, p < .05

• Navođenje Pearsonovog koeficijenta korelacije: r(92) = .56; p < .05

• Navođenje analize varijance: F(1,30) = 3.41; p < .05

• Navođenje hi-kvadrat testa: 2 (4) = 5.59; p < .05

• Kod navođenja rezultata analiza inferencijalne statistike, moguće je navesti i druge

parametre, npr. veličinu efekta. Također, osim dobivenih brojčanih vrijednosti

potrebno je naznačiti i njihovu statističku interpretaciju. Na primjer, ukoliko se

usporedbom dviju skupina korištenjem t-testa ili hi-kvadrat testa pokazalo postojanje

statistički značajne razlike među skupinama, iz samih vrijednosti tih testova nije jasno

koja je od ispitanih skupina imala niže, a koja više rezultate. Stoga tu informaciju

treba posebno naznačiti.

Na kraju treba istaknuti da prilikom objavljivanja rezultata u različitim časopisima

treba provjeriti pravila i smjernice koje taj časopis definira za prikazivanje rezultata

statističkih analiza, te dobivene rezultate prikazati u skladu s njima.

Zadaci za vježbanje

91

6. ZADACI ZA VJEŽBANJE

1. U razredu od 17 učenika nastavnik je izmjerio znanje iz hrvatskog jezika uz pomoć dva

testa (Tablica 1). Organizirajte podatke iz tablice tako da ih za oba testa grupirate u

jednake razrede. Podatke prikažite tablično i u obliku histograma.

Učenik Test 1 Test 2 Učenik Test 1 Test 2

K. L. 38 35 K. O. 26 19

S. P. 24 18 I.E. 29 28

L. A. 48 44 P.L. 47 43

P. K. 47 52 E. M. 24 16

Ć. D. 33 28 A. M. 18 29

L. M. 52 49 A. T. 37 34

P. A. 33 15 V. Đ. 49 49

P. M. 41 45 H. V. 34 30

Š. M. 34 34

2. U tablici su prikazani rezultati mjerenja depresivnosti skupine studenata. Nacrtajte

distribuciju rezultata grupiranih u razrede te izračunajte pripadajuće središnje vrijednosti

(aritmetičku sredinu, centralnu i dominantnu vrijednost) i standardnu devijaciju rezultata.

19 26 14 25 20 26 12

14 24 20 23 24 30 7

18 18 15 22 19 17 24

19 26 13 20 19 25 24

22 25 20 24 21 28 18

20 23 27 13 29 7 23

25 21 19 17 27 13 21

26 20 25 22 12 15 32


92

3. Izračunajte prosječne vrijednosti (aritmetičku sredinu, centralnu i dominantnu vrijednost)

sljedećih distribucija. Razmislite o tome koje mjere nije prikladno koristiti kod nekih od

ovih distribucija.

M C D

A 9 8 8 8 7 7 7 7 7 6 6 6 5

B 100 90 90 80 70 70 60 50 40 30 20 20 10

C 9 8 8 7 7 7 7 7 6 6 5 3 2

D 100 100 90 90 80 80 70 60 60 50 50 40 40

4. Studenti prve godine sociologije (N=40) trebali su položiti 9 ispita. Do kraja godine jedan

je student položio svih 9 ispita, 6 je položilo njih 8, 10 studenata je položilo 7, 9 ih je

položilo 6, 7 je položilo 5, 3 je položilo 4, dvoje 3 ispita, jedan 2 ispita, a jedan student

nije položio niti jedan ispit. Koliko su ispita studenti u prosjeku položili? Izračunajte

standardnu devijaciju rezultata. Komentirajte oblik dobivene distribucije.

5. Izračunajte aritmetičku sredinu, centralnu vrijednost, dominantnu vrijednost i standardnu

devijaciju za sljedeći skup podataka: 3, 5, 4, 4, 4, 4, 2, 1, 0, 9, 8, 10, 14, 15, 3, 7.

6. U ispitivanju zadovoljstva poslom nastavnici jedne škole su popunjavali upitnik čiji je

mogući raspon bodova bio od 0-20. Pritom su dobiveni sljedeći rezultati: 12, 14, 14, 14,

13, 14, 14, 15, 16, 13, 14, 15, 12, 14, 18, 17, 25, 15, 14, 14, 13, 13, 14. Izračunajte sve

prikladne središnje vrijednosti koje poznajete. Odredite raspon dobivenih rezultata.

7. U kolokviju iz Osnova statistike studenti su postigli sljedeće rezultate: 18, 15, 24, 2, 5, 16,

26, 8, 12, 10, 47, 32, 16, 17, 22, 25, 15, 10, 3, 7, 19, 31, 30, 11, 24, 16, 35, 22, 45, 20.

Sastavite tablicu po razredima čiji interval iznosi 7 i nacrtajte histogram frekvencija.

Odredite aritmetičku sredinu, medijan i mod.

8. Na testu iz matematike učenici su prosječno dobili 14 bodova (SD =2.5), iz hrvatskog su

imali prosječno 15 bodova (SD =2.5), a iz engleskog 40 bodova (SD=8). U kojem ispitu je

raspršenje ocjena bilo najveće, a u kojem najmanje?


93

9. U ispitivanju samopoštovanja skupina učenika je postigla rezultate navedene u tablici.

Izračunajte središnje vrijednosti, standardnu devijaciju i koeficijent varijabilnosti

dobivenih rezultata.

24 39 31 26 12

23 22 29 53 26

18 33 28 54 23

20 14 28 36 35

20 53 33 38 51

10. Prosječno vrijeme reakcije skupine ispitanika (N=100) iznosi 110 ms, dok je standardna

devijacija te distribucije 11. Izračunajte koliko ispitanika ima rezultat:

a) jednak ili manji od 100

b) jednak ili veći od 130

c) jednak ili veći od 95

d) u rasponu od 105 do 115.

11. Studenti (N=300) su rješavali tri različita testa:

TEST 1 TEST 2 TEST 3

M 50 60 30

SD 10 7 10

Studenti A i B su na testovima postigli sljedeće rezultate:

Student TEST 1 TEST 2 TEST 3

A 50 50 40

B 40 60 40

Izračunajte koji je student ukupno postigao bolji rezultat.

12. Skupina studenata (N=60) je rješavala zadatak kojim se mjerila vještina rješavanja

problema. Prosječno vrijeme dovršavanja zadatka bilo je 13 sekundi (13 s), a standardna

devijacija 1.5 s. Izračunajte koliko je vrijeme postiglo 10% najboljih (najbržih), a koliko

20% najlošijih studenata (s najdužim vremenom).


94

13. Na ispitu iz statistike studenti su prosječno riješili 11 zadataka, pri čemu je standardna

devijacija rezultata iznosila 4. Na ispitu je prošlo 40% studenata koji su najbolje riješili

test. Koliki je najmanji rezultat morao imati student koji je prošao ispit?

14. Ukoliko je aritmetička sredina distribucije kvocijenta inteligencije 100, a standardna

devijacija 20, koliki najmanji kvocijent inteligencije moraju imati osobe koje se nalaze u

1% najinteligentnijih ljudi?

15. U jednom istraživanju, 15 roditelja navelo je prosječan broj sati koje njihova djeca tjedno

provedu u izradi domaće zadaće: 6, 10, 3, 5, 1, 2, 3, 7, 5, 5, 4, 6, 6, 7, 4, 4, 5, 5, 6, 7.

a) Navedite prosječan broj sati koje djeca provedu u izradi domaće zadaće. Izračunajte

aritmetičku sredinu, centralnu i dominantnu vrijednost.

b) Izračunajte pripadajuće raspršenje distribucije (raspon i standardnu devijaciju)

rezultata.

16. Na temelju podataka iz prethodnog zadatka (6, 10, 3, 5, 1, 2, 3, 7, 5, 5, 4, 6, 6, 7, 4, 4, 5, 5,

6, 7) izračunajte sljedeće:

a) Odredite z-vrijednosti za djecu koja uče 3, 7 i 4 sata.

b) Kad biste sve rezultate pretvorili u z-vrijednosti, koja bi bila aritmetička sredina i

standardna devijacija nove distribucije?

c) Odredite u kojem se decilu nalazi učenik koji tjedno provede 3 sati u izradi domaće

zadaće, a u kojem onaj koji provede 10 sati.

17. Slučajni uzorak 100 zaposlenika velike firme je sudjelovao u ispitivanju karakteristika

zaposlenika. Prosječna dob radnika je 42 godine, a raspršenje je SD=11 godina. Kolika je

prosječna dob svih zaposlenika ta firme?

18. Agencija za istraživanje javnog mnijenja je tijekom predsjedničkih izbora prognozirala

uspjeh prva dva predsjednička kandidata u drugom krugu izbora. Na uzroku od 600

ispitanika prognozirali su da će pobjednički kandidat dobiti 65% pri čemu je na samim

izborima ovaj osvojio 67.9%. Da li je agencija uspješno prognozirala rezultate izbora?

19. 95 studenata koji su upisali kolegij Osnove statistike podijeljeni su u dvije skupine. Jednu

skupinu je sačinjavalo 50 studenata koji su gradivo učili uz pomoć računalnih programa za


95

statističke obrade. Druga je skupina od 45 studenata u to vrijeme učila bez računalnih

programa. Na kraju godine svi studenti su polagali ispit i pritom postigli rezultate

prikazane u tablici. Postoji li razlika u uspjehu između te dvije skupine? Interpretirajte

dobiveni rezultat.

S programom Samostalno

M 22 18

SD 4.2 3

20. Skupina od 40 studenata u dva navrata je polagala kolokvij iz statistike. Rezultati prvog i

drugog kolokvija prikazani su u tablici. Povezanost između ocjena iz prvog i drugog

kolokvija iznosila je r=0.68. Da li postoji razlika u uspjehu studenata na prvom i drugom

kolokviju? Interpretirajte dobivene rezultate.

1. kolokvij 2. kolokvij

M 17 15

SD 2.47 1.80

21. Savjetovalište fakulteta provodilo je seminar o kvalitetnom učenju u kojem je sudjelovalo

50 zainteresiranih studenata. Prije i poslije seminara među sudionicima primijenjen je test

znanja o kvalitetnom učenju (veći rezultat ukazuje na bolje znanje). Povezanost između

znanja o učenju prije i poslije seminara iznosila je r=0.6.

Prije seminara Poslije seminara

M 42 47

SD 8 12

a) Da li su studenti poslije seminara bolje poznavali osnovne zakonitosti kvalitetnog učenja?

b) Zamislite da niste ispitali znanje studenata prije početka seminara, već ste umjesto toga

ispitali znanje usporedne (kontrolne) skupine sastavljene od 50 studenata koji nisu pohađali

seminar. Pritom ste dobili vrijednosti jednake onima koje su izračunate kod studenata prije

seminara u primjeru „a“. Odredite da li u tom slučaju studenti nakon seminara znali više o

učenju od onih koji seminar nisu pohađali.

22. Na uvodnom predavanju iz statistike profesor je studente upozorio da studenti koji

tijekom godine polože barem 2 od 4 kolokvija u pravilu postižu bolji uspjeh na pismenom


96

ispitu iz statistike. Na kraju godine je na ispit izašlo 75 studenata od kojih je 35 prošlo dva

ili više kolokvija. Ta je skupina studenata u pismenom ispitu ukupno postigla 12 bodova

(SD=1.4), dok su studenti koji nisu položili kolokvije u prosjeku postigli 10.5 bodova

(SD=2). Razlikuju li se studenti po svom uspjehu na ispitu? Interpretirajte dobivene

rezultate.

23. Skupina studenata postigla je sljedeći uspjeh na kolegiju Osnove sociologije. Provjerite da

li postoji razlika u zastupljenosti, odnosno čestini pojave pojedinih ocjena na ovom

kolegiju.

Nedovoljan Dovoljan Dobar Vrlo

dobar Izvrstan Ukupno

Opažene

frekvencije 2 7 15 20 6 50

24. U nekom istraživanju je računata povezanost između varijabli inteligencije i uspjeha u

školi. U rezultatima je naveden sljedeći podatak koji opisuje tu vezu: r(42) = 0.12, p >

0.05. Interpretirajte (objasnite) dobiveni rezultat ovog istraživanja.

25. Navedite koji statistički postupak ili analizu biste trebali koristiti za odgovaranje na

sljedeće probleme: „Nakon završetka akademske godine odredili smo uspjeh jedne

skupine od 50 studenata na kolegijima Osnove statistike i Pedagogija. Najprije smo

odredili broj studenata koji su prošli i pali te ispite. Nakon toga je za studente koji su

ispite prošli zabilježena dobivena ocjena. Razlikuje li se prosječan uspjeh studenata

(prosječne ocjene) kod ta dva kolegija? Razlikuju li se ta dva kolegija prema broju

studenata koji su pali, odnosno prošli ispite?“


97

6.1. Rješenja zadataka

1. Koristeći interval razreda od 10, moguće je ovako grupirati i prikazati podatke (moguća su i

drugačija rješenja).

Broj bodova Test 1 Test 2

11-20 1 4

21-30 4 4

31-40 6 3

41-50 5 5

51-60 1 1

Slika 1. Raspodjela bodova iz dva testa iz hrvatskog jezika grupiranih u pet razreda.

2. Moguće grupiranje: 6-9 (2), 10-13 (5), 14-17 (6), 18-21 (17), 22-25 (16), 26-29 (8), 30-33

(2).

Slika 2. Rezultati mjerenja depresivnosti studenata grupirani u sedam razreda.

M 20.7 D 20

C 21 SD 5.43


98

3.

A B C D

M 7 56,2 6.3 70

C 7 60 7 70

D 7 90/70/20 7 -

U distribucijama B i D nema smisla računati aritmetičku sredinu, kao ni dominantnu

vrijednost. Općenito, u ovim distribucijama korištenje mjera središnjih vrijednosti nije

pretjerano informativno zbog oblika distribucija. Distribucija C je negativno asimetrična,

te kod nje aritmetička sredina ne predstavlja idealan reprezentant podataka.

4. Distribucija je negativno asimetrična.

M 5.9 D 7

C 6 SD 1.84

5.

M 5.8 D 4

C 4 SD 4.37

6.

M 14.5 D 14

C 14 Raspon 13

7. Moguće grupiranje: 0-6 (3), 7-13 (6), 14-20 (9), 21-27 (6), 28-34 (3), 35-41 (1), 42-48 (2).

Slika 3. Raspodjela bodova iz Osnova statistike grupiranih u sedam razreda.

M 19.4 C 17.5 D 16


99

8. Raspršenje je najveće na testu iz engleskog (20%), a najmanje na testu iz hrvatskog

(16.7%).

9.

M 30.8 SD 11.99

C 28 V 38.93%

D besmisleno

10. a) Oko 18.14% ispitanika (z=-0.91)

b) Oko 3.59% ispitanika (z=1.82)

c) Oko 91.15% ispitanika (z=-1.36)

d) Oko 34.72% ispitanika (z1=-0.45; z2=0.45).

11. Student B je ukupno postigao bolji rezultat (zA=0-1.43+1=-0.43; zB =-1+0+1=0).

12. Granična vrijednost za 10% najboljih studenata: z=-1.30; x=11.05

Granična vrijednost za 20% najlošijih studenata: z=0.84; x=14.26

13. Studenti su morali imati najmanje 12 bodova (z=0.25).

14. Minimalno moraju imati kvocijent 14 (z=2.35).

15. a) M=5.05; C=5; D= 5

b) SD=2.01; raspon=9

16. 1) -1.01, 0.97, -0.52

b) M=0, SD=1

c) Učenik koji tjedno provede 3 sati u izradi domaće zadaće nalazi se u drugom, a onaj koji

provede 10 sati u desetom decilu.

17. Uz rizik od 5% prosječna dob zaposlenika tvrtke je između 39.84 i 44.16, a uz rizik od 1%

između 39.16 i 44.84 godina.


100

18. Agencija je dobro prognozirala izbore: uz rizik od 5% na temelju njihove procjene u

populaciji se mogao očekivati rezultat između 61.2 i 68.8%.

19. t-test za velike nezavisne uzorke: t=5.39, df=93, p < 0.01

Postoji statistički značajna razlika između uspjeha studenata koji su učili uz pomoć računalnih

programa i samostalno. Bolji uspjeh imali su studenti koji su učili uz pomoć računalnih

programa.

20. t-test za velike zavisne uzorke: t=6.98, df=39, p < 0.01

Postoji statistički značajna razlika u uspjehu na dva kolokvija. Studenti su bolje riješili prvi

kolokvij.

21. t-test za velike zavisne uzorke: t=3.70, df=49, p< 0.01; t-test za velike nezavisne uzorke:

t=2.45, df=98, p > 0.01 (ali p < 0.05)

Uz rizik od 1% možemo zaključiti da se znanje studenata prije i poslije seminara statistički

značajno razlikovalo, tako da su studenti nakon seminara bolje poznavali zakonitosti učenja.

Uz rizik od 1% možemo zaključiti da ne postoji statistički značajna razlika između dvije

skupine studenata. Međutim, da smo odabrali razinu rizika od 5% ta bi razlika dosegnula

statističku značajnost. U tom slučaju zaključili bismo da su studenti iz kontrolne skupine

lošije poznavali zakonitosti učenja od onih koji su pohađali seminar.

22. t-test za velike nezavisne uzorke: t=3.75, df=73, p < 0.01

Dvije skupine studenata statistički se značajno razlikuju prema uspjehu na ispitu. Studenti koji

su prošli dva ili više kolokvija uspješnije su riješili ispit.

23. hi-kvadrat test: 2 =21.4, df=4, p < 0.01

Postoji razlika u čestini pojave pojedinih ocjena na ovom kolegiju. Studenti su najčešće dobili

ocjene dobar i vrlo dobar.

24. Ne postoji statistički značajna povezanost između inteligencije i uspjeha u školi.

25. Statističku značajnost razlike u prosječnoj ocjeni studenata provjerili bismo uz pomoć t-

testa za zavisne uzorke. Statističku značajnost razlike u broju studenata koji su pali, odnosno

prošli ispite provjerili bismo uz pomoć hi-kvadrat testa.

Literatura

101

7. PREPORUČENA LITERATURA

Cohen, L., Holliday, M. (1996). Practical statistics for students: An introductory text.

London: SAGE.

Field, A. (2009). Discovering Statistics Using SPSS. Los Angeles: SAGE.

Mejovšek, M. (2007). Metode znanstvenog istraživanja u društvenim i humanističkim

znanostima. Jastrebarsko: Naklada Slap.

Milas, G. (2009). Istraživačke metode u psihologiji i drugim društvenim znanostima.

Jastrebarsko: Naklada Slap.

Mužić, V. (2004). Uvod u metodologiju istraživanja odgoja i obrazovanja. Zagreb:

Educa.

Petz, B., Kolesarić, V., Ivanec, D. (2012). Petzova statistika. Jastrebarsko: Naklada

Slap.

Prilozi

102

PRILOZI

Prilog 1. Ključni simboli

Prilog 2. Ključne formule

Prilog 3. Statističke tablice

Tablica 1. z-vrijednosti normalne krivulje za zadane postotke površine od aritmetičke

sredine

Tablica 2. Granične vrijednosti t-testa uz različite razine rizika i stupnjeve slobode

Tablica 3. Granične vrijednosti hi-kvadart testa uz različite razine rizika i stupnjeve

slobode

Ključni simboli

103

PRILOG 1: KLJUČNI SIMBOLI

Općenito

- suma (zbroj) svih rezultata

x - simbol za apsolutnu vrijednost od x (npr. 1 =1 ili 1 =1 )

x – simbol za svaki pojedinačni rezultat / podatak

N – ukupan broj podataka / izmjerenih vrijednosti

n – broj podataka / izmjerenih vrijednosti u nekom podskupu ili uzorku

Nx - Simbol (x) koji se nalazi uz glavni (N) označava podskup na koji se glavni simbol odnosi

Grupiranje i organizacija rezultata

f – frekvencija rezultata (u razredu); ima isto značenje kao i „n“

i - interval razreda kod grupiranja rezultata

TR – totalni raspon rezultata

Rx – položaj neke vrijednosti u skupu podataka (najčešće se koristi Rc za položaj centralne

vrijednosti)

Središnje vrijednosti


Aritmetička sredina razreda može se označiti i kao „m“

Ukoliko se radi o aritmetičkoj sredini populacije najčešće se koristi simbol „μ“

C – centralna vrijednost / medijan

D – dominantna vrijednost / mod

G – geometrijska sredina

H – harmonična sredina

Mjere raspršenja

SD - standardna devijacija

SD2 – varijanca

Ukoliko se radi o populacijskoj vrijednosti (standardnoj devijaciji i varijanci

populacije) onda se najčešće koriste simboli „σ“ i „σ2“

V – koeficijent varijabilnosti

Q – poluinterkvartilno raspršenje / interkvartilni raspon

Ključni simboli

104

Položaj rezultata u grupi

z – z-vrijednost

Testiranje hipoteza

SEM - pogreška aritmetičke sredine (eng. standard error of mean)

ponekad se označava i kao SDM

SEP - pogreška proporcije (eng. standard error of proportion)

ponekad se označava i kao SDp

t – vrijednost t-testa

r - Pearsonov koeficijent korelacije

df – stupnjevi slobode (eng. degrees of freedom); ponekad se označavaju i kao ss

p – vjerojatnost slučajne pojave neke vrijednosti

Kod kategorijalnih varijabli:

2 - hi-kvadrat test

k – broj kategorija unutar jedne varijable (npr. spol: k=2 (muški i ženski))

p – proporcija podataka jedne kategorije

q – proporcija podataka druge kategorije (q=1-p)

fo - opažene frekvencije

ft - teoretske frekvencije

Osim ovih, u statistici se koristi i mnoštvo drugih mjera i simbola koje možete pronaći u

statističkoj literaturi (neke preporuke za daljnje čitanje navedene su i u ovom priručniku).

Ključne formule

105

PRILOG 2: KLJUČNE FORMULE

Deskriptivna statistika

Aritmetička sredina N

xM

Položaj centralne vrijednosti 5,02

NRc

Raspon Raspon = xmax – xmin

Standardna devijacija N

MxSD

2)(

(populacija)

1

)( 2

N

MxSD

(uzorak)

Varijanca

N

MxSD

2

2)(

(populacija)

1

)( 2

2

N

MxSD

(uzorak)

Koeficijent varijabilnosti 100M

SDV


z-vrijednost SD

Mxz

decil 10xN

rangd

centil 100xN

rangc

Ključne formule

106

Procjena parametara

Pogreška aritmetičke sredine N

SDSEM

Procjena aritmetičke sredine

populacije



Pogreška proporcije N

pxqSEP

Procjena proporcije u populaciji p 2.58 SEP (uz 99% sigurnosti)


Testovi

t-test: osnovna formula

SDt

t-test za velike (N 30)

nezavisne uzorke

2

2

2

1

21

SEMSEM

MMt

;

df=(N1-1) + (N2-1)

t-test za velike (N 30) zavisne

uzorke

21

2

2

2

1

21

2 SEMrSEMSEMSEM

MMt

;

df=N-1

hi-kvadrat test

t

to

f

ff 22 )(

;

df=k-1 ili df=(k1-1) (k2-1)

Legenda: Vidi „Ključni simboli“

Statističke tablice

107

PRILOG 3: STATISTIČKE TABLICE

Tablica 1

z-vrijednosti normalne krivulje za zadane postotke površine od

aritmetičke sredine

z % z % z %

0.00 0.00 0.49 18.79 0.98 33.65

0.01 0.40 0.50 19.15 0.99 33.89

0.02 0.80 0.51 19.50 1.00 34.13

0.03 1.20 0.52 19.85 1.05 35.31

0.04 1.60 0.53 20.19 1.10 36.43

0.05 1.99 0.54 20.54 1.15 37.49

0.06 2.39 0.55 20.88 1.20 38.49

0.07 2.79 0.56 21.23 1.25 39.44

0.08 3.19 0.57 21.57 1.30 40.32

0.09 3.59 0.58 21.90 1.35 41.15

0.10 3.98 0.59 22.24 1.40 41.92

0.11 4.38 0.60 22.57 1.45 42.65

0.12 4.78 0.61 22.91 1.50 43.32

0.13 5.17 0.62 23.24 1.55 43.94

0.14 5.57 0.63 23.57 1.60 44.52

0.15 5.96 0.64 23.89 1.65 45.05

0.16 6.36 0.65 24.22 1.70 45.54

0.17 6.75 0.66 24.54 1.75 45.99

0.18 7.14 0.67 24.86 1.80 46.41

0.19 7.53 0.68 25.17 1.85 46.78

0.20 7.93 0.69 25.49 1.90 47.13

0.21 8.32 0.70 25.80 1.95 47.44

0.22 8.71 0.71 26.11 2.00 47.72

0.23 9.10 0.72 26.42 2.05 47.98

0.24 9.48 0.73 26.73 2.10 48.21

0.25 9.87 0.74 27.04 2.15 48.42

0.26 10.26 0.75 27.34 2.20 48.61

0.27 10.64 0.76 27.64 2.25 48.78

0.28 11.03 0.77 27.94 2.30 48.93

0.29 11.41 0.78 28.23 2.35 49.06

0.30 11.79 0.79 28.52 2.40 49.18

0.31 12.17 0.80 28.81 2.45 49.29

0.32 12.55 0.81 29.10 2.50 49.38

0.33 12.93 0.82 29.39 2.55 49.46

0.34 13.31 0.83 29.67 2.60 49.53

0.35 13.68 0.84 29.95 2.65 49.60

0.36 14.06 0.85 30.23 2.70 49.65

0.37 14.43 0.86 30.51 2.75 49.70

0.38 14.80 0.87 30.78 2.80 49.74

0.39 15.17 0.88 31.06 2.85 49.78

0.40 15.54 0.89 31.33 2.90 49.81

0.41 15.91 0.90 31.59 2.95 49.84

0.42 16.28 0.91 31.86 3.00 49.865

0.43 16.64 0.92 32.12 3.10 49.903

0.44 17.00 0.93 32.38 3.20 49.931

0.45 17.36 0.94 32.64 3.30 49.95166

0.46 17.72 0.95 32.90 3.40 49.96631

0.47 18.08 0.96 33.15 3.50 49.97674

0.48 18.44 0.97 33.40 4.00 49.99683


108

Tablica 2

Granične vrijednosti t-testa uz različite razine rizika i stupnjeve slobode

razine rizika

df 10% 5% 2% 1%

1

6,431

6.34

12.71.34

12.71

12.71

31.82

31.82

63.66

63.66 2 2.92 4.30 6.96 9.92 3 2.35 3.18 4.54 5.84 4 2.13 2.78 3.75 4.60 5 2.02 2.57 3.36 4.03

6 1.94 2.45 3.14 3.71 7 1.90 2.36 3.00 3.50 8 1.86 2.31 2.90 3.36 9 1.83 2.26 2.82 3.25

10 1.81 2.23 2.76 3.17

11 1.80 2.20 2.72 3.11 12 1.78 2.18 2.68 3.06 13 1.77 2.16 2.65 3.01 14 1.76 2.14 2.62 2.98 15 1.75 2.13 2.60 2.95

16 1.75 2.12 2.58 2.92 17 1.74 2.11 2.57 2.90 18 1.73 2.10 2.55 2.88 19 1.73 2.09 2.54 2.86 20 1.72 2.09 2.53 2.84

21 1.72 2.08 2.52 2.83 22 1.72 2.07 2.51 2.82 23 1.71 2.07 2.50 2.81 24 1.71 2.06 2.49 2.80 25 1.71 2.06 2.48 2.79

26 1.71 2.06 2.48 2.78 27 1.70 2.05 2.47 2.77 28 1.70 2.05 2.47 2.76 29 1.70 2.04 2.46 2.76 30 1.70 2.04 2.46 2.75

35 1.69 2.03 2.44 2.72 40 1.68 2.02 2.42 2.71 45 1.68 2.02 2.41 2.69 50 1.68 2.01 2.40 2.68

60 1.67 2.00 2.39 2.66 70 1.67 2.00 2.38 2.65 80 1.66 1.99 2.38 2.64 90 1.66 1.99 2.37 2.63

100 1.66 1.98 2.36 2.63 125 1.66 1.98 2.36 2.62 150 1.66 1.98 2.35 2.61 200 1.65 1.97 2.35 2.60

300 1.65 1.97 2.34 2.59 400 1.65 1.97 2.34 2.59 500 1.65 1.96 2.33 2.59

1000 1.65 1.96 2.33 2.58 1.65 1.96 2.33 2.58


109

Tablica 3 Granične vrijednosti hi-kvadrat testa uz različite razine rizika i stupnjeve slobode

df / p 0.30 0.20 0.10 0.05 0.02 0.01

1

1.074

1.642

2.706

3.841

5.412

6.635

2 2.408 3.219 4.605 5.991 7.824 9.210

3 3.665 4.642 6.251 7.815 9.837 11.431

4 4.878 5.989 7.779 9.488 11.668 13.277

5 6.064 7.289 9.236 11.070 13.388 15.086

6

7.231

8.558

10.645

12.592

15.033

16.812

7 8.383 9.803 12.117 14.067 16.622 18.475

8 9.524 11.030 13.362 15.507 18.168 20.090

9 10.656 12.242 14.684 16.919 19.679 21.666

10 11.781 13.442 15.987 18.307 21.161 23.209

11

12.899

14.631

17.275

19.675

22.618

24.725

12 14.011 15.812 18.549 21.026 24.054 26.217

13 15.199 16.985 19.812 22.362 25.472 27.688

14 16.222 18.151 21.064 23.685 26.873 29.141

15 17.322 19.311 22.307 24.996 28.259 30.578

16

18.418

20.465

23.542

26.296

29.633

32.000

17 19.511 21.615 24.769 27.587 30.995 33.409

18 20.601 22.760 25.989 28.869 32.346 34.805

19 27.689 23.900 27.204 30.144 33.687 36.191

20 22.775 25.038 28.412 31.410 35.020 37.566

21

23.858

26.171

29.615

32.671

36.343

38.932

22 24.939 27.301 30.813 33.924 37.659 40.289

23 26.018 28.429 32.007 35.172 38.968 41.638

24 27.096 29.553 33.196 36.415 40.270 42.980

25 28.172 30.675 34.382 37.652 41.566 44.314

Documents

Osnove statistike u društvenim i obrazovnim - marul.ffst.hrmarul.ffst.hr/~abubic/nastava/statistika/statistika_prirucnik... · Ovaj priručnik može se koristiti kao literatura za