Upload
nguyenhanh
View
301
Download
16
Embed Size (px)
Citation preview
Osnove statistike u društvenim i obrazovnim
znanostima
(Priručnik u postupku recenzije)
doc.dr.sc. Andreja Bubić
Filozofski fakultet
Sveučilište u Splitu
Ovaj priručnik može se koristiti kao literatura za kolegij PEDAGOŠKA STATISTIKA
koji će se održati u ak.god. 2013/2014.
Sadržaj
SADRŽAJ
PREDGOVOR ........................................................................................................................................ 1
1. OSNOVNI POJMOVI U STATISTICI........................................................................................... 3
1.1. MJERNE SKALE ......................................................................................................................... 8
1.2. UZORKOVANJE ....................................................................................................................... 10
2. DESKRIPTIVNA STATISTIKA .................................................................................................. 13
2.1. ORGANIZACIJA PRIKUPLJENIH PODATAKA I PRIKAZIVANJE REZULTATA ........... 13
2.1.2. Tablično i grafičko prikazivanje podataka .......................................................................... 17
2.2. MJERE SREDIŠNJIH VRIJEDNOSTI ..................................................................................... 23
2.2.1. Aritmetička sredina ............................................................................................................. 23
2.2.2. Centralna vrijednost (medijan) ............................................................................................ 24
2.2.3. Dominantna vrijednost (mod).............................................................................................. 25
2.2.4. Ostale mjere središnjih vrijednosti ...................................................................................... 25
2.3. MJERE RASPRŠENJA REZULTATA ..................................................................................... 26
2.3.1. Raspon rezultata .................................................................................................................. 26
2.3.2. Varijanca ............................................................................................................................. 27
2.3.4. Standardna devijacija .......................................................................................................... 28
2.3.5. Koeficijent varijabilnosti ..................................................................................................... 29
2.3.6. Ostale mjere raspršenja........................................................................................................ 30
2.4. DISTRIBUCIJE REZULTATA ................................................................................................. 31
2.4.1. Normalna distribucija .......................................................................................................... 31
2.5. POLOŽAJ REZULTATA U SKUPINI ...................................................................................... 34
2.5.1. z-vrijednosti ......................................................................................................................... 34
2.5.2. Centili i decili ...................................................................................................................... 37
3. INFERENCIJALNA STATISTIKA ............................................................................................. 39
3.1. POGREŠKE MJERENJA .......................................................................................................... 41
3.2. PROCJENA PARAMETARA ................................................................................................... 43
3.2. TESTIRANJE HIPOTEZA ........................................................................................................ 45
3.3. TEMELJNI STATISTIČKI POSTUPCI .................................................................................... 50
3.3.1. Odabir prikladnog statističkog postupka ............................................................................. 51
3.4. t-TEST ........................................................................................................................................ 53
3.5. HI-KVADRAT TEST ................................................................................................................ 57
3.6. OSTALI TESTOVI ZA USPOREDBU SKUPINA PODATAKA ............................................ 61
3.7. KORELACIJA ........................................................................................................................... 64
Sadržaj
4. OSNOVE RADA S RAČUNALNIM PROGRAMOM STATISTICA .......................................... 66
4.1. UNOS I ORGANIZACIJA PODATAKA .................................................................................. 69
4.1.1. Definiranje varijabli ............................................................................................................ 69
4.1.2. Unos i organizacija podataka............................................................................................... 72
4.2. RAČUNANJE OSNOVNIH PARAMETARA DESKRIPTIVNE STATISTIKE ..................... 77
4.3. TEMELJNI POSTUPCI INFERENCIJALNE STATISTIKE ................................................... 82
4.3.1. Računanje t-testa ................................................................................................................. 82
4.3.2. Računanje hi-kvadrat testa .................................................................................................. 84
4.3.4. Računanje korelacija ........................................................................................................... 86
5. IZVJEŠTAVANJE O REZULTATIMA PROVEDENOG ISTRAŽIVANJA .................................. 88
6. ZADACI ZA VJEŽBANJE ............................................................................................................... 91
6.1. Rješenja zadataka ....................................................................................................................... 97
7. PREPORUČENA LITERATURA .................................................................................................. 101
PRILOZI .............................................................................................................................................. 102
PRILOG 1: KLJUČNI SIMBOLI ................................................................................................... 103
PRILOG 2: KLJUČNE FORMULE ................................................................................................ 105
PRILOG 3: STATISTIČKE TABLICE .......................................................................................... 107
Predgovor
1
PREDGOVOR
Ovaj je priručnik namijenjen studentima Odsjeka za učiteljski studij i Odsjeka za pedagogiju
Filozofskog fakulteta Sveučilišta u Splitu kao pomoć u svladavanju temeljnih statističkih
znanja i provedbi samostalne obrade podataka prikupljenih unutar istraživanja. Mnogo je
razloga zbog kojih vaš nastavni plan uključuje učenje statistike.
Kao studenti, obvezni se pohađati kolegij posvećen statistici. Osim toga, imat ćete
priliku susresti se sa statistikom prilikom izrade završnih i diplomskih radova, ali i unutar
brojnih nastavnih predmeta prilikom čitanja preporučene i obvezne literature. S obzirom da se
osnovna saznanja vezana uz obrazovne znanosti temelje na znanstvenim istraživanjima, za
njihovo praćenje i razumijevanje važno je poznavati osnove metodologije i statistike.
Kao budući pedagozi i učitelji, sa statistikom ćete se susretati u svakodnevnom radu.
Radeći u učionici koristit ćete statistiku prilikom ocjenjivanja, zaključivanja ocjena ili
prikazivanja uspjeha učenika njihovim roditeljima ili drugim kolegama. U svakodnevnom
radu čitat ćete znanstvene radove i udžbenike koji će prenositi saznanja utemeljena na
znanstvenoj metodologiji i statistici. Možda ćete i sami provoditi istraživanja u suradnji s
drugim kolegama, ili samostalno, za potrebe unaprjeđenja svoje prakse.
Kao građani, sa statistikom se svakodnevno susrećete dok čitate novine, gledate
televiziju, koristite računalo ili pričate s prijateljima. Razumijevanje statistike dio je opće
kulture, i ono vam pomaže da se bolje i uspješnije snalazite u svakodnevnom životu.
To su samo neki od osnovnih razloga koji ukazuju na važnost učenja statistike. Često
se misli da je statistika, iako možda važna, jako teška i matematički zahtjevna, što ne mora
nužno biti točno. Iako se radi o širokom području koje uključuje brojne složene pristupe i
analize, temeljni statistički principi nisu toliko kompleksni i ne zahtijevaju opsežno
matematičko predznanje. Da biste razumjeli osnove statistike koje će vam biti potrebne za
praćenje literature, provedbu jednostavnijeg istraživanja te izradu završnog, diplomskog ili
znanstvenog rada, potrebno je poznavati samo osnovne matematičke operacije, biti pažljiv i
motiviran za učenje. Osim toga treba dakako naučiti ponešto o statistici i temeljnim
statističkim postupcima, kao i o načinima na koji vam računalni programi mogu pomoći
prilikom statističke obrade podataka. Uz te osobne preduvjete i temeljna znanja svatko može
naučiti kako samostalno obraditi, prikazati i interpretirati podatke prikupljene istraživanjem.
Predgovor
2
Cilj je ovog priručnika pomoći vam da i sami naučite temeljne principe statističkog
rasuđivanja i provedbe osnovnih statističkih postupaka. U njemu će biti prikazane sve
statističke teme s kojima ćete se upoznati u okviru nastave iz statistike, kao i manji broj
dodatnih tema koje nisu predviđene nastavnim programom. Na taj način unutar priručnika
ćete se moći upoznati s osnovnim postupcima koje ćete susresti u nastavi, ali i pročitati neke
preporuke za korištenje složenijih analiza čije detaljnije opise možete pronaći u preporučenoj
literaturi. Naime, osim kao pomoć u nastavi iz statistike, ovaj je priručnik izrađen i kako bi
vam pomogao u obradi podataka prikupljenih unutar manjih istraživanja koja ćete u
budućnosti provoditi samostalno ili u suradnji s kolegama. Upravo zato on uključuje osnovne
statističke termine koji trebate znati prije početka obrade podataka iz istraživanja s
jednostavnijim istraživačkim nacrtom, što uključuje i neke pojmove koji prelaze okvire vašeg
nastavnog programa.
Iz tog razloga, osim upoznavanja čitatelja s osnovnim statističkim pojmovima i
postupcima koje možete pronaći u prva tri poglavlja, priručnik uključuje i osnovne
informacije o principima rada u jednom računalnom paketu za statističku obradu podataka.
Radi se o paketu STATISTICA koji je odabran stoga što ga možete pronaći i koristiti u
računalnim učionicama vašeg Fakulteta, te će se stoga koristiti i u okviru nastave iz statistike.
Također, ovaj priručnik uključuje i poglavlje posvećeno izvještavanju o rezultatima
provedenih postupaka koja će vam pomoći u pripremi završnih i diplomskih radova tijekom
studija, kao i znanstvenih radova i prezentacija istraživanja tijekom studija ili nakon diplome.
Nadamo se da će vam informacije prezentirane u ovom priručniku pomoći u lakšem
usvajanju znanja iz statistike, kao i budućem samostalnom korištenju osnovnih statističkih
postupaka.
Osnovni pojmovi u statistici
3
1. OSNOVNI POJMOVI U STATISTICI
Statistika je znanstvena disciplina (grana primijenjene matematike) koja se bavi
prikupljanjem, obradom, interpretacijom i prezentacijom podataka, a ima primjenu u gotovo
svim znanostima. Statistika je jako povezana s teorijom vjerojatnosti koja svoje korijene vuče
još iz antičkih vremena kada su se pojavili prvi izračuni vjerojatnosti u igrama na sreću.
Međutim, značajniji razvoj statistika je doživjela u 17. stoljeću, kada se u većoj mjeri počinju
bilježiti brojčani indikatori prirodnih, političkih i socijalnih komponenti države koji polako
postaju osnova za donošenje objektivnijih državnih odluka. Utoliko se i sama riječ statistika
veže uz latinsku riječ status (stanje) te talijansku riječ statista, koja označava osobu koja se
bavi državničkim poslovima. Tijekom vremena statistika se počela sve više vezivati uz teoriju
vjerojatnosti, te njezina primjena postaje sve šira. Polako se počinje koristiti i u astronomiji, a
zatim i u području biologije, agrikulture, fizike te drugih prirodnih i društvenih znanosti. Iako
modernu statistiku primijenjenu u različitim znanostima ne treba nužno označavati posebnim
imenima, ponekad se može susresti i takva praksa. Tako se, na primjer, npr. njezina primjena
u pedagoškim i ostalim obrazovnim znanostima ponekad naziva pedagoška statistika.
Korištenje statistike u istraživačkom radu ima više prednosti. Prije svega, statistika
nam omogućuje sređivanje podataka u smislenom i prigodnom obliku. Uz pomoć statistike
možemo biti znatno precizniji u opisivanju pojava, ali nam uz to ona omogućuje i neke
složenije oblike zaključivanja. Naime, uz pomoć statistike možemo uočavati zakonitosti,
predviđati kretanje neke pojave te lakše identificirati uzročno-posljedične veze među
različitim osobinama ili pojavama. Međutim, postoje i neke poteškoće koje se javljaju
prilikom korištenja statistike. One prije svega uključuju povremenu nemogućnost
kvantifikacije svih pojava koje nas zanimaju, zbog čega neke zaključke ponekad ne možemo
donijeti čak ni uz pomoć najsloženijih statističkih postupaka. Također, uz veliki broj
statističkih postupaka veže se mogućnost pojave pogrešaka koje uvijek treba imati u vidu
prilikom donošenja zaključaka. Slično tome, uvijek treba imati na umu da u istraživanjima u
pravilu radimo s nepreciznim pokazateljima (npr. brojčane ocjene) koji nam nikad ne mogu
otkriti svu složenost pojave koja nas zanima. Osim ovih nedostataka koji se vežu uz samu
prirodu istraživačkog rada i statistike, postoje i neki nedostaci koji se vežu uz praktične,
ljudske aspekte korištenja ove discipline. Oni uključuju nesavjesnu primjenu neprikladnih
statističkih postupaka, neprimjerene interpretacije točno izračunatih rezultata te
precjenjivanje, odnosno pretjeranu generalizaciju dobivenih zaključaka. Zbog ovih
Osnovni pojmovi u statistici
4
nedostataka treba naglasiti kako je uvijek važno provjeravati i nadograđivati zaključke
donesene na temelju provedenih istraživanja i primijenjenih statističkih postupaka.
Statističke metode se koriste u dvije osnovne svrhe: (1) kako bi se opisala i analizirala
mjerena pojava na razini skupa prikupljenih podataka čime se bavi deskriptivna statistika te
(2) kako bi se na temelju podataka dobivenih mjerenjem na jednom užem skupu, tzv. uzorku,
generaliziralo, odnosno zaključivalo o stanju u široj populaciji što omogućuju metode
inferencijalne statistike.
Stoga, prvi koraci statističke obrade uključuju deskriptivne analize kojima je cilj
opisati izmjereni skup podataka navođenjem frekvencija, mjera središnjih vrijednosti
(vrijednosti koje reprezentiraju taj skup) i pripadajućeg raspršenja (mjere koja nam pokazuje
koliko središnja vrijednost dobro reprezentira spomenuti skup), te ga slikovno (grafički) ili
tablično prikazati. Nakon toga možemo u daljnjim analizama koristiti brojne postupke
inferencijalne statistike koje međusobno razlikujemo s obzirom na svrhu primjene, složenost,
vrstu modela na kojima se zasnivaju, te osobine izmjerenih podataka na kojima se žele
primijeniti. Dok deskriptivna statistika ostaje u okvirima prikupljenih podataka koje želi
preciznije numerički okarakterizirati, inferencijalna statistika omogućuje složenije oblike
zaključivanja koji se odnose ne samo na izmjereni uzorak, već i na širu populaciju iz koje on
potječe i koju predstavlja. Međutim, kod takvih analiza uvijek se izlažemo mogućnostima
pogreške, a u zaključke koje donosimo u pravilu nikad ne možemo biti potpuno sigurni. S
obzirom na to, logika i postupci inferencijalne statistike povezani su s teorijom vjerojatnosti
koja nam pomaže u razumijevanju nesigurnosti koja se veže uz zaključke koje želimo donijeti
nakon provedbe ovih metoda.
O teoriji vjerojatnosti, odnosno grani matematike koja se bavi analizom slučajnih
pojava ste zasigurno već imali prilike ponešto čuti. Na primjer, često se govori o vjerojatnosti
osvajanja nekog dobitka na igrama na sreću, ili vjerojatnosti obolijevanja od neke bolesti. U
ovim slučajevima vjerojatnost predstavlja kvantificiranu šansu ili mogućnost da će se nešto
dogoditi. Ako smo potpuno sigurni da će se nešto dogoditi kolokvijalno kažemo da je šansa
100%, odnosno u terminima vjerojatnosti ona iznosi 1. Ukoliko je potpuno sigurno da se
nešto neće dogoditi vjerojatnost iznosi 0, dok se svi ostali slučajevi vjerojatnosti nalaze
između apsolutne sigurnosti (vjerojatnost 1) i apsolutne nemogućnosti (vjerojatnost 0). Tako
vjerojatnost od 0.1 znači da očekujemo da će se neki događaj po slučaju dogoditi u jednoj od
deset situacija, a vjerojatnost od 0.5 da će se dogoditi u jednoj od dvije situacije. Na primjer,
Osnovni pojmovi u statistici
5
kod bacanja novčića očekujemo da postoji vjerojatnost od 0.5 da će se pojaviti pismo, i
vjerojatnost od 0.5 da će se pojaviti glava, što znači da bismo u dva bacanja očekivali da će
jednom pasti pismo, a jednom glava. Međutim, to se ne dogodi uvijek, i mi nikad ne znamo
što će se točno dogoditi prije pada samog novčića. Dakle, vjerojatnosti nam govore što bi se
moglo, ili što očekujemo da će se dogoditi na temelju znanja o sustavu unutar kojeg se javlja
neka pojava koja nas zanima. Teorija vjerojatnosti nudi brojna pravila i zakonitosti na temelju
kojih se za brojne situacije može izračunati vjerojatnost pojave nekih događaja. U ovom
priručniku o tim zakonitostima neće biti riječi, jer one za razumijevanje opisanih metoda i
statističkih postupaka nisu nužne. Međutim, važno je znati i uvijek imati u vidu činjenicu da
se veliki dio statistike naslanja na teoriju vjerojatnosti, i da kod primjene metoda
inferencijalne statistike uvijek baratamo s vjerojatnostima, a ne sa sigurnim činjenicama.
Stoga uvijek treba biti posebno pažljiv prilikom pripreme i provedbe istraživanja (npr. odabira
uzorka) te interpretacije dobivenih podataka, jer naše odluke mogu jako utjecati na
vjerodostojnost nalaza i mogućnost primjene dobivenih rezultata.
Prije nego što se detaljnije usmjerimo na statistiku, potrebno je vrlo kratko navesti i
osnovne metodološke pojmove koje ćemo koristiti u ovom priručniku. Savjetujemo vam da o
metodologiji provođenja znanstvenih istraživanja više naučite iz preporučene literature jer se
radi o znanjima koja trebate savladati prije početka planiranja i provođenja istraživanja.
Nakon toga, organizacija svakog istraživanja počinje formuliranjem cilja i problema
istraživanja koji odražavaju našu motivaciju i pitanja na koja želimo odgovoriti istraživanjem.
U pravilu se na svako istraživačko pitanje može odgovoriti na više načina, te u sljedećem
koraku istraživač treba odabrati jedan od njih, odnosno treba definirati procedure kojima će
pokušati odgovoriti na postavljena pitanja. Dakle, istraživač treba osmisliti istraživački nacrt
kojim će definirati što će se, i kako mjeriti. To uključuje određivanje varijabli koje želi
uključiti u istraživanje, način mjerenja tih varijabli (primjerice korištenjem upitnika, anketa, i
sl.), način odabira osoba koje će sudjelovati u istraživanju, itd. Na primjer, ako nas zanima
odnos između socioekonomskog statusa djece i njihovog uspjeha u školi, trebamo odrediti
koga ćemo ispitati: koje ćemo razrede i koje škole uključiti u naše istraživanje, hoćemo li
ispitati učenike iz jednog ili više gradova ili sela, itd.
Prilikom odabira pojedinaca koje želimo uključiti u istraživanje treba dobro razmisliti
na koga se sve odnosi pretpostavljeni odnos varijabli koji želimo provjeriti istraživanjem, npr.
da li su to učenici prvoškolci, učenici nižih razreda osnovne škole, ili možda svi učenici u
Republici Hrvatskoj. Svi ti učenici tada predstavljaju populaciju, i naš je cilj na temelju
Osnovni pojmovi u statistici
6
provedenog istraživanja naučiti nešto o toj populaciji. Međutim, u istraživanjima gotovo nikad
nemamo priliku ispitati sve članove populacije, već umjesto toga biramo jedan njezin manji
dio, tzv. uzorak, na kojem se provodi mjerenje. Svaki od učenika koji sudjeluje u našem
istraživanju pritom predstavlja jednog ispitanika ili sudionika istraživanja.
Osim uzorka, trebamo odlučiti što ćemo i kako mjeriti. Na primjer, u prethodnom
primjeru odlučiti smo izmjeriti socioekonomski status učenika i njihov školski uspjeh, uz koje
možemo zabilježiti još neke dodatne informacije za koje mislimo da bi mogle biti važne (npr.
dob, spol, obiteljski status učenika, i dr.). Sve takve osobine, pojave ili procese koje možemo
opažati i mjeriti unutar istraživanja predstavljaju različite varijable. Varijabla je osobina koja
može poprimiti različite vrijednosti (za razliku od konstante koja uvijek ima jednaku
vrijednost), pa ovaj pojam koristimo za skup podataka iste vrste, npr. spol, dob ili
zadovoljstvo životom. U (eksperimentalnim) istraživanjima razlikujemo dvije vrste varijabli,
nezavisne i zavisne. Nezavisna varijabla je ona varijabla koju manipuliramo i čiji nas utjecaj
na mjerenu pojavu zanima. Za razliku od toga, zavisna varijabla je varijabla čije promjene
pratimo, odnosno varijabla koju mjerimo. U istraživanjima nas često zanima utjecaj nezavisne
na zavisnu varijablu: npr. ako istraživanjem želimo ispitati kako najavljivanje testova utječe
na uspjeh učenika, onda nam način najave testa predstavlja nezavisnu, a uspjeh na testu
učenika zavisnu varijablu. Tijekom ovako osmišljenog istraživanja za svakog od naših
ispitanika prikupit ćemo po jedan rezultat na nezavisnoj (način na koji je najavljen test), te
jedan na zavisnoj varijabli (ocjenu ili bodove na testu). Ako uz spomenutu zavisnu i
nezavisnu varijablu odlučimo prikupiti još neke informacije o učeniku, onda će one
predstavljati dodatne varijable u istraživanju.
Jednom kad odlučimo koje varijable želimo izmjeriti, trebamo odlučiti kako ćemo to
napraviti. Dakle, u ranijem primjeru socioekonomski status učenika možemo odrediti
korištenjem pitanja o primanjima roditelja, obrazovanju roditelja, obiteljskoj imovini ili
nekim drugim indikatorima, dok njihov školski uspjeh možemo izmjeriti korištenjem ocjena
iz nekih odabranih predmeta, ukupnog prosjeka ocjena, ili uz pomoć bodova prikupljenih na
testu pripremljenom za potrebe istraživanja. Pritom svaki način mjerenja ima svoje prednosti i
nedostatke, te može ponuditi jedinstvenu perspektivu na mjerenu varijablu. Osim sadržajnih
specifičnosti, različiti načini mjerenja varijabli imaju i svoju statističku važnost. Na primjer,
uspjeh učenika možete zabilježiti vrlo grubo, tako da samo razlikujete one koji su prošli ili
pali neki test. Ili možete poredati učenike prema uspjehu, pa zabilježiti koji je učenik bio
najbolji, koji drugi po uspjehu, i tako do najgoreg. Ili možete biti precizniji, pa zabilježiti
dobivene ocjene (1-5) ili broj bodova (npr. 1-40) postignutih na testu. Ti se različiti načini
Osnovni pojmovi u statistici
7
mjerenja uspjeha razlikuju ne samo sadržajno, već i statistički. Naime, razlike u preciznosti
mjerenja reflektiraju različite mjerne skale koje jako utječu na statističke analize koje ćete
nakon provedbe mjerenja smjeti primijeniti.
Bez obzira na koju se mjernu skalu odlučili, prilikom mjerenja ciljanih varijabli na
nekom uzorku uvijek se izlažemo određenim pogreškama o kojima će kasnije biti više riječi.
Statističke metode nam pomažu nositi se s tim pogreškama, i to onima koje nisu posljedica
sustavnih pristranosti. Naime, u istraživanjima uvijek polazimo od pretpostavke da svaki
mjereni rezultat predstavlja (jednostavnu linearnu) kombinaciju konstantnih faktora ili
pravog rezultata mjerenja, odnosno vrijednosti koja nas zanima, i slučajnih varijacija,
takozvanih nesistematski varijabilnih faktora. Neki od tih nesistematski varijabilnih faktora
povećavaju, a neki smanjuju mjerene vrijednosti, pri čemu je njihov ukupni zbroj jednak nuli.
Na primjer, ako u skupini učenika mjerimo vrijeme potrebno za rješavanje zadatka, ne
možemo očekivati da ćemo kod svakog djeteta uspjeti izmjeriti pravu vrijednost mjerenja,
odnosno stvarno vrijeme potrebno za rješavanje zadatka. Naime, na dobivene rezultate
nerijetko će djelovati i neki slučajni faktori koji će ponekad produžavati a ponekad skraćivati
rješavanje zadatka. Na primjer, kod nekih učenika neočekivana buka može produžiti
rješavanje, dok neki učenici mogu načuti točno rješenje i stoga neopravdano imati kraći
izmjereni rezultat. Ti će slučajni faktori ponekad smanjiti, a ponekad povećati pravo vrijeme
rješavanja, a na kraju će se na razini cijele skupine međusobno poništiti. Nesistematski
varijabilni faktori kompliciraju istraživanja, i povećavaju broj mjerenja koje moramo provesti
da bismo dobili pouzdane podatke. Međutim, statistika se može „nositi“ s ovim faktorima jer
nam statističke metode pomažu da njihovo djelovanje „neutraliziramo“ i donesemo prikladne
zaključke. Za razliku od njih, kod djelovanja sistematskih faktora statističke metode nam ne
mogu puno pomoći. Ukoliko smo inteligenciju učenika mjerili u trenutku kad su ti učenici bili
pod velikim stresom ili jako umorni, možemo pretpostaviti da su stres ili umor sistematski,
kod svih učenika, smanjili uspjeh na primijenjenim testovima. Međutim, samo na temelju
provedenog mjerenja ne možemo napraviti ništa da bismo procijenili kolika je ta pogreška i
kakva bi mogla biti stvarna inteligencija kod te skupine učenika.
Dakle, prilikom planiranja istraživanja istraživač treba donijeti brojne odluke koje
uvelike određuju kvalitetu i primjenjivost dobivenih rezultata. Njih ćete lakše donijeti ukoliko
u okviru preporučene literature naučite više o metodologiji provođenja znanstvenih
istraživanja. U ovom priručniku detaljnije ćemo se pozabaviti samo onim temama koje
izravno utječu na statističko odlučivanje, a to su prije svega mjerne skale i uzorkovanje.
Osnovni pojmovi u statistici
8
1.1. MJERNE SKALE
Mjerenje predstavlja pridruživanje brojeva nekom atributu ili pojavi prema unaprijed
utvrđenim pravilima. Ovisno o tim pravilima, prilikom mjerenja neke pojave moguće je
koristiti različite mjerne skale ili ljestvice čije karakteristike određuju koji se statistički
postupci mogu koristiti prilikom kasnije obrade podataka prikupljenih tim mjerenjem. Četiri
su osnovne vrste skala: nominalna, ordinalna te dvije metričke skale, intervalna i omjerna
skala.
Nominalnu skalu mjerenja pronalazimo kod kategorijalnih ili kvalitativnih varijabli,
odnosno onih varijabli kod kojih ispitanike možemo razlikovati prema dvije ili više kategorija
među kojima ne postoji nikakav prirodni slijed (nema kriterija prema kojemu bi se neke
vrijednosti mogle odrediti kao “veće od” ili „manje od“ drugih). Stoga nominalna skala ne
predstavlja pravu skalu mjerenja, već imenovanje nominalnih obilježja varijable. Na primjer,
završena srednja škola predstavlja kategorijalnu varijablu koju možemo brojčano označiti na
sljedeći način: 1 - gimnazija, 2 - stručna škola, 3 – tehnička škola i 4 - umjetnička ili sportska
škola. Međutim, takve brojčane oznake nisu „prirodne“ i nepromjenjive, što znači da smo ih
mogli i drugačije definirati, na primjer kao: 1 - stručna škola, 2 - gimnazija, 3 - umjetnička ili
sportska škola i 4 – tehnička škola.
Kao što je vidljivo u primjeru, pripadnost različitim kategorijama ove varijable može
se vezati uz određenu brojčanu vrijednost, ali ona je potpuno proizvoljno određena. S obzirom
na broj kategorija koje se unutar varijable mogu odrediti, razlikujemo binarne (dihotomne)
varijable koje imaju samo dvije, te multikategorijalne varijable koje imaju više kategorija.
S obzirom na osobitosti nominalnih skala, u obradi podataka prikupljenih na tim
skalama dozvoljeno je koristiti samo ograničeni broj statističkih postupaka: dominantnu
vrijednost, proporcije, hi-kvadrat test i neke druge vrste analiza koje se temelje na
frekvencijama.
Kod ordinalnih (rangovnih ili ljestvičnih) skala mjerena varijabla ima vrijednosti
koje se nižu prema određenom redoslijedu koji odražava izraženost mjerenog svojstva. Dakle,
brojevi kod ovih skala nisu proizvoljno određeni, već slijede neki prirodni raspored. Međutim,
taj redoslijed vrijednosti reflektira samo poredak, odnosno relativne razlike mjerenja bez
točnog stupnjevanja tih razlika. Primjer ordinalne skale je završni poredak sportaša na
natjecanjima. Pobjednik koji dobije zlatnu medalju ima najbolji rezultat na natjecanju, onaj
Osnovni pojmovi u statistici
9
koja dobije srebrnu medalju je drugi, a brončanu treći po uspjehu. Međutim, rang predstavlja
relativno grubo određenje položaja jer nam ne govori ništa o pravom rezultatu pojedinca.
Stoga ne možemo tvrditi da je sportaš sa srebrnom medaljom uspješniji od onoga s
brončanom jednako onoliko koliko je pobjednik natjecanja uspješniji od njega.
S obzirom na karakteristike ordinalnih skala, u obradi podataka na ovim skalama se
najčešće koristi centralna vrijednost, rang korelacija i drugi postupci koji se temelje na
rangovima, te neki dodatni oblici neparametrijskih metoda za testiranje hipoteza.
Metričke ili kvantitativne skale vezuju se uz varijable kojima možemo pridružiti
realne brojeve i na njima koristiti matematičke operacije. Njihove vrijednosti mogu biti
diskontinuirane (diskretne ili međusobno razdvojene) ili kontinuirane. Diskontinuirane
varijable su one koje mogu poprimiti konačan broj svojstava i koje se bilježe isključivo
cjelobrojno, npr. broj izlazaka na ispit. Kontinuirane varijable, za razliku od toga, mogu
poprimiti bilo koju vrijednost unutar nekog intervala i mogu se zapisivati i decimalnim
brojevima, npr. dužina, težina, itd. Općenito kod metričkih varijabli jednake razlike u
brojevima na skali predstavljaju jednake razlike u promatranom svojstvu – dakle, dvije osobe
koje imaju 55 i 57 kilograma jednako se međusobno razlikuju po težini kao i osobe koje imaju
74 i 76 kilograma.
Unutar metričkih skala razlikujemo dvije preostale temeljne vrste skala: intervalne i
omjerne. Intervalne skale su one metričke skale koje ne posjeduju apsolutnu već samo
relativnu nulu, kao što je slučaj sa skalom temperature mjerenom u stupnjevima Celzijusa.
Dakle, kod njih su položaj nule i mjerne jedinice određeni dogovorno. Stoga kod ovih skala
nije moguće koristiti omjere. Na primjer, nije moguće reći da je temperatura od 25°C dvaput
hladnija od 50°C, iako vrijedi da je razlika između 75 i 50°C jednaka onoj od 50 i 25°C. Kod
omjerne (odnosne) skale jednake razlike brojeva također predstavljaju jednake razlike
mjerenog svojstva. Uz to, kod ovih skala postoji i apsolutna nula, te je stoga ovdje dopušteno
koristiti omjere. Primjeri omjerne skale su visina učenika ili vrijeme.
Kod rezultata izmjerenih na metričkim skalama moguće je koristiti najveći broj
statističkih postupaka, uključujući i široki spektar tzv. parametrijskih postupaka (ako su
zadovoljeni i ostali uvjeti za njihovo korištenje). Iako za odabir prikladnog statističkog
postupka nije svejedno imamo li podatke na intervalnoj ili omjernoj skali mjerenja, u praksi se
ove dvije vrste skala rijetko razlikuju.
Osnovni pojmovi u statistici
10
1.2. UZORKOVANJE
Uzorkovanje je postupak formiranja uzorka iz populacije, odnosno odabira ispitanika koji će
sudjelovati u nekom istraživanju. Populaciju čine svi mogući članovi neke skupine s
određenim značajkama (ponekad se naziva i statistički skup). Uzorak je dio populacije na
kojem provodimo istraživanje. Na primjer, ukoliko želimo saznati više o utjecaju najave
testova na uspjeh učenika, cilj nam je provesti istraživanje čije ćemo rezultate moći podijeliti
s kolegama u drugim školama i donijeti zaključke koji će biti korisni za osmišljavanje
budućih strategija organizacije nastave. Međutim, u svom istraživanju gotovo sigurno nećemo
moći uključiti sve učenike na koje će se odnositi doneseni zaključci, već ćemo umjesto toga
odabrati malu skupinu učenika i na njoj provesti mjerenje. Općenito smo u istraživanjima
gotovo uvijek usmjereni na mjerenje uzoraka jer je ponekad populaciju nemoguće, preskupo
ili presloženo izmjeriti, a ponekad tako nešto ne bi imalo smisla raditi (npr. ako mjerenjem
uništavamo elemente skupa).
Način odabira uzorka reflektira naše ciljeve i želju za kasnijom generalizacijom
zaključaka, pri čemu je taj izbor nažalost uvijek ograničen praktičnim mogućnostima. Važno
je naglasiti da nam je kod odabira uzorka cilj odabrati onu skupinu ispitanika koja što bolje
reprezentira populaciju kojoj pripada jer nam to omogućuje bolje zaključivanje i predviđanje
pojava. Na temelju toga koliko dobro uzorak predstavlja ciljanu populaciju, moguće je
odrediti njegovu reprezentativnost za ciljanu populaciju, odnosno stupanj njegove
(ne)pristranosti. Na primjer, ukoliko se prilikom ispitivanja spremnosti maturanata za državu
maturu odlučimo zbog lake dostupnosti testirati samo manji razred naprednih učenika, zbog
pristranosti uzorka možemo očekivati da ćemo dobiti nerealno pozitivnu procjenu spremnosti
maturanata za testiranje.
Bez obzira na njegovu kvalitetu, treba imati na umu da uzorak nikada nije potpuni
preslik populacije. Naime, prilikom mjerenja uvijek smo izloženi određenim pogreškama
mjerenja o kojima će kasnije biti više riječi.
S obzirom na osobine uzorka na kojem provodimo istraživanje, razlikujemo dvije
temeljne kategorije, tzv. probabilističke i neprobabilističke uzorke. Probabilistički uzorci se
temelje na zakonima vjerojatnosti, odnosno kod njih svaki član populacije ima poznatu
vjerojatnost izbora u uzorak. Među probabilističke uzorke spadaju jednostavni slučajni,
sustavni, stratificirani, klaster i stupnjeviti uzorak. Za razliku od toga, kod neprobabilističkih
uzoraka nije poznata vjerojatnost izbora pojedinih članova populacije u uzorak. Iako to
Osnovni pojmovi u statistici
11
predstavlja nedostatak, u određenim slučajevima su ovakvi uzorci jednostavniji za formiranje
i prikladniji s obzirom na potrebe istraživača. Među neprobabilističke uzorke spadaju
prigodni, kvotni, namjerni te uzorak „snježne grude“. U istraživanjima se najčešće koriste
sljedeće vrste uzoraka:
• JEDNOSTAVNI SLUČAJNI UZORAK: Uzorak kod kojeg svaki član populacije
ima jednaku vjerojatnost biti odabran, pri čemu se odabir može izvršiti putem, na primjer,
tablica slučajnih brojeva. Slučajni uzorak je obično i reprezentativan za populaciju, dok za
one uzorke kod kojih neki članovi imaju veću vjerojatnost da budu odabrani kažemo da su
pristrani.
• SUSTAVNI (SISTEMATSKI) UZORAK: Uzorak kod kojeg se članovi populacije
biraju uz pomoć nekog pravilnog algoritma (npr. svaki peti učenik u imeniku). Vrlo često je
ovaj uzorak također reprezentativan za populaciju, što dakako ovisi o korištenom algoritmu za
odabir ispitanika.
• STRATIFICIRANI UZORAK: Uzorak koji pokušava zadržati strukturu populacije
za koju znamo da se sastoji od određenih slojeva. Pritom se članovi svakog sloja biraju po
principu slučajnog uzorka. Na primjer, ako neku školu pohađa 25% učenika iz manjinskih
skupina, isti postotak tih učenika ćemo zadržati i u uzorku, pri čemu ćemo pojedinačne
učenike u tim skupinama odabrati po slučaju.
• KVOTNI UZORAK: Uzorak se bira tako da se odrede stratumi ili skupine (npr.
skupine učenika s različitim općim uspjehom), a istraživač po svom slobodnom izboru iz
svakog predviđenog stratuma odabere unaprijed definirani broj ispitanika (npr. po 30 učenika
s izvrsnim, vrlo dobrim, dobrim, dovoljnim i nedovoljnim uspjehom). Ovaj je uzorak sličan
stratificiranom uzorku, ali kod njega vjerojatnost izbora pojedinih članova populacije u
uzorak nije poznata.
• PRIGODNI UZORAK: Uzorak čija struktura nije unaprijed definirana, već se u
njega uključuju oni pojedinci koji su istraživaču dostupni, odnosno osobe koje zateknemo na
željenom mjestu u trenutku mjerenja. Ovaj se uzorak u praksi često koristi, jer se vrlo
jednostavno može praktično organizirati. Na primjer, profesori i studenti često provode
istraživanja na uzorcima učenika ili studenata koji su im lako dostupni i koje zateknu na
nastavi, što ne mora samo po sebi biti problematično. Međutim, primjenjivost ovakvog uzorka
jako ovisi o predmetu mjerenja te je stoga uvijek na početku važno razmisliti o tome hoće li
njegovo uključivanje na bilo koji način ugroziti planirano istraživanje.
Osnovni pojmovi u statistici
12
Odabir uzorka predstavlja vrlo važan dio svakog istraživanja koji jako može utjecati
na kvalitetu dobivenih podataka te je na njega stoga posebno usmjeriti posebnu pažnju. Osim
odabira vrste uzorka i načina odabira ispitanika, važno je odrediti i broj ispitanika koje želimo
uključiti u uzorak. Prilikom određivanja veličine uzorka treba prije svega uzeti u obzir
varijabilnost pojave koju mjerimo i željenu preciznost koju bismo htjeli postići prilikom
mjerenja. Naime, ako ne postoji varijabilnost unutar pojave koju mjerimo, odnosno ako sve
osobe imaju jednako izraženo svojstvo, dovoljno nam je izmjeriti samo jednog ispitanika da
bismo dobili rezultat kojeg tražimo. Međutim, ako je pojava jako varijabilna, potrebno nam je
mnogo više ispitanika. Također, ako želimo veću preciznost unutar istraživanja i manju
pogrešku mjerenja, u istraživanje ćemo uključiti više ispitanika. U nekim situacijama kod
odabira veličine uzorka treba uzeti u obzir i veličinu populacije, frekvenciju ciljane pojave u
populaciji, planirane analize rezultata i mogući „otpad“, odnosno napuštanje istraživanja od
strane odabranih ispitanika. Načelno, prije početka istraživanja istraživač može uz pomoć
posebnih statističkih postupaka odrediti broj ispitanika koje bi trebao imati u uzorku ukoliko
želi imati određenu razinu preciznosti prikupljenih podataka. Čitatelj o tim postupcima više
može saznati u preporučenoj literaturi. Ovdje ćemo samo naglasiti kako je u pravilu važnije
da je uzorak reprezentativan nego pretjerano velik, te je stoga ključno obraditi pozornost na
kvalitetan odabir ispitanika u planirano istraživanje.
Organizacija i prikazivanje podataka
13
2. DESKRIPTIVNA STATISTIKA
Jednom kad ste prikupili određene podatke potrebno ih je organizirati, prikazati i statistički
obraditi. Metode deskriptivne statistike omogućuju nam upravo takvu organizaciju, opis i
osnovnu analizu prikupljenih podataka.
2.1. ORGANIZACIJA PRIKUPLJENIH PODATAKA I PRIKAZIVANJE
REZULTATA
Organizacija podataka prije svega uključuje kodiranje, odnosno kvantificiranje svih varijabli,
i njihovo unošenje u tablicu s podacima. Kod nekih varijabli je taj proces jednostavan jer su
izmjerene na metričkim skalama, pa podatke samo trebamo unijeti u tablicu. Na primjer, ako
smo u istraživanju zadovoljstvo životom mjerili korištenjem upitnika unutar kojeg su
ispitanici na pitanja odgovarali koristeći skalu od 5 stupnjeva (1 do 5), rezultate ispitanika već
imamo u brojčanoj formi i samo ih takve trebamo unijeti. Treba spomenuti da će i takve
podatke ponekad trebati promijeniti, odnosno rekodirati, o čemu će biti riječi u poglavlju
posvećenom korištenju računalnih programa prilikom obrade podataka.
Nešto je složeniji proces kodiranja nominalnih varijabli koje nisu unaprijed
kvantificirane, odnosno pretvaranja opisnih vrijednosti unutar tih varijabli u brojeve. Na
primjer, varijablu spola ispitanika ne možete koristiti u statističkoj obradi ukoliko ga nekako
(proizvoljno) brojčano ne odredite, tako da primjerice kodu „muški“ dodijelite broj 1, a kodu
„ženski“ broj 2. Uz to, prilikom kodiranja dobro je razmisliti kako ćete riješiti situacije u
kojima neki podaci nedostaju jer npr. ispitanik nije dao podatke ili su vam napisani odgovori
nečitljivi. Pritom trebate odlučiti kako ćete te podatke kodirati i kasnije ih tretirati u
statističkim analizama. Najčešće je dobro dodati dodatan kod, odnosno brojčanu vrijednost
koja predstavlja kategoriju „nema odgovora“ i koju nećete pomiješati s ostalim vrijednostima
koje su se pojavili unutar varijable. Te ćemo podatke još spominjati u 5. poglavlju.
Nakon toga, u većini slučajeva možete prikupljene podatke unijeti u tablicu s
podacima. Najčešće ćete tu tablicu organizirati unutar prikladnog računalnog programa, bilo
Microsoft Excela ili nekog specijaliziranog programa za statističku obradu podataka. Bez
obzira na to kakav program pritom budete koristili, podatke ćete unijeti na način da u redove
tablice smještate pojedine ispitanike, a u stupce varijable koje ste izmjerili unutar istraživanja.
Ukoliko ste u istraživanju s istim instrumentima (anketama, upitnicima, testovima) ispitali
Organizacija i prikazivanje podataka
14
četiri različite skupine ispitanika, primjerice učenike različitih škola, sve njihove podatke ćete
dakako unijeti u istu tablicu jer njihova pripadnost pojedinoj skupini samo odražava neku
kategoriju jedne od varijabli unutar vašeg istraživanja (vrsta škole).
Ponekad ćete nakon unosa izmjerenih podataka u tablici primijetiti da su podaci unutar
nekih varijabli jako raspršeni i da ih je teško smisleno prikazati. U takvim slučajevima, ovisno
o vrsti i broju tih podataka, možete se odlučiti podatke grupirati u razrede.
2.1.1. Grupiranje prikupljenih podataka u razrede
Nakon što smo prikupili željene podatke, cilj nam je što bolje ih organizirati kako bismo ih
mogli grafički ili tablično predočiti, provjeriti oblik njihove distribucije (raspodjele) i prije
statističke obrade provjeriti pogodnost primjene određenih statističkih postupaka. Svaka bi
statistička obrada trebala započeti grafičkim prikazom rezultata. Često nam to prikazivanje,
kao i daljnju statističku analizu, olakšava grupiranje podataka. Takvo grupiranje nema smisla
raditi ako među prikupljenim podacima imamo mali broj mogućih vrijednosti (npr. kod
školskih ocjena radi se o pet vrijednosti). Međutim, ono nam može jako koristiti ako imamo
veliki raspon mogućih podataka, naročito ako neki od njih imaju male frekvencije (npr. ako
smo izmjerili kvocijent inteligencije na skupini od 25 učenika koji su postigli rezultate u
rasponu od 86 do 137).
Kako grupirati rezultate?
Proces grupiranja rezultata može se opisati kao slijed nekoliko koraka:
1. Određivanje broja razreda u koje želimo grupirati rezultate. Taj se broj određuje
proizvoljno, u skladu s dolje navedenim preporukama.
2. Određivanja raspona unutar svakog razreda, tzv. intervala razreda. Interval razreda
računa se po formuli:
interval razreda = totalni raspon / broj razreda.
Totalni raspon (TR) se odnosi na ukupni broj mogućih rezultata, kojeg računamo kao
razliku najvećeg i najmanjeg rezultata uvećanu za jedan:
TR = (xmax – xmin) +1
xmax – najveći izmjereni rezultat
xmin – najmanji izmjereni rezultat
Organizacija i prikazivanje podataka
15
Nakon što smo izračunali vrijednost intervala razreda, dobiveni omjer možemo
zaokružiti na veću vrijednost (nikada manju) i tako osigurati da nam svi izmjereni
rezultati uđu u predviđene razrede.
3. Određivanje donje i gornje granice svakog razreda. U pravilu se granice razreda
određuju tako da preciznošću odgovaraju mjerenim podacima. Dakle, ako imamo
rezultate koji su u formatu cijelih brojeva, onda i granice razreda određujemo kao
cijele brojeve. Osim toga, moguće je odrediti i tzv. pravu gornju i pravu donju granicu
razreda o kojima možete više saznati u preporučenoj literaturi.
4. Prikazivanje distribucije rezultata, odnosno određivanje frekvencije rezultata u
svakom razredu. Frekvencija (učestalost) nekog podatka je broj pojavljivanja tog
podatka – npr. u skupini rezultata „1, 1, 2, 2, 2, 3“ broj 1 ima frekvenciju 2, broj 2
frekvenciju 3, a broj 3 frekvenciju 1. Osim frekvencije, za svaki podatak moguće je
izračunati i proporciju ili relativnu frekvenciju koja predstavlja omjer obične
frekvencije i ukupnog broja podataka (npr. relativna frekvencija broja 2 u prethodnom
primjeru je 3/6, odnosno 0.5), te postotak koji predstavlja omjer obične frekvencije i
ukupnog broja podataka pomnožen sa 100 (broj 2 se u prethodnom primjeru pojavio u
50% slučajeva). Zbroj proporcija svih rezultata iznosi 1, a postotaka 100.
Kod grupiranja rezultata neke korake i vrijednosti određujemo samostalno, odnosno
proizvoljno (npr. broj razreda u koje želimo grupirati podatke), dok su nam drugi unaprijed
definirani. Prilikom grupiranja podataka u razrede moguće je, a ponekad i nužno, slijediti
nekoliko preporuka za grupiranje rezultata:
• Intervali razreda (kvantitativne kategorije) ne smiju se preklapati, odnosno svaki
izmjereni podatak mora biti smješten u jedan razred.
• Svi intervali razreda trebaju biti jednake veličine.
• Treba preferirati neparan broj razreda.
• Preporučljivo je da broji razreda bude u rasponu od 5-15.
• Što je broj mjerenja manji, broj razreda treba biti manji, i obrnuto.
• Ako je moguće, treba izbjegavati distribucije s praznim razredima.
• Ponekad je teško iz prvog pokušaja odabrati optimalan broj razreda. Zato je prilikom
odabira broja razreda preporučljivo pokušati s više mogućih načina grupiranja, pa
odabrati onaj koji daje najbolju distribuciju.
Organizacija i prikazivanje podataka
16
Primjer grupiranja rezultata
Grupirajte sljedeću skupinu podataka koji predstavljaju bodove koje je grupa od 40 učenika
postigla na testu iz matematike.
72 66 55 74 78 70 83 76
84 68 60 77 54 76 80 68
70 86 67 81 61 72 65 70
61 61 70 63 61 69 69 80
64 57 71 59 68 71 76 73
Želimo grupirati rezultate i za to odabiremo broj od 5 razreda. Taj broj je opravdan s
obzirom na to da želimo neparni broj razreda te da imamo relativno mali broj izmjerenih
podataka. Zatim izračunavamo interval razreda koji predstavlja omjer totalnog raspona
(ukupni broj rezultata ((86-54)+1=32+1=33)) i proizvoljno odabranog broja razreda (5).
Dakle, računamo 33/5=6.6. To ćemo zatim zaokružiti na 7.
Sljedeći korak je određivanje gornjih i donjih granica pojedinačnih razreda. Kod
odabira početne vrijednosti, odnosno donje granice prvog razreda krećemo od 53. Iako se radi
o broju koji je manji od najmanje izmjerene vrijednosti, biramo ga zbog prethodnog
zaokruživanja vrijednosti. S obzirom na to da nam je interval razreda 7, gornja granica prvog
razreda mora biti 59 što omogućuje da se u njemu nađe 7 mogućih rezultata (53, 54, 55, 56,
57, 58, 59). Na isti način možemo odrediti donje i gornje granice svakog sljedećeg razreda.
Nakon što smo odredili granične vrijednosti pojedinačnih razreda, trebamo smjestiti
rezultate u razrede, odnosno odrediti frekvenciju rezultata unutar svakog od njih. U tu svrhu
možemo koristiti dolje prikazanu pomoćnu tablicu. Prilikom popunjavanja tablice idemo
rezultat po rezultat i označavamo koje smo rezultate uvrstili u tablicu. U donjoj tablici
prikazani su rezultati grupiranja rezultata iz prethodnog primjera.
Pomoćna tablica za grupiranja rezultata u razrede
Razred Granice razreda Frekvencija Ukupni broj rezultata
1. 53-59 4
2. 60-66 9
3. 67-73 15
4. 74-80 8
5. 81-87 4
Organizacija i prikazivanje podataka
17
2.1.2. Tablično i grafičko prikazivanje podataka
Podaci prikupljeni u nekom istraživanju mogu se prikazati slikovno, uz pomoć grafičkog
prikaza, i tablično. Nema previše smisla prikazivati iste podatke i tablično i grafički pa se,
ovisno o ciljevima i preglednosti prikaza, treba odlučiti za jednu od ovih metoda. U
organizaciji tabličnih i grafičkih prikaza treba biti fleksibilan, i uskladiti ih s ciljevima
prikazivanja. Također, ovisno o tome gdje se tablica ili graf prikazuju, oni se moraju / mogu
formatirati, odnosno organizirati i pripremiti u skladu s relevantnim konvencijama. Na
primjer, postoje pravila na temelju kojih se prikazuju rezultati u završnim i diplomskim
radovima, dok različiti znanstveni časopisi također imaju definirane konvencije izvještavanja
o rezultatima koje treba poštivati.
I. Tablično prikazivanje podataka
Nekoliko je smjernica koje treba poštivati prilikom tabličnog prikazivanja podataka.
• Svaka tablica mora imati redni broj i naslov. Naslov mora biti kratak i jasan, a tablica
“samo-pojašnjavajuća”. Ukoliko je potrebno, ispod tablice se može dodati i Legenda koja
pojašnjava eventualne skraćenice ili informacije koje inače iz same tablice ne bi bile
jasne. Dodatna pojašnjenja moraju biti naznačena uz tablicu, a ne u tekstu. Čitatelj mora
razumjeti sadržaj tablice bez čitanja teksta, dakle na temelju naslova, legende i onoga što
se u tablici nalazi.
• Naslov tablice smješta se iznad tablice, i treba biti centriran na stranici. Tekst “Tablica br”
se piše kosim slovima (bez točke nakon broja), a sam naslov tablice u običnom tekstu.
Veličina slova u naslovu tablice treba biti malo manja od veličine slova u ostatku teksta.
Tablica treba biti centrirana na stranici.
• U tablicama treba izbjegavati okomite crte, a vodoravnima treba odvajati zaglavlje i
podnožje tablice, ili pak neke veće cjeline tablice međusobno.
• Stupce i retke treba jasno i sažeto označiti. Vrijednosti u redovima ili stupcima treba
smisleno poredati (npr. najprije prikazati aritmetičku sredinu, pa onda standardnu
devijaciju, a ne obrnuto). Najčešće je uputno prikazane veće brojeve razložiti u skupove
po 3 znamenke (npr. umjesto 457635 napisati 457 635). Ako se neki podatak iz tablice
želi istaknuti (npr. statistička značajnost), to se može učiniti zvjezdicom čije značenje
treba dodatno komentirati ispod tablice.
Organizacija i prikazivanje podataka
18
• Tablicu se u tekstu navodi njezinim rednim brojem (npr. u tekstu navesti „vidi Tablicu 3“;
ili „u Tablici 3 nalaze se rezultati“, ili u zagradi napisati „Tablica 3“ nakon rečenice koja
spominje u njoj prikazane podatke).
Primjeri tablica organiziranih prema gornjim naputcima
Tablica 1
Aritmetičke sredine (M) i standardne devijacije (SD) rezultata dobivenih primjenom skala
depresivnosti i zadovoljstva životom kod mlađih i starijih građana Hrvatske i Francuske.
Skale Dob
ispitanika Hrvatska Francuska
M SD M SD
Depresivnost
Mladi 75 11.2 77 14.1
Stari 83 13.3 82 15.2
Svi 82 12.5 80 14.6
Zadovoljstvo
životom
Mladi 55 17.5 71 14.5
Stari 64 18.2 62 14.6
Svi 58 18.0 66 14.4
Tablica 2
Broj studenata i studentica upisanih na studijske grupe Pedagogija i Povijest u akademskoj godini
2000/2001.
Spol
studenata
Studijska grupa
Ukupno
Pedagogija Povijest
Ženski 29 16 45
Muški 1 14 15
Ukupno 30 30 60
Organizacija i prikazivanje podataka
19
II. Grafičko prikazivanje podataka
Slikovni prikazi koriste se za pregledno prikazivanje važnih informacija vezanih uz
provedeno istraživanje. Grafovi predstavljaju jedan oblik slikovnih prikaza koji omogućuju
jasno i cjelovito zahvaćanje odnosa među podacima. Grafičko prikazivanje je korisno za
razumijevanje dobivenih rezultata, a može se koristiti i za procjenjivanje vrijednosti koje
mjerenjem nisu izravno utvrđene korištenjem metoda interpolacije i ekstrapolacije. Grafičko
prikazivanje rezultata je naročito važno za otkrivanje posebnih ili neočekivanih karakteristika
rezultata, te nam olakšava usporedbu različitih vrijednosti, trendova i odnosa među
rezultatima.
Općenita preporuka prilikom grafičkog prikazivanja jest da treba što jasnije i
jednostavnije prikazati dobivene rezultate. Kako biste u tome uspjeli, možete slijediti nekoliko
jednostavnih principa:
• Svaki slikovni prikaz mora imati redni broj i naslov. Prilikom označavanja, grafovi i
drugi oblici slikovnih prikaza se nazivaju “Slika br.”, nakon čega slijedi kratak i jasan
naslov.
• Redni broj i naslov slikovnog prikaza smještaju se ispod grafičkog prikaza. Tekst
“Slika br.” se piše kosim slovima (s točkom nakon broja), a sam naslov slike u
običnom tekstu. Veličina slova i prored u naslovu slike trebaju biti malo manji od
veličine slova u ostatku teksta. Slikovni prikaz treba biti centriran na stranici.
• U velikom broju slučajeva, grafičkom prikazu treba dodati Legendu koja sadrži
objašnjenja potrebna za razumijevanje prikaza. Čitatelj mora razumjeti sadržaj slike
bez čitanja teksta, dakle na temelju naslova, legende i samog grafičkog prikaza.
• Slikovni prikaz treba biti jasan i čitljiv. Posebnu pažnju treba posvetiti odabiru boja
različitih kategorija, veličini i čitljivosti slova na slici, i sl.
• Navođenje grafičkog prikaza u tekstu čini se preko rednog broja slike (npr. vidi Sliku
1).
Postoje različite vrste grafičkih prikaza podataka čiji odabir ovisi o vrsti prikupljenih
podataka i cilju njihovog prikazivanja. Među njima najčešće koristimo histograme i poligone
frekvencija, i to prije svega za prikazivanje raspodjele podataka unutar različitih varijabli.
Osim njih, dakako, postoje i brojne druge vrste grafičkih prikaza od kojih ćemo ovdje
spomenuti samo one najosnovnije.
Organizacija i prikazivanje podataka
20
• Kružni dijagram (torta-dijagram; eng. “pie-chart”)
Ovaj oblik grafičkog prikaza koristi se za prikazivanje raspodjele podataka unutar neke
varijable, odnosno za prikazivanje učestalosti pojave pojedinih kategorija neke varijable.
Dakle, u kružnom dijagramu trebaju biti vidljive pojedine kategorije varijable i postotci
podataka unutar tih kategorija. Radi se o jednostavnom obliku slikovnog prikaza koji je
koristan za prezentaciju nekih osnovnih informacija iz provedenog istraživanja, naročito
ukoliko se ti podaci žele prezentirati neznanstvenoj javnosti. U pravilu se ovim prikazima
zbog preglednosti izvještava o raspodjelama varijabli s malim brojem kategorija. Pritom je
važno jasno naznačiti koji dijelovi kružnog dijagrama prikazuju pojedinačne kategorije što se,
ovisno o broju kategorija i preglednosti, može prikazati u posebnoj legendi ili unutar samog
dijagrama (Slika 1).
Primjer grafičkog prikaza – kružni dijagram:
Slika 1. Uspjeh studenata I. godine na ispitu iz Pedagoške psihologije. Prikazan je postotak studenata
koji su na ispitu dobili pojedinačne ocjene.
• Dijagram u obliku stupaca / stupčasti dijagram
Dijagram u obliku stupaca / stupčasti dijagram prikazuje odnos između neke kvalitativne
varijable i njezine frekvencije. Sastoji se od niza pravokutnika čije površine (i visine)
odgovaraju frekvenciji svake kategorije. Pritom se na apscisi (os x) nanose vrijednosti
pojedinih kategorija, dok se na ordinati (os y) najčešće mogu naći frekvencije. Poseban oblik
ovog grafičkog prikaza predstavlja histogram.
• Histogram
Histogram predstavlja stupčasti dijagram s kontinuiranim varijablama. Sastoji se od niza
pravokutnika čije površine (i visine) odgovaraju frekvenciji svakog intervala. Pritom se na
Organizacija i prikazivanje podataka
21
apscisi (os x) nanose vrijednosti mjerenja, dok se na ordinati (os y) najčešće mogu naći
frekvencije.
Primjer grafičkog prikaza – histogram frekvencija:
Slika 2. Raspodjela ocjena na kraju školske godine kod 60 učenika i 60 učenica trećih razreda
područne škole X.
• Poligon frekvencija
Poligon frekvencija prikazuje odnos između neke varijable i njezine frekvencije. Predstavljen
je linijom koju definiraju točke čija visina pokazuje frekvenciju svakog intervala. Histogram
se lako može transformirati u poligon frekvencija ukoliko se na sredinu gornje linije svakog
pravokutnika postavi točka koja onda predstavlja osnovu za izradu poligona.
Primjer grafičkog prikaza – poligon frekvencija:
Slika 3. Raspodjela ocjena na kraju školske godine kod skupine od 60 učenika i 60 učenica trećih
razreda područne škole X.
Organizacija i prikazivanje podataka
22
Prilikom izrade stupčastog dijagrama, histograma i poligona frekvencija treba voditi
računa o:
• Odnosu dužine apscise i ordinate: Dužina ordinate treba biti oko 2/3 dužine
apscise.
• Prekidanju apscise ili ordinate;
• Označavanju jedinica na osima: Nije potrebno označavati sve izmjerene
vrijednosti, već treba nanositi uporišne vrijednosti, obično cijele brojeve.
• Organizaciji ordinate: Kod ovih grafičkih pristupa na osi y najčešće se nalazi
frekvencija, iako se ponekad mogu koristiti i postotci ili proporcije.
• Optimalnoj organizaciji: Pomoću ovih grafičkih prikaza može se prikazati i
više od jedne distribucije. Pritom treba biti pažljiv u organizaciji grafa i ne
zaboraviti uz njega prikazati jasnu legendu.
Isti ili slični principi vrijede i za grafičke prikaze koji opisuju odnos dviju varijabli,
odnosno pokazuju kako se jedna varijabla mijenja pod utjecajem druge varijable. Pritom se
načelno na os x nanosi nezavisna, a na os y zavisna varijabla.
Osim ovdje spomenutih postoji još i brojni drugi oblici grafičkih prikaza koji se u
manjoj mjeri koriste prilikom osnovnog izvještavanja o raspodjelama dobivenih podataka.
Tako, na primjer, tzv. box & whisker plot oblik grafičkog prikazivanja može biti koristan za
identifikaciju ekstremnih rezultata unutar nekog skupa podataka, dok se tzv. scatterplot
grafički prikaz koristi za prikazivanje povezanosti među varijablama. Načelno, mnogo je vrsta
grafičkih prikaza, kao i njihovog načina formatiranja, od kojih istraživač prilikom
izvještavanja o rezultatima sam mora odabrati njemu najprimjerenija rješenja. Pri izradi
grafičkih prikaza u pravilu se služimo računalnim programima, od kojih Microsoft Excel kao i
računalni programi za statističku obradu podataka nude brojne mogućnosti koje su često
dovoljne za primjereno prikazivanje rezultata. U ovom priručniku prikazane su samo osnovne
informacije o grafičkom prikazivanju rezultata, dok detaljnije informacije o ovoj temi možete
pronaći u preporučenoj literaturi.
Mjere središnjih vrijednosti i raspršenja rezultata
23
2.2. MJERE SREDIŠNJIH VRIJEDNOSTI
Računanje središnje vrijednosti predstavlja jedan od najčešće primjenjivanih statističkih
postupaka kojeg koristimo kako bismo sažeto i zorno prikazali određeni skup podataka.
Računanjem središnje vrijednosti cijeli skup podataka zamjenjujemo jednom vrijednošću za
koju smatramo da ga dobro reprezentira, te stoga moramo biti jako pažljivi prilikom odabira
prikladne mjere središnje vrijednosti.
2.2.1. Aritmetička sredina
Aritmetička sredina (M) predstavlja jednu od najčešće korištenih mjera središnjih vrijednosti.
Ona se smatra najboljim pokazateljem prave vrijednosti mjerenja, i jedina je vrijednost koju je
opravdano koristiti u složenijim obradama podataka. Aritmetička sredina određuje se kao
omjer zbroja svih vrijednosti u nekom skupu i ukupnog broja opažanja.
N
xM
x – svaki pojedinačni rezultat mjerenja
Σ – sigma, simbol za zbroj
N – broj rezultata
Aritmetička sredina predstavlja težište rezultata, jer je zbroj odstupanja pojedinačnih
rezultata od aritmetičke sredine jednak 0, dok je zbroj kvadrata tih odstupanja manji od zbroja
kvadrata odstupanja od bilo koje druge vrijednosti u nekom skupu podataka. Treba naglasiti
da je aritmetičku sredinu opravdano koristiti samo ako su ispunjeni sljedeći uvjeti:
• Postoje pravi mjerni podaci koji su točno određeni barem na intervalnoj mjernoj
skali.
• Izmjeren je dovoljan broj podataka (veći od 30).
• Svi rezultati su dobiveni mjerenjem u istim uvjetima.
• Distribucija rezultata je normalna (vidi Poglavlje 2.4.1), dakle i simetrična.
S obzirom na to da na vrijednost aritmetičke sredine djeluje svaki rezultat svojom
veličinom, kod računanja aritmetičke sredine veliki problem predstavlja postojanje
ekstremnih vrijednosti, odnosno rezultata koji jako odstupaju od većine izmjerenih vrijednosti
unutar jednog skupa. Općenito, što su podaci unutar nekog skupa podataka homogeniji,
aritmetička sredina bolje reprezentira taj skup.
Mjere središnjih vrijednosti i raspršenja rezultata
24
Primjer računanja aritmetičke sredine:
Mjerenjem smo dobili sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8. Izračunajte
aritmetičku sredinu.
4.415
66
15
876655444433322
M
2.2.2. Centralna vrijednost (medijan)
Za razliku od aritmetičke sredine, centralna vrijednost (C) nije vrijednost koju možete
direktno izračunati uz pomoć neke formule, te se stoga za nju može reći da predstavlja
vrijednost položaja. Naime, centralna vrijednost predstavlja onaj rezultat koji se u nizu
rezultata poredanih po veličini nalazi točno po sredini. Na nju ne utječu vrijednosti pojedinih
rezultata već samo njihov broj, te je stoga pogodna za korištenje u situacijama kada se unutar
skupa podataka može pronaći nekoliko ekstremnih rezultata.
Prilikom određivanja centralne vrijednosti najprije je potrebno odrediti položaj te
vrijednosti (RC) u nizu rezultata poredanih po veličini. Pritom se koristi formula:
5.02
NRc
N – broj rezultata
Nakon što smo odredili položaj centralne vrijednosti, moramo odrediti i njezinu
vrijednost. Ukoliko pred sobom imamo neparni broj rezultata, onda samo trebamo očitati onu
vrijednost koja se nalazi na rednom položaju kojeg smo izračunali u prethodnoj formuli. Ako
se radi o parnom broju rezultata, onda je centralna vrijednost jednaka prosjeku dviju susjednih
vrijednosti. Npr. ako imamo pet rezultata, centralna vrijednost je ona koja se nalazi na trećem
mjestu, a ako ih imamo četiri onda se radi o prosjeku (aritmetičkoj sredini) rezultata koji se
nalaze na drugom i trećem mjestu.
Primjer računanja centralne vrijednosti:
Mjerenjem smo dobili sljedeće rezultate: 7, 8, 4, 2, 3, 3, 3, 4, 2, 5, 4, 4, 5, 6, 6. Izračunajte
centralnu vrijednost.
Najprije treba poredati rezultate po veličini: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8.
85.02
15Rc ; C = 4
Mjere središnjih vrijednosti i raspršenja rezultata
25
2.2.3. Dominantna vrijednost (mod)
Dominantna vrijednost (D) predstavlja onu vrijednost koja među rezultatima dominira
čestinom pojavljivanja, odnosno onu vrijednost koja ima najveću frekvenciju. Na nju utječe
samo broj, ali ne i vrijednost pojedinačnih rezultata. Stoga se preporučuje koristiti ju ako
imamo velik broj rezultata od kojih neki mogu biti i ekstremni, te ako samo jedna vrijednost
dominira čestinom. Naime, često se događa da skupina rezultata nema samo jednu, već više
vrijednosti s jednakom najvećom frekvencijom. U slučaju da npr. distribucija ima dva ili više
jednakih vrhova tada se očitaju dvije ili više dominantnih vrijednosti, te govorimo o
bimodalnim (distribucija s dvije dominantne vrijednosti) ili multimodalnim (distribucija s više
od dvije dominantne vrijednosti) distribucijama. Iako dominantna vrijednost predstavlja
najslabiju mjeru središnjih vrijednosti, u nekim situacijama i ona može biti informativna i
korisna.
Primjer računanja dominantne vrijednosti:
Mjerenjem smo dobili sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8. Odredite
dominantnu vrijednost.
D = 4
2.2.4. Ostale mjere središnjih vrijednosti
Osim gore spomenutih, ponekad se mogu koristiti i druge mjere središnjih vrijednosti. One
uključuju harmoničnu i geometrijsku sredinu koje se mogu koristiti samo kod omjernih skala
mjerenja.
Harmonična sredina se koristi kada želimo izračunati prosjeke nekih odnosa (npr.
prosječni km/h, broj slova u minuti), a smije se računati ako broj nije negativan ili nula.
Geometrijska sredina se pretežno koristi kao prosječna mjera brzine nekih promjena,
te se također smije računati ako broj nije negativan ili nula.
Važna napomena:
U nekim skupovima moguće je izračunati više od jedne mjere središnjih vrijednosti,
najčešće aritmetičku sredinu, centralnu vrijednost i dominantnu vrijednost. Ako to napravimo,
usporedba ovih vrijednosti nešto nam može reći i o obliku distribucije (raspodjele) rezultata, o
čemu će biti govora kasnije.
Mjere središnjih vrijednosti i raspršenja rezultata
26
2.3. MJERE RASPRŠENJA REZULTATA
Kao što smo opisali u prethodnom poglavlju, deskriptivna statistika omogućuje nam da cijeli
skup podataka zamijenimo jednom, središnjom vrijednošću. Ta nam vrijednost, međutim, ne
govori ništa o tome koliko taj podatak dobro reprezentira izmjerene podatke.
Na primjer, zamislite tri skupa podataka: „30 30 40 40 40 40 40 50 50“, „10 10 20 20
30 40 50 60 60 70 70“ i „10 10 10 10 70 70 70 70“. Aritmetička sredina ova tri skupa
podataka je jednaka i iznosi 40. To znači da ta vrijednost predstavlja, a na neki način i
zamjenjuje podatke tih skupova. U slučaju prvog skupa, vrijednost 40 tako zamjenjuje devet
različitih podataka čije su vrijednosti jednake ili bliske prosječnoj (30, 40, 50), dok nam u
drugom skupu predstavlja i druge, znatno udaljenije vrijednosti kao što su 10 ili 70. Na kraju,
u trećem skupu podataka aritmetička sredina 40 zamjenjuje osam vrijednosti koje se svi od
nje jako razlikuju. Dakle, u tom je slučaju aritmetička sredina jako slab predstavnik skupa na
temelju kojeg je izračunata, te se u ovom slučaju ne bi smjela ni računati. Stoga su
informacije o međusobnom razlikovanju rezultata jako važne, i u istraživanjima u pravilu
moraju uvijek biti dostupne. Njih nam nude neke od mjera raspršenja (razlikovanja) rezultata
koje ćemo sada opisati.
2.3.1. Raspon rezultata
Raspon podataka poredanih prema veličini predstavlja razliku najvećeg i najmanjeg podatka.
Radi se o vrlo jednostavnoj mjeri raspršenja koja je intuitivno lako razumljiva. Međutim, ona
počiva na samo dvije vrijednosti rezultata te je stoga jako osjetljiva na ekstremne rezultate.
Osim toga, raspon najčešće raste s porastom broja mjerenja (rezultata), te predstavlja vrlo
nesigurnu mjeru raspršenja rezultata. Prilikom izvještavanja o rasponu rezultata najčešće je
korisno navesti i najveće i najmanje izmjerene vrijednosti, a ne njihovu razliku.
Raspon = xmax – xmin
Primjer računanja raspona rezultata:
Mjerenjem smo dobili sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8. Odredite
raspon rezultata.
Raspon = 8 - 2 = 6
Mjere središnjih vrijednosti i raspršenja rezultata
27
2.3.2. Varijanca
Varijanca (SD2) predstavlja jednu od informativnijih mjera raspršenja rezultata koja se smije
računati samo uz aritmetičku sredinu. Varijanca predstavlja prosjek sume kvadriranih
odstupanja svakog rezultata od aritmetičke sredine. Dakle, varijanca se računa tako da
izračunamo razliku između svakog rezultata i aritmetičke sredine, zatim te razlike kvadriramo
i zbrojimo, te na kraju zbroj podijelimo s ukupnim brojem rezultata.
N
MxSD
2
2)(
x – svaki pojedinačni rezultat mjerenja
M - aritmetička sredina
N – broj rezultata
Kao što je vidljivo iz formule, kod računanja varijance veća odstupanja kvadriranjem
dolaze više do izražaja, te se na taj način „kažnjava“ postojanje ekstremnih rezultata u
mjerenju. Općenito, varijanca se kao samostalna vrijednost ne koristi često, iako je ona vrlo
korisna prilikom provođenja složenijih statističkih analiza o čemu više možete saznati u
preporučenoj literaturi.
Važno je naglasiti da se gore napisana formula za varijancu načelno koristi kada
radimo s podacima iz cijele populacije. Ukoliko su naši podaci dobiveni mjerenjem uzorka,
preciznije je koristiti modificiranu formulu:
1
)( 2
2
N
MxSD
Primjer računanja varijance:
Mjerenjem (na vrlo maloj populaciji) dobili smo sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4. Odredite
varijancu dobivenih rezultata.
Najprije određujemo aritmetičku sredinu rezultata, a zatim varijancu:
37
21
7
4433322
M
57.07
4
7
)34()34()33()33()33()32()32( 22222222
SD
Mjere središnjih vrijednosti i raspršenja rezultata
28
2.3.4. Standardna devijacija
Standardna devijacija (SD) usko je povezana s varijancom. Ona predstavlja drugi korijen iz
vrijednosti varijance, odnosno drugi korijen iz prosjeka sume kvadriranih odstupanja
pojedinačnih rezultata od aritmetičke sredine. Slično kao i kod varijance, i za računanje
standardne devijacije postoje dvije formule – jednu koristimo kad imamo podatke mjerene na
populaciji, a drugu ukoliko su podaci izmjereni na uzorku. U praksi to znači da ćemo najčešće
koristiti formulu za mjerenje na uzorku, s obzirom na to da vrlo rijetko imamo priliku
izmjeriti sve jedinke neke ciljane populacije.
Mjerenje na populaciji Mjerenje na uzorku
N
MxSD
2)(
1
)( 2
N
MxSD
x –pojedinačni rezultat mjerenja
M - aritmetička sredina
N – broj rezultata
Standardna devijacija je najčešće korištena mjera raspršenja koju u pravilu uvijek
treba navoditi uz aritmetičku sredinu. Najjednostavnije rečeno, to je vrijednost koja označava
tipičnu, ili prosječnu kvadriranu razliku između pojedinačnih rezultata i aritmetičke sredine
nekog skupa. Što je standardna devijacija manja, to nam aritmetička sredina bolje reprezentira
dobivene rezultate jer se oni u prosjeku manje razlikuju od nje. Kao ni varijanca, ni
standardna devijacija ne računa se uz ostale mjere središnjih vrijednosti, već samo uz
aritmetičku sredinu. Ako poznajemo vrijednosti aritmetičke sredine i standardne devijacije za
neki skup rezultata, možemo rekonstruirati još neke njegove karakteristike, o čemu će biti
riječi u idućem poglavlju.
Primjer računanja standardne devijacije:
Mjerenjem (na vrlo maloj populaciji) dobili smo sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4. Odredite
standardnu devijaciju dobivenih rezultata.
Najprije određujemo aritmetičku sredinu rezultata, a zatim standardnu devijaciju:
37
21
7
4433322
M
75.057.07
4
7
)34()34()33()33()33()32()32( 2222222
SD
Mjere središnjih vrijednosti i raspršenja rezultata
29
2.3.5. Koeficijent varijabilnosti
Kada su nam za dva skupa podataka poznate dvije aritmetičke sredine i standardne devijacije,
možemo reći da smo te skupove relativno cjelovito definirali. Na prvi pogled se može činiti
da je na temelju tih informacija lako brzo odrediti koji od ta dva skupa ima veću, a koji manju
aritmetičku sredinu i varijabilitet. Međutim, kao što ćete naučiti u poglavlju o inferencijalnoj
statistici, ukoliko naši skupovi podataka predstavljaju uzorke, zaključak o postojanju
„statistički stvarnih“, odnosno statistički značajnih razlika između aritmetičkih sredina treba
provjeriti posebnim statističkim testovima (npr. t-test ili analiza varijance). Ali, ukoliko naši
skupovi podataka predstavljaju populacije, odnosno ako smo u njih uključili sve jedinice koje
nas zanimaju, aritmetičke sredine zaista možemo jednostavno matematički usporediti i
odrediti koja je od njih veća, a koja manja. Ukoliko su aritmetičke sredine potpuno jednake, i
standardne devijacije možemo usporediti na isti način. Međutim, ako se aritmetičke sredine
dva ciljana skupa podataka razlikuju, nije nam dopušteno jednostavno usporediti njihove
standardne devijacije kako bismo odredili koji od ta dva skupa rezultata više varira.
Umjesto toga, trebamo izračunati drugu, standardiziranu mjeru raspršenja koju
nazivamo koeficijent varijabilnosti (V). Ovaj koeficijent koristimo kada želimo znati koja od
dvije ili više skupina rezultata relativno više varira, odnosno ako nas zanima: (a) u kojem
svojstvu neka skupina varira više, a u kojem manje ili (b) koja od ispitanih skupina varira
više, a koja manje u istom svojstvu.
100M
SDV
SD – standardna devijacija
M – aritmetička sredina
Primjer računanja koeficijenta varijabilnosti:
Prilikom primjene dva testa, jednog kratkog testa s pet pitanja i jednog dužeg s 50 pitanja,
dobiveni su sljedeći rezultati: a) 2, 2, 3, 3, 3, 4, 4 i b) 20, 30, 30, 30, 30, 30, 40. Odredite koji
od ova dva skupa ima veći varijabilitet.
Najprije računamo aritmetičku sredinu i standardnu devijaciju rezultata. Te ćemo
vrijednosti uvrstiti u formulu za koeficijent varijabilnosti.
Prvi skup podataka:
37
21
7
4433322
aM
Mjere središnjih vrijednosti i raspršenja rezultata
30
75.057.07
4
7
)34()34()33()33()33()32()32( 2222222
aSD
%2510025.01003
75.0 xVa
Drugi skup podataka:
307
210
7
40303030303020
Mb
35.557.287
200
7
)3040()3030()3030()3030()3030()3030()3020( 2222222
bSD
%8.17100178.010030
35.5 xVa
Iako ima manju standardnu devijaciju, varijabilitet je veći u prvom skupu podataka.
2.3.6. Ostale mjere raspršenja
Osim gore spomenutih, ponekad se mogu koristiti i druge mjere raspršenja rezultata.
Jedna od tih mjera koja nam može biti od koristi naziva se poluinterkvartilno
raspršenje, odnosno interkvartilni raspon. Ova se mjera računa uz centralnu vrijednost, na
rezultatima poredanim po veličini. Određuje se kao razlika između rezultata koji se nalazi na
granici trećeg ili gornjeg kvartila (rezultat koji razdvaja 75% najnižih rezultata od onih većih)
i onoga koji se nalazi na granici prvog ili donjeg kvartila (rezultat koji razdvaja 25% najnižih
podataka od ostalih). Više o računanju poluinterkvartilnog raspršenja saznajte u preporučenoj
literaturi.
Osim spomenutih, postoje i druge mjere raspršenja, npr. indeks srednjeg odstupanja
s kojim ćete se rijetko susretati.
Distribucije rezultata
31
2.4. DISTRIBUCIJE REZULTATA
Distribuciju (raspodjelu) rezultata čine sve učestalosti, odnosno pojedinačni rezultati i
njihove frekvencije unutar nekog skupa podataka. Kao što već znate, postoji veliki broj
različitih oblika distribucija od kojih smo neke već spominjali. Kratak pregled nekih oblika
distribucija prikazan je na Slici 4.
Kvadratična /
uniformna U - distribucija Bimodalna Normalna
Slika 4. Oblici nekoliko različitih vrsta distribucija.
2.4.1. Normalna distribucija
Normalna distribucija (Slika 5) predstavlja temeljni oblik distribucije koji u statistici ima
neobično veliku važnost. Ona predstavlja osnovu za razumijevanje pojmova statističke
vjerojatnosti. Ponekad se, prema njemačkom matematičaru C. Gaussu, naziva i Gaussova
krivulja. Njezine temeljne osobine su zvonolik oblik, simetričnost i asimptotsko približavanje
apscisi, što drugim riječima znači da se ona približava, ali nikad ne dodiruje apscisu.
Slika 5. Normalna distribucija.
Veliki broj pojava i osobina (ne sve!) u prirodi distribuira se normalno. Slično tome,
u istraživanjima koja se provode na uzorcima također je često moguće očekivati ovu
distribuciju, i to onda kada su ispunjeni sljedeći uvjeti:
• U prirodi zaista postoji neka stabilna vrijednost mjerenja, te ako se osobina koju
mjerimo zaista distribuira normalno u populaciji.
Distribucije rezultata
32
• Imamo dovoljno velik broj mjerenja.
• Svi izmjereni rezultati dobiveni su korištenjem iste metode i prikupljeni u istim
uvjetima.
• Skupina koju mjerimo homogena je po svim osobinama, osim one koju mjerimo
po kojoj je heterogena.
Općenito, kada u nekom istraživanju izmjerimo određeno svojstvo i prikažemo
rezultate, vrlo rijetko će se dogoditi da su oni distribuirani u obliku „idealne“ normalne
distribucije. Naime, češće ćemo imati priliku susresti se s nekim manjim varijacijama, među
kojima su ključne razlike u „širini“, odnosno zaobljenosti, i simetriji distribucije.
Vezano uz varijacije u zaobljenosti, odnosno kurtičnosti distribucije razlikujemo
mezokurtične distribucije kakva je i normalna distribucija, leptokurtične, odnosno uske,
visoke distribucije kod kojih se većina rezultata grupira oko aritmetičke sredine i koje imaju
malo raspršenje i platikurtične, odnosno široke distribucije u kojima ima relativno puno
rezultata koji se razlikuju od aritmetičke sredine i koje imaju veliko raspršenje. Na Slici 6 su
prikazane tri takve distribucije koje se međusobno razlikuju po širini, odnosno statistički
gledano, prema raspršenju rezultata.
Slika 6. Usporedba mezokurtične, leptokurtične i platikurtične distribucije.
Osim po zaobljenosti, distribucije često razlikujemo i prema stupnju simetrije. Kao
što je spomenuto ranije, prava normalna distribucija je potpuno simetrična te su stoga kod nje
sve mjere središnjih vrijednosti (aritmetička sredina, centralna i dominantna vrijednost)
međusobno jednake.
Za razliku od toga, kod asimetričnih distribucija to nije slučaj. Na Slici 7 pogledajte
odnos pojedinačnih središnjih vrijednosti kod pozitivno asimetrične, odnosno distribucije kod
koje postoji više ekstremnih rezultata viših vrijednosti i negativno asimetrične, odnosno
distribucije kod koje postoji više ekstremnih rezultata nižih vrijednosti.
Distribucije rezultata
33
Simetrična Pozitivno asimetrična Negativno asimetrična
M=C=D D ‹ C ‹ M M ‹ C ‹ D
Slika 7. Usporedba simetrične i dviju asimetričnih distribucija.
Općenito, ukoliko distribucija rezultata izmjerenih na nekom uzorku značajno odstupa
od normalne, to može biti indikator da se mjerena pojava ni u populaciji ne distribuira
normalno. S druge strane, jednako često ili češće nam to može ukazivati na pogreške u
odabiru uzorka, odnosno na postojanje nekih pristranosti u mjerenju (djelovanje sistematskih
faktora na dobivene rezultate). Na primjer, ukoliko na testu matematike veliki broj djece
dobije ocjene vrlo dobar i izvrstan, odnosno ako je distribucija podataka negativno
asimetrična, to nam može ukazivati na to da je test bio prelagan.
Važno je napomenuti da je u istraživanjima uvijek važno provjeriti oblik distribucije.
Osim vizualnim pregledom grafičkih prikaza, to se može objektivno napraviti korištenjem
testova za provjeru asimetrije i zaobljenosti distribucije. U praksi se za provjeru normaliteta
distribucije vrlo često koristi tzv. Kolmogorov-Smirnovljev test o kojem možete više saznati u
preporučenoj literaturi. Ako izmjerena distribucija rezultata nije normalna, treba izbjegavati
korištenje parametrijskih metoda obrade koje se inače koriste kod normalno distribuiranih
rezultata, jer to može dovesti do pogrešnih zaključaka.
Normalna distribucija je u praksi jako važna jer, među ostalim, predstavlja osnovu za
izračunavanje položaja rezultata u skupini i vjerojatnosti pojave određenog rezultata u nizu
mjerenja. To možemo lako napraviti za bilo koje mjerenje ukoliko nam je poznata aritmetička
sredina i standardna devijacija rezultata koji se normalno distribuiraju.
Položaj rezultata u skupini
34
2.5. POLOŽAJ REZULTATA U SKUPINI
Ukoliko smo u nekoliko istraživanja izmjerili jednu ili više pojava i želimo usporediti
pojedinačne rezultate tih mjerenja, to ne možemo napraviti samo usporedbom mjerenih
vrijednosti jer one često nisu usporedive (npr. moguće je da su izmjerene na različitim
mjernim skalama). Na primjer, ako ste učenicima zadali dva testa od kojih je jedan imao
ukupno 10, a drugih ukupno 50 bodova, trebate pronaći način da usporedite bodove pojedinih
učenika na ta dva testa, ili da na temelju njih izračunate neku ukupnu ocjenu. Bilo bi
problematično jednostavno zbrojiti postignute bodove jer se, na primjer, dva testa mogu
razlikovati prema težini. Stoga je potrebno rezultate standardizirati, odnosno pretvoriti ih u
neki standardni oblik. Pritom najčešće koristimo tzv. z-vrijednosti.
2.5.1. z-vrijednosti
Logika z-vrijednosti temelji se na pretvaranju svakog rezultata u standardiziranu
vrijednost temeljenu na udaljenosti tog rezultata od aritmetičke sredine skupine kojoj pripada.
Z-vrijednosti se računaju kao omjer odstupanja svakog rezultata od aritmetičke sredine i
standardne devijacije distribucije iz koje dolaze.
SD
Mxz
x - svaki pojedinačni rezultat
SD – standardna devijacija
M - aritmetička sredina
Pretvaranjem distribucije izmjerenih vrijednosti u onu z-vrijednosti dobijemo novu
distribuciju čija je aritmetička sredina 0, a standardna devijacija 1. Ta je distribucija
standardizirana, što znači da su i druge osobine, primjerice udio rezultata koje uključuje, te
distribucije poznate. Općenito, unutar cijele normalne distribucije uvijek se nalazi isti
postotak rezultata, a to isto možemo reći i za pojedine dijelove te distribucije. Kod normalne
distribucije se tako praktično svi rezultati (99.73%) nalaze u rasponu aritmetička sredina ± 3
standardne devijacije. Unutar raspona aritmetička sredina ± 2 standardne devijacije nalazi se
95.44%, a unutar raspona aritmetička sredina ± 1 standardne devijacije 68.26% rezultata
(Slika 8).
Položaj rezultata u skupini
35
Slika 8. Udio rezultata u različitim odsječcima normalne distribucije.
Osim toga, kod normalne distribucije je moguće izračunati točan postotak, odnosno
broj rezultata koji se nalaze u nekom rasponu unutar distribucije dobivenih podataka. To
možemo napraviti pomoću formule za izračunavanje z-vrijednosti i statističke tablice koja
nam za svako standardizirano odstupanje (z) pokazuje postotak rezultata koji se nalaze
između te vrijednosti i aritmetičke sredine (prilog Tablica 1: z-vrijednosti normalne krivulje
za zadane postotke površine od aritmetičke sredine).
Primjer računanja z-vrijednosti:
Mjerenjem nekog uzorka dobili smo skup od 6000 normalno distribuiranih rezultata
čija je aritmetička sredina 100, a standardna devijacija 10. Odredite koja je vjerojatnost da je
neki rezultat veći ili jednak od rezultata 103.
3.010
3
10
100103
z
U Statističkim tablicama za z=0.3 možemo iščitati vrijednost 11.79. Ta nam vrijednost
pokazuje postotak rezultata između aritmetičke sredine i rezultata 103. Međutim, nas zanima
koliko je rezultata iznad 103, pa taj postotak računamo kao 50% - 11.79% = 38.21%. Dakle,
38.21% ispitanika imalo je rezultat jednak ili veći od 103.
Na temelju gore navedenog postupka, u nekoj distribuciji možemo odrediti npr. točan
položaj rezultata u nekoj skupini, broj ispitanika koji su postigli rezultate veće ili manje od
neke vrijednosti, broj ispitanika koji je postigao rezultat unutar određenog raspona, itd. Pri
Položaj rezultata u skupini
36
izračunavanju tih vrijednosti, važno je pažljivo pratiti organizaciju tablice te prije samog
izračuna grafički prikazati problem koji se pokušava riješiti.
Važno je naglasiti da je uz pomoć z-vrijednosti moguće i kombinirati rezultate dvaju
ili više testova, npr. zbrojiti z-vrijednost pojedinca na nekoliko testova kako bi se odredio
njegov ukupni / prosječan uspjeh u skupini.
Primjer primjene z-vrijednosti:
Na ispitu iz mature kojeg su polagali iz hrvatskoj jezika, matematike i fizike, učenici su
postigli sljedeći uspjeh:
HRVATSKI MATEMATIKA FIZIKA
M 55 40 70
SD 10 2 20
Dva učenika su na testovima postigla sljedeće rezultate:
HRVATSKI MATEMATIKA FIZIKA
UČENIK A 45 42 70
UČENIK B 45 40 80
Izračunajte koji je učenik ukupno postigao bolji rezultat.
Da biste riješili ovaj zadatak najprije trebate bodove koji su učenici postigli pretvoriti u z-
vrijednosti.
HRVATSKI MATEMATIKA FIZIKA
UČENIK A 010
4545
z 1
2
4042
z 0
20
7070
z
UČENIK B 010
4545
z 0
2
4040
z 5.0
20
7080
z
Zatim treba izračunati ukupne z-vrijednosti za te učenika.
UČENIK A: zA=0+1+0=1
UČENIK B: zB=0+0+0.5=0.5
Dakle, bolji uspjeh ukupno je postigao učenik A (iako je apsolutno imao manje
izmjerenih bodova od učenika B).
Položaj rezultata u skupini
37
2.5.2. Centili i decili
Osim z-vrijednosti, postoje i drugi načini određivanja položaja rezultata u skupini. Vrlo često
se u tu svrhu koriste skale centila i decila, naročito kod distribucija koje nisu distribuirane
normalno. Decili pritom predstavljaju vrijednosti koje skup dijele na 10 jednakih dijelova,
dok su centili vrijednosti koje skup dijele na 100 jednakih dijelova. Logika njihovog
korištenja slična je ranije spominjanom računanju kvartila kod kojih se niz rezultata dijeli na
četiri jednaka dijela (granica drugog kvartila je centralna vrijednost). Slično tome, kod decila
se određuju granice koje dijele niz rezultata poredanih po veličini u skupine od po 10%
rezultata, dok se kod centila radi o skupinama od po 1% rezultata. To se može napraviti uz
pomoć z-vrijednosti jer se u normalnoj distribuciji za ciljani granični postotak rezultata može
odrediti z-vrijednost uz koju se on vezuje, a zatim i originalni izmjereni rezultat.
Međutim, još je jednostavnije odrediti decile ili centile pomoću bruto, odnosno
izmjerenih vrijednosti. Na primjer, kod određivanja decila najprije je potrebno rezultate
poredati po veličini. Nakon toga, određuju se gornje granične vrijednosti decila kojih ima 9.
Prva granica odvaja prvih 10% ispitanika, druga prvih 20%, itd. Granica 5. decila je centralna
vrijednost. Prema istoj logici mogu se odrediti i granične vrijednosti centila.
Računski decil u kojem se nalazi neki rezultat možemo izračunati pomoću formule:
10xN
rangd
Prema istoj logici, računski se centil u kojem se nalazi neki rezultat može izračunati
pomoću formule:
100xN
rangc
Kao što je spomenuto, skale decila i centila često se koriste kada nije opravdano
koristiti z-vrijednosti ili kad se rezultati žele prikazati nestatističarima. Na primjer, ukoliko
radite u školi i nekom roditelju želite objasniti kakav uspjeh njegovo dijete ima u usporedbi s
ostalom djecom u razredu, u tu je svrhu često lakše koristiti decile od z-vrijednosti. Dakako, i
u tom slučaju treba roditelju ukratko objasniti što decili predstavljaju, ali za očekivati je da će
on to lako razumjeti jer se radi o „intuitivnoj“ skali koju nerijetko koristimo i u
svakodnevnom životu.
Položaj rezultata u skupini
38
Iako korisne, ove skale imaju svojih ograničenja jer su grube, neaditivne i
neekvidistantne, te se stoga u složenijim analizama ne koriste. Također, kod računanja decila i
centila u kojima se nalazi određeni rezultat često dobivene rezultate treba zaokružiti kako bi
se pripadajući decil ili centil mogao jednoznačno odrediti, što predstavlja dodatni izvor
nepreciznosti ovih skala.
Primjer računanja decila i centila:
Mjerenjem smo dobili sljedeće rezultate: 7, 8, 4, 2, 3, 8, 8, 3, 3, 4, 9, 2, 5, 4, 4, 5, 6, 6, 10, 9. U
kojem se decilu, a u kojem centilu nalazi rezultat 7?
Najprije treba poredati rezultate po veličini: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8, 8, 8,
9, 9, 10. Zatim možemo očitati rang rezultata koji nas zanima, i koji iznosi 14.
71020
14 xd ; d = 7
Rezultat 7 nalazi se u sedmom decilu.
7010020
14 xc ; c = 70
Rezultat 7 nalazi se u sedamdesetom centilu.
Inferencijalna statistika
39
3. INFERENCIJALNA STATISTIKA
Metode inferencijalne statistike omogućuju nam da na temelju podataka dobivenih
mjerenjem na uzorku generaliziramo, odnosno donosimo zaključke o stanju u cijeloj
populaciji. Unutar inferencijalne statistike ključno je poznavati osnovne zakonitosti
uzorkovanja koje, kao što je objašnjeno u poglavlju o deskriptivnoj statistici, predstavlja
postupak formiranja uzorka iz populacije, odnosno odabira ispitanika koji će sudjelovati u
nekom istraživanju. Populaciju pritom čine svi mogući članovi neke skupine s određenim
značajkama, dok uzorak predstavlja dio populacije na kojem provodimo istraživanje.
Općenito smo u istraživanjima gotovo uvijek usmjereni na mjerenje uzoraka jer je
ponekad populaciju nemoguće, preskupo ili presloženo izmjeriti. Važno je naglasiti da nam je
kod odabira uzorka cilj odabrati skupinu ispitanika koja što bolje reprezentira populaciju kojoj
pripada jer nam to omogućuje bolje zaključivanje i predviđanje pojava. Prilikom organizacije
mjerenja moguće je izabrati različite vrste uzoraka, pri čemu se često koristi jednostavni
slučajni uzorak, odnosno uzorak kod kojeg svaki član populacije ima jednaku vjerojatnost biti
odabran. Slučajni uzorak je obično i reprezentativan za populaciju, dok za one uzorke kod
kojih neki članovi imaju veću vjerojatnost da budu odabrani kažemo da su pristrani.
Bez obzira na kvalitetu odabranog uzorka, treba imati na umu da uzorak nikada nije
potpuni preslik populacije. Naime, prilikom mjerenja uvijek smo izloženi određenim
pogreškama mjerenja koje trebamo uzeti u obzir prilikom interpretacije rezultata. S obzirom
na to, kada na temelju uzorka želimo zaključivati o stanju u populaciji (npr. predvidjeti
izraženost neke osobine u populaciji ili provjeriti postojanje razlika među grupama), te
pogreške moramo uzeti u obzir. Kako prilikom samog mjerenja nikad ne možemo znati
veličinu pogreške koja se vezuje upravo uz to mjerenje, kao ni pravo stanje u populaciji, u
praksi sve zaključke donosimo s određenom vjerojatnošću ili uz određeni stupanj sigurnosti.
Dakle, uz naše se zaključke uvijek veže mogućnost pogreške o čijoj vjerojatnosti pojave, koju
nazivamo i razinom rizika, uvijek moramo izvijestiti uz rezultat izračunatog testa unutar
istraživanja. Sam istraživač određuje željeni stupanj sigurnosti na kojem želi temeljiti svoje
zaključke: najčešće se pritom odlučuje za stupanj sigurnosti od 95% (razinu rizika od 5%) ili
99% (razinu rizika od 1%).
Različite postupke i testove unutar inferencijalne statistike međusobno razlikujemo
prije svega s obzirom na svrhu u koju se koriste. Tako postupke načelno možemo podijeliti u
one kojima je cilj provjeriti ili opisati razlike između dviju ili više skupina varijabli (npr. t-
test) i one kojima je cilj odrediti veze između pojedinih varijabli (npr. korelacija). Nadalje,
Inferencijalna statistika
40
različite vrste postupaka moguće je podijeliti s obzirom na vrstu modela koje koriste, pa tako
razlikujemo parametrijske i neparametrijske metode o kojima će kasnije biti više riječi.
Također, s obzirom na složenost postupaka, odnosno broj varijabli koje uzimaju u obzir
razlikujemo univarijantne (uzimaju u obzir jednu varijablu), bivarijantne (uzimaju u obzir
dvije varijable) ili multivarijantne tehnike (uzimaju u obzir više od dvije varijable). Dodatno
se različite vrste postupaka mogu razlikovati s obzirom na osobine uzoraka i izmjerenih
podataka na kojima se primjenjuju (npr. analize za zavisne i nezavisne skupine).
Pritom treba posebno naglasiti da odabir prikladne statističke metode u istraživanju
prvenstveno ovisi o istraživačkom pitanju na koje želimo odgovoriti, te da je u pravilu jako
korisno provedbu istraživanja organizirati imajući u vidu planirane analize. Naime, provedba
statističkih postupaka nikad ne može zamijeniti ili nadomjestiti eventualne nedostatke
provedenih istraživanja koji kasnije ograničavaju moguće primjene dobivenih rezultata. Isto
tako, treba uvijek biti jako pažljiv prilikom interpretacije dobivenih rezultata, jer se u praksi
vrlo često susreću primjeri neopravdanog zaključivanja o, primjerice, uzrocima pojave
statistički značajnih razlika izračunatih putem t-testa ili uzročno-posljedičnom odnosu
varijabli za koje je utvrđeno samo postojanje povezanosti, odnosno statistički značajne
korelacije.
Inferencijalna statistika
41
3.1. POGREŠKE MJERENJA
Ako bismo iz neke populacije odabrali veliki broj uzoraka jednake veličine i za svaki od njih
odredili prosječnu vrijednost, aritmetičke sredine tih uzoraka međusobno bi se razlikovale
iako svi ti uzorci dolaze iz iste populacije (i nju predstavljaju). Ukoliko bismo sve te
aritmetičke sredine uzoraka grafički prikazali, vidjeli bismo da bi se aritmetičke sredine
populacije grupirale oko prave aritmetičke sredine populacije, a njihova bi distribucija
nalikovala normalnoj. Što su izmjereni uzorci veći, to će distribucija njihovih aritmetičkih
sredina biti sličnija normalnoj i imati manju standardnu devijaciju. Štoviše, čak i ako
distribucija populacije nije normalna, kod velikih uzoraka (često N>30) će distribucija
aritmetičkih sredina biti normalna. To nazivamo teoremom centralne granice (Slika 9).
Slika 9. Primjeri distribucija rezultata u populaciji (slike u retku 1), te distribucija aritmetičkih sredina
uzoraka različite veličine (slike u retcima 2 i 3).
Dakle, možemo zaključiti kako aritmetička sredina velikog broja uzoraka neće točno
odgovarati pravoj aritmetičkoj sredini populacije, već će se od nje više ili manje razlikovati.
Isto vrijedi i za ostale karakteristike uzorka, npr. standardnu devijaciju ili proporciju.
Pogreška uzorka predstavlja upravo tu razliku između vrijednosti dobivenih mjerenjem
uzorka i stvarnog stanja u populaciji. Razlozi zbog kojih dolazi do pogrešaka mjerenja
uključuju: neslučajnost uzorka ili selektivni otpad ispitanika, netočne i/ili neiskrene odgovore
ispitanika, nejasna pitanja, pogrešan unos podataka i sl. Pogreška uzorka bit će veća kod
manjih uzoraka koji slabije reprezentiraju populaciju iz koje potječu.
Iako se pogreška uzorka može izračunati za sve vrijednosti uzorka, u praksi se ona
najčešće računa za aritmetičku sredinu i proporciju. U tim slučajevima govorimo o
Inferencijalna statistika
42
(standardnoj) pogrešci aritmetičke sredine (SEM; ponekad se označava i kao SDM) i
(standardnoj) pogrešci proporcije (SEP; ponekad se označava i kao SDp).
Formula za računanje pogreške
aritmetičke sredine N
SDSEM SD - standardna devijacija
N- broj ispitanika
p – proporcija jedne kategorije
q – proporcija druge kategorije
Formula za računanje pogreške
proporcije N
pxqSEP
q=1-p
Primjer određivanja pogreške aritmetičke sredine:
U skupini od 64 učenika izmjerena je prosječna visina od 155 cm, uz standardnu devijaciju 8.
Izračunajte pogrešku aritmetičke sredine ovog uzorka.
18
8
64
8SEM
Primjer određivanja pogreške proporcije:
U skupini od 64 ukupno upisanih studenta jedne generacije, njih je 58 uspješno upisalo
sljedeću akademsku godinu. Izračunajte pogrešku proporcije u ovom uzorku.
p = 58/64 = 0.91
q = 1-0.91 = 0.09
035.0001.064
082.0
64
09.091.0
xSEP
Inferencijalna statistika
43
3.2. PROCJENA PARAMETARA
Ukoliko na nekom uzorku prikupimo određene podatke i odredimo vrijednost aritmetičke
sredine na temelju koje želimo odrediti stvarnu aritmetičku sredinu populacije, preporučljivo
je prognozirati ne samo jednu, već raspon vrijednosti. To radimo zato jer se uz vrijednosti
izmjerene na uzorku uvijek veže određena pogreška koju pokušavamo neutralizirati manje
preciznim prognozama, odnosno prognoziranjem raspona umjesto jedne vrijednosti i
navođenjem stupnja uvjerenja u donesene zaključke.
Proces određivanja raspona u kojem se, uz određenu sigurnost (rizik), nalazi vrijednost
u populaciji ili parametar populacije naziva se procjena parametara. Parametar se pritom
može odnositi na npr. aritmetičku sredinu, proporciju, ili raspršenje unutar populacije. Za
procjenu parametra potrebno je znati vrijednost uzorka i pogrešku koja se veže uz vrijednost
uzorka.
U praksi se procjena parametara najčešće radi za aritmetičku sredinu (kod podataka na
intervalnim i omjernim skalama mjerenja), te proporciju (kod podataka na nominalnoj skali
mjerenja). Pritom se koriste formule za računanje pripadajućih pogrešaka uzoraka s kojima
smo se već upoznali. Nakon što smo izračunali pogrešku uzorka, tu mjeru možemo koristiti za
procjenu granica pouzdanosti. Granice pouzdanosti označavaju raspon u kojem se, uz
određeni stupanj sigurnosti kojeg odabire sam istraživač, nalazi prava vrijednost populacije.
Kod određivanja granica pouzdanosti uvijek krećemo od vrijednosti uzorka kojoj dodajemo i
od koje oduzimamo jednaku vrijednost prema formulama:
Procjena aritmetičke sredine
populacije
M 2.58 SEM (uz 99% sigurnosti)
M 1.96 SEM (uz 95% sigurnosti)
Procjena proporcije u populaciji
p 2.58 SEP (uz 99% sigurnosti)
p 1.96 SEP (uz 95% sigurnosti)
Dakle, prilikom predviđanja stanja u populaciji na temelju izmjerenog uzorka u
pravilu ne možemo biti potpuno sigurni u svoje zaključke, te se stoga ograničavamo na manje
precizne prognoze. Granice pouzdanosti pritom reflektiraju upravo stupanj naše sigurnosti u
prognozu: što smo sigurniji u taj zaključak, to su granice pouzdanosti uže, odnosno u takvim
slučajevima možemo predviđati uži raspon mogućih populacijskih vrijednosti. Kada u našem
Inferencijalna statistika
44
mjerenju ne bi postojala nikakva pogreška, mogli bismo prognozirati samo jednu vrijednost, i
to onu koja je izračunata unutar uzorka.
Primjer određivanja intervala pouzdanosti aritmetičke sredine:
Na ispitu iz statistike održanog na kraju ak.god. 2012/2013. skupina od 60 studenata postigla
je prosječno 48 od mogućih 80 bodova (SD = 9.3). Profesor koji predaje taj predmet je rekao
da se radi o uobičajenom postignuću studenata koji se ne razlikuje od očekivanog uspjeha od
50 bodova. Da li je profesor u pravu?
20.160
3.9SEM
Procjena uz 1% rizika da se pravi prosječni uspjeh nalazi u ovom rasponu:
48 ± 2.58 x 1.2 = 48 ± 2.98 (45.02 do 50.98)
Uz stupanj sigurnosti od 99% možemo zaključiti da profesor u pravu, odnosno da se
postignuti uspjeh statistički značajno ne razlikuje od očekivanog.
Inferencijalna statistika
45
3.2. TESTIRANJE HIPOTEZA
Testiranje hipoteza predstavlja sistematski proces kojim provjeravamo potvrđuju li podaci
prikupljeni unutar određenog istraživanja testirane znanstvene teorije i hipoteze. Postupak
procjene parametara s kojim ste se ranije upoznali predstavlja jedan od jednostavniji oblika
testiranja hipoteza, tako da ste se s nekim osnovnim postavkama ovog procesa već susreli.
Testiranje hipoteza provodi se kroz nekoliko koraka koji započinju formuliranjem hipoteze
koja predstavlja odgovor na postavljeno istraživačko pitanje, nastavljaju se odabirom i
provođenjem prikladnog statističkog postupka, a završavaju odlukom o valjanosti postavljene
hipoteze.
Postupkom testiranja hipoteza možemo, na primjer, provjeriti:
Oblik distribucije frekvencija: najčešće to radimo kako bismo odredili da li je neka
distribucija normalna ili ne.
Pripada li uzorak određenoj populaciji. Na primjer, ukoliko u skupini darovite djece
primijenimo test inteligencije, možemo usporediti dobivenu vrijednost s prosječnom
vrijednosti za koju nam je poznato da vrijedi u populaciji (u slučaju inteligencije je to
100), i zatim odrediti da li se daroviti svojom inteligencijom ističu u usporedbi s
drugom djecom njihove dobi.
Pripadaju li dva ili više uzoraka istoj populaciji, odnosno postoji li statistički značajna
razlika između dviju ili više skupina podataka. Na primjer, na ovaj način možemo
provjeriti da li se učenici različitog socioekonomskog statusa razlikuju po ocjenama iz
nekog predmeta.
Povezanost dviju ili više varijabli. Na primjer, možemo provjeriti da li je količina
domaćeg rada kojeg učenici trebaju napraviti tijekom semestra povezana s količinom
znanja koju steknu iz nekog predmeta
1. KORAK: Postavljanje hipoteze
Znanstvena istraživanja predstavljaju sustavne načine provjere postavki određenih
znanstvenih teorija ili odgovaranja na neka praktična pitanja. Na početku istraživanja
formuliraju se istraživački problemi i hipoteze, odnosno pretpostavljeni odgovori na te
probleme. Važno je razlikovati dvije vrste hipoteza: istraživačke hipoteze koje odražavaju
teorijska ili istraživačeva uvjerenja o očekivanim rezultatima, te nul ili nulte hipoteze (H0)
koje predstavljaju statističke hipoteze u koje sam istraživač ne mora vjerovati, ali ih treba
postaviti kako bi ih provođenjem statističkih postupaka provjerio. Pritom je nul hipoteza
Inferencijalna statistika
46
statistička hipoteza koja pretpostavlja nepostojanje značajnih efekata, npr. nepostojanje
razlika između skupina ispitanika, nepostojanje korelacije između varijabli i slično. Nul
hipotezu testiramo korištenjem statističkih postupaka, nakon čega tu hipotezu možemo
odbaciti ukoliko dobijemo statistički značajan efekt, odnosno prihvatiti ako ne pokažemo
statistički značajan rezultat.
Iako i istraživačke hipoteze mogu pretpostavljati nepostojanje nekog efekta, one su
znatno češće formulirane afirmativno. Na primjer, zamislite da radite u srednjoj školi, i imate
dojam da djeca iz bogatijih obitelji bolje usvajaju gradiva iz tehničkih i znanstvenih predmeta
od djece iz siromašnijih obitelji. Čini vam se da je to možda vezano uz veću dostupnost knjiga
i informatičke tehnologije kod djece iz bogatijih obitelji, te razmišljate o tome da ravnatelju
predložite otvaranje informatičke radionice koja bi djeci bila stalno dostupna, i u kojoj bi i
siromašniji učenici imali stalan pristup tehnologiji važnoj za učenje. Međutim, prije toga
želite svoju sumnju i provjeriti, te organizirate istraživanje u kojem ćete ispitati postoji li
povezanost između ekonomskog statusa obitelji djeteta i uspjeha u odabranim predmetima.
Pritom je vaša istraživačka hipoteza afirmativna, odnosno vi smatrate da veza između tih
dviju varijabli postoji. Štoviše, vaša je istraživačka hipoteza direktivna, odnosno ona
uključuje pretpostavljeni smjer povezanosti: smatrate da djeca iz bogatijih obitelji imaju više
ocjene iz odabranih predmeta. Za razliku od toga, nedirektivna hipoteza bi bila ona kod koje
istraživač nema pretpostavke o smjeru efekta, ali pretpostavlja da nekakav efekt postoji. Na
primjer, u istraživanju povezanosti dobi nastavnika i uspjeha učenika istraživač može imati
nedirektivnu afirmativnu hipotezu jer očekuje razliku među učenicima, ali nije siguran da li će
za bolji uspjeh učenika biti presudno (veće i bolje) iskustvo starijih nastavnika ili (veća)
pristupačnost i motivacija mlađih nastavnika.
Primjer nul hipoteze:
H0: Ne postoji statistički značajna razlika između dječaka i djevojčica u verbalnoj
inteligenciji.
2. KORAK: Odabir prikladnog statističkog postupka i razine statističke značajnosti
Nakon što smo postavili hipotezu, trebamo odabrati prikladnu statističku analizu kojom ćemo
odgovoriti na postavljeno istraživačko pitanje. Pritom odabir statističkih testova i postupaka u
istraživanju ovisi o nekoliko činitelja:
postavljenom istraživačkom pitanju
vrsti i veličini ispitanog uzorka te
Inferencijalna statistika
47
karakteristikama prikupljenih podataka (osobinama i broju korištenih varijabli;
mjernim skalama; distribuciji dobivenih rezultata).
Jedan od najvažnijih čimbenika koje trebamo odrediti prilikom odabira prikladnog
statističkog postupka je vrsta uzoraka koje smo imali u istraživanju. Naime, ukoliko našim
istraživanjem želimo provjeriti razlikuju li se dvije različite skupine ispitanika koje smo
izmjerili, onda među opažanjima imamo dva nezavisna skupa, ili dva nezavisna uzorka
podataka koje moramo usporediti. Ukoliko nas, međutim, zanima razlika između uspjeha
jedne te iste skupine ispitanika na dva testa ili dvije situacije, onda našu analizu provodimo na
dva međusobno zavisna skupa podataka, odnosno na zavisnim uzorcima.
3. KORAK: Provedba statističkog postupka i odluka o prihvaćanju ili odbacivanju nul
hipoteze
Nakon odabira prikladnog statističkog postupka, možemo krenuti u njegovo računanje kod
kojeg koristimo standardne procedure opisane u udžbenicima iz statistike. Općenito je lako
pronaći informacije o tome kako provesti odabrani statistički postupak, pri čemu veliki dio
izračuna najčešće možemo prepustiti računalnim programima za statističku obradu podataka.
Provedba velikog broja statističkih postupaka temelji se na računanju testovne
vrijednosti koja vrijedi za izmjereni skup podataka, i njezinom usporedbom s nekom
teoretskom, tzv. kritičnom vrijednosti tog testa. Pritom ta kritična vrijednost odražava
testovnu vrijednost koju bismo očekivali u mjerenju na nekom zamišljenom, „usporednom
uzorku“ kod kojeg zaista vrijedi nul hipoteza, odnosno kod kojeg ne postoji statistički
značajni efekt kojeg testiramo. Unutar distribucije tog usporednog uzorka određuje se kritična
vrijednost kod koje bi nul hipotezu trebalo odbaciti. Naime, ta vrijednost predstavlja rezultat
koji bi se u teoriji (i praksi) mogao dobiti čak i ukoliko nul hipoteza zaista vrijedi, ali je taj
ishod malo vjerojatan. Stoga ta vrijednost služi kao referentna točka s kojom se uspoređuje
vrijednost statističkog testa koja je dobivena unutar provedenog istraživanja kako bi se na
temelju te usporedbe donijela odluka o prihvaćanju ili odbacivanju nul hipoteze.
Spomenuta kritična razina rezultata može se odrediti korištenjem različitih statističkih
tablica za prikladne statističke testove unutar kojih možete očitati graničnu vrijednost testa
vezanu uz broj stupnjeva slobode (eng. degrees of freedom) uzroka. Stupnjevi slobode mogu
se definirati kao korigirani broj rezultata izmjerenih uzoraka, pri čemu se kod svakog testa oni
računaju uz pomoć različitih formula. Pritom treba naglasiti da određivanje kritičnog rezultata
unutar usporedne distribucije ovisi i o željenom stupnju sigurnosti na kojem istraživač želi
temeljiti svoje zaključke. Naime, slično kao kod procjene parametara, istraživač sam određuje
Inferencijalna statistika
48
tu razinu pri čemu se najčešće odlučuje za stupanj sigurnosti od 95% (razinu rizika od 5%) ili
99% (razinu rizika od 1%) (Slika 10). Ukoliko je rezultat dobiven provedbom odabranog testa
manje ekstreman od kritične vrijednosti koju smo očitali u tablicama, zaključujemo da nul
hipoteza vrijedi i da ne postoji statistički značajan efekt. Ukoliko, međutim, dobiveni rezultat
bude toliko ekstreman da se odbaci nul hipoteza, smatra se da je rezultat dosegao statističku
značajnost. Ukoliko podatke obrađujemo uz pomoć računalnog programa za statističku
obradu podataka ne trebamo statističke tablice, jer program automatski provodi usporedbu i
izvještava nas o vjerojatnosti slučajne pojave dobivenog rezultata. Prilikom donošenja tih
zaključaka nikad ne možemo biti apsolutno sigurni da smo u pravu, jer uvijek baratamo s
vjerojatnostima. Stoga je važno napomenuti sljedeće:
Čak i ako odbacimo nul hipotezu to ne znači da je alternativna, odnosno
istraživačka hipoteza potvrđena.
Ako prihvatimo nul hipotezu ne možemo reći da smo "dokazali nul hipotezu".
Naime, iako dobiveni rezultati nisu dovoljno snažni da odbace nul hipotezu, to ne
znači da ona nije pogrešna.
Slika 10. Područje prihvaćanja nul hipoteze uz stupnjeve sigurnosti od 95% i 99%.
4. KORAK: Izvještavanje o prihvaćanju ili odbacivanju nul hipoteze
Nakon provedbe statističkog postupka treba izvijestiti o dobivenim rezultatima. To se radi na
način da se jasno navede korišteni test, napiše dobiveni rezultat provedenog testa, ukoliko je
potrebno i pripadajući stupnjevi slobode (df), te vjerojatnost slučajne pojave dobivenog
rezultata (p). Pritom se vjerojatnost p može navesti ili kao točna vrijednost (npr. p = 0.12) ili
kao relativna vrijednost (npr. p < 0.05), koju možete napisati i bez decimalne točke (p < .05).
Inferencijalna statistika
49
Osim ovih, moguće je prilikom izvještavanja navesti i veličinu izmjerenog učinka, o čemu
možete više doznati u preporučenoj literaturi.
Uz izvještavanje o brojčanim vrijednostima izračunatih testova, moguće je i opisno
navesti što dobiveni rezultat govori o nul hipotezi (da li je prihvaćamo ili odbacujemo),
odnosno o statističkoj značajnosti dobivenog efekta (da li je statistički značajan ili ne).
Ukoliko se razlika između podataka pokaže statistički značajnom, možemo zaključiti da se
ona vjerojatno nije dogodila slučajno (jer je jako malo vjerojatna). Na primjer, ako vidite p <
0.05 u nekom istraživanju, to znači da se taj rezultat slučajno mogao pojaviti u manje od 5 od
ukupno 100 slučajeva, a p < 0.01 znači da je to bilo moguće u manje od 1 od ukupno 100
slučajeva. Ukoliko uz navedene brojčane parametre u znanstvenom istraživanju želite opisno
prokomentirati rezultate, preporučljivo je uz komentar o statističkoj značajnosti navesti i
smjer, odnosno značenje razlike ukoliko je ona statistički značajna (npr. ako se dvije skupine
statistički značajno razlikuju po nekom svojstvu, navesti koja ima više, a koja manje izraženo
to svojstvo). Ukoliko dobiveni rezultati pokazuju da ne postoji statistički značajna razlika
između skupova podataka, bilo kakva razlika između aritmetičkih sredina koju ste „golim
okom“ opazili prije provedbe testa ne smije se interpretirati jer statistička analiza pokazuje da
je ona posljedica slučaja.
Primjer navođenja dobivenih rezultata:
t(65)=3.2, p<0.05 ili t(65)=3.2, p=0.03
Pogreške kod testiranja hipoteza
Prilikom testiranja hipoteza uvijek se izlažemo, a ponekad ćemo i počiniti, jednu od mogućih
pogrešaka koje se u procesu testiranja mogu pojaviti. Općenito razlikujemo dvije vrste
pogrešaka: pogrešku tipa I i tipa II. Pogreška tipa I (α-pogreška) je pogreška kod koje
odbacujemo nul hipotezu, iako je ona točna, dok kod pogreške tipa II (β) ne odbacujemo nul
hipotezu, iako zapravo postoji razlika među uzorcima.
Osnovni statistički postupci i analize
50
3.3. TEMELJNI STATISTIČKI POSTUPCI
Općenito, statističke postupke i testove možemo podijeliti na parametrijske i neparametrijske
postupke. Parametrijski testovi vezani su uz normalnu distribuciju, te u najvećem broju
slučajeva predstavljaju efikasniji odabir za obradu podataka. Naime, kao testovi koji koriste
preciznije podatke oni imaju veću snagu od neparametrijskih testova.
Snaga testa pritom predstavlja vjerojatnost odbacivanja nul hipoteze koja nije točna
ili prihvaćanja one koja je točna. Što je snaga testa veća to je vjerojatnije da ćemo
istraživanjem pokazati stvarni efekt, odnosno rjeđe ćemo počiniti neke od pogrešaka koje se
vezuju uz statističke analize.
Međutim, važno je naglasiti da se parametrijski testovi mogu koristiti samo kada su
zadovoljene osnovne pretpostavke za njihovo korištenje (prema teorijskom okviru):
Opažanja moraju biti nezavisna. Odabir bilo koje jedinice iz populacije ne smije
utjecati na odabir neke druge jedinice (mjerenja, ispitanika). Taj se uvjet odnosi na sve
parametrijske testove.
Mjerenje mora biti provedeno najmanje na intervalnoj ljestvici.
Statističke jedinice (opažanja) moraju potjecati iz normalno distribuirane populacije.
Kad određujemo dolaze li naši podaci iz normalne populacije, možemo uzeti u obzir
podatke iz ranijih mjerenja koji nam mogu biti informativni. Također, možemo
formalno primijeniti test normaliteta distribucije prikupljenih podataka. U tu se svrhu
najčešće koristi Kolmogorov-Smirnov test kojeg automatski možemo izračunati uz
pomoć računalnih programa za statističku obradu. Ukoliko imamo veliki uzorak,
normalitet distribucije često ne predstavlja veći problem.
Populacije kod kojih testiramo razliku moraju imati istu varijancu (ili u nekim
slučajevima poznat omjer varijanci).
Dakle, parametrijski postupci primjenjuju se kod mjerenih i normalno distribuiranih
skupina podataka. Međutim u praksi često imamo situaciju da istražujemo pojavu koja se ne
distribuira normalno, ili zbog nekih drugih razloga naš uzorak ne zadovoljava uvjete za
korištenje parametrijskih testova. U tim slučajevima možemo koristiti tzv. neparametrijske
testovime koji ne ovise o normalitetu distribucije. Također, te testove možemo koristiti
ukoliko imamo podatke koji se nalaze na nominalnoj ili ordinalnoj skali mjerenja, odnosno
ukoliko računamo s frekvencijama ili rangovima. Uz to, neparametrijske testove ponekad i
moramo koristiti, na primjer ukoliko u uzorku imamo premali broj opažanja (manji od 10).
Osnovni statistički postupci i analize
51
Neparametrijski testovi često imaju jednostavniju logiku korištenja te su stoga pogodni za
korištenje u situacijama u kojima ne smijemo odabrati parametrijske postupke. Dakako,
nepametrijski postupci se mogu koristiti i ako imamo zadovoljene uvjete za korištenje
parametrijskih, ali takav odabir ne bi bio previše racionalan. Naime, jednostavnija logika
izračuna kao i činjenica da se ovi testovi temelje na manje preciznim osobinama podataka
(rangovima ili učestalosti) znače da bismo pretvaranjem izmjerenih podataka na ordinalnu ili
pak nominalnu skalu izgubili veliki dio informacija koje nam nude složenije skale. Stoga ovi
testovi imaju manju snagu, što znači da kod njih postoji veća vjerojatnost da nećemo uočiti
neke efekte koji stvarno postoje u populaciji.
3.3.1. Odabir prikladnog statističkog postupka
Kao što je ranije spomenuto, odabir statističkih testova i postupaka u istraživanju ovisi o
istraživačkom pitanju i nacrtu istraživanja, vrsti i veličini uzorka te karakteristikama
izmjerenih podataka. Sve te informacije moraju se uzeti u obzir prije provedbe statističke
analize. U tablici su navedeni temeljni činitelji koje treba uzeti u obzir kod izbora statističkih
postupaka i testova koji se mogu primijeniti u određenoj situaciji. Ona se može koristiti kao
vodič prilikom odabira prikladnog statističkog postupka, čiji detaljan postupak možete
pronaći opisan u naprednijim statističkim udžbenicima ili priručnicima računalnih programa
za statističku obradu podataka.
Tablica 3
Neke osnovne vrste statističkih postupaka i činitelji važni za njihov odabir
Osobine
podataka Podaci na
nominalnoj skali
mjerenja
Podaci na ordinalnoj
ili
intervalnoj/omjernoj
skali bez normalne
distribucije
Podaci na
intervalnoj ili
omjernoj skali
mjerenja s
normalnom
distribucijom
Cilj
istraživanja
Usporedba jedne skupine
rezultata i nekih
hipotetskih vrijednosti
Procjena
parametara
Hi-kvadrat test*
Wilcoxonov test za
jedan uzorak
Procjena parametara
t-test za jedan uzorak
Usporedba dvaju
nezavisnih uzoraka (dviju
različitih skupina
ispitanika)
Hi-kvadrat test
(Fisherov test)
t-test za proporcije
Medijan test
Mann-Whitneyev U-test
Test homogenog niza
Siegel-Tukeyev test
t-test za nezavisne
uzorke*
Osnovni statistički postupci i analize
52
Usporedba dvaju zavisnih
uzoraka (dva skupa
podataka jedne skupine
ispitanika)
McNemarov test
(hi-kvadrat test za
zavisne uzorke)
Test predznaka
Wilcoxonov test
ekvivalentnih parova
t-test za zavisne
uzorke*
Usporedba više od dva
nezavisna uzorka (više od
dvije različite skupine
ispitanika)
Hi-kvadrat test*
Prošireni medijan test
Kruskal Wallisov test
Analiza varijance
Usporedba više od dva
zavisna uzorka (više od
dva skupa podataka jedne
skupine ispitanika)
Cochraneov Q
Friedmanov test
Fergusonov test
monotonije trenda
Analiza varijance s
ponovljenim
mjerenjima
Određenje povezanosti
dviju varijabli mjerenih
na jednom skupu
ispitanika
Cramerov „fi“
koeficijent
Koeficijent
kontingencije
Spearmanov koeficijent
korelacije („ro“)
Kendallov koeficijent
(„tau“)
Pearsonov koeficijent
korelacije*
Napomena: Nema potrebe učiti napamet testove koje u kolegiju nećemo obrađivati; oni koje trebate
znati označeni su zvjezdicom (*).
Osim ovih, unutar statistike se ponekad koriste i druge vrste postupaka o kojima
možete više saznati u preporučenoj literaturi. Iako mnoge od njih možda nikad nećete
susretati, treba ovdje spomenuti jednu vrstu postupka za koju ste zasigurno imali prilike čuti.
Radi se o metodi faktorske analize, odnosno postupku koji nam omogućuje da u nekim
situacijama veliki broj različitih varijabli svedemo na manji broj faktora. Na primjer, ako u
istraživanju želite izmjeriti zainteresiranost nastavnika prema učenicima, u tu možete svrhu
primijeniti upitnik koji se sastoji od nekoliko desetaka različitih pitanja. Pritom se sva ta
pitanja mogu odnositi na jednu, dvije ili možda tri osobine nastavnika, npr. njegovu ugodnost,
emocionalnu toplinu i savjesnost. Stoga kasnije u obradi podataka nema smisla sva pitanja
analizirati pojedinačno, nego treba povezati (npr. zbrojiti) ona koja mjere istu osobinu. Da
biste to mogli napraviti, trebate ispitati ili provjeriti koja pitanja mjere iste osobine, odnosno
identificirati tzv. zajedničke faktore koji leže u temelju izmjerenih varijabli. To vam
omogućuje faktorska analiza koja se često koristi u obrazovnim istraživanjima. Međutim,
treba naglasiti da se radi o vrlo složenoj tehnici koju ima smisla koristiti samo ukoliko zaista
znate što i kako želite računati, te se stoga preporuča s njom se upoznati tek nakon što
svladate nešto složenija metodološka i statistička znanja. Umjesto toga, u ostatku ovog
priručnika prikazat ćemo dva najčešće korištena testa za usporedbu skupova podataka u
jednostavnijim istraživanjima. Jedan od njih predstavlja parametrijske (t-test), a drugi
neparametrijske testove (hi-kvadrat test). Osim toga ukratko ćemo se upoznati s osnovnim
vrstama neparametrijskih testova, analizom varijance i korelacijama.
Osnovni statistički postupci i analize
53
3.4. t-TEST
t-test predstavlja jedan od najčešće korištenih parametrijskih testova koji se koristi za
testiranje statističke značajnosti razlike između dvije aritmetičke sredine. Osim t-testa kojim
se testiraju razlike između aritmetičkih sredina, postoje i nešto rjeđe korišteni t-testovi kojima
se testiraju razlike između proporcija (češće se u tim slučajevima koristi hi-kvadrat test) ili
razlika između jedne skupine podataka i neke unaprijed definirane vrijednosti.
Nekoliko je temeljnih uvjeta primjene t-testa između dvije aritmetičke sredine:
Izmjereni rezultati trebaju se nalaziti barem na intervalnim skalama.
Izmjereni podaci trebaju se normalno distribuirati.
Uzorci trebaju imati homogene, odnosno podjednake varijance (ili barem podjednak
broj ispitanika).
Postoje različiti postupci za računanje t-testa koji se međusobno razlikuju ovisno o:
vrsti uzorka: Razlikujemo t-test za zavisne i t-test za nezavisne uzorke.
broju ispitanika: Razlikujemo t-test za velike i t-test za male uzorke (velikim
uzorcima se najčešće smatraju oni s 30 i više ispitanika).
smjeru istraživačke hipoteze: Razlikujemo jednosmjerni i dvosmjerni t-test.
Dvosmjernim testom se testira postojanje statistički značajne razlike bez obzira na
smjer te razlike, dok se kod jednosmjernog testa i smjer razlike uzima u obzir.
Općenito se dvosmjerni testovi češće koriste i automatski se računaju kod korištenja
računalnih programa za statističku obradu podataka. Za jednosmjerni test istraživači se
ponekad odluče ukoliko istraživanjem žele provjeriti direktivne istraživačke hipoteze
(vidi Poglavlje 3.2).
Bez obzira na podvrstu t-testa koju odaberemo, testiranje značajnosti razlika između
aritmetičkih sredina temelji se na određivanju razlike između izmjerenih aritmetičkih sredina.
Kao što sada već znate, takva razlika izmjerena na uzorku samo je djelomično informativna
jer se uz nju, kao i ostale karakteristike izmjerenih uzoraka, vezuje određena pogreška.
Naime, ukoliko bismo iz jedne populacije uzimali puno parova uzoraka, njihove bi
aritmetičke sredine ponekad bile jednake, ali bi se ponekad i razlikovale unatoč tome što oni
predstavljaju istu populaciju. Ukoliko bismo pokušali napraviti grafički prikaz dobivenih
razlika, vidjeli bismo se te izračunate (slučajne) razlike između parova uzoraka distribuiraju
Osnovni statistički postupci i analize
54
normalno. Na temelju te distribucije zaključili bismo da je ponekad čak i slučajno moguće
dobiti razlike među izmjerenim uzorcima. Pritom veličina tih „dopuštenih“ slučajnih razlika
ovisi o preciznosti i kvaliteti našeg mjerenja. U statistici, tu kvalitetu odražava vrijednost koju
nazivamo „standardna pogreška razlika između aritmetičkih sredina“, a koju je nužno uzeti u
obzir prilikom izračuna statističke značajnosti opaženih razlika među uzorcima. Stoga se
prema osnovnoj formuli t-test računa kao omjer između izmjerene razlike dvaju uzoraka i
spomenute standardne pogreške razlike. Međutim, s obzirom na to da mi u mjerenju ne
možemo izravno izmjeriti standardnu pogreške razlike, ona se računa na temelju standardnih
pogrešaka aritmetičkih sredina izmjerenih na uzorcima.
Prilikom računanja t-testa treba dobro obratiti pažnju na karakteristike uzoraka koje
uspoređujemo, s obzirom na to da postoje različite formule za računanje t-testa kod zavisnih i
nezavisnih uzoraka ispitanika. Ukoliko samostalno računate t-test, trebate razlikovati formule
za t-test za male i velike skupine ispitanika, pri čemu se uzorci s više od 30 ispitanika
uglavnom smatraju dovoljno velikima za korištenje formula za velike uzorke. Međutim,
ukoliko koristite računalni program za računanje testa, on će broj ispitanika automatski uzeti u
obzir.
t-test za velike
nezavisne uzorke
2
2
2
1
21
SEMSEM
MMt
df=(N1 -1) + (N2-1)
M - aritmetička sredina
SEM - pogreška aritmetičke
sredine
df – stupnjevi slobode
N – broj ispitanika
r – Pearsonov koeficijent
korelacije
t-test za velike
zavisne uzorke 21
2
2
2
1
21
2 SEMrSEMSEMSEM
MMt
df=N-1
Kao što je vidljivo, formule t-testa za zavisne i nezavisne uzorke su vrlo slične.
Razlikuju se samo po tome što se kod zavisnih uzoraka dodatno u obzir uzima korelacija
između rezultata svakog ispitanika u dvije točke mjerenja (vidi Poglavlje 3.8).
Kod računanja t-testa potrebno je izračunati ne samo t-vrijednost, već i pripadajuće
stupnjeve slobode na temelju kojih se određuje granična vrijednost t-testa koju možete iščitati
iz statističke tablice za t-test (prilog Tablica 2: Granične vrijednosti t-testa uz različite razine
rizika i stupnjeve slobode). Prilikom navođenja rezultata t-testa navodi se najprije vrijednost t-
testa (t) uz pripadajuće stupnjeve slobode (df), a zatim i vjerojatnost slučajne pojave (p)
dobivene t-vrijednosti. Ukoliko je vjerojatnost slučajne pojave manja od 5% (ili 1%), razliku
Osnovni statistički postupci i analize
55
možemo proglasiti statistički značajnom (uz rizik od 5% ili 1%). Ukoliko je vjerojatnost
slučajne pojave veća od 5% (ili 1%) možemo zaključiti da razlika nije statistički značajna (uz
rizik od 5% ili 1%), odnosno da je posljedica slučaja. To ujedno znači da kasnije u
interpretaciji rezultata tu razliku trebamo tretirati kao da ne postoji, iako nam se možda
„golim okom“ čini da bi se dvije skupine međusobno mogle razlikovati.
Na kraju treba naglasiti i kako nam rezultati t-testa koji pokazuju postojanje statistički
značajne razlike ne govore ništa o tome zašto se ta razlika pojavila, odnosno koji su njezini
uzroci. Zato treba biti jako oprezan s interpretacijom dobivenih rezultata, jer je u pravilu
uvijek moguće identificirati više od jednog mogućeg razloga pojave takve razlike.
Primjer računanja t-testa za nezavisne uzorke
Na testu znanja iz matematike u razredu od 30 djece postignut je prosječni uspjeh od 16.5
bodova uz standardnu devijaciju 1.3. Na istom testu, 35 djece iz susjednog razreda postiglo je
prosječno 15 bodova uz standardnu devijaciju 2. Razlikuju li se dva razreda po svom uspjehu
na testu iz matematike?
Hipoteza H0: Nema razlika između dvaju razreda na testu iz matematike
Kod računanja t-testa najprije možemo izračunati pogreške aritmetičkih sredina dvaju
uzoraka, a zatim i samu vrijednost t-testa.
Prije interpretacije dobivenih rezultata trebamo odrediti graničnu vrijednost t-testa koja
se određuje na temelju stupnjeva slobode, koji u ovom slučaju iznose: df=(35-1) + (30-1)=63.
Uz razinu rizika od 1% u tablici se može očitati granična vrijednost 2.66.
3.53 > 2.66 (Dobiveni t veći je od tabličnog t uz 1% pogreške).
Dobiveni rezultat: t(63)=3.53, p<0.01
53.342.0
5.1
18.0
5.1
12.006.0
5.1
34.024.0
155.16
34.092.5
2
35
2
24.048.5
3.1
30
3.1
22
2
1
t
SEM
SEM
Osnovni statistički postupci i analize
56
Uz razinu rizika od 1%, možemo odbaciti nul hipotezu i zaključiti da se aritmetičke
sredine ovih dvaju uzoraka međusobno statistički značajno razlikuju, odnosno da su učenici iz
prvog razreda postigli bolji uspjeh iz matematike.
Primjer računanja t-testa za zavisne uzorke
Na testu znanja iz matematike u razredu od 30 djece postignut je prosječni uspjeh od 16.5
boda uz standardnu devijaciju 1.3. Taj je isti razred na prethodnom testu iz istog predmeta
postigao u prosjeku 15 bodova uz standardnu devijaciju 2. Povezanost rezultata učenika na
dva testa iznosi 0.6. Razlikuje li se uspjeh ovih učenika u dva testa iz matematike?
Hipoteza H0: Nema razlika između rezultata skupine učenika na dva testa iz
matematike.
Prije interpretacije dobivenih rezultata trebamo odrediti graničnu vrijednost t-testa koja
se određuje na temelju stupnjeva slobode, koji u ovom slučaju iznose df=30-1=29. Uz razinu
rizika od 1% u tablici se može očitati granična vrijednost 2.76.
5.17 > 2.76 (Dobiveni t veći je od tabličnog t uz 1% pogreške).
Dobiveni rezultat: t(29)=5.17, p<0.01.
Uz razinu rizika od 1%, možemo odbaciti nul hipotezu i zaključiti da se aritmetičke
sredine ovih dvaju uzoraka međusobno statistički značajno razliku, odnosno da su učenici
bolje riješili drugi test iz matematike.
Ako trebamo usporediti vrijednosti više od 2 skupine rezultata ne smijemo koristiti t-
test zbog problema višestrukih usporedbi i povećanja vjerojatnosti pogreške tipa I. Umjesto
toga koristimo analizu varijance.
17.529.0
5.1
083.0
5.1
104.0187.0
5.1
36.024.06.0236.024.0
155.16
36.048.5
2
30
2
24.048.5
3.1
30
3.1
22
2
1
xxxt
SEM
SEM
Osnovni statistički postupci i analize
57
3.5. HI-KVADRAT TEST
Hi-kvadrat test predstavlja neparametrijski test kojeg koristimo kad radimo s podacima
izmjerenim na nominalnoj skali mjerenja. Ovaj test možemo upotrijebiti ako želimo provjeriti
odgovara li neka izmjerena distribucija onoj koju bismo teorijski očekivali, ili razlikuju li se
distribucije dvaju ili više skupina podataka. On se temelji na usporedbi dobivenih
(izmjerenih) frekvencija (ne postotaka!) različitih skupina ispitanika i očekivanih
(teorijskih) frekvencija koje je potrebno odrediti prije računanja samog testa.
t
to
f
ff 22 )(
df=k-1 ili df=(k1-1) (k2-1)
fo - opažene frekvencije;
ft - teoretske frekvencije;
k – broj kategorija unutar pojedinih
(jedne ili više) varijabli
Teorijske se frekvencije pritom određuju na temelju istraživačke hipoteze i
postavljenog istraživačkog pitanja. Odabir teorijskih frekvencija najčešće predstavlja kritični i
ključni dio izračuna hi-kvadrat testa i na ovaj korak uvijek treba usmjeriti posebnu pažnju.
Naime, ne postoji jedan „recept“ za računanje teorijskih frekvencija, jer ono ovisi o broju
varijabli kao i našim očekivanjima vezanim uz to kakva bi distribucija „trebala biti“ u slučaju
da ispitivani efekt ne postoji. Najčešće pritom očekujemo da se podaci distribuiraju normalno
(na primjer, da je u nekom ispitu najviše ocjena dobar, a najmanje odličan i nedovoljan) ili
jednolično (na primjer, da u dva skupa podataka bude jednaki broj ispitanika). Među dolje
navedenim primjerima možete pronaći dva relativno česta primjera izračuna teorijskih
frekvencija, a ostale primjere i pravila možete potražiti u preporučenoj literaturi.
Prilikom određenja dobivenih i teoretskih frekvencija treba imati na umu da njihov
zbroj treba biti jednak, te da je važno prilikom postavljanja tablice hi-kvadrat testa u obzir
uzeti ne samo situacije u kojima se pojavilo neko svojstvo, nego i one u kojima se ono nije
pojavilo.
Slično kao kod računanja t-testa, kod hi-kvadrat testa potrebno je izračunati ne samo
vrijednost samog testa, već i pripadajuće stupnjeve slobode na temelju kojih se određuje
granična vrijednost hi-kvadrat testa. Nju možete pronaći u statističkoj tablici za hi-kvadrat test
(prilog Tablica 3: Granične vrijednosti hi-kvadrat testa uz različite razine rizika i stupnjeve
Osnovni statistički postupci i analize
58
slobode) ili će vam je računalni program za statističku obradu podataka automatski uzeti u
obzir prilikom provedbe testa.
Prilikom navođenja rezultata hi-kvadrat testa navodi se najprije vrijednost testa ( 2 )
uz pripadajuće stupnjeve slobode (df), a zatim i vjerojatnost slučajne pojave (p) dobivene
vrijednosti hi-kvadrat testa. Ukoliko je p-vrijednost manja od 5% (ili 1%) razliku možemo
proglasiti statistički značajnom (uz rizik od 5% ili 1%).
Kod korištenja hi-kvadrat testa treba naglasiti i to da se u slučaju malog broja
ispitanika (ili kategorija), može primijeniti tzv. Yatesova korekcija unutar hi-kvadrat testa.
Također, kod zavisnih uzoraka možete primijeniti posebnu verziju ovog testa, tzv.
McNemarov test.
Primjer računanja hi-kvadrat testa kod istraživanja s jednom varijablom:
U skupini od 24 djevojčice istražena je čestina sudjelovanja u izvanškolskim aktivnostima.
Dobiveni rezultati pokazali su da je ukupno 7 djevojčica pohađalo neku sportsku aktivnost,
njih 11 strani jezik, dok ih se 6 upisalo u debatni klub. Preferiraju li djevojčice određenu
slobodnu aktivnost, ili sve biraju jednakom čestinom?
Hipoteza H0: Djevojčice jednako često biraju svaku od mogućih slobodnih aktivnosti.
Nakon što smo izračunali teorijske frekvencije na temelju hipoteze o jednolikoj
raspodjeli (vidi Tablicu), možemo izračunati i sami hi-kvadrat test.
SPORTOVI STRANI
JEZIK
DEBATNI
KLUB U K U P N O
OPAŽENE
FREKVENCIJE 7 11 6 24
TEORIJSKE
FREKVENCIJE 24/3=8 24/3=8 24/3=8 24
75.15.0125.1125.0
8
)86(
8
)811(
8
)87(
2
2222
Osnovni statistički postupci i analize
59
Broj stupnjeva slobode: df=3-1=2. Uz razinu rizika od 5% u tablici se može očitati
granična vrijednost 5.99.
1.75 < 5.99 (Dobiveni hi-kvadrat je manji od graničnog uz 5% pogreške).
Dobiveni rezultat: 0.05>,75.1)2(2 p
Uz razinu rizika od 5%, možemo prihvatiti nul hipotezu i zaključiti da djevojčice
jednako često biraju sve testirane slobodne aktivnosti.
Primjer računanja hi-kvadrat testa kod istraživanja s dvije varijable:
U skupini od 50 djece, 25 dječaka i 25 djevojčica, istražena je čestina sudjelovanja u
izvanškolskim aktivnostima. Dobiveni rezultati pokazali su da je ukupno 7 djevojčica
pohađalo neku sportsku aktivnost, njih 12 strani jezik, dok ih 6 nije upisalo nikakvu aktivnost.
U uzorku dječaka, njih 10 je pohađalo sportsku aktivnost, 5 strani jezik, a 10 ih nije pohađalo
nikakvu aktivnost. Razlikuju li se dječaci i djevojčice po odabiru slobodnih aktivnosti?
Hipoteza H0: Dječaci i djevojčice ne razlikuju se po odabiru slobodnih aktivnosti
SPORTOVI STRANI
JEZIK
NEMA
AKTIVNOSTI U K U P N O
DJEVOJČICE 7 12 6 25
DJEČACI 10 5 10 25
U K U P N O 17 17 16 50
Najprije trebamo izračunati teorijske frekvencije za svaku pojedinačnu kućicu u
tablici. To radimo tako da izračunamo umnožak ukupnog broja ispitanika u pripadajućem
stupcu i retku, i tu vrijednost podijelimo s ukupnim brojem ispitanika.
Osnovni statistički postupci i analize
60
850
1625
5.850
1725
5.850
1725
850
1625
5.850
1725
5.850
1725
23
22
21
13
12
11
T
T
T
T
T
T
f
f
f
f
f
f
Zatim možemo izračunati i sami hi-kvadrat test.
4.45.044.126.05.044.126.0
8
)810(
5.8
)5.85(
5.8
)5.810(
8
)86(
5.8
)5.812(
5.8
)5.87(
2
2222222
Broj stupnjeva slobode: df=(2-1)(3-1)=2. Uz razinu rizika od 5% u tablici se može
očitati granična vrijednost 5.99.
4.4 < 5.99 (Dobiveni hi-kvadrat je manji od graničnog uz 5% pogreške).
Dobiveni rezultat: 0.05>,2,4.42 pdf
Uz razinu rizika od 5%, možemo prihvatiti nul hipotezu i zaključiti da se dječaci i
djevojčice međusobno ne razlikuju po izboru slobodnih aktivnosti.
Osnovni statistički postupci i analize
61
3.6. OSTALI TESTOVI ZA USPOREDBU SKUPINA PODATAKA
Testovi prikazani u Poglavljima 3.6. i 3.7., t-test i hi-kvadrat test, predstavljaju vjerojatno
najčešće testove za usporedbu skupina podataka. Kao što je ranije opisano, t-test se može
koristiti za usporedbu aritmetičkih sredina dviju skupina podataka, dok hi-kvadrat test
računamo kada želimo usporediti frekvencije unutar skupina podataka. U praksi poznavanje
samo ova dva testa najčešće nije dovoljno za provedbu cjelovite statističke obrade jer ta
obrada vrlo često zahtijeva drugačije oblike analiza, npr. usporedbu više skupina podataka ili
provjeru odnosa među izmjerenim varijablama, dok ponekad prikupljeni podaci ne
ispunjavaju temeljne uvjete za provedbu parametrijskog postupka kao što je t-test.
Već smo ranije spomenuli kako prilikom usporedbe dviju skupina podataka koje ne
zadovoljavaju temeljne uvjete primjene t-testa treba koristiti prikladni neparametrijski test.
Ovakvih testova ima relativno mnogo, i o njima više možete saznati u preporučenoj literaturi.
Ovdje ćemo, međutim, ipak spomenuti neke temeljne testove koji se u praksi najčešće koriste,
kako biste ih u budućnosti mogli prepoznati ili o njima lakše potražiti potrebne informacije.
Od neparametrijskih testova za usporedbu dva skupa nezavisnih podataka u praksi ćete
najčešće susretati i koristiti dva testa: medijan test i Mann-Whitneyev U test. Pritom se
izračun medijan testa temelji na logici hi-kvadrat testa kojim se provjerava pripadaju li dva
uzorka populaciji s istim medijanom, dok se Mann-Whitneyev U test temelji na usporedbi
rangiranih podataka dviju skupina podataka. Od neparametrijskih testova za usporedbu dva
skupa zavisnih podataka treba spomenuti jednostavni test predznaka te Wilcoxonov test
ekvivalentnih parova koji se u praksi češće koristi.
Ukoliko se sami odlučite koristiti neki neparametrijski test, preporuča se primijeniti
Mann-Whitneyev U test kod nezavisnih ili Wilcoxonov test ekvivalentnih parova kod
zavisnih uzoraka, i to uz pomoć nekog računalnog programa za statističku obradu podataka.
Jednom kad izračunate ove testove, interpretacija dobivenih podataka je slična onoj kod t-
testa: dobivene z-vrijednosti kod Mann-Whitneyevog U testa ili T-vrijednosti kod
Wilcoxonovog testa ekvivalentnih parova uspoređuju se s graničnim vrijednostima ovih
testova uz određeni broj ispitanika koje možete pronaći u prikladnim statističkim tablicama, te
se zatim interpretiraju jednako kao kod t-testa. Dakle, ako je dobivena vrijednost testa veća od
granične uz odabrani stupanj sigurnosti, razliku možete interpretirati kao statistički značajnu.
Osim za usporedbu dviju skupina podataka, neparametrijski testovi se mogu koristiti i
za usporedbu većeg broja skupina. Pritom se za usporedbu većeg broja nezavisnih skupina
najčešće koristi Kruskal-Wallisov test, a za usporedbu većeg broja zavisnih skupina
Osnovni statistički postupci i analize
62
Friedmanov test. Međutim, kod uspoređivanja više skupina podataka znatno veću snagu ima
parametrijski statistički postupak koji se naziva analize varijance. S obzirom na složenost
ovog postupka, u ovom priručniku ona neće biti detaljno opisana. Međutim, u ostatku ovog
poglavlja ukratko se možete upoznati s osnovnim uvjetima i principima primjene analize
varijance, kako biste njezinu provedbu kasnije jednostavnije mogli organizirati. Pritom je
preporučljivo analizu varijance primjenjivati pomoću odgovarajućih računalnih programa za
statističku obradu podataka uz pomoć kojih ćete relativno jednostavno dobiti željene rezultate.
Kao i ostali parametrijski postupci, i analiza varijance se može koristiti samo ukoliko
su ispunjeni neki temeljni uvjeti koji su u principu jednaki onima za t-test. Pritom je
najvažnije da svi uzorci imaju homogene varijance, te da su podaci unutar različitih skupina
međusobno nezavisni. Ukoliko su ti uvjeti zadovoljeni, možete pomoću analize varijance
usporediti tri ili više skupina podataka. Međutim, pritom treba naglasiti da postoji više vrsta
analiza varijance, čija primjena ovisi o karakteristikama skupina podataka koje ispitujete.
Pritom je ključno znati da li su vaše skupine podataka međusobno zavisne ili nezavisne, te
odražavaju li varijacije unutar jedne ili više varijabli. Na primjer, ukoliko želite usporediti
prosječno zadovoljstvo školom kod učenika prvog, drugog, trećeg i četvrtog razreda osnovne
škole, to možete napraviti uz pomoć jednostavne ili jednosmjerne analize varijance koja će
vam pokazati da li se te četiri skupine međusobno razlikuju prema izmjerenom zadovoljstvu.
U ovom slučaju vaše istraživanje uključuje jednu zavisnu varijablu (zadovoljstvo školom) i
jednu nezavisnu varijablu (razred) koja ima četiri razine (prvi, drugi, treći, četvrti razred),
odnosno četiri moguće vrijednosti prema kojima se razlikuju prikupljene skupine podataka.
Rezultat tako provedene analize varijance je F-omjer, vrijednost koja predstavlja opći
pokazatelj postojanja statistički značajnih razlika među ispitanim skupinama. Jednom
izračunat, taj se F-omjer može prikazati i interpretirati na isti način kao i vrijednost t-testa:
treba pritom izvijestiti o vrijednosti F-omjera, pripadajućim stupnjevima slobode i razini
značajnosti F-omjera. Ukoliko je ta vrijednost značajna, dobiveni rezultat pokazuje da se
testirane skupine, odnosno učenici različitih razreda, međusobno razlikuju prema zadovoljstvu
školom, ali vam ne govori ništa o razlikama među pojedinačnim parovima skupina. Naime,
moguće je da su sve skupine međusobno različite (npr. najzadovoljniji su učenici prvog, pa
drugog, pa trećeg, pa četvrtog razreda), ili da se samo neke od njih međusobno razlikuju (npr.
učenici prvog razreda su najzadovoljniji, nakon njih slijede učenici drugog razreda, dok su
učenici trećeg i četvrtog razreda nezadovoljniji od onih iz prvog i drugog razreda, ali se
međusobno ne razlikuju). S obzirom na to da vam F-omjer ne daje informacije o razlikovanju
pojedinačnih skupina, nakon izračuna F-vrijednosti možete provesti i dodatne testove za
Osnovni statistički postupci i analize
63
usporedbu pojedinačnih parova skupina unutar istraživanja (tzv. post-hoc testovi). Te testove
pritom smijete računati samo ako je F-omjer statistički značajan.
Osim uz pomoć jednostavne analize varijance, četiri ili više skupina podataka možete
usporediti i uz pomoć složene ili višesmjerne analize varijance ukoliko ste u istraživanje
uključili dvije ili više nezavisnih varijabli s po dvije ili više razina. Na primjer, ovu vrstu
analize trebali biste koristiti ukoliko ste u istraživanju uspoređivali zadovoljstvo školom kod
četiri skupine učenika koje su formirane na temelju dvije nezavisne varijable s po dvije razine.
Na primjer, ako ste u istraživanje uključili varijablu spol s dvije razine muški/ženski i
varijablu razred s razinama prvi/četvrti razred, uz pomoć ovog postupka usporedit ćete
skupine učenica prvih razreda, učenika prvih razreda, učenica četvrtih razreda i učenika
četvrtih razreda. Rezultati dobiveni ovim postupkom pokazat će vam glavni efekt svake
varijable i njihovu interakciju, odnosno u ovom primjeru glavni efekt spola (npr. djevojčice
su općenito zadovoljnije školom od dječaka), glavni efekt dobi (npr. učenici prvog razreda su
općenito zadovoljniji školom od učenika četvrtog razreda), te interakciju spola i dobi (npr.
učenice su u četvrtom razredu zadovoljnije školom od učenika, dok su u prvom razredu
učenici zadovoljniji od učenica). Dakle, izračun složene analize varijance rezultirat će s
najmanje tri F-omjera koja ćete interpretirati jednako kao i kod jednostavne analize varijance.
Također, treba spomenuti još jednu vrstu analize varijance, tzv. analizu varijance s
ponovljenim mjerenjima koju ćete koristiti ukoliko imate u potpunosti, ili djelomično
zavisne podatke mjerenja. S obzirom na složenost i širinu ovog, ali i ostalih oblika analize
varijance, preporuča se da o njima više saznate u preporučenoj literaturi.
Osnovni statistički postupci i analize
64
3.7. KORELACIJA
Korelacijskom analizom provjerava se postojanje veze između pojava ili njihovih obilježja,
odnosno postojanje, smjer i veličina povezanosti između dvije varijable. Primjer takve
povezanosti predstavlja odnos težine i visine: u prosjeku, više osobe su i teže od onih nižeg
rasta. Koeficijent korelacije kojeg pritom izračunavamo predstavlja vrijednost koja pokazuje
snagu i smjer odnosa između dva događaja ili mjerenja.
Predznak korelacije daje informaciju o smjeru odnosa između dvije varijable.
Pozitivna korelacija pokazuje da se dva faktora zajedno povećavaju ili smanjuju, kao što je
slučaj s visinom i težinom. Negativna korelacija pokazuje da povećavanje jednog faktora
rezultira smanjivanjem drugoga, pa tako, na primjer, učenici koji manje pričaju tijekom
nastave postižu bolje rezultate na testovima.
Što se veličine (snage) povezanosti tiče, raspon korelacije kreće se u rasponu od -1.00
do +1.00. Što je korelacija bliža vrijednosti 1.00 ili -1.00, to je odnos jači. Na primjer,
koeficijent korelacije između visine i težine iznosi oko 0.70 i predstavlja snažnu povezanost,
dok je korelacija između inteligencije i boje kose oko 0.00 (ne postoji povezanost). Kada se
izračuna koeficijent korelacije između dviju varijabli, prije daljnje interpretacije dobivene
vrijednosti treba izračunati da li je dobivena vrijednost statistički značajna ili ne, pa tek tada
interpretirati dobivene rezultate. Prilikom interpretacije koeficijenta korelacije treba naglasiti
da korelacija pokazuje povezanost, ali ne govori ništa o uzročno-posljedičnom odnosu između
dvije varijable. Na primjer, činjenica da postoji povezanost između ocjena studenata u okviru
različitih kolegija ne znači da ocjena iz jednog kolegija utječe ili uzrokuje one iz drugih
kolegija, već najčešće reflektira činjenicu da se studenti međusobno razlikuju po tome koliko
općenito uče i zalažu se na nastavi.
S obzirom na karakteristike varijabli i prikupljenih podataka moguće je koristiti
različite koeficijente korelacije. Najčešće korišteni koeficijent korelacije je Pearsonov
koeficijent korelacije (r) koji se računa ukoliko su zadovoljeni neki temeljni uvjeti:
Povezanost između dviju varijabli je linearna.
Rezultati obje varijable izraženi su barem na intervalnoj skali.
Distribucije obiju varijabli su normalne, odnosno simetrične.
Prikupili smo više od 30 parova podataka.
Osnovni statistički postupci i analize
65
Postoje i brojni drugi koeficijenti korelacije koji se koriste ukoliko nisu zadovoljeni
uvjeti za korištenje Pearsonovog koeficijenta, primjerice Spearmanov koeficijent korelacije,
koeficijent kontingencije, itd.
Prilikom računanja vrijednosti koeficijenta korelacije preporučljivo je koristiti neki
računalni program za statističku obradu podataka. Unutar tih programa moguće je i grafički
prikazati dobivenu korelaciju korištenjem tzv. scatterplot grafičkih prikaza. Nakon
izračunavanja vrijednosti koeficijenta korelacije u tim programima, o njoj se treba izvijestiti
na način da se navede vrijednost koeficijenta uz pripadajuće stupnjeve slobode, a zatim i
razinu značajnosti. Pritom se stupnjevi slobode računaju prema formuli:
df = N – 2 N – broj ispitanika
Primjer navođenja rezultata korelacije: r(29)=0.47, p<0.01.
Kao što je ranije spomenuto, izračunati koeficijent korelacije ukazuje na dvosmjernu
povezanost dviju varijabli. Međutim, ukoliko postoje dvije varijable za koje znamo da su
povezane i koliko, postoje statistički postupci koji nam omogućuju da na temelju vrijednosti
unutar jedne od njih prognoziramo vrijednosti unutar druge varijable. Na primjer, ako znamo
kakva je povezanost općeg uspjeha studenata iz dodiplomskog studija i ocjena iz statistike na
diplomskom studiju, na početku nastave iz statistike za svakog studenta možemo predvidjeti
očekivane ocjene ukoliko nam je poznat njihov prosjek iz dodiplomskog studija. Pritom taj
prosjek, odnosno varijablu na kojoj temeljimo prognozu nazivamo prediktorska varijabla
(prediktor), a varijablu koju prognoziramo kriterijska varijabla (kriterij). Statistički
postupak koji nam omogućuje takvu vrstu predviđanja naziva se regresijska analiza. Ovisno
o tome koristimo li jednog ili više prediktora za predviđanje kriterija, možemo razlikovati
jednostavne i multiple regresijske analize o kojima možete više saznati u preporučenoj
literaturi.
Rad u programu za statističku obradu podataka STATISTICA
66
4. OSNOVE RADA S RAČUNALNIM PROGRAMOM
STATISTICA
U prvom dijelu ovog priručnika opisani su neki temeljni principi statističkog razmišljanja i
logika primjene osnovnih statističkih postupaka. Iako to znanje predstavlja nužan preduvjet za
provedbu statističke obrade podataka prikupljenih unutar istraživanja, njega treba nadopuniti
informacijama o korištenju računalnih programa namijenjenih statističkoj obradi podataka.
Naime, u današnje vrijeme obrade podataka dominantno se rade uz pomoć takvih programa
koji omogućuju brže, efikasnije, a ponekad i točnije računanje čak i jako složenih statističkih
postupaka. Stoga će u završnom dijelu priručnika ukratko biti prikazane osnove rada sa
STATISTICOM, jednim od računalnih programa namijenjenih statističkoj obradi podataka.
Osim STATISTICE, podatke prikupljene unutar istraživanja možete obraditi i korištenjem
drugih statističkih aplikacija, npr. SPSS-a ili R-a. Također, neke osnovne analize kao i
grafičko prikazivanje rezultata moguće je provesti u Microsoft Excelu. Svaki od programa
namijenjenih statističkoj obradi podataka nudi brojne mogućnosti koje u ovom priručniku
nećemo detaljno opisivati. Umjesto toga, cilj je ovog poglavlja ukratko prikazati temeljne
principe rada u STATISTICI i objasniti kako uz pomoć ovog programa možete izračunati
statističke postupke prikazane u provom dijelu priručnika. Za detaljnije upute ili informacije o
postupcima koji u priručniku nisu obrađeni preporuča se konzultirati preporučenu literaturu.
Osnove rada u programu STATISTICA, npr. pokretanje i zatvaranje programa, čuvanje
datoteka i ostale osnovne radnje, slične su onima kod ostalih aplikacija unutar Windowsa, te
ih stoga nećemo detaljno svih opisivati. Također, rad sa STATISTICOM olakšat će vam znanje
engleskog jezika. Prije opisa osnovnih principa rada u STATISTICI treba naglasiti kako u
ovom programu možete otvoriti i podatke koje ste već sačuvali u drugim programima, npr.
Microsoft Excelu i SPSS-u. Slično tome, nakon rada s nekim skupom podataka u STATISTICI
te podatke, kao i rezultate provedenih analiza, možete sačuvati u formatu STATISTICE, ali i
drugih programa, npr. Microsoft Excelu ili u pdf formatu.
Ukoliko nakon rada s nekim skupom podataka unesene podatke sačuvate kao
dokument unutar STATISTICE, taj ćete dokument kasnije prepoznati po ekstenziji .sta.
Na početku, program STATISTICA možete pokrenuti na nekoliko načina:
dvostrukim klikom miša na ikonu STATISTICE (Slika 11),
odabirom ikone STATISTICE u izborniku Start, ili
otvaranjem nekog već postojećeg dokumenta sačuvanog u STATISTICI.
Rad u programu za statističku obradu podataka STATISTICA
67
Slika 11. Pokretanje programskog sustava STATISTICA.
Nakon pokretanja programskog sustava STATISTICA na ekranu se pojavljuje osnovno
radno okruženje programa. Ukoliko na samom početku rada sa programom STATISTICA
želite otvoriti neki već postojeći dokument s podacima, tu opciju (Open a STATISTICA data
file) trebate odabrati u prozoru Welcome to STATISTICA (Slika 12). U ovom izborniku vam se
nudi i mogućnost otvaranja Microsoft Excel dokumenta, što može biti jako korisno ukoliko ste
podatke već ranije unijeli.
Slika 12. Prozor koji se pojavljuje prilikom ulaza u sustav STATISTICA.
Ukoliko na početku želite unijeti nove podatke, trebate zatvoriti prozor Welcome to
STATISTICA nakon čega će se pojaviti prozor za unos podataka (Data:Spreadsheet1; Slika
13). Ovo ujedno predstavlja i osnovno sučelje, odnosno radno okružje unutar STATISTICE.
Slično kao i kod drugih programa, na vrhu prozora nalazi se ime datoteke, a sam se prozor
sastoji od nekoliko osnovnih elemenata:
Dugmad za kontrolu prozora i dugmad za kontrolu dokumenta, te klizači koji
pomažu za kretanje po dokumentu nalaze se na vrhu i s desne strane radnog
prozora.
Glavna linija izbornika sadrži osnovne izbornike od kojih su neki slični onima koje
susrećete u drugim programima (npr. Home, Edit, View, Help), dok su drugi
specifični za program STATISTICA (npr. Statistics, Graphs, Data Mining).
Rad u programu za statističku obradu podataka STATISTICA
68
Linija s alatima nalazi se ispod glavne linije izbornika, i uključuje poveznice na
specifične alate koje nude glavni izbornici.
Statusna linija se nalazi na dnu ekrana, i na njoj se nalaze podaci vezani za trenutni
dokument, npr. nazivi otvorenih radnih prozora.
Prostor za rad, odnosno radna površina (Slika 13) unutar koje u pravilu možete
vidjeti otvoren prozor s podacima ili prozore s rezultatima provedenih analiza.
Dakle, unutar ovog prostora možete unositi i provjeravati unesene podatke ili
pregledavati rezultate statističkih analiza.
Općenito treba naglasiti da program STATISTICA, slično kao i Microsoft Excel,
podatke i rezultate kasnijih analiza organizira i prikazuje u različitim prozorima ili radnim
listovima. Stoga je tijekom obrade važno paziti na otvorene radne prozore, što možete pratiti
na dnu ili s lijeve strane ekrana.
Slika 13. Osnovno radno okruženje unutar prostora STATISTICA (Prozor za unos podataka;
Data:Spreadsheet1).
Rad u programu za statističku obradu podataka STATISTICA
69
4.1. UNOS I ORGANIZACIJA PODATAKA
4.1.1. Definiranje varijabli
Prije nego što započnete unositi prikupljene i pripremljene (provjerene i kodirane) podatke u
pojedina polja unutar prozora za unos podataka, potrebno je u prvom retku prozora imenovati
relevantne varijable. Tako za imenovanje prve varijable treba dvostrukim klikom na polje
Var1 otvoriti prozor za imenovanje te varijable (Slika 14). Tada na mjestu gdje piše Name
(„Var1“) trebate upisati ime prve varijable, npr „ispitanik“, „spol“ ili „ocjena“. Istraživač sam
određuje imena varijabli koja trebaju odražavati logiku istraživanja. Općenito se preporučuje
prilikom imenovanja koristiti kratka i sažeta imena varijabli, te svakoj varijabli dati različiti
naziv. Na primjer, ukoliko želite unijeti podatke iz ankete o ponašanju učenika tijekom
nastave koja sadrži 10 pitanja, trebate pripremiti 10 varijabli koje možete sažeto imenovati
tako da označite naziv ankete i broj pitanja na koji se varijabla odnosi (nastava_1, nastava_2,
itd.).
Slika 14. Prozor za imenovanje varijable.
Osim naziva varijable moguće je unutar prozora za imenovanje varijabli odrediti i
nekolicinu drugih karakteristika mjerene varijable. Među tim karakteristikama treba istaknuti
određivanje vrste varijable (Type) kao numeričke ili tekstualne (text). Ako se radi o
numeričkoj varijabli preporučuje se koristiti vrstu double jer je kod nje dozvoljen unos
decimalnih brojeva, dok se ovisno o količini podataka može koristiti i integer ili byte.
Rad u programu za statističku obradu podataka STATISTICA
70
Uz to, moguće je odrediti postoje li unutar prikupljenih podataka neke vrijednosti koje
nedostaju ili koje treba ignorirati u obradi (eng. missing data). Naime, ponekad ispitanici ne
odgovore na neka pitanja, ili prilikom odgovaranja napišu neke besmislene odgovore. U
preporučenoj literaturi možete saznati više o načinima nošenja s takvim situacijama, pri čemu
je prvi korak označavanje takvih vrijednosti koje nedostaju u polje MD code unutar prozora
za imenovanje varijabli. Ovako označeni podaci kasnije neće biti uključeni u statističke
analize koje budete provodili, ali će ostati zabilježeni što vam u nekim slučajevima može biti
korisno.
Na dnu izbornika u okviru prostora označenog kao Long name (label, or formula with
Functions) moguće je napisati duže, opisno ime varijable koje će vam pomoći u organizaciji i
razumijevanju podataka. To je naročito korisno kod korištenja skraćenih imena varijabli,
pogotovo ako u skupu podataka imate više varijabli sa sličnim imenima ili planirate
prikupljene podatke koristiti i u budućnosti. Na primjer, ukoliko ste prilikom upisivanja
podataka iz nekog upitnika ili ankete prilikom imenovanja varijabli koristili skraćene nazive,
npr. nastava_1, nastava_2, itd., u ovo polje za svaku varijablu možete upisati duži naziv ili
puno pitanje iz upitnika na koje se varijabla odnosi što će vam kasnije omogućiti lakše
snalaženje i razumijevanje rezultata provedenih analiza.
Osim toga, u prostoru Long name (label, or formula with Functions) možete kreirati
nove varijable, odnosno uz pomoć formule možete odrediti kako izračunati vrijednosti
varijable koju definirate. To može biti korisno ukoliko želite formirati kompozitnu varijablu
na temelju nekih već postojećih varijabli. Na primjer, ukoliko ste prikupili podatke o broju
bodova ili ocjenama koje su studenti postigli na dva kolokvija iz predmeta Osnove statistike,
ovdje možete formirati novu varijablu koja će predstavljati primjerice prosjek ili zbroj tih
bodova ili ocjena (Slika 15).
Slika 15. Izračunavanje nove varijable na temelju postojećih varijabli.
Rad u programu za statističku obradu podataka STATISTICA
71
S desne strane prozora za imenovanje varijabli nalazi se još nekoliko dodatnih „tipki“
koje nude korisne opcije prilikom detaljnog definiranja varijabli. Na primjer, odabirom tipke
Text Labels možete označiti kodove korištene prilikom kodiranja varijabli. U nekim
slučajevima je to nepotrebno, naročito kod kvantitativnih varijabli kod kojih je značenje
brojeva jasno samo po sebi, npr. kod varijable dob. Međutim, u nekim slučajevima, naročito
kod kvalitativnih varijabli, ova opcija može biti jako korisna, pa se stoga uvijek preporuča
kod nominalnih varijabli označiti značenje pojedinih kodova. Na primjer, kao što je prikazano
na Slici 16, kod varijable “spol” ovdje možete napisati koji ste numerički kod koristili za
označavanje ispitanika muškog (npr. broj 1), a koji za označavanje ispitanika ženskog spola
(npr. broj 2).
Slika 16. Prozor za označavanje kodova unutar pojedinih varijabli (Text Labels).
Uz to, korisna je i tipka Values/Stats koju možete odabrati ukoliko želite vidjeti
osnovne karakteristike neke varijable, uključujući i ukupni broj ispitanika koji imaju podatke
na toj varijabli, pojedinačne podatke koji se pojavljuju unutar mjerenja, te aritmetičku sredinu
i standardnu devijaciju ove varijable (Slika 17). Ovu opciju nema smisla koristiti prilikom
definiranja varijabli, ali nakon unosa podataka ona može biti jako korisna za pregled osnovnih
karakteristika unesenih podataka.
Slika 17. Prozor Values/Stats.
Rad u programu za statističku obradu podataka STATISTICA
72
Podatke o novom imenu i karakteristikama varijable možete sačuvati pritiskom tipke
OK. Ukoliko želite odjednom upisati imena više varijabli, od jedne do druge možete se kretati
i bez zatvaranja izbornika za imenovanje varijabli, odnosno uz pomoć strelica smještenih
ispod tipke Cancel.
4.1.2. Unos i organizacija podataka
Nakon imenovanja varijabli možete započeti s unosom podataka. Podatke ćete
upisivati u polja unutar radnog lista, odnosno prozora za unos podataka prikazanog na Slici
13, u koja se ulazi uz pomoć miša ili tipkovnice. U odabrana polja se mogu upisivati cijeli ili
decimalni brojevi, kao i slova ili riječi u slučaju tekstualnih varijabli. Ukoliko se u polje unose
decimalni brojevi, za odvajanje decimalnog dijela koristi se zarez. Pritom pojedinačne
podatke za svakog ispitanika u pravilu treba unositi u retke tablice, dok će u stupcima biti
prikazane pojedine varijable. Redoslijed upisa varijabli i ispitanika određuje sam istraživač,
pri čemu taj redoslijed na kraju nema nikakvog utjecaja na rezultate provedenih statističkih
analiza.
Nakon što ste definirali varijable i unijeli prikupljene podatke u STATISTICU, vrlo
često ćete se naći u situaciji da pripremljeni dokument trebate mijenjati ili nadopunjavati, što
možete napraviti slično kao i kod drugih programa. Na primjer, ponekad ćete nakon unosa
podataka trebati dodavati, brisati, prebacivati ili reorganizirati ispitanike ili formirane
varijable. Ponekad ćete određene statističke postupke željeti provesti na dijelu ispitanika, zbog
čega ćete trebati odabrati dio ispitanika prilikom određivanja parametara za provođenje tih
postupaka. Također, vrlo često ćete prije detaljnih statističkih analiza trebati na temelju već
definiranih kreirati nove varijable. Taj je postupak ranije opisan u okviru prikaza izbornika
za imenovanje varijabli.
Uz to, često ćete prilikom obrade podataka željeti rekodirati varijable, odnosno
promijeniti neke postojeće vrijednosti unutar neke varijable. To se naročito često događa kada
se u istraživanju koriste ankete ili upitnici sastavljeni od niza pitanja na koja ispitanici
odgovaraju na skali od više stupnjeva, pri čemu su neka pitanja formulirana tako da veći broj
na skali odražava veću izraženost nekog svojstva, dok je kod drugih pitanja unutar istog
upitnika veća izraženost svojstva karakteristična za ispitanike koji su zaokružili manji broj na
skali. Ukoliko ste koristili takav upitnik kojeg u analizu želite uključiti tako da za svakog
Rad u programu za statističku obradu podataka STATISTICA
73
ispitanika izračunate ukupni zbroj ili prosjek zaokruženih procjena unutar svih pitanja (što
vrlo često ima smisla), prije izračuna nove, sumarne varijable morate osigurati da u svim
pitanjima veći broj na skali ima jednako značenje, odnosno da svugdje odražava ili veći ili
manji stupanj izraženosti željenog svojstva. To možete napraviti tako da rekodirate samo dio
pitanja unutar upitnika kod kojih trebate obrnuti značenje brojeva na korištenoj skali (npr. kod
skale 1-5, prilikom rekodiranja broj 1 postaje 5, 2 postaje 4, 4 postaje 2, 5 postaje 1, dok 3
ostaje 3).
STATISTICA nudi sve gore opisane, kao i brojne druge oblike reorganizacije podataka
koji su dostupni putem više izbornika i naredbi. Jedan od najjednostavnijih načina provedbe
osnovnih oblika reorganizacije podataka nudi vam izbornik koji se otvara nakon pritiska na
desnu tipku miša bilo na varijablu (Slika 18), ispitanika ili neko polje unutar radnog lista. Taj
izbornik uključuje mogućnosti kopiranja, dodavanja ili pomicanja varijabli ili ispitanika,
sortiranja podataka, itd.
Slika 18. Ponuđeni izbornik nakon pritiska na desnu tipku miša.
Također, brojne mogućnosti za reorganizaciju podataka nudi vam izbornik Data kojeg
možete pronaći u glavnoj alatnoj traci. U njemu možete pronaći neke opcije koje vam nudi
ranije spomenuti prozor za imenovanje varijabli (npr. Text labels) ili koje možete pronaći
nakon pritiska na desnu tipku miša (sortiranje podataka, dodavanje ispitanika ili varijabli).
Osim toga, uz pomoć ovog izbornika možete standardizirati varijable, rangirati podatke,
Rad u programu za statističku obradu podataka STATISTICA
74
odrediti način tretiranja vrijednosti koje nedostaju unutar podataka i slično. Ovaj izbornik
nudi vam i već spomenutu mogućnost rekodiranja, odnosno zamjena korištenih kodova u
odabranim varijablama. Na primjer, ukoliko želite rekodirati vrijednosti kodova 1 i 2 koje ste
ranije koristili za kodiranje varijable spola, trebate odabrati opciju Recode, i u prozoru za
rekodiranje odrediti stare i nove vrijednosti te varijable (Slika 19).
Slika 19. Prozor za rekodiranje vrijednosti odabrane varijable.
Nakon formiranja varijabli te unosa i organizacije dobivenih podataka preporučljivo je
provjeriti da li ste sve željene informacije točno unijeli. To možete napraviti vizualnom
inspekcijom, ili provjerom osnovnih karakteristika unesenih podataka i definiranih varijabli
(npr. raspon izmjerenih rezultata), u čemu vam može pomoći ranije opisana opcija
Values/Stats. Uz to, vrlo je korisno prije provedbe složenijih statističkih analiza grafički
prikazati dobivene podatke, kako biste provjerili oblike distribucija (čiji normalitet možete i
testirati prikladnim statističkim testom) i postojanje ekstremnih rezultata te stekli uvid u neke
druge osobitosti prikupljenih podataka. Pritom možete koristiti različite vrste grafičkih
prikaza, primjerice histogram kojeg smo ranije spominjali, kao i potencijalno vrlo korisne box
& whisker plot, scatterplot ili stem-and-leaf (stablo i lišće) grafičke prikaze o kojima više
možete saznati u preporučenoj literaturi. Ukoliko provjerom podataka utvrdite neke
nelogičnosti ili postojanje ekstremnih rezultata, prije daljnjih analiza preporučljivo je
provjeriti da li su svi podaci dobro uneseni. Naime, često se prilikom unosa velikog broja
podataka događaju pogreške (npr. vrijednosti 5 i 1 koje su trebale biti unesene u dva polja
greškom se unesu u jedno polje kao broj 51) koje kasnije mogu jako utjecati na dobivene
rezultate. Stoga je važno provjeriti njihovo postojanje usporedbom datoteke s podacima iz
originalnih anketa/upitnika, te ih u slučaju potrebe ispraviti. Ukoliko i nakon ispravki
pogrešaka uočite nelogičnosti ili ekstremne vrijednosti kod nekih varijabli, njihovo postojanje
Rad u programu za statističku obradu podataka STATISTICA
75
trebate uzeti u obzir prilikom odabira statističkih postupaka tijekom obrade podataka kao i
prilikom interpretacije dobivenih zaključaka.
Nakon unošenja i provjere kvalitete podataka datoteka je spremna za obradu podataka
u svrhu testiranja hipoteza. Jedan primjer unesenih podataka spremnih za obradu nalazi se na
Slici 20. Ti podaci uključuju šest varijabli (oznaku ispitanika, spol studenta, bodove studenta
iz I. kolokvija, bodove iz II. kolokvija, ukupni broj bodova iz oba kolokvija i završnu ocjenu).
Slika 20. Prikaz skupa podataka unutar STATISTICE.
U sljedećim poglavljima prikazat ćemo kako se uz pomoć STATISTICE mogu
izračunati neki osnovni postupci deskriptivne i inferencijalne statistike o kojima je ranije bilo
riječi. Svaki od tih postupaka može se pronaći u okviru izbornika glavne alatne trake i
pojedinih modula koje oni nude. Pritom je računanje svake željene analize relativno
jednostavno, i može se provesti odabirom nekoliko različitih opcija ili tipki ponuđenih unutar
tih izbornika. Međutim, iako sama provedba pojedinih testova u principu nikada nije složena,
odabir prikladnog postupka i kasnija interpretacija rezultata često može biti jako zahtjevna.
Zato je važno prije same obrade naučiti neke temeljne principe statističkog zaključivanja i
obrađivanja podataka koje možete pronaći u prvom dijelu ovog priručnika i u preporučenoj
literaturi.
Rad u programu za statističku obradu podataka STATISTICA
76
Jednom kad znate odabrati prikladne statističke postupke, možete ih relativno
jednostavno provesti unutar STATISTICE koja će vam zatim dobivene rezultate prikazati u
posebnim prozorima. Ukoliko tako dobivene rezultate budete željeli trajno sačuvati, to možete
napraviti u formatu STATISTICE ili nekih drugih programa (odabirom izbornika Save as), ili
ih jednostavno kopirati i zalijepiti u drugi željeni program, npr. Microsoft Excel. To se
naročito odnosi na situacije u kojima niste zadovoljni izgledom grafičkih prikaza koje
pripremi STATISTICA, te biste ih stoga htjeli sami pripremiti u nekom drugom programu.
Dakako, u izvještavanju o rezultatima provedenih analiza možete koristiti i grafičke prikaze
koje pripremi STATISTICA, naročito s obzirom na to da vam ovaj program nudi brojne
mogućnosti formatiranja grafova u skladu s vašim potrebama. Također, s obzirom na to da se
u STATISTICI nalaze svi relevantni podaci, ponekad je grafičke prikaze i najjednostavnije
pripremiti unutar ovog programa. Kao što ćete kasnije pročitati, grafove možete pripremiti
unutar većeg broja različitih izbornika i modula. Najjednostavnije ćete ih, međutim, pronaći u
okviru izbornika Graphs kojeg možete pronaći u glavnoj alatnoj traci.
Na kraju treba napomenuti da STATISTICA „pamti“ provedene analize, odnosno da
jednom izračunate rezultate neće prebrisati onima novih analiza, već će svaki pojedinačni
rezultat otvoriti u posebnom prozoru koji će ostati otvoren i dostupan dok ga sami ne
zatvorite. Pritom ćete popis otvorenih prozora s rezultatima moći pratiti u lijevom dijelu
radnog prozora te se odabirom željene analize kasnije na njih vratiti (Slika 26a). Osim toga,
nakon što provedete jednu analizu na odabranom setu varijabli i odlučite se vratiti na isti
izbornik za računanje, STATISTICA će se zapamtiti vaše ranije odabire koje ćete zatim moći
nastaviti specificirati. Ukoliko želite započeti novu analizu prije toga možete zatvoriti prozor s
ranijim analizama, a zatim krenuti u odabir novih varijabli i ostalih mogućnosti statističke
analize.
Rad u programu za statističku obradu podataka STATISTICA
77
4.2. RAČUNANJE OSNOVNIH PARAMETARA DESKRIPTIVNE
STATISTIKE
Nakon unosa podataka moguće je započeti primjerenu statističku obradu. To prije svega
uključuje izračunavanje osnovnih deskriptivnih pokazatelja svih varijabli, npr. prikazivanje
raspodjele frekvencija, izračunavanje mjera središnjih vrijednosti i raspršenja, i dr. U tu svrhu
poslužit će glavni izbornik Statistics kojeg možete pronaći unutar glavne alatne trake, te prije
svega njegov prvi izbornik Basic Statistics and Tables namijenjen osnovnim statističkim
analizama (Slika 21). Taj izbornik omogućava grafičko prikazivanje raspodjele rezultata,
izradu tablica frekvencija i računanje osnovnih pokazatelja deskriptivne statistike, usporedbu
dviju ili više skupina podataka korištenjem t-testa i analize varijance, izračun koeficijenta
korelacije i drugo.
Slika 21. Izbornik Basic Statistics and Tables.
Među ponuđenim mogućnostima unutar izbornika Basic Statistics and Tables koristan
će na početku biti modul Descriptive statistics čiji je glavni prozor prikazan na Slici 22.
Slika 22. Rad u modulu Descriptive Statistics.
Rad u programu za statističku obradu podataka STATISTICA
78
Prije provedbe analiza u okviru ovog modula potrebno je na početku odabrati željene
varijable za deskriptivnu analizu što se može napraviti odabirom tipke Variables (Slika 23).
Nakon odabira varijabli možete pritisnuti tipku OK. Ukoliko planiranu statističku analizu
želite provesti samo na dijelu ispitanika, i njih možete odabrati u okviru modula Descriptive
Statistics. Tu opciju vam nudi tipka Select cases koja se nalazi po sredini lijeve strane
osnovnog prozora ovog modula (Slika 22). Nakon što ste odabrali željene varijable, a moguće
i ispitanike, u okviru prozora Descriptive Statistics možete krenuti u provedbu željenih
statističkih postupaka.
Slika 23. Prozor za odabir varijabli koje želite obraditi.
Ukoliko nakon odabira varijabli želite za njih izračunati osnovne statističke
pokazatelje (raspon, aritmetička sredina, standardna devijacija, broj ispitanika) možete
odabrati naredbu Summary Statistics ili Summary. Ukoliko osim tih osnovnih indikatora želite
izračunati još neke statističke mjere, npr. centralnu vrijednost, to možete napraviti odabirom
željenih mjera u okviru podizbornika Advanced (Slika 24).
Rad u programu za statističku obradu podataka STATISTICA
79
Slika 24. Prozor za odabir dodatnih mjera u okviru podizbornika Advanced.
U okviru modula Descriptive Statistics možete i grafički prikazati željene varijable
odabirom tipki Graphs 1, Graphs 2 ili Histograms. Odabirom tipke Frequency tables možete
prikazati raspodjelu frekvencija u okviru odabrane varijable.
Raspodjelu frekvencija možete odrediti i u okviru podizbornika Normality (Slika 25),
koji vam također nudi mogućnost testiranja normaliteta distribucije odabrane varijable
(Kolmogorov-Smirnov & Lilliefors test for normality). U okviru ovog izbornika možete
odabrati i broj intervala kojeg želite zadržati u okviru jedinične vrijednosti (number of
intervals). U većini slučajeva vam ova opcija neće trebati, te je stoga preporučljivo prilikom
definiranja načina kategorizacije odabrati kategorijalnu kategorizaciju (integer intervals
(categories)) koja je primjerena za cjelobrojne (diskretne) varijable.
Slika 25. Ponuđene opcije u okviru podizbornika Normality.
Rad u programu za statističku obradu podataka STATISTICA
80
Nakon provedbe analize, STATISTICA će izračunate mjere deskriptivne statistike i
raspodjele podataka prikazati u posebnom prozoru (Slika 26a i b). Kao što vidite, u desnom
dijelu prozora s podacima prikazane su varijable koje ste ranije odabrali za provedbu
statističkih analiza, a nakon toga su za njih u različitim stupcima prikazani rezultati
provedenih analiza. Primjetite i kako se u krajnjem lijevom dijelu prozora nalaze navedene
sve provedene analize kojima ćete se tijekom daljnjih analiza i naknadno moći vratiti.
Slika 26 a-b. Primjeri rezultata izračunatih u STATISTICI. U prvom primjeru nalaze se osnovni
deskriptivni parametri odabranih varijabli (broj ispitanika, aritmetička sredina, najmanja i najveća
vrijednosti, i standardna devijacija), a u drugom raspodjela frekvencija u odabranoj varijabli.
Treba naglasiti da se, osim u modulu Descriptive Statistics, tablice frekvencija i
histogrami mogu izraditi i uz pomoć posebnog modula unutar izbornika Basic Statistics and
Tables, koji se naziva Frequency tables (Slika 27).
Rad u programu za statističku obradu podataka STATISTICA
81
Slika 27. Odabir modula Frequency tables u okviru izbornika Basic Statistics and Tables.
Otvaranjem ovog modula (Slika 28) nude vam se mogućnosti izrade tablica
frekvencija, crtanja grafičkih prikaza, izračuna osnovnih parametara deskriptivne statistike,
kao i testiranja normaliteta distribucije koje možete pronaći odabirom različitih alata unutar
glavne linije ovog izbornika (npr. u okviru podizbornika Descr. ili Normality).
Slika 28. Rad u modulu Frequency tables.
Rad u programu za statističku obradu podataka STATISTICA
82
4.3. TEMELJNI POSTUPCI INFERENCIJALNE STATISTIKE
4.3.1. Računanje t-testa
t-test za nezavisne uzorke možete izračunati u okviru izbornika Basic Statistics and Tables
unutar kojeg trebate odabrati modul t-test, independent by groups, dok odabirom modula t-
test, dependent samples možete izračunati t-test za zavisne uzorke (Slika 21). Slično kao i kod
deskriptivne statistike, u okviru ovih modula na početku trebate odabrati skupine podataka
koje želite usporediti.
Kod t-testa za nezavisne uzorke potrebno je odabrati tipku Variables, nakon čega će se
otvoriti prozor za odabir varijabli (Slika 29). Tada ćete u lijevom dijelu prozora moći odabrati
nezavisnu varijablu (Grouping variable) koja određuje pripadnost ispitanika određenoj
skupini, dok ćete u desnom dijelu prozora odabrati zavisne varijable (Dependent variables).
Slika 29. Prozor za odabir varijabli kod računanja t-testa za nezavisne uzorke.
U okviru modula za t-test moguće je specificirati još neke željene parametre (Slika
30), o čemu možete više saznati u okviru preporučene literature. Nakon odabira tipke
Summary ili Summary T-tests otvorit će se tablica s rezultatima t–testa.
Rad u programu za statističku obradu podataka STATISTICA
83
Slika 30. Prozor za računanje t-testa za nezavisne uzorke.
Kod računanja t-testa za zavisne uzorke varijable za usporedbu također možete
odrediti odabirom tipke Variables. Tada ćete u lijevom dijelu prozora moći odabrati parove
varijabli koje želite međusobno usporediti. U okviru izbornika za t-test moguće je specificirati
još neke željene parametre, o čemu možete više saznati u preporučenoj literaturi. Nakon
odabira tipke Summary ili Summary T-tests otvorit će se tablica s rezultatima t-testa (Slika
31). Kao što vidite na slici, među tim rezultatima nalazi se više različitih indikatora koji
uključuju, među ostalima, i vrijednosti aritmetičkih sredina i standardnih devijacija uzoraka.
Od svih vrijednosti navedenih u ovoj tablici prilikom izvještavanja o dobivenim rezultatima
kasnije će biti potrebno navesti vrijednost t-testa, pripadajuće stupnjeve slobode i razinu
značajnosti u skladu s ranije navedenim smjernicama (u ovom slučaju t(29) = 2.76, p < 0.01).
Slika 31. Primjeri rezultata t-testa za zavisne uzorke izračunatog u STATISTICI.
Kao što je navedeno u drugim dijelovima priručnika, ukoliko želite usporediti više od
dvije skupine podataka, umjesto t-testa trebate odabrati analizu varijance koju možete pronaći
unutar izbornika Statistics koji vam nudi modul ANOVA (Slika 32). Pritom jednosmjernu
analizu varijance nudi modul One-way ANOVA, pri čemu treba spomenuti da ovu analizu
također možete pronaći u okviru izbornika Basic Statistics and Tables (modul Breakdown &
Rad u programu za statističku obradu podataka STATISTICA
84
one-way ANOVA). Složenu ili višesmjernu analizu varijance možete izračunati uz pomoć
modula Factorial ANOVA, dok vam modul Repeated measures ANOVA omogućuje računanje
analize varijance s ponovljenim mjerenjima.
Slika 32. Izbornik za računanje analize varijance.
4.3.2. Računanje hi-kvadrat testa
U programu STATISTICA hi-hvadrat test se računa putem modula Tables and Banners koji se
nalazi u okviru izbornika Basic Statistics and Tables. Nakon toga otvorit će se novi prozor u
okviru kojeg trebate izabrati opciju Specify tables (select variables) (Slika 33a). Tu ćete
odabrati varijable koje želite analizirati (Slika 33b), nakon čega možete pritisnuti tipku OK.
Zatim u okviru glavne linije izbornika, unutar podizbornika Options, trebate odabrati Pearson
& M-L Chi Square (Slika 33c), a nakon toga u podizborniku Advanced opciju Detailed two-
way tables (Slika 33d).
Rad u programu za statističku obradu podataka STATISTICA
85
Slika 33a-d. Računanje hi-kvadrat testa u STATISTICI.
Nakon odabira svih potrebnih parametara i odabira tipke Summary otvorit će se tablica
s rezultatima hi-kvadrat testa (Slika 34). Prilikom izvještavanja o dobivenim rezultatima
kasnije će biti potrebno navesti vrijednost hi-kvadrat testa, pripadajuće stupnjeve slobode i
razinu značajnosti u skladu s ranije navedenim smjernicama (u ovom slučaju
0.05>,41.2)3(2 p ).
Rad u programu za statističku obradu podataka STATISTICA
86
Slika 34. Primjeri rezultata hi-kvadrat testa za zavisne uzorke izračunatog u STATISTICI.
Ostale neparametrijske testovi (Slika 35) u STATISTICI možete pronaći u okviru
izbornika Nonparametrics kojeg možete pronaći u glavnom izborniku Statistics.
Slika 35. Prozor za odabir neparametrijskih testova.
4.3.4. Računanje korelacija
Korelaciju, odnosno statističku mjeru povezanosti dviju varijabli, možete izračunati uz pomoć
modula Correlation matrices kojeg ćete pronaći u okviru izbornika Basic Statistics and
Tables. Nakon pokretanja ovog modula, na ekranu će se pojaviti prozor Product-Moment and
Partial Correlations (Slika 36) u kojem ćete moći izračunati simetrične kvadratne
korelacijske matrice odabirom tipke One variable list ili tzv. kroskorelacijske matrice
odabirom tipke Two variable list (rectangle.matrix).
Rad u programu za statističku obradu podataka STATISTICA
87
Slika 36. Prozor Product-Moment and Partial Correlations za računanje korelacija.
Nakon odabira opcije One variable list moći ćete odabrati parove varijabli čiju
povezanost želite izračunati. Nakon toga svoj izbor možete potvrditi pritiskom na OK, nakon
čega ćete korelacije izračunati odabirom tipke Summary ili Summary: Correlations. Nakon
što ste izračunali korelacije prikazati će vam se matrica Pearsonovih koeficijenata korelacija
između odabranih varijabli (Slika 37). Među njima će crvenom bojom biti obilježeni
statistički značajni koeficijenti korelacije, dok će ostali biti prikazani crnom bojom. Osim
toga, STATISTICA će izračunati i aritmetičku sredinu i standardnu devijaciju odabranih
varijabli.
Slika 37. Primjer rezultata provedene koreleacijske analize u programu STATISTICA.
Izvještavanje o rezultatima
88
5. IZVJEŠTAVANJE O REZULTATIMA PROVEDENOG
ISTRAŽIVANJA
U prethodnim poglavljima ovog priručnika upoznali ste se s logikom statističkog razmišljanja
i nekim osnovnim statističkim analizama, kao i s temeljnim principima rada u jednom
računalnom programu za statističku obradu podataka. Znanja koja ste prikupili pomoći će
vam da samostalno obradite podatke prikupljene u vašim istraživanjima. Kao što je navedeno
u prvom dijelu priručnika, već u fazi planiranja tih istraživanja, trebat ćete razmišljati o
mogućim i željenim statističkim postupcima koje ćete provesti nakon prikupljanja podataka.
Pritom će odabir tih statističkih postupaka ovisiti o vašim istraživačkim problemima,
istraživačkom nacrtu te karakteristikama prikupljenih podataka. Prilikom obrade podataka u
rijetkim situacijama ćete prikupljene podatke obrađivati „ručno“, samo uz pomoć kalkulatora.
Znatno češće pritom ćete koristiti neki računalni program za obradu podataka, npr.
STATISTICU ili SPSS, dok ćete se kod jednostavnijih analiza (npr. određivanja mjera
deskriptivne statistike) ili izrade grafičkih prikaza moći poslužiti i Microsoft Excelom.
Obrada podataka vama će dati odgovore na postavljena pitanja, što može biti dovoljno
ukoliko ste istraživanje proveli s ciljem odgovaranja na neki praktični problem. Međutim,
znatno češće ćete istraživanje provesti s namjerom da ga kasnije publicirate, bilo u svom
završnom ili diplomskom radu, bilo u nekom znanstvenom časopisu. Ukoliko se za to
odlučite, trebat ćete naučiti nešto i o uobičajenom načinu izvještavanja o dobivenim
rezultatima unutar takvih publikacija. Načelno, način izvještavanja o rezultatima je relativno
sličan u svim oblicima znanstvenih publikacija: rezultate treba prikazati jasno i jednoznačno,
te pritom poštivati neke osnovne principe izvještavanja o statističkim analizama. U najvećem
broju publikacija kratak prikaz glavnih rezultata dobivenih u provedenom istraživanju treba
pripremiti unutar posebnog odlomka rada koja se najčešće naziva „Rezultati istraživanja“.
Unutar ovog odlomka nije potrebno napisati sve rezultate koji se teoretski mogu izračunati na
temelju prikupljenih podataka, već samo one koji daju odgovore na postavljene istraživačke
probleme. Prikaz rezultata treba organizirati smisleno, tako da prati postavljene istraživačke
probleme i hipoteze. Ovisno o složenosti provedenog istraživanja i povezanosti pojedinih
istraživačkih problema, ovaj je dio moguće organizirati cjelovito, ili ga podijeliti u više
dijelova.
Prilikom prikazivanja rezultata istraživanja najprije treba opisati važne karakteristike
uzorka ispitanika koji su sudjelovali u istraživanju (broj sudionika, struktura uzorka prema
spolu, dobi ili drugim varijablama). Nakon toga treba prikazati rezultate statističkih postupaka
Izvještavanje o rezultatima
89
korištenih za odgovaranje na pojedinačne istraživačke probleme, odnosno testiranje
pojedinačnih istraživačkih hipoteza. U pravilu se na početku prikazuju jednostavniji rezultati
(najčešće indikatori deskriptivne statistike), a nakon toga složeniji (rezultati analiza
inferencijalne statistike).
Navođenje rezultata istraživanja treba biti sažeto, precizno i jasno. Ono ne treba
uključivati sadržajno i teorijsko tumačenje rezultata, ali treba prikazati dobivene brojčane
vrijednosti i prikladnu statističku interpretaciju. Prikaz rezultata treba biti samodostatan,
odnosno glavni nalazi provedenog istraživanja čitatelju trebaju biti jasni na temelju čitanja
samo ovog dijela. Često se unutar istraživanja dobiveni rezultati mogu prikazati na više
načina, u tekstu ili uz pomoć tabličnog ili grafičkog prikaza. Istraživač sam određuje način
prikazivanja rezultata, pri čemu treba izbjegavati ponavljanje. Ukoliko se rezultati prikazuju
tablično ili grafički, u tekstu se treba pozvati na tablicu ili graf bez ponavljanja brojčanih
vrijednosti navedenih u njima. Također, nema smisla prikazivati iste podatke i tablično i
grafički pa se, ovisno o ciljevima i preglednosti prikaza, treba odlučiti samo za jedan od ovih
prikaza. Ovdje treba spomenuti i to da se ponekad, u nekvalitetnim publikacijama, mogu
pronaći tablice koje su samo kopirane iz računalnog programa, bez ikakvog dodatnog
formatiranja. U njima nerijetko čak ostanu zaglavlja ili drugi dijelovi tablica na engleskom
jeziku, iako je rad pisan na hrvatskom. Takva je praksa neprihvatljiva, te se tablični i grafički
prikazi uvijek trebaju primjereno formatirati prije njihovog publiciranja.
Prilikom prikazivanja dobivenih rezultata posebnu pažnju treba obratiti na slikovne i
tablične prikaze rezultata, kao i na navođenje statističkih simbola i rezultata statističkih
analiza. Smjernice za prikazivanje rezultata već su ranije opisane, dok među smjernicama
koje treba poštivati prilikom navođenja statističkih simbola i rezultata statističkih analiza
treba izdvojiti sljedeće:
• Statističke simbole, osim grčkih slova, u tekstu i tablici treba navoditi kosim slovima.
• Prilikom navođenja statističkih simbola treba osigurati njihovu razumljivost i
čitljivost. Iako se u znanstvenim radovima osnovni simboli (npr. za aritmetičku
sredinu ili standardnu devijaciju) ne trebaju posebno pojašnjavati, to je u završnim i
diplomskih radovima preporučljivo napraviti u tekstu ili posebnoj legendi. Neki od
osnovnih statističkih simbola prikazani su u Tablici 2.
• Kod pisanja decimalnih brojeva treba koristiti točku.
• Prilikom navođenja rezultata dobivenih analizama preporučeno je većinu izračunatih
vrijednosti (npr. standardna devijacija, t-test, najčešće aritmetička sredina) zaokružiti
Izvještavanje o rezultatima
90
na dvije decimale ili jednu decimalu (ponekad aritmetička sredina). Frekvencije se
najčešće navode kao cijeli brojevi ili brojevi s jednom decimalom.
• Ukoliko je vrijednost neke mjere manja od 1 (npr. kod razine značajnosti koja je
uvijek manja od 1), nije potrebno pisati nulu prije decimalne točke.
• Prilikom navođenja rezultata statističkih analiza nije potrebno detaljno objašnjavati
teorijsku osnovu i način provođenja odabranog postupka. Također, nije potrebno
navoditi nul hipotezu, jer je ona samorazumljiva i predstavlja sastavni dio teorijskog
određenja testa. Umjesto toga, treba navesti svrhu provođenja odabranog postupka,
odnosno istraživačko pitanje na koje se njime pokušava odgovoriti. Dobivene rezultate
treba izložiti sažeto i precizno.
• Kod navođenja rezultata deskriptivne statistike uz frekvencije se u pravilu navode i
postotci, i to najčešće u zagradi, a uz središnje vrijednosti skupa rezultata i pripadajuća
raspršenja. Na primjer:
• Navođenje frekvencija: 30 (15%)
• Navođenje aritmetičke sredine i standardne devijacije: M = 31.2 (SD = 10.42)
• Kod navođenja rezultata analiza inferencijalne statistike, treba navesti naziv
korištenog testa, pripadajuće stupnjeve slobode (navedene u zagradi nakon oznake
testa) i razinu značajnosti (p). Na primjer:
• Navođenje t-testa: t(32) = 3.21, p < .05
• Navođenje Pearsonovog koeficijenta korelacije: r(92) = .56; p < .05
• Navođenje analize varijance: F(1,30) = 3.41; p < .05
• Navođenje hi-kvadrat testa: 2 (4) = 5.59; p < .05
• Kod navođenja rezultata analiza inferencijalne statistike, moguće je navesti i druge
parametre, npr. veličinu efekta. Također, osim dobivenih brojčanih vrijednosti
potrebno je naznačiti i njihovu statističku interpretaciju. Na primjer, ukoliko se
usporedbom dviju skupina korištenjem t-testa ili hi-kvadrat testa pokazalo postojanje
statistički značajne razlike među skupinama, iz samih vrijednosti tih testova nije jasno
koja je od ispitanih skupina imala niže, a koja više rezultate. Stoga tu informaciju
treba posebno naznačiti.
Na kraju treba istaknuti da prilikom objavljivanja rezultata u različitim časopisima
treba provjeriti pravila i smjernice koje taj časopis definira za prikazivanje rezultata
statističkih analiza, te dobivene rezultate prikazati u skladu s njima.
Zadaci za vježbanje
91
6. ZADACI ZA VJEŽBANJE
1. U razredu od 17 učenika nastavnik je izmjerio znanje iz hrvatskog jezika uz pomoć dva
testa (Tablica 1). Organizirajte podatke iz tablice tako da ih za oba testa grupirate u
jednake razrede. Podatke prikažite tablično i u obliku histograma.
Učenik Test 1 Test 2 Učenik Test 1 Test 2
K. L. 38 35 K. O. 26 19
S. P. 24 18 I.E. 29 28
L. A. 48 44 P.L. 47 43
P. K. 47 52 E. M. 24 16
Ć. D. 33 28 A. M. 18 29
L. M. 52 49 A. T. 37 34
P. A. 33 15 V. Đ. 49 49
P. M. 41 45 H. V. 34 30
Š. M. 34 34
2. U tablici su prikazani rezultati mjerenja depresivnosti skupine studenata. Nacrtajte
distribuciju rezultata grupiranih u razrede te izračunajte pripadajuće središnje vrijednosti
(aritmetičku sredinu, centralnu i dominantnu vrijednost) i standardnu devijaciju rezultata.
19 26 14 25 20 26 12
14 24 20 23 24 30 7
18 18 15 22 19 17 24
19 26 13 20 19 25 24
22 25 20 24 21 28 18
20 23 27 13 29 7 23
25 21 19 17 27 13 21
26 20 25 22 12 15 32
Zadaci za vježbanje
92
3. Izračunajte prosječne vrijednosti (aritmetičku sredinu, centralnu i dominantnu vrijednost)
sljedećih distribucija. Razmislite o tome koje mjere nije prikladno koristiti kod nekih od
ovih distribucija.
M C D
A 9 8 8 8 7 7 7 7 7 6 6 6 5
B 100 90 90 80 70 70 60 50 40 30 20 20 10
C 9 8 8 7 7 7 7 7 6 6 5 3 2
D 100 100 90 90 80 80 70 60 60 50 50 40 40
4. Studenti prve godine sociologije (N=40) trebali su položiti 9 ispita. Do kraja godine jedan
je student položio svih 9 ispita, 6 je položilo njih 8, 10 studenata je položilo 7, 9 ih je
položilo 6, 7 je položilo 5, 3 je položilo 4, dvoje 3 ispita, jedan 2 ispita, a jedan student
nije položio niti jedan ispit. Koliko su ispita studenti u prosjeku položili? Izračunajte
standardnu devijaciju rezultata. Komentirajte oblik dobivene distribucije.
5. Izračunajte aritmetičku sredinu, centralnu vrijednost, dominantnu vrijednost i standardnu
devijaciju za sljedeći skup podataka: 3, 5, 4, 4, 4, 4, 2, 1, 0, 9, 8, 10, 14, 15, 3, 7.
6. U ispitivanju zadovoljstva poslom nastavnici jedne škole su popunjavali upitnik čiji je
mogući raspon bodova bio od 0-20. Pritom su dobiveni sljedeći rezultati: 12, 14, 14, 14,
13, 14, 14, 15, 16, 13, 14, 15, 12, 14, 18, 17, 25, 15, 14, 14, 13, 13, 14. Izračunajte sve
prikladne središnje vrijednosti koje poznajete. Odredite raspon dobivenih rezultata.
7. U kolokviju iz Osnova statistike studenti su postigli sljedeće rezultate: 18, 15, 24, 2, 5, 16,
26, 8, 12, 10, 47, 32, 16, 17, 22, 25, 15, 10, 3, 7, 19, 31, 30, 11, 24, 16, 35, 22, 45, 20.
Sastavite tablicu po razredima čiji interval iznosi 7 i nacrtajte histogram frekvencija.
Odredite aritmetičku sredinu, medijan i mod.
8. Na testu iz matematike učenici su prosječno dobili 14 bodova (SD =2.5), iz hrvatskog su
imali prosječno 15 bodova (SD =2.5), a iz engleskog 40 bodova (SD=8). U kojem ispitu je
raspršenje ocjena bilo najveće, a u kojem najmanje?
Zadaci za vježbanje
93
9. U ispitivanju samopoštovanja skupina učenika je postigla rezultate navedene u tablici.
Izračunajte središnje vrijednosti, standardnu devijaciju i koeficijent varijabilnosti
dobivenih rezultata.
24 39 31 26 12
23 22 29 53 26
18 33 28 54 23
20 14 28 36 35
20 53 33 38 51
10. Prosječno vrijeme reakcije skupine ispitanika (N=100) iznosi 110 ms, dok je standardna
devijacija te distribucije 11. Izračunajte koliko ispitanika ima rezultat:
a) jednak ili manji od 100
b) jednak ili veći od 130
c) jednak ili veći od 95
d) u rasponu od 105 do 115.
11. Studenti (N=300) su rješavali tri različita testa:
TEST 1 TEST 2 TEST 3
M 50 60 30
SD 10 7 10
Studenti A i B su na testovima postigli sljedeće rezultate:
Student TEST 1 TEST 2 TEST 3
A 50 50 40
B 40 60 40
Izračunajte koji je student ukupno postigao bolji rezultat.
12. Skupina studenata (N=60) je rješavala zadatak kojim se mjerila vještina rješavanja
problema. Prosječno vrijeme dovršavanja zadatka bilo je 13 sekundi (13 s), a standardna
devijacija 1.5 s. Izračunajte koliko je vrijeme postiglo 10% najboljih (najbržih), a koliko
20% najlošijih studenata (s najdužim vremenom).
Zadaci za vježbanje
94
13. Na ispitu iz statistike studenti su prosječno riješili 11 zadataka, pri čemu je standardna
devijacija rezultata iznosila 4. Na ispitu je prošlo 40% studenata koji su najbolje riješili
test. Koliki je najmanji rezultat morao imati student koji je prošao ispit?
14. Ukoliko je aritmetička sredina distribucije kvocijenta inteligencije 100, a standardna
devijacija 20, koliki najmanji kvocijent inteligencije moraju imati osobe koje se nalaze u
1% najinteligentnijih ljudi?
15. U jednom istraživanju, 15 roditelja navelo je prosječan broj sati koje njihova djeca tjedno
provedu u izradi domaće zadaće: 6, 10, 3, 5, 1, 2, 3, 7, 5, 5, 4, 6, 6, 7, 4, 4, 5, 5, 6, 7.
a) Navedite prosječan broj sati koje djeca provedu u izradi domaće zadaće. Izračunajte
aritmetičku sredinu, centralnu i dominantnu vrijednost.
b) Izračunajte pripadajuće raspršenje distribucije (raspon i standardnu devijaciju)
rezultata.
16. Na temelju podataka iz prethodnog zadatka (6, 10, 3, 5, 1, 2, 3, 7, 5, 5, 4, 6, 6, 7, 4, 4, 5, 5,
6, 7) izračunajte sljedeće:
a) Odredite z-vrijednosti za djecu koja uče 3, 7 i 4 sata.
b) Kad biste sve rezultate pretvorili u z-vrijednosti, koja bi bila aritmetička sredina i
standardna devijacija nove distribucije?
c) Odredite u kojem se decilu nalazi učenik koji tjedno provede 3 sati u izradi domaće
zadaće, a u kojem onaj koji provede 10 sati.
17. Slučajni uzorak 100 zaposlenika velike firme je sudjelovao u ispitivanju karakteristika
zaposlenika. Prosječna dob radnika je 42 godine, a raspršenje je SD=11 godina. Kolika je
prosječna dob svih zaposlenika ta firme?
18. Agencija za istraživanje javnog mnijenja je tijekom predsjedničkih izbora prognozirala
uspjeh prva dva predsjednička kandidata u drugom krugu izbora. Na uzroku od 600
ispitanika prognozirali su da će pobjednički kandidat dobiti 65% pri čemu je na samim
izborima ovaj osvojio 67.9%. Da li je agencija uspješno prognozirala rezultate izbora?
19. 95 studenata koji su upisali kolegij Osnove statistike podijeljeni su u dvije skupine. Jednu
skupinu je sačinjavalo 50 studenata koji su gradivo učili uz pomoć računalnih programa za
Zadaci za vježbanje
95
statističke obrade. Druga je skupina od 45 studenata u to vrijeme učila bez računalnih
programa. Na kraju godine svi studenti su polagali ispit i pritom postigli rezultate
prikazane u tablici. Postoji li razlika u uspjehu između te dvije skupine? Interpretirajte
dobiveni rezultat.
S programom Samostalno
M 22 18
SD 4.2 3
20. Skupina od 40 studenata u dva navrata je polagala kolokvij iz statistike. Rezultati prvog i
drugog kolokvija prikazani su u tablici. Povezanost između ocjena iz prvog i drugog
kolokvija iznosila je r=0.68. Da li postoji razlika u uspjehu studenata na prvom i drugom
kolokviju? Interpretirajte dobivene rezultate.
1. kolokvij 2. kolokvij
M 17 15
SD 2.47 1.80
21. Savjetovalište fakulteta provodilo je seminar o kvalitetnom učenju u kojem je sudjelovalo
50 zainteresiranih studenata. Prije i poslije seminara među sudionicima primijenjen je test
znanja o kvalitetnom učenju (veći rezultat ukazuje na bolje znanje). Povezanost između
znanja o učenju prije i poslije seminara iznosila je r=0.6.
Prije seminara Poslije seminara
M 42 47
SD 8 12
a) Da li su studenti poslije seminara bolje poznavali osnovne zakonitosti kvalitetnog učenja?
b) Zamislite da niste ispitali znanje studenata prije početka seminara, već ste umjesto toga
ispitali znanje usporedne (kontrolne) skupine sastavljene od 50 studenata koji nisu pohađali
seminar. Pritom ste dobili vrijednosti jednake onima koje su izračunate kod studenata prije
seminara u primjeru „a“. Odredite da li u tom slučaju studenti nakon seminara znali više o
učenju od onih koji seminar nisu pohađali.
22. Na uvodnom predavanju iz statistike profesor je studente upozorio da studenti koji
tijekom godine polože barem 2 od 4 kolokvija u pravilu postižu bolji uspjeh na pismenom
Zadaci za vježbanje
96
ispitu iz statistike. Na kraju godine je na ispit izašlo 75 studenata od kojih je 35 prošlo dva
ili više kolokvija. Ta je skupina studenata u pismenom ispitu ukupno postigla 12 bodova
(SD=1.4), dok su studenti koji nisu položili kolokvije u prosjeku postigli 10.5 bodova
(SD=2). Razlikuju li se studenti po svom uspjehu na ispitu? Interpretirajte dobivene
rezultate.
23. Skupina studenata postigla je sljedeći uspjeh na kolegiju Osnove sociologije. Provjerite da
li postoji razlika u zastupljenosti, odnosno čestini pojave pojedinih ocjena na ovom
kolegiju.
Nedovoljan Dovoljan Dobar Vrlo
dobar Izvrstan Ukupno
Opažene
frekvencije 2 7 15 20 6 50
24. U nekom istraživanju je računata povezanost između varijabli inteligencije i uspjeha u
školi. U rezultatima je naveden sljedeći podatak koji opisuje tu vezu: r(42) = 0.12, p >
0.05. Interpretirajte (objasnite) dobiveni rezultat ovog istraživanja.
25. Navedite koji statistički postupak ili analizu biste trebali koristiti za odgovaranje na
sljedeće probleme: „Nakon završetka akademske godine odredili smo uspjeh jedne
skupine od 50 studenata na kolegijima Osnove statistike i Pedagogija. Najprije smo
odredili broj studenata koji su prošli i pali te ispite. Nakon toga je za studente koji su
ispite prošli zabilježena dobivena ocjena. Razlikuje li se prosječan uspjeh studenata
(prosječne ocjene) kod ta dva kolegija? Razlikuju li se ta dva kolegija prema broju
studenata koji su pali, odnosno prošli ispite?“
Zadaci za vježbanje
97
6.1. Rješenja zadataka
1. Koristeći interval razreda od 10, moguće je ovako grupirati i prikazati podatke (moguća su i
drugačija rješenja).
Broj bodova Test 1 Test 2
11-20 1 4
21-30 4 4
31-40 6 3
41-50 5 5
51-60 1 1
Slika 1. Raspodjela bodova iz dva testa iz hrvatskog jezika grupiranih u pet razreda.
2. Moguće grupiranje: 6-9 (2), 10-13 (5), 14-17 (6), 18-21 (17), 22-25 (16), 26-29 (8), 30-33
(2).
Slika 2. Rezultati mjerenja depresivnosti studenata grupirani u sedam razreda.
M 20.7 D 20
C 21 SD 5.43
Zadaci za vježbanje
98
3.
A B C D
M 7 56,2 6.3 70
C 7 60 7 70
D 7 90/70/20 7 -
U distribucijama B i D nema smisla računati aritmetičku sredinu, kao ni dominantnu
vrijednost. Općenito, u ovim distribucijama korištenje mjera središnjih vrijednosti nije
pretjerano informativno zbog oblika distribucija. Distribucija C je negativno asimetrična,
te kod nje aritmetička sredina ne predstavlja idealan reprezentant podataka.
4. Distribucija je negativno asimetrična.
M 5.9 D 7
C 6 SD 1.84
5.
M 5.8 D 4
C 4 SD 4.37
6.
M 14.5 D 14
C 14 Raspon 13
7. Moguće grupiranje: 0-6 (3), 7-13 (6), 14-20 (9), 21-27 (6), 28-34 (3), 35-41 (1), 42-48 (2).
Slika 3. Raspodjela bodova iz Osnova statistike grupiranih u sedam razreda.
M 19.4 C 17.5 D 16
Zadaci za vježbanje
99
8. Raspršenje je najveće na testu iz engleskog (20%), a najmanje na testu iz hrvatskog
(16.7%).
9.
M 30.8 SD 11.99
C 28 V 38.93%
D besmisleno
10. a) Oko 18.14% ispitanika (z=-0.91)
b) Oko 3.59% ispitanika (z=1.82)
c) Oko 91.15% ispitanika (z=-1.36)
d) Oko 34.72% ispitanika (z1=-0.45; z2=0.45).
11. Student B je ukupno postigao bolji rezultat (zA=0-1.43+1=-0.43; zB =-1+0+1=0).
12. Granična vrijednost za 10% najboljih studenata: z=-1.30; x=11.05
Granična vrijednost za 20% najlošijih studenata: z=0.84; x=14.26
13. Studenti su morali imati najmanje 12 bodova (z=0.25).
14. Minimalno moraju imati kvocijent 14 (z=2.35).
15. a) M=5.05; C=5; D= 5
b) SD=2.01; raspon=9
16. 1) -1.01, 0.97, -0.52
b) M=0, SD=1
c) Učenik koji tjedno provede 3 sati u izradi domaće zadaće nalazi se u drugom, a onaj koji
provede 10 sati u desetom decilu.
17. Uz rizik od 5% prosječna dob zaposlenika tvrtke je između 39.84 i 44.16, a uz rizik od 1%
između 39.16 i 44.84 godina.
Zadaci za vježbanje
100
18. Agencija je dobro prognozirala izbore: uz rizik od 5% na temelju njihove procjene u
populaciji se mogao očekivati rezultat između 61.2 i 68.8%.
19. t-test za velike nezavisne uzorke: t=5.39, df=93, p < 0.01
Postoji statistički značajna razlika između uspjeha studenata koji su učili uz pomoć računalnih
programa i samostalno. Bolji uspjeh imali su studenti koji su učili uz pomoć računalnih
programa.
20. t-test za velike zavisne uzorke: t=6.98, df=39, p < 0.01
Postoji statistički značajna razlika u uspjehu na dva kolokvija. Studenti su bolje riješili prvi
kolokvij.
21. t-test za velike zavisne uzorke: t=3.70, df=49, p< 0.01; t-test za velike nezavisne uzorke:
t=2.45, df=98, p > 0.01 (ali p < 0.05)
Uz rizik od 1% možemo zaključiti da se znanje studenata prije i poslije seminara statistički
značajno razlikovalo, tako da su studenti nakon seminara bolje poznavali zakonitosti učenja.
Uz rizik od 1% možemo zaključiti da ne postoji statistički značajna razlika između dvije
skupine studenata. Međutim, da smo odabrali razinu rizika od 5% ta bi razlika dosegnula
statističku značajnost. U tom slučaju zaključili bismo da su studenti iz kontrolne skupine
lošije poznavali zakonitosti učenja od onih koji su pohađali seminar.
22. t-test za velike nezavisne uzorke: t=3.75, df=73, p < 0.01
Dvije skupine studenata statistički se značajno razlikuju prema uspjehu na ispitu. Studenti koji
su prošli dva ili više kolokvija uspješnije su riješili ispit.
23. hi-kvadrat test: 2 =21.4, df=4, p < 0.01
Postoji razlika u čestini pojave pojedinih ocjena na ovom kolegiju. Studenti su najčešće dobili
ocjene dobar i vrlo dobar.
24. Ne postoji statistički značajna povezanost između inteligencije i uspjeha u školi.
25. Statističku značajnost razlike u prosječnoj ocjeni studenata provjerili bismo uz pomoć t-
testa za zavisne uzorke. Statističku značajnost razlike u broju studenata koji su pali, odnosno
prošli ispite provjerili bismo uz pomoć hi-kvadrat testa.
Literatura
101
7. PREPORUČENA LITERATURA
Cohen, L., Holliday, M. (1996). Practical statistics for students: An introductory text.
London: SAGE.
Field, A. (2009). Discovering Statistics Using SPSS. Los Angeles: SAGE.
Mejovšek, M. (2007). Metode znanstvenog istraživanja u društvenim i humanističkim
znanostima. Jastrebarsko: Naklada Slap.
Milas, G. (2009). Istraživačke metode u psihologiji i drugim društvenim znanostima.
Jastrebarsko: Naklada Slap.
Mužić, V. (2004). Uvod u metodologiju istraživanja odgoja i obrazovanja. Zagreb:
Educa.
Petz, B., Kolesarić, V., Ivanec, D. (2012). Petzova statistika. Jastrebarsko: Naklada
Slap.
Prilozi
102
PRILOZI
Prilog 1. Ključni simboli
Prilog 2. Ključne formule
Prilog 3. Statističke tablice
Tablica 1. z-vrijednosti normalne krivulje za zadane postotke površine od aritmetičke
sredine
Tablica 2. Granične vrijednosti t-testa uz različite razine rizika i stupnjeve slobode
Tablica 3. Granične vrijednosti hi-kvadart testa uz različite razine rizika i stupnjeve
slobode
Ključni simboli
103
PRILOG 1: KLJUČNI SIMBOLI
Općenito
- suma (zbroj) svih rezultata
x - simbol za apsolutnu vrijednost od x (npr. 1 =1 ili 1 =1 )
x – simbol za svaki pojedinačni rezultat / podatak
N – ukupan broj podataka / izmjerenih vrijednosti
n – broj podataka / izmjerenih vrijednosti u nekom podskupu ili uzorku
Nx - Simbol (x) koji se nalazi uz glavni (N) označava podskup na koji se glavni simbol odnosi
Grupiranje i organizacija rezultata
f – frekvencija rezultata (u razredu); ima isto značenje kao i „n“
i - interval razreda kod grupiranja rezultata
TR – totalni raspon rezultata
Rx – položaj neke vrijednosti u skupu podataka (najčešće se koristi Rc za položaj centralne
vrijednosti)
Središnje vrijednosti
M - aritmetička sredina
Aritmetička sredina razreda može se označiti i kao „m“
Ukoliko se radi o aritmetičkoj sredini populacije najčešće se koristi simbol „μ“
C – centralna vrijednost / medijan
D – dominantna vrijednost / mod
G – geometrijska sredina
H – harmonična sredina
Mjere raspršenja
SD - standardna devijacija
SD2 – varijanca
Ukoliko se radi o populacijskoj vrijednosti (standardnoj devijaciji i varijanci
populacije) onda se najčešće koriste simboli „σ“ i „σ2“
V – koeficijent varijabilnosti
Q – poluinterkvartilno raspršenje / interkvartilni raspon
Ključni simboli
104
Položaj rezultata u grupi
z – z-vrijednost
Testiranje hipoteza
SEM - pogreška aritmetičke sredine (eng. standard error of mean)
ponekad se označava i kao SDM
SEP - pogreška proporcije (eng. standard error of proportion)
ponekad se označava i kao SDp
t – vrijednost t-testa
r - Pearsonov koeficijent korelacije
df – stupnjevi slobode (eng. degrees of freedom); ponekad se označavaju i kao ss
p – vjerojatnost slučajne pojave neke vrijednosti
Kod kategorijalnih varijabli:
2 - hi-kvadrat test
k – broj kategorija unutar jedne varijable (npr. spol: k=2 (muški i ženski))
p – proporcija podataka jedne kategorije
q – proporcija podataka druge kategorije (q=1-p)
fo - opažene frekvencije
ft - teoretske frekvencije
Osim ovih, u statistici se koristi i mnoštvo drugih mjera i simbola koje možete pronaći u
statističkoj literaturi (neke preporuke za daljnje čitanje navedene su i u ovom priručniku).
Ključne formule
105
PRILOG 2: KLJUČNE FORMULE
Deskriptivna statistika
Aritmetička sredina N
xM
Položaj centralne vrijednosti 5,02
NRc
Raspon Raspon = xmax – xmin
Standardna devijacija N
MxSD
2)(
(populacija)
1
)( 2
N
MxSD
(uzorak)
Varijanca
N
MxSD
2
2)(
(populacija)
1
)( 2
2
N
MxSD
(uzorak)
Koeficijent varijabilnosti 100M
SDV
Položaj rezultata u skupini
z-vrijednost SD
Mxz
decil 10xN
rangd
centil 100xN
rangc
Ključne formule
106
Procjena parametara
Pogreška aritmetičke sredine N
SDSEM
Procjena aritmetičke sredine
populacije
M 2.58 SEM (uz 99% sigurnosti)
M 1.96 SEM (uz 95% sigurnosti)
Pogreška proporcije N
pxqSEP
Procjena proporcije u populaciji p 2.58 SEP (uz 99% sigurnosti)
p 1.96 SEP (uz 95% sigurnosti)
Testovi
t-test: osnovna formula
SDt
t-test za velike (N 30)
nezavisne uzorke
2
2
2
1
21
SEMSEM
MMt
;
df=(N1-1) + (N2-1)
t-test za velike (N 30) zavisne
uzorke
21
2
2
2
1
21
2 SEMrSEMSEMSEM
MMt
;
df=N-1
hi-kvadrat test
t
to
f
ff 22 )(
;
df=k-1 ili df=(k1-1) (k2-1)
Legenda: Vidi „Ključni simboli“
Statističke tablice
107
PRILOG 3: STATISTIČKE TABLICE
Tablica 1
z-vrijednosti normalne krivulje za zadane postotke površine od
aritmetičke sredine
z % z % z %
0.00 0.00 0.49 18.79 0.98 33.65
0.01 0.40 0.50 19.15 0.99 33.89
0.02 0.80 0.51 19.50 1.00 34.13
0.03 1.20 0.52 19.85 1.05 35.31
0.04 1.60 0.53 20.19 1.10 36.43
0.05 1.99 0.54 20.54 1.15 37.49
0.06 2.39 0.55 20.88 1.20 38.49
0.07 2.79 0.56 21.23 1.25 39.44
0.08 3.19 0.57 21.57 1.30 40.32
0.09 3.59 0.58 21.90 1.35 41.15
0.10 3.98 0.59 22.24 1.40 41.92
0.11 4.38 0.60 22.57 1.45 42.65
0.12 4.78 0.61 22.91 1.50 43.32
0.13 5.17 0.62 23.24 1.55 43.94
0.14 5.57 0.63 23.57 1.60 44.52
0.15 5.96 0.64 23.89 1.65 45.05
0.16 6.36 0.65 24.22 1.70 45.54
0.17 6.75 0.66 24.54 1.75 45.99
0.18 7.14 0.67 24.86 1.80 46.41
0.19 7.53 0.68 25.17 1.85 46.78
0.20 7.93 0.69 25.49 1.90 47.13
0.21 8.32 0.70 25.80 1.95 47.44
0.22 8.71 0.71 26.11 2.00 47.72
0.23 9.10 0.72 26.42 2.05 47.98
0.24 9.48 0.73 26.73 2.10 48.21
0.25 9.87 0.74 27.04 2.15 48.42
0.26 10.26 0.75 27.34 2.20 48.61
0.27 10.64 0.76 27.64 2.25 48.78
0.28 11.03 0.77 27.94 2.30 48.93
0.29 11.41 0.78 28.23 2.35 49.06
0.30 11.79 0.79 28.52 2.40 49.18
0.31 12.17 0.80 28.81 2.45 49.29
0.32 12.55 0.81 29.10 2.50 49.38
0.33 12.93 0.82 29.39 2.55 49.46
0.34 13.31 0.83 29.67 2.60 49.53
0.35 13.68 0.84 29.95 2.65 49.60
0.36 14.06 0.85 30.23 2.70 49.65
0.37 14.43 0.86 30.51 2.75 49.70
0.38 14.80 0.87 30.78 2.80 49.74
0.39 15.17 0.88 31.06 2.85 49.78
0.40 15.54 0.89 31.33 2.90 49.81
0.41 15.91 0.90 31.59 2.95 49.84
0.42 16.28 0.91 31.86 3.00 49.865
0.43 16.64 0.92 32.12 3.10 49.903
0.44 17.00 0.93 32.38 3.20 49.931
0.45 17.36 0.94 32.64 3.30 49.95166
0.46 17.72 0.95 32.90 3.40 49.96631
0.47 18.08 0.96 33.15 3.50 49.97674
0.48 18.44 0.97 33.40 4.00 49.99683
Statističke tablice
108
Tablica 2
Granične vrijednosti t-testa uz različite razine rizika i stupnjeve slobode
razine rizika
df 10% 5% 2% 1%
1
6,431
6.34
12.71.34
12.71
12.71
31.82
31.82
63.66
63.66 2 2.92 4.30 6.96 9.92 3 2.35 3.18 4.54 5.84 4 2.13 2.78 3.75 4.60 5 2.02 2.57 3.36 4.03
6 1.94 2.45 3.14 3.71 7 1.90 2.36 3.00 3.50 8 1.86 2.31 2.90 3.36 9 1.83 2.26 2.82 3.25
10 1.81 2.23 2.76 3.17
11 1.80 2.20 2.72 3.11 12 1.78 2.18 2.68 3.06 13 1.77 2.16 2.65 3.01 14 1.76 2.14 2.62 2.98 15 1.75 2.13 2.60 2.95
16 1.75 2.12 2.58 2.92 17 1.74 2.11 2.57 2.90 18 1.73 2.10 2.55 2.88 19 1.73 2.09 2.54 2.86 20 1.72 2.09 2.53 2.84
21 1.72 2.08 2.52 2.83 22 1.72 2.07 2.51 2.82 23 1.71 2.07 2.50 2.81 24 1.71 2.06 2.49 2.80 25 1.71 2.06 2.48 2.79
26 1.71 2.06 2.48 2.78 27 1.70 2.05 2.47 2.77 28 1.70 2.05 2.47 2.76 29 1.70 2.04 2.46 2.76 30 1.70 2.04 2.46 2.75
35 1.69 2.03 2.44 2.72 40 1.68 2.02 2.42 2.71 45 1.68 2.02 2.41 2.69 50 1.68 2.01 2.40 2.68
60 1.67 2.00 2.39 2.66 70 1.67 2.00 2.38 2.65 80 1.66 1.99 2.38 2.64 90 1.66 1.99 2.37 2.63
100 1.66 1.98 2.36 2.63 125 1.66 1.98 2.36 2.62 150 1.66 1.98 2.35 2.61 200 1.65 1.97 2.35 2.60
300 1.65 1.97 2.34 2.59 400 1.65 1.97 2.34 2.59 500 1.65 1.96 2.33 2.59
1000 1.65 1.96 2.33 2.58 1.65 1.96 2.33 2.58
Statističke tablice
109
Tablica 3 Granične vrijednosti hi-kvadrat testa uz različite razine rizika i stupnjeve slobode
df / p 0.30 0.20 0.10 0.05 0.02 0.01
1
1.074
1.642
2.706
3.841
5.412
6.635
2 2.408 3.219 4.605 5.991 7.824 9.210
3 3.665 4.642 6.251 7.815 9.837 11.431
4 4.878 5.989 7.779 9.488 11.668 13.277
5 6.064 7.289 9.236 11.070 13.388 15.086
6
7.231
8.558
10.645
12.592
15.033
16.812
7 8.383 9.803 12.117 14.067 16.622 18.475
8 9.524 11.030 13.362 15.507 18.168 20.090
9 10.656 12.242 14.684 16.919 19.679 21.666
10 11.781 13.442 15.987 18.307 21.161 23.209
11
12.899
14.631
17.275
19.675
22.618
24.725
12 14.011 15.812 18.549 21.026 24.054 26.217
13 15.199 16.985 19.812 22.362 25.472 27.688
14 16.222 18.151 21.064 23.685 26.873 29.141
15 17.322 19.311 22.307 24.996 28.259 30.578
16
18.418
20.465
23.542
26.296
29.633
32.000
17 19.511 21.615 24.769 27.587 30.995 33.409
18 20.601 22.760 25.989 28.869 32.346 34.805
19 27.689 23.900 27.204 30.144 33.687 36.191
20 22.775 25.038 28.412 31.410 35.020 37.566
21
23.858
26.171
29.615
32.671
36.343
38.932
22 24.939 27.301 30.813 33.924 37.659 40.289
23 26.018 28.429 32.007 35.172 38.968 41.638
24 27.096 29.553 33.196 36.415 40.270 42.980
25 28.172 30.675 34.382 37.652 41.566 44.314