135
Mirta Benšić Nenad Šuvak Statistika - radni materijali Sveučilište J. J. Strossmayera u Osijeku Odjel za matematiku Osijek, 21. prosinca 2010.

MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Mirta Benšić Nenad Šuvak

Statistika - radni materijali

Sveučilište J. J. Strossmayera u Osijeku

Odjel za matematiku

Osijek, 21. prosinca 2010.

Page 2: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Sadržaj

1 Uvod 4

2 Prikupljanje i organizacija podataka 72.1 Populacija i uzorak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 Izvori podataka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.3 Tipovi varijabli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3.1 Kvalitativne varijable . . . . . . . . . . . . . . . . . . . . . . . . 92.3.2 Numeričke varijable . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 Deskriptivna statistika 143.1 Metode opisivanja kvalitativnih podataka . . . . . . . . . . . . . . . . . 14

3.1.1 Tablični prikaz frekvencija i relativnih frekvencija . . . . . . . . 163.1.2 Grafički prikazi frekvencija i relativnih frekvencija . . . . . . . . 18

3.2 Metode opisivanja numeričkih podataka . . . . . . . . . . . . . . . . . . 223.2.1 Postupak razvrstavanja numeričkih podataka u kategorije . . . . 313.2.2 Mjere centralne tendencije i raspršenosti podataka . . . . . . . . 353.2.3 Detekcija stršećih vrijednosti . . . . . . . . . . . . . . . . . . . . 42

3.3 Domaća zadaća 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4 Slučajna varijabla 474.1 Definicija slučajne varijable . . . . . . . . . . . . . . . . . . . . . . . . 474.2 Vjerojatnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.2.1 Uobičajene oznake i nazivi . . . . . . . . . . . . . . . . . . . . . 514.2.2 Klasična metoda modeliranja vjerojatnosti . . . . . . . . . . . . 524.2.3 Statistička metoda modeliranja vjerojatnosti . . . . . . . . . . . 554.2.4 Neka svojstva vjerojatnosti . . . . . . . . . . . . . . . . . . . . . 57

4.3 Diskretna slučajna varijabla . . . . . . . . . . . . . . . . . . . . . . . . 604.4 Empirijska distribucija diskretne slučajne varijable . . . . . . . . . . . . 634.5 Kontinuirana (neprekidna) slučajna varijabla . . . . . . . . . . . . . . . 664.6 Mjere centralne tendencije i raspršenosti slučajne varijable . . . . . . . 734.7 Važni primjeri diskretnih i neprekidnih slučajnih varijabli . . . . . . . . 76

4.7.1 Bernoullijeva slučajna varijabala . . . . . . . . . . . . . . . . . . 764.7.2 Binomna slučajna varijabla . . . . . . . . . . . . . . . . . . . . 76

2

Page 3: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Uvod 3

4.7.3 Normalna slučajna varijabala . . . . . . . . . . . . . . . . . . . 804.8 Empirijska distribucija slučajne varijable . . . . . . . . . . . . . . . . . 824.9 Zadaci za vježbu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5 Statističko zaključivanje o jednoj slučajnoj varijabli 855.1 Procjena distribucije, očekivanja i varijance . . . . . . . . . . . . . . . . 855.2 Procjena očekivanja intervalom zadane pouzdanosti za velike uzorke . . 905.3 Procjena proporcije intervalom zadane pouzdanosti . . . . . . . . . . . 935.4 Testiranje hipoteza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

5.4.1 Pogreške statističkog testa . . . . . . . . . . . . . . . . . . . . . 985.5 Testiranje hipoteza o očekivanju za velike uzorke . . . . . . . . . . . . . 985.6 Testiranje hipoteza o vjerojatnosti događaja za velike uzorke . . . . . . 1025.7 Testiranje hipoteza o distribuciji općenito . . . . . . . . . . . . . . . . . 104

5.7.1 Kako saznati da li podaci dolaze iz normalne distribucije? . . . 105

6 Statističko zaključivanje o dvije slučajne varijable 1076.1 Statističko zaključivanje o razlikama u distribuciji između dvije varijable1076.2 Usporedba očekivanja — nevezani uzorci . . . . . . . . . . . . . . . . . 110

6.2.1 Veliki uzorci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1106.2.2 Mali uzorci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

6.3 Usporedba očekivanja — uzorci u paru . . . . . . . . . . . . . . . . . . 1156.4 Usporedba proporcija u velikim uzorcima . . . . . . . . . . . . . . . . . 1186.5 Dvodimenzionalan slučajan vektor . . . . . . . . . . . . . . . . . . . . . 119

6.5.1 Tablica distribucije . . . . . . . . . . . . . . . . . . . . . . . . . 1196.5.2 Uvjetne distribucije. Nezavisnost . . . . . . . . . . . . . . . . . 122

6.6 Analiza kategoriziranih podataka . . . . . . . . . . . . . . . . . . . . . 1246.7 Jednostavna linearna regresija . . . . . . . . . . . . . . . . . . . . . . . 126

6.7.1 Regresijski pravac . . . . . . . . . . . . . . . . . . . . . . . . . . 1276.8 Koeficijent korelacije . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1336.9 Zadaci za vježbu - jedostavna linearna regresija . . . . . . . . . . . . . 134

Page 4: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Poglavlje 1

Uvod

Korištenje riječi statistika u svakodnevnom životu najčešće je povezano s brojčanimvrijednostima kojima pokušavamo opisati bitne karakteristike nekog skupa podataka.Na službenim web stranicama Državnog zavod za statistiku Republike Hrvatske možemopročitati (http://www.dzs.hr/ dana 6.6.2009):

Prosječna mjesečna isplaćena neto plaća po zaposlenome u pravnim osobama Re-publike Hrvatske za srpanj 2009. iznosila je 5 308 kuna.

Minimalna plaća za razdoblje od 1. lipnja 2009. do 31. svibnja 2010. u RepubliciHrvatskoj iznosi 2 814,00 kuna.

Stopa registrirane nezaposlenosti za kolovoz 2009. iznosila je 14,2%.

Udio aktivnog stanovništva u radno sposobnom (stopa aktivnosti) iznosi 48%, is-tovremeno 43,7% radno sposobnih osoba je zaposleno (stopa zaposlenosti), a8,9% radne snage je nezaposleno (stopa nezaposlenosti).

Temelj statistike, kao znanstvene discipline, kao i svih istraživanja koja se koristestatističkim metodama zaista čine skupovi podataka.

Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku-pljanja, opisivanja i analiziranja podataka te primjenom tih metoda uprocesu donošenja zaključaka na temelju prikupljenih podataka.

Statističko istraživanje fokusirano je na skup objekata, tj. jedinki (ljudi, životinja,biljaka, stvari, država, gradova, poduzeća, itd.) i skup odabranih veličina koje se nanjima promatraju. Veličine koje se na jednikama promatraju zovemo varijablama.Sve jedinke koje se žele obuhvatiti istraživanjem, tj. o kojima se želi zaključivati, činepopulaciju.

Primjer 1.1 Bavimo se istraživanjem uspjeha iz kolegija statistika na Učiteljskom fakul-tetu u Osijeku, u generaciji 2009./2010.

4

Page 5: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Uvod 5

jedinke: osobe, imenom i prezimenom ili nekom šifromvarijabla: ocjena iz statistike

U ovom primjeru navedena je samo jedna varijabla koja se analizira na jedinkamapopulacije, tj. uspjeh iz statistike. Međutim, često nas zanima nekoliko varijabli i/iliveze među njima. Npr. želimo li ispitati ovisi li uspjeh iz statistike u prethodnomprimjeru o spolu, potrebno je u istraživanju populacije za svaku jedinku zabilježitii vrijednost varijable spol (M ili Ž); želimo li ispitati ovisi li uspjeh iz statistike opripadnosti pojedinoj grupi vježbi, potrebno je za svaku jedinku zabilježiti koju grupuvježbi je pohađala. Zbog preglednosti, prikupljene podatke prikazujemo tablično takoda jedan redak odgovara određenoj jedinki, a stupac jednoj varijabli.

Primjer 1.2 Bavimo se istraživanjem uspjeha iz kolegija statistika na Učiteljskom fakul-tetu u Osijeku, u generaciji 2009./2010. u ovisnosti o spolu ispitanika i grupi vježbikoju student pohađa. Tablicu za bilježenje prikupljenih podataka treba organizirati nasljedeći način:

matični broj studenta ocjena iz statistike spol grupa vježbi

1206 5 Ž A1326 2 Ž B942 4 Ž C...

......

...

U prethodnim primjerima nije problem istražiti cijelu populaciju obzirom da na Učiteljskomfakultetu u Osijeku, u generaciji 2009./2010. ima 81 upisan student. Međutim, is-tražujemo li, prije izbora za predsjednika neke države, preferencije građana premanekom od kandidata, ne možemo ispitati sve osobe populacije (tj. sve državljane kojiimaju pravo glasa) jer bi to bilo ekvivalentno provođenju izbora. Kada nije mogućeistražiti veličine koje nas zanimaju na svim jedinkama populacije potrebno je iz pop-ulacije izdvojiti uzorak na kojemu će biti prikupljeni podaci. Obzirom da se o cijelojpopulaciji želi zaključivati na temelju podataka prikupljenih na uzorku, za istraživanjeje vrlo važno znati kako kreirati kvalitetan uzorak.Primjena statistike u istraživanju podrazumijeva da se u pripremi istraživanja izabra-nog problema poštuju sljedeća pravila:

• Populaciju koja je predmet istraživanja potrebno je detaljno proučiti, zabilježitinjene osnovne karakteristike i ciljeve istraživanja, kreirati kvalitetan uzorak iodabrati metodu za prikupljanje podataka.

• Izabrati prikladne metode za opis skupa prikupljenih podataka (deskriptivnastatistika).

Page 6: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Uvod 6

• Izabrati prikladne statističke metode za zaključivanje o populaciji na temaljuprikupljenih podataka na uzorku.

Sukladno ovim razmatranjima, u ovom kolegiju ćemo se baviti nekim metodamaprikupljanja podataka i kreiranja uzorka, metodama deskriptivne statistike i metodamastatističkog zaključivanja. Obzirom da se metode kojima se kreira uzorak i metodestatističkog zaključivanja temelje na poznavanju osnovnih pojmova teorije vjerojat-nosti, u kolegiju ćemo također navesti temeljne pojmove i zakone teorije vjerojatnostipotrebne za razumijevanje osnovnog statističkog aparata.

Page 7: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Poglavlje 2

Prikupljanje i organizacija podataka

2.1 Populacija i uzorak

Populaciju čine sve jedinke koje su predmet istraživanja

Primjer 2.1 Istražujemo prehrambene navike i razlike u prehrambenim navikama izmeđustanovnika Slavonije i Baranje i stanovnika Dalmacije. Populaciju čine svi stanovniciSlavonije, Baranje i Dalmacije. Međutim, ako nas zanimaju samo prehrambene navikestudenata iz tih područja, onda populaciju čine samo studenti iz Slavonije, Baranje iDalmacije.

Uzorak je podskup jedinki iz populacije

Da bi zaključci prilikom istraživanja o populaciji, na temelju podataka iz uzorka, biliispravni, nužno je da uzorak bude REPREZENTATIVAN, tj. u njemu moraju bitizastupljne sve tipične karakteristike populacije bitne za istraživanje.

Primjer 2.2 U prethodnom primjeru, ako populaciju čine svi stanovnici Slavonije, Baranjei Dalmacije, onda ne možemo istraživanje provesti samo na uzorku djece koja pohađajusrednju školu. To bi nam možda bilo praktično, ali takav uzorak nije reprezentativanza zaključivanje o cijeloj populaciji.

Jedan od načina izbora jedinki iz populacije u uzorak je temeljen na formiranju takoz-vanog slučajnog uzorka.

Slučajan uzorak iz populacije formira se tako da svaka jedinka popu-lacije ima jednaku vjerojatnost (šansu) da uđe u uzorak.

Obzirom da se u gornjoj definiciji pojavljuje pojam vjerojatnost, metodu formi-ranja slučajnog uzorka ostavljamo za sljedeća poglavlja, nakon što pojasnimo pojamvjerojatnosti.

7

Page 8: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Prikupljanje i organizacija podataka 8

2.2 Izvori podataka

• Podaci iz javnih izvora (knjige, časopisi, novine, web).

• Podaci iz dizajniranog eksperimenta (Istraživač raspoređuje eksperimentalnejedinke u skupine nad kojima vrši eksperimente te bilježi podatke za varijablekoje ga zanimaju).

Primjer 2.3 Jedno medicinsko istraživanje proučava snagu nekog lijeka u preven-ciji moždanog udara. Skupinu ljudi s kojima će se vršiti istraživanje istraživačdijeli na dvije skupine: tretiranu i kontrolnu. Ljudima u tretiranoj skupini dajese lijek, dok se ljudima u kontrolnoj skupini daje nadomjestak koji izgleda istokao lijek ali zapravo nije ništa što može imati bilo kakav utjecaj na organizam.

• Podaci iz ankete.

Istraživač sastavlja anketni upitnik, izabire skupinu ljudi koju anketira i naosnovu njihovih odgovora prikuplja podatke.

• Podaci prikupljeni promatranjem.

Istraživač promatra eksperimentalne jedinke u njihovom prirodnom okruženju ibilježi podatke za varijable od interesa.

Primjer 2.4 (stanovnistvo.xls; stanovnistvo.sta)Pretpostavimo da želite saznati starosnu strukturu (prema godinama starosti) stanovništvau svom Osijeku te da ste u tu svrhu počeli s prikupljanjem podataka (u ovom konkret-nom primjeru podatke prikupljate usmenom anketom). Dobivene podatke organiziramou bazu koja sadrži četiri varijable:

• osnovna škola - varijabla koja sadrži podatke o godinama starosti za pedeset sluča-jno odabranih učenika vama najbliže osnovne škole u Osijeku,

• fakultet - varijabla koja sadrži podatke o godinama starosti za pedeset slučajnoodabranih studenata fakulteta na kojem i sami studirate,

• gradska knjižnica - varijabla koja sadrži podatke o godinama starosti za pedesetslučajno odabranih posjetitelja gradske knjižnice,

• telefonska anketa - varijabla koja sadrži podatke o godinama starosti za pedesetosoba čiji smo telefonski broj slučajno odabrali u imeniku.

Zadatak 2.1 Nakon kratke analize baze podataka stanovnistvo.sta komentirajte reprezen-tativnost uzorka. Razmislite o mogućim načinima prikupljanja podataka kojima bikreirali reprezentativan uzorak (za starosnu strukturu) iz populacije stanovnika Osi-jeka.

Page 9: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Prikupljanje i organizacija podataka 9

2.3 Tipovi varijabli

2.3.1 Kvalitativne varijable

Vrijednosti kvalitativnih varijabli svrstavamo u kategorije.

Primjer 2.5 Sljedeće varijable su kvalitativnog tipa:

• radna mjesta u školi (spremačica, domar, tajnik, nastavnik, pedagog, ravnatelj),

• opisne ocjene (ništa, malo, srednje, puno),

• krvne grupe (A, B, AB, 0),

• spol (m ili ž).

2.3.2 Numeričke varijable

Vrijednosti numeričke varijable su elementi skupa realnih brojeva.

Primjer 2.6 Sljedeće varijable su numeričkog tipa:

• broj ulovljenih komaraca u klopku,

• postotak prolaznosti na pojedinim ispitima u toku jedne akademske godine,

• temperatura mora,

• broj bodova na državnoj maturi iz matematike.

Među numeričkim varijablama razlikujemo diskretne i kontinuirane varijable.Diskretne varijable mogu poprimiti samo konačno ili prebrojivo mnogovrijednosti

Primjer 2.7 Sljedeće numeričke varijable su diskretne:

• broj ulovljenih komaraca u klopku,

• broj dana u godini s temperaturom zraka većom od 35oC.

Skup mogućih vrijednosti kontinuiranih numeričkih varijabli je cijeliskup realnih brojeva ili neki interval.

Primjer 2.8 Sljedeće numeričke varijable su kontinuirane:

• postotak prolaznosti na pojedinim ispitima u toku jedne akademske godine,

• temperatura mora,

• vodostaj neke rijeke.

Page 10: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Prikupljanje i organizacija podataka 10

Primjer 2.9 (auti.sta)Baza podataka sastoji se od dvije varijable:

• auti - diskretna numerička varijabla koja sadrži podatke o broju prodanih auto-mobila po danu za sto promatranih dana,

• uspješnost dana - kvalitativna varijabla koja podatke iz varijable auti klasificira upet kategorija (svaka kategorija je jedan konačan skup) na sljedeći način:

Broj prodanih automobila Pridružena kategorija

0 - 4 15 - 8 29 - 12 313 - 16 4

više od 17 5

Primjer 2.10 (glukoza.sta)Baza podataka sastoji se od tri varijable:

• dob osobe - diskretna numerička varijabla koja sadrži podatke o godinama starostiza sto promatranih osoba,

• koncentracija glukoze - kontinuirana numerička varijabla koja sadrži podatke okoncentraciji glukoze u krvi za svaku od sto promatranih osoba,

• kategorija - kvalitativna varijabla koja podatke iz varijable koncentracija glukozeklasificira u dvije kategorije (svaka kategorija je jedan interval pozitivnih realnihbrojeva) na sljedeći način:

Interval koncentracije glukoze Pridružena kategorija

koncentracija < 6 mMol/L N - normalna koncentracijakoncentracija ≥ 6 mMol/L P - povišena koncenracija

Primjer 2.11 (kolegij.sta)Baza podataka sastoji se od sedam varijabli:

• godina upisa - kvalitativna varijabla koja sadrži podatke o akademskoj godiniupisa na studij za sto promatranih studenata,

• kategorija - kvalitativna varijabla koja podatke iz varijable godina upisa klasificirau tri kategorije (svaka kategorija je jedan konačan skup) na sljedeći način:

Akademska godina upisa Pridružena kategorija

student upisan prije 1990. godine 1student upisan 1990., 1991. ili 1992. godine 2student upisan 1993. ili 1994. godine 3

Page 11: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Prikupljanje i organizacija podataka 11

• opća kemija, organska kemija, anorganska kemija, mikrobiologija - četiri diskretnenumeričke varijable koje sadrže podatke o postignutim ocjenama na ispitima izspomenutih kolegija za svakog od sto promatranih studenata,

• prosjek - kontinuirana numerička varijabla koja sadrži prosječne ocjene iz četirispomenuta kolegija za svakog od sto promtranih studenata.

Primjer 2.12 (student.sta, student-grupe.sta)Baza podataka student.sta sastoji se od dvije varijabli:

• klasično studiranje - diskretna numerička varijabla koja sadrži podatke o godi-nama starosti za grupu promatranih studenata koji studiraju na klasičan način(stanuju u gradu u kojem studiraju ili putuju na predavanja),

• e-learning - diskretna numerička varijabla koja sadrži podatke o godinama starostiza grupu promatranih studenata koji studiraju putem Interneta (tzv. e-learning).

Baza podataka student-grupe.sta sastoji se od dvije varijabli:

• dob studenta - diskretna numerička varijabla koja sadrži podatke o godinamastarosti za sto promatranih studenata koji studiraju ili na klasičan način iliputem Interneta,

• način studiranja - kvalitativna varijabla koja podatke iz varijable dob studentaklasificira u dvije kategorije prema sljedećem kriteriju (bez obzira na podatkesadržane u varijabli dob studenta):

Kriterij klasifikacije Pridružena kategorija

student studira na klasičan način 1student studira putem Interneta 0

Primjer 2.13 (anketa.sta)Baza podataka sastoji se od šest varijabli:

• prosjek - kontinuirana numerička varijabla koja sadrži podatke o prosječnoj oc-jeni studiranja za 49 promatranih studenata,

• položeno - kvalitativna varijabla koja promatrane studente klasificira u dvijekategorije s obzirom na to jesu li položili ispit iz promatranog kolegija premasljedećem kriteriju:

Status ispita Pridružena kategorija

student je položio ispit 1student nije položio ispit 0

Page 12: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Prikupljanje i organizacija podataka 12

• prisutnost p, prisutnost v - dvije kvalitativne varijable koje prisutnost studenatana predavanjima/vježbama klasificiraju u tri kategorije na sljedeći način:

Prisutnost studenta na p/v Pridružena kategorija

student sa p/v nije nikada izostao 1student je sa p/v izostao samo jednom 2student je sa p/v izostao barem dva puta 3

• težina kolegija, dostatnost materijala - dvije diskretne numeričke varijable kojasadrže subjektivne ocjene (u standardnoj skali od 1 do 5) promatranih stude-nata za težinu kolegija i dostatnost dostupnih materijala za pripremanje ispitaiz promatranog kolegija.

Zadatak 2.2 Na sličan način proanalizirajte sljedeće baze podataka:

a) baza podataka TV-program.sta sastoji se od sljedećih varijabli:

– varijabla spol sadrži informaciju o spolu ispitanika,

– varijable HRT1, HRT2, NovaTV i RTL sadrže subjektivne ocjene kvaliteteljetne programske sheme navedenih televizijskih programa,

– varijabla prosjek sadrži prosječnu ocjenu kvalitete ljetne programske shemenavedenih televizijskih programa.

b) Baza podataka zdravlje.sta sadrži neke zdravstvene podatke anketiranih ispitanika:

– varijable godine i spol sadrže podatke o starosti u godinama i spolu ispi-tanika;

– vrijednosti varijable zdravlje su subjektivne ocjene vlastitog zdravstvenogstanja ispitanika;

– varijabla broj-pregleda sadrži informacije o ukupnom broju zdravstvenih pre-gleda svakog ispitanika u tekućoj kalendarskoj godini;

– varijabla dodatno-zdravstveno sadrži podatke o dodatnom zdravstvenom os-iguranju svakog ispitanika (1 - ispitanik je dodatno osiguran; 0 - ispitaniknije dodatno osiguran);

– varijabla cijena sadrži cijenu u kunama najskupljeg zdravstvenog pregledasvakog ispitanika (u tekućoj kalendarskoj godini).

Zadatak 2.3 U bazi podataka navike.sta nalaze se rezultati praćenja životnih navikasvakog pojedinca iz uzorka u vremenskom periodu od 300 dana. Bilježeni su podaci obroju različitih dnevnih novina koje je prelistao (varijablaDnevne_novine), broju televizijskih vijesti koje je gledao na raličitim TV kanalima(varijabla TV_vijesti) te broju kava koje je popio (varijabla Kava), a sve to na bazijednog dana. U varijabli Vrijeme nalaze se podaci o vremenskim prilikama svakog odpromatranih dana. Odredite tipove varijabli.

Page 13: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Prikupljanje i organizacija podataka 13

Zadatak 2.4 U bazi podataka gorivo.sta nalaze se podaci o udaljenosti od radnogmjesta (varijabla Udaljenost_posao) i mjesečnim troškovima za gorivo (varijabla Troskovi_gorivo)za 100 slučajno odabranih zaposlenih ljudi. Odredite tipove varijabli.

Page 14: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Poglavlje 3

Deskriptivna statistika

3.1 Metode opisivanja kvalitativnih podataka

Kvalitativne varijable primaju vrijednosti koje su razvrstane u kate-gorije.

Primjer 3.1 Svaki čovjek prema spolu pripada jednoj od dvije kategorije (ženskomspolu - Ž ili muškom spolu - M), a prema tipu svoje krvne grupe jednoj od četirikategorije (A, B, AB ili 0). Raspolažemo podacima o spolu i tipu krvne grupe zadeset ispitanika:

ispitanik spol krvna grupa

1 Ž A2 Ž B3 M 0

4 Ž 0

5 M AB6 M B7 Ž B8 M A9 Ž AB10 Ž A

Iz prethodne tablice vidimo da je za svakog ispitanika iz promatranog uzorka vrijed-nost varijable spol pripada kategoriji M ili kategoriji Ž, a vrijednost varijable krvnagrupa jednoj od kategorija A, B, AB ili 0. Prema tome, varijable spol i krvnagrupa su kvalitativne varijable. Informacije koje je moguće dobiti iz prethodnetablice vezane su uz zastupljenost pojedine kategorije u promatranom uzorku. Takoje npr. moguće dobiti odgovore na sljedeća i slična pitanja:

• Koliko ispitanika ženskog spola ima u promatranom uzorku?

• Koliki je udio ispitanika s krvnom grupom 0 u promatranom uzorku?

14

Page 15: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 15

• Koliko ispitanika ženskog spola iz promatranog uzorka ima krvnu grupu A?

• Koliki udio od ispitanika muškog spola iz promatranog uzorka ima krvnu grupuB ili AB?

Kako izmjeriti zastupljenost pojedine kategorije u uzorku?

• Osnovna mjera kojom opisujemo zastupljenost jedne kategorije u uzorku jefrekvencija kategorije:

Neka varijabla, koju ćemo označiti X, ima k kategorija (recimok = 5 znači da varijabla ima 5 kategorija). Označimo pojedine kat-egorije kao x1, x2, . . . , xk, odnosno, u drugom zapisu xi : i = 1, . . . , k.Frekvencija kategorije xi je broj izmjerenih vrijednosti varijablekoje pripadaju kategoriji xi, i = 1, . . . , k. Frekvenciju kategorije xi

označavamofi.

Frekvencija pojedine kategorije ovisi o broju izvršenih mjeranja, tj. dimenzijiuzorka.

• Da bismo lakše usporedili i tumačili rezultate raznih istraživanja, u opisu zastu-pljenosti jedne kategorije u uzorku često koristimo i relativnu frekvencijukategorije:

Relativna frekvencija kategorije xi je broj izmjerenih vrijednostivarijable koje pripadaju kategoriji xi podijeljen s ukupnim brojemizmjerenih vrijednosti za ispitivanu varijablu, i = 1, . . . , k. Ako jen dimenzija uzorka, tj. broj svih izmjerenih vrijednosti ispitivanevarijable, relativnu frekvenciju kategorije xi računamo kao

fin.

Relativna frekvencija kategorije je mjera zastupljenosti koja daje informaciju oudjelu kategorije u uzorku poznate dimenzije i često se izražava kao postotak.

Frekvencije i relativne frekvencije pojedinih kategorija prikazujemo tablično i grafički.

Page 16: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 16

3.1.1 Tablični prikaz frekvencija i relativnih frekvencija

U tabličnom prikazu frekvencija i relativnih frekvencija trebaju biti zastupljene svekategorije promatrane varijable.

Primjer 3.2 Tablica frekvencija i relativnih frekvencija za sve kategorije varijable spoliz primjera 3.1:

spol frekvencija relativna frekvencija

Ž 6 6/10 = 0.6 = 60%

M 4 4/10 = 0.4 = 40%

Tablica frekvencija i relativnih frekvencija za sve kategorije varijable krvna grupaiz primjera 3.1:

krvna grupa frekvencija relativna frekvencija

A 3 3/10 = 0.3 = 30%

B 3 3/10 = 0.3 = 30%

AB 2 2/10 = 0.2 = 20%

0 2 2/10 = 0.2 = 20%

Od velike važnosti su i kategorizirane tablice frekvencija i relativnih frekvencija. Pro-motrimo takve tablice za izmjerene vrijednosti varijable krvna grupa kategoriziraneprema spolu ispitanika:

spol = Žkrvna grupa frekvencija relativna frekvencija

A 2 2/6

B 2 2/6

AB 1 1/6

0 1 1/6

spol = Mkrvna grupa frekvencija relativna frekvencija

A 1 1/4 = 0.25 = 25%

B 1 1/4 = 0.25 = 25%

AB 1 1/4 = 0.25 = 25%

0 1 1/4 = 0.25 = 25%

Odgovori na pitanja postavljena u primjeru 3.1 su redom:

• U uzorku ima šest ispitanika ženskog spola (tj. frekvencija žena u uzorku ješest).

• U uzorku ima 20% ispitanika s krvnom grupom 0 (tj. relativna frekvenicja krvnegrupe nula u uzorku je 20%).

Page 17: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 17

• U uzorku ima dvije žene s krvnom grupom A (tj. frekvencija žena s krvnomgrupom A u uzorku je dva).

• Od svih ispitanika muškog spola njih 50% ima krvnu grupu B ili AB.

Zadatak 3.1 U programskom paketu Statistica napravite bazu koja sadrži podatke ospolu i krvnoj grupi za deset ispitanika iz primjera 3.1.

a) Napravite tablice frekvencija i relativnih frekvencija za izmjerene vrijednostivarijabli krvna grupa i spol.

b) Napravite tablice frekvencija i relativnih frekvencija za izmjerene vrijednostivarijabli spol kategorizirane prema krvnoj grupi ispitanika.

Rješenje:

a) Statistics → Basic Statistics/Tables → Freq. Tables → Variables → Summary

Frequency table: krvna grupa (KrvnaGrupa_Spol.sta)

CategoryCount Cumulative

CountPercent Cumulative

PercentABABOMissing

3 3 30,00000 30,00003 6 30,00000 60,00002 8 20,00000 80,00002 10 20,00000 100,00000 10 0,00000 100,0000

Frequency table: spol (KrvnaGrupa_Spol.sta)

CategoryCount Cumulative

CountPercent Cumulative

PercentŽMMissing

6 6 60,00000 60,00004 10 40,00000 100,00000 10 0,00000 100,0000

krvna grupa spol

b) Kategorizirane tablice frekvencija i relativnih frekvencija - budući želimo pro-matrati vrijednosti varijable spol kategorizirane prema krvnoj grupi ispitanikapodatke moramo profiltrirati, tj. moramo zadati uvjet prema kojemu će u daljnjuanalizu biti uključena samo uvjetom određena kategorija podataka:

Selection → označiti Enable Selection Conditions → pod Include Cases odabratiopciju "Specific, selected by expression" (u polje za unos teksta upisati krvnagrupa="A" ako želimo u obzir uzeti samo ispitanike s krvnom grupom A (analognopostavljete uvjete krvna grupa="B" za krvnu grupu B, krvna grupa="AB" zakrvnu grupu AB, krvna grupa="O" za krvnu grupu O) → OK.

Page 18: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 18

Frequency table: spol (KrvnaGrupa_Spol.sta)Include condition: krvna_grupa="A"

CategoryCount Cumulative

CountPercent Cumulative

PercentŽMMissing

2 2 66,66667 66,66671 3 33,33333 100,00000 3 0,00000 100,0000

Frequency table: spol (KrvnaGrupa_Spol.sta)Include condition: krvna_grupa="B"

CategoryCount Cumulative

CountPercent Cumulative

PercentŽMMissing

2 2 66,66667 66,66671 3 33,33333 100,00000 3 0,00000 100,0000

kategorija: krvna grupa A kategorija: krvna grupa B

Frequency table: spol (KrvnaGrupa_Spol.sta)Include condition: krvna_grupa="O"

CategoryCount Cumulative

CountPercent Cumulative

PercentŽMMissing

1 1 50,00000 50,00001 2 50,00000 100,00000 2 0,00000 100,0000

Frequency table: spol (KrvnaGrupa_Spol.sta)Include condition: krvna_grupa="AB"

CategoryCount Cumulative

CountPercent Cumulative

PercentŽMMissing

1 1 50,00000 50,00001 2 50,00000 100,00000 2 0,00000 100,0000

kategorija: krvna grupa O kategorija: krvna grupa AB

Primjer 3.3 Proučite podatke u dokumentima tablica.xls i graf.xls te proanalizirajtetablice frekvencija i relativnih frekvencija kategorija za varijable kvalitativnog tipa.

Zadatak 3.2 (hormon.sta, nalaz.sta)U bazama podataka hormon.sta i nalaz.sta pomoću programskog paketa Statisticaodredite frekvencije i relativne frekvencije svih kategorija za varijable koje smatratekvalitativnima. Rezultate prikažite tablično.

Rješenje:Tablice frekvencija i relativnih frekvencija za kvalitativne varijable s najvećim bro-jem kategorija: Statistics → Basic Statistics/Tables → Freq. Tables → Variables →Summary

Frequency table: dijagnoza (hormon.STA)

CategoryCount Cumulative

CountPercent Cumulative

PercentGE bU bU zE zMissing

21 21 25,60976 25,60984 25 4,87805 30,4878

30 55 36,58537 67,073213 68 15,85366 82,926814 82 17,07317 100,0000

0 82 0,00000 100,0000

Frequency table: skupina (Nalaz.sta)

CategoryCount Cumulative

CountPercent Cumulative

Percentg1: g1g2: g2g3: g3g4: g4g5: g5g6: g6g7: g7g8: g8g9Missing

10 10 9,80392 9,80395 15 4,90196 14,7059

15 30 14,70588 29,411811 41 10,78431 40,196111 52 10,78431 50,9804

9 61 8,82353 59,80399 70 8,82353 68,6275

11 81 10,78431 79,411821 102 20,58824 100,0000

0 102 0,00000 100,0000

hormon.sta nalaz.sta

3.1.2 Grafički prikazi frekvencija i relativnih frekvencija

Frekvencije i relativne frekvencije kategorija kvalitativnih varijabli grafički prikazu-jemo pomoću histograma frekvencija i histograma relativnih frekven-cija. U istu svrhu može se koristiti i strukturirani krug frekvencija i relativnih

Page 19: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 19

frekvencija (strukturirani krug se često naziva kružni dijagram, a popularni nazivza isti grafički prikaz je "pita").

Primjer 3.4 Grafički prikažite frekvencije i relativne frekvencije kategorija kvalita-tivnih varijabli iz dokumenata tablica.xls i graf.xls.

Primjer 3.5 (hormon.sta)U bazi podataka hormon.sta odredite frekvencije i relativne frekvencije svih kategorijaza varijable koje smatrate kvalitativnima. Rezultate prikažite grafički koristeći pro-gramski paket Statistica.

Rješenje: Histogrami i kružni dijagrami frekvencija i relativnih frekvencija za kvalita-tivnu varijablu kava su prikazani na sljedećim slikama:

• histogram frekvencija: Statistics → Basic Statistics/Tables → Frequency Tables→ Choose variables → Histograms

• histogram frekvencija i relativnih frekvencija: Graphs → Histograms → Choosevariables → Advanced → Pod "Y axis" uključiti "% and N" → OK

Histogram: dijagnoza

G E b U b U z E z

Category

0

5

10

15

20

25

30

35

No.

of o

bs.

Histogram of dijagnoza

G E b U b U z E z

dijagnoza

0

5

10

15

20

25

30

35

No

of o

bs

0%

6%

12%

18%

24%

30%

37%

43%

• strukturirani krugovi: Graphs → 2D Graphs → Graph type (opcija "Pie Chart- Counts") → Choose variables → Advanced → Pie Legend - odabrati opciju"Text and Value" za kružni dijagram frekvencija, a opciju "Text and Percent"za kružni dijagram relativnih frekvencija → OK.

Pie Chart of dijagnoza

dijagnoza

G; 21

E b; 4

E z; 14

U z; 13

U b; 30

G; 21

E b; 4

E z; 14

U z; 13

U b; 30

Pie Chart of dijagnoza

dijagnoza

G; 26%

E b; 5%

E z; 17%

U z; 16%

U b; 37%

G; 26%

E b; 5%

E z; 17%

U z; 16%

U b; 37%

Page 20: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 20

Zadatak 3.3 (nalaz.sta)U bazi podataka nalaz.sta odredite frekvencije i relativne frekvencije svih kategorijaza varijable koje smatrate kvalitativnima.

a) Rezultate prikažite grafički koristeći programski paket Statistica.

b) Varijabla stupanj je kvalitativna varijabla čije su vrijednosti kategoriziraneu deset kategorija: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. Za koliko ispitanika je vrijednostvarijable stupanj manja od tri, za koliko je vrijednost barem četiri ali manjaod sedam, a za koliko je vrijednost barem osam?

c) Za frekvencije iz zadatka a) odredite pripadne relativne frekvencije.

Rješenje:

a) Histogram frekvencija i relativnih frekvencija te strukturirani krug relativnihfrekvencija:

Histogram of stupanj

1 2 3 4 5 6 7 8 9 10

stupanj

0

2

4

6

8

10

12

14

No

of o

bs

0%

2%

4%

6%

8%

10%

12%

14%

Pie Chart of stupanj

stupanj

1; 12%

2; 11%

3; 12%

4; 9%

10; 9%

9; 8%

8; 8%

7; 12%

6; 10%

5; 11%

1; 12%

2; 11%

3; 12%

4; 9%

10; 9%

9; 8%

8; 8%

7; 12%

6; 10%

5; 11%

b) Frekvencija ispitanika za koje je vrijednost varijable stupanj manja od tri je23, frekvencija ispitanika za koje je vrijednost barem četiri ali manja od sedamje 30, a frekvencija ispitanika za koje je vrijednost barem osam je 25.

c) Pripadne relativne frekvencije su redom 23/102 ≈ 22.55%, 30/102 ≈ 29.41% i25/102 ≈ 24.51%.

Zadatak 3.4 (bebe.sta)U bazi podataka bebe.sta nalazi se dio podataka o nekim ocjenama tek rođene bebe,načinu poroda i majci iz istraživanja koje je provedeno u jednoj bolnici. Odreditefrekvencije i relativne frekvencije svih kategorija za varijable koje smatrate kvalita-tivnima.

a) Rezultate prikažite tablično i grafički koristeći programski paket Statistica.

b) Varijabla spol je kvalitativna varijabla čije vrijednosti pripadaju jednoj od dvijekategorije: Ž ako je novorođenče djevojčica i M ako je novorođenče dječak. Imali u ovom uzorku više djevojčica ili dječaka?

Page 21: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 21

Rješenje:

a) Tablični i grafički prikaz frekvencija i relativnih frekvencija za kategorije vari-jable spol:

Frequency table: Spol (bebe.sta)

CategoryCount Cumulative

CountPercent Cumulative

PercentMŽMissing

178 178 52,19941 52,1994160 338 46,92082 99,1202

3 341 0,87977 100,0000

Histogram of Spol

M Ž

Spol

0

20

40

60

80

100

120

140

160

180

200

No

of o

bs

0%

6%

12%

18%

24%

30%

36%

41%

47%

53%

59%

tablica frekvencija i relativnih frekvencija histogram frekvencija i relativnih frekvencija

Pie Chart of Spol

Spol

Ž; 160

M; 178

Ž; 160

M; 178

Pie Chart of Spol

Spol

Ž; 47%

M; 53%

Ž; 47%

M; 53%

strukturirani krug frekvencija strukturirani krug relativnih frekvencija

b) Uzorkom je obuhvaćeno 341 novorođenče, od čega za njih troje nije zabilježenspol. U uzorku od 338 novorođenčadi za koje znamo informaciju o spolu ima 160

djevojčica i 178 dječaka. Pripadne relativne frekvencije su 160/341 ≈ 46.92% zadjevojčice i 178/341 ≈ 53.08% za dječake. Dakle, u uzorku ima više dječaka.

Zadatak 3.5 (navike.sta)U bazi podataka navike.sta odredite frekvencije i relativne frekvencije svih kategorijaza varijable koje smatrate kvalitativnima.

a) Rezultate prikažite tablično i grafički koristeći programski paket Statistica.

b) Varijabla raspolozenje je kvalitativna varijabla čije vrijednosti pripadaju jed-noj od tri kategorije: D (dobro raspoloženje), O (osrednje raspoloženje) i L(lože raspoloženje). Koliko je ispitanika dobro raspoloženo? Je li više ispitanikaraspoloženo dobro ili osrednje ili ih je više lošeg raspoloženja?

Page 22: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 22

Rješenje:

a) Tablični i grafički prikaz frekvencija i relativnih frekvencija za kategorije vari-jable raspoloženje:

Frequency table: Raspolozenje (navike.sta)

CategoryCount Cumulative

CountPercent Cumulative

PercentDOLMissing

84 84 28,00000 28,000084 168 28,00000 56,0000

132 300 44,00000 100,00000 300 0,00000 100,0000

Histogram of Raspolozenje

D O L

Raspolozenje

0

20

40

60

80

100

120

140

No

of o

bs

0%

7%

13%

20%

27%

33%

40%

47%

tablica frekvencija i relativnih frekvencija histogram frekvencija i relativnih frekvencija

Pie Chart of Raspolozenje

Raspolozenje

D; 84

L; 132

O; 84

D; 84

L; 132

O; 84

Pie Chart of Raspolozenje

Raspolozenje

D; 28%

L; 44%

O; 28%

D; 28%

L; 44%

O; 28%

strukturirani krug frekvencija strukturirani krug relativnih frekvencija

b) Uzorkom je obuhvaćeno 300 ispitanika. Dobro je raspoloženo njih 84, što čini84/300 = 28% od ukupnog broja ispitanika. Osrednje je raspoloženo također84 (28%) ispitanika, a loše njih 132 (44%). Dakle, više je ispitanika koji suraspoloženi dobro ili osrednje - u te dvije kategorije spada 168 (56 %) ispitanika.

3.2 Metode opisivanja numeričkih podataka

Numerički podaci mogu biti ili diskretni ili kontinuirani.

Primjer 3.6 (hormon.sta, anketa.sta)Proučite numeričke podatke u bazama hormon.sta i anketa.sta. Koje su numeričkevarijable diskretne a koje kontinuirane?

Rješenje:

Page 23: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 23

• hormon.sta - niti jedna numerička varijabla nije diskretna

• anketa.sta - diskretne numeričke varijable su težina kolegija i dostatnostmaterijala.

Primjer 3.7 Proučite numeričke podatke u bazama cijena.sta i komarci.sta. Koje sunumeričke varijable diskretne a koje kontinuirane?

Ako su numeričke varijable diskretne, možemo u opisu mjerenih vrijednosti za tevarijable ponovo primijeniti frekvencije i relativne frekvencije pojedine kat-egorije, odnosno grafički prikazati podatke histogramima i strukturiranim kru-govima.

Primjer 3.8 (anketa.sta)Za jednu diskretnu numeričku varijablu iz baze podataka anketa.sta odredite frekven-cije i relativne frekvencije svih kategorija.

a) Rezultate prikažite tablično i grafički koristeći programski paket Statistica.

b) Varijabla težina kolegija je diskretna numerička varijabla čije vrijednostipripadaju jednoj od pet kategorija (1, 2, 3, 4, 5). Te su kategorije zapravo sub-jektivne ocjene kojima su ispitanici ocijenili težinu kolegija (1 - kolegij je bio jakotežak; 5 - kolegij je bio jednostavan). Koliko ispitanika je težinu kolegija ocije-nilo ocjenom većom od 3? S obzirom na udio ispitanika koji su težinu kolegijaocijenili s 3, koliko ih je težinu kolegija ocijenilo s 4?

Rješenje:

a) Tablica frekvencija i relativnih frekvencija za varijablu težina kolegija:Statistics→ Basic Statistics/Tables→ Frequency Tables→ Choose variables→Summary;

Frequency table: težina kolegija (anketa.sta)

CategoryCount Cumulative

CountPercent Cumulative

Percent1345Missing

1 1 2,04082 2,04089 10 18,36735 20,4082

18 28 36,73469 57,142921 49 42,85714 100,0000

0 49 0,00000 100,0000

Histogram frekvencija i relativnih frekvencija za varijablu težina kolegija:Graphs→ Histograms→ Choose variables→ Advanced→ Pod "Y axis" uključiti"% and N" → OK.

Page 24: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 24

Histogram of težina kolegija

1 2 3 4 5

težina kolegija

0

2

4

6

8

10

12

14

16

18

20

22

No

of o

bs

0%

4%

8%

12%

16%

20%

24%

29%

33%

37%

41%

45%

Strukturirani krug relativnih frekvencija za varijablu težina kolegija:Graphs → 2D Graphs → Graph type (opcija "Pie Chart - Counts") → Choosevariables → Advanced → Pie Legend - odabrati opciju "Text and Percent" zastrukturirani krug relativnih frekvencija (analogno, odabrati opciju "Text andValue" za strukturirani krug frekvencija → OK.

Pie Chart of težina kolegija

težina kolegija

1; 2%

3; 18%

5; 43%

4; 37%

1; 2%

3; 18%

5; 43%

4; 37%

b) Ocjenom većom od 3 težinu kolegija je ocijenilo čak 39 ispitanika, tj. čak 39/49 ≈79.59% od ukupnog broja ispitanika. Ocjenom 3 težinu kolegija ocijenilo je 9

(9/49 ≈ 18.37%), a ocjenom 4 čak 18 (18/49 ≈ 36.73%) ispitanika. Dakle,dvostruko više ispitanika težinu kolegija ocijenilo je ocjenom 4 nego ocjenom 3.

Primjer 3.9 (zdravlje.sta)Za kvalitativne i diskretne numeričke varijable iz baze podataka zdravlje.sta napravitesljedeće tablične i grafičke prikaze:

a) napravite tablice i nacrtajte histograme frekvencija i relativnih frekvencija zapodatke sadržane u varijablama zdravlje i spol,

b) napravite tablice i nacrtajte histograme frekvencija i relativnih frekvencija zapodatke sadržane u varijabli zdravlje posebno za kategoriju ispitanika ženskogspola, a posebno za kategoriju ispitanika muškog spola,

Page 25: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 25

c) nacrtajte zajednički histogram frekvencija i relativnih frekvencija svih podatakasadržanih u varijabli zdravlje kategoriziran prema spolu ispitanika,

d) nacrtajte strukturirane krugove frekvencija i relativnih frekvencija kategorija zapodatke sadržane u varijablama spol i zdravlje,

e) nacrtajte strukturirane krugove relativnih frekvencija za podatke sadržane uvarijabli zdravlje posebno za kategoriju ispitanika ženskog spola, a posebnoza kategoriju ispitanika muškog spola.

Rješenje:

a) Tablica i histogram frekvencija i relativnih frekvencija za kategorije varijablespol:

Frequency table: spol (zdravlje.sta)

CategoryCount Cumulative

CountPercent Cumulative

PercentZ: ženaM: muškaracMissing

11 11 22,00000 22,000039 50 78,00000 100,0000

0 50 0,00000 100,0000

Histogram of spol

Z M

spol

0

5

10

15

20

25

30

35

40

45

No

of o

bs

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

Tablica i histogram frekvencija i relativnih frekvencija za kategorije varijable zdravlje:

Frequency table: zdravlje (zdravlje.sta)

CategoryCount Cumulative

CountPercent Cumulative

Percent12345Missing

4 4 8,00000 8,00008 12 16,00000 24,0000

18 30 36,00000 60,000012 42 24,00000 84,0000

8 50 16,00000 100,00000 50 0,00000 100,0000

Histogram of zdravlje

1 2 3 4 5

zdravlje

0

2

4

6

8

10

12

14

16

18

20

No

of o

bs

0%

4%

8%

12%

16%

20%

24%

28%

32%

36%

40%

b) Da bismo dobili kategorizirane tablične i grafičke prikaze kategorija varijablezdravlje grupirane prema spolu ispitanika podatke moramo profiltrirati, tj.moramo zadati uvjet prema kojemu će u daljnju analizu biti uključena samouvjetom određena kategorija podataka:

Selection → označiti Enable Selection Conditions → pod Include Cases odabratiopciju "Specific, selected by expression" (u polje za unos teksta upisati spol="Z"

Page 26: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 26

ako želimo u obzir uzeti samo ispitanike ženskog spola (analogno postavljeteuvjete spol="M" ako želimo u obzir uzeti samo ispitanike muškog spola) → OK.

Frequency table: zdravlje (zdravlje.sta)Include condition: spol="Z"

CategoryCount Cumulative

CountPercent Cumulative

Percent12345Missing

1 1 9,09091 9,09092 3 18,18182 27,27275 8 45,45455 72,72732 10 18,18182 90,90911 11 9,09091 100,00000 11 0,00000 100,0000

Histogram of zdravljezdravlje.sta 6v*50c

Include condition: spol="Z"

1 2 3 4 5

zdravlje

0

1

2

3

4

5

6

No

of o

bs

0%

9%

18%

27%

36%

45%

55%

Frequency table: zdravlje (zdravlje.sta)Include condition: spol="M"

CategoryCount Cumulative

CountPercent Cumulative

Percent12345Missing

3 3 7,69231 7,69236 9 15,38462 23,0769

13 22 33,33333 56,410310 32 25,64103 82,0513

7 39 17,94872 100,00000 39 0,00000 100,0000

Histogram of zdravljeInclude condition: spol="M"

1 2 3 4 5

zdravlje

0

2

4

6

8

10

12

14

No

of o

bs

0%

5%

10%

15%

21%

26%

31%

36%

c) Zajednički histogram frekvencija i relativnih frekvencija svih podataka sadržanihu varijabli zdravlje kategoriziran prema spolu ispitanika:

Graphs→ Categorized Graphs→ Histograms→ Variables (Variable - zdravlje,X-Category - spol) → Layout (Separate - za odvojene histograme kategorijavarijable zdravlje kategoriziranih s obzirom na vrijednosti varijable spol;Overlaid - za prikaz frekvencija kategorija varijable zdravlje kategoriziranihs obzirom na vrijednosti varijable spol na istom histogramu)

Histogram of zdravlje; categorized by spol

zdravlje

No

of o

bs

spol: Z

1 2 3 4 50

2

4

6

8

10

12

14

spol: M

1 2 3 4 5

Histogram of zdravlje; categorized by spol

zdravlje

No

of o

bs

spol: Zspol: M

1 2 3 4 50

2

4

6

8

10

12

14

Page 27: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 27

d) Strukturirani krugovi frekvencija i relativnih frekvencija kategorija za podatkesadržane u varijablama spol i zdravlje:

Graphs → 2D Graphs → Graph type (opcija "Pie Chart - Counts") → Choosevariables → Advanced → Pie Legend - odabrati opciju "Text and Value" zakružni dijagram frekvencija, a opciju "Text and Percent" za kružni dijagramrelativnih frekvencija → OK.

Pie Chart of spol

spol

Z; 22%

M; 78%

Z; 22%

M; 78%

Pie Chart of zdravlje

zdravlje

1; 8%

2; 16%

5; 16%

4; 24%

3; 36%

1; 8%

2; 16%

5; 16%

4; 24%

3; 36%

e) Strukturirani krugovi relativnih frekvencija za podatke sadržane u varijabli zdravljekategorizirani prema spolu ispitanika:

Graphs→ Categorized Graphs→ Pie Charts→ Graph Type: Pie Chart - Counts→ Variables (Vars - zdravlje, X-Category - spol)→ Advanced→ Pie Legend(Text and Value za kružne dijagrame frekvencija, Text and Percent za kružnedijagrame relativnih frekvencija)

zdravlje.sta

zdravljespol: Z

1; 9%

2; 18%

5; 9%

4; 18%

3; 45%

spol: M

1; 8%

2; 15%

5; 18%

4; 26%

3; 33%

1; 9%

2; 18%

5; 9%

4; 18%

3; 45%

1; 8%

2; 15%

5; 18%

4; 26%

3; 33%

Page 28: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 28

Zadatak 3.6 (TV-program.sta)Za kvalitativne i diskretne numeričke varijable iz baze podataka TV-program.sta napravitesljedeće tablične i grafičke prikaze:

a) napravite tablice i nacrtajte histograme frekvencija i relativnih frekvencija zapodatke sadržane u varijablama spol i HRT1,

b) napravite tablice i nacrtajte histograme frekvencija i relativnih frekvencija zapodatke sadržane u varijabli HRT1 posebno za kategoriju ispitanika ženskogspola, a posebno za kategoriju ispitanika muškog spola,

c) nacrtajte zajednički histogram frekvencija i relativnih frekvencija svih podatakasadržanih u varijabli HRT1 kategoriziran prema spolu ispitanika,

d) nacrtajte kružne dijagrame frekvencija i relativnih frekvencija za podatke sadržaneu varijablama spol i NovaTV,

e) nacrtajte kružne dijagrame relativnih frekvencija za podatke sadržane u varijabliNovaTV posebno za kategoriju ispitanika ženskog spola, a posebno za kategorijuispitanika muškog spola.

Rješenje:

a) Tablica i histogram frekvencija i relativnih frekvencija za kategorije varijablespol:

Frequency table: spol (TV_program.sta)

CategoryCount Cumulative

CountPercent Cumulative

PercentmzMissing

54 54 54,00000 54,000046 100 46,00000 100,0000

0 100 0,00000 100,0000

Histogram of spol

m z

spol

0

10

20

30

40

50

60

No

of o

bs

0%

10%

20%

30%

40%

50%

60%

Tablica i histogram frekvencija i relativnih frekvencija za kategorije varijable HRT1:

Page 29: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 29

Frequency table: HRT1 (TV_program.sta)

CategoryCount Cumulative

CountPercent Cumulative

Percent2345Missing

43 43 43,00000 43,000028 71 28,00000 71,000021 92 21,00000 92,0000

8 100 8,00000 100,00000 100 0,00000 100,0000

Histogram of HRT1

2 3 4 5

HRT1

0

5

10

15

20

25

30

35

40

45

No

of o

bs

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

b) Da bismo dobili kategorizirane tablične i grafičke prikaze kategorija varijableHRT1 grupirane prema spolu ispitanika podatke moramo profiltrirati, tj. moramozadati uvjet prema kojemu će u daljnju analizu biti uključena samo uvjetomodređena kategorija podataka:

Selection → označiti Enable Selection Conditions → pod Include Cases odabratiopciju "Specific, selected by expression" (u polje za unos teksta upisati spol="z"ako želimo u obzir uzeti samo ispitanike ženskog spola (analogno postavljeteuvjete spol="m" ako želimo u obzir uzeti samo ispitanike muškog spola) → OK.

Frequency table: HRT1 (TV_program.sta)Include condition: spol="z"

CategoryCount Cumulative

CountPercent Cumulative

Percent2345Missing

23 23 50,00000 50,000011 34 23,91304 73,9130

8 42 17,39130 91,30434 46 8,69565 100,00000 46 0,00000 100,0000

Histogram of HRT1Include condition: spol="z"

2 3 4 5

HRT1

0

2

4

6

8

10

12

14

16

18

20

22

24

No

of o

bs

0%

4%

9%

13%

17%

22%

26%

30%

35%

39%

43%

48%

52%

Frequency table: HRT1 (TV_program.sta)Include condition: spol="m"

CategoryCount Cumulative

CountPercent Cumulative

Percent2345Missing

20 20 37,03704 37,037017 37 31,48148 68,518513 50 24,07407 92,5926

4 54 7,40741 100,00000 54 0,00000 100,0000

Histogram of HRT1Include condition: spol="m"

2 3 4 5

HRT1

0

2

4

6

8

10

12

14

16

18

20

22

No

of o

bs

0%

4%

7%

11%

15%

19%

22%

26%

30%

33%

37%

41%

c) Zajednički histogram frekvencija i relativnih frekvencija svih podataka sadržanih

Page 30: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 30

u varijabli HRT1 kategoriziran prema spolu ispitanika:

Graphs → Categorized Graphs → Histograms → Variables (Variable - zdravlje,X-Category - spol) → Layout (Separate - za odvojene histograme kategorija var-ijable HRT1 kategoriziranih s obzirom na vrijednosti varijable spol; Overlaid -za prikaz frekvencija kategorija varijable HRT1 kategoriziranih s obzirom na vri-jednosti varijable spol na istom histogramu)

Histogram of HRT1; categorized by spolTV_program.sta

HRT1

No

of o

bs

spol: m

2 3 4 50

2

4

6

8

10

12

14

16

18

20

22

24

spol: z

2 3 4 50%

2%

4%

6%

8%

10%

12%

14%

16%

18%

20%

22%

24%

Histogram of HRT1; categorized by spolTV_program.sta

HRT1

No

of o

bs

spol: mspol: z

2 3 4 50

2

4

6

8

10

12

14

16

18

20

22

24

0%

2%

4%

6%

8%

10%

12%

14%

16%

18%

20%

22%

24%

d) Strukturirani krugovi frekvencija i relativnih frekvencija kategorija za podatkesadržane u varijablama spol i NovaTV:

Graphs → 2D Graphs → Graph type (opcija "Pie Chart - Counts") → Choosevariables → Advanced → Pie Legend - odabrati opciju "Text and Value" zakružni dijagram frekvencija, a opciju "Text and Percent" za kružni dijagramrelativnih frekvencija → OK.

Pie Chart of spol

spol

z; 46%

m; 54%

z; 46%

m; 54%

Pie Chart of NovaTVTV_program.sta

NovaTV

2; 39%

5; 15%

4; 11%

3; 35%

2; 39%

5; 15%

4; 11%

3; 35%

e) Strukturirani krugovi relativnih frekvencija za podatke sadržane u varijabli No-vaTV kategorizirani prema spolu ispitanika:

Graphs→ Categorized Graphs→ Pie Charts→ Graph Type: Pie Chart - Counts→ Variables (Vars - NovaTV, X-Category - spol) → Advanced → Pie Legend

Page 31: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 31

(Text and Value za kružne dijagrame frekvencija, Text and Percent za kružnedijagrame relativnih frekvencija)

TV_program.sta

NovaTVspol: m

2; 37%

5; 17%

4; 9%

3; 37%

spol: z

2; 41%

5; 13%

4; 13%

3; 33%

2; 37%

5; 17%

4; 9%

3; 37%

2; 41%

5; 13%

4; 13%

3; 33%

Primjer 3.10 Odredite tablicu, histogram i strukturirani krug za prikaz frekvencijajedne od varijabli iz baze komarci.sta po izboru. Uočite da su histogram i strukturiranikrug vrlo nepraktični za prikazivanje kategorija kvalitativnih ili diskretnih numeričkihvarijabli s velikim brojem kategorija.

Ako numerička varijabla nije diskretna, za prikazivanje skupa izm-jerenih vrijednosti neće nam puno pomoći frekvencije, histogrami istrukturirani krugovi napravljeni na osnovu svake pojedine izmjerenevrijednosti.

Primjer 3.11 Zašto? Otvorite bazu podataka komarci.sta i odredite tablicu frekvencijai histogram frekvencija tako da za kategorije uzmete sve međusobno različite izmjerenevrijednosti varijable broj.

3.2.1 Postupak razvrstavanja numeričkih podataka u kategorije

• Najčešće skup svih mjerenih vrijednosti (ili nešto veći skup koji sadrži skup svihmjerenih vrijednosti ali kojega je jednostavnije podijeliti na jednake dijelove)podijelimo na disjunktne intervale jednake duljine.

• Nije nužno da su intervali jednake duljine. Nema točno definiranog pravila pokojemu bi trebalo definirati duljine intervala niti nihov broj, ali je jasno da ihne smije biti niti previše niti premalo da bi cijeli postupak imao smisla i služiosvrsi (a to je u ovom času prikazivanje skupa mjerenih vrijednosti).

Page 32: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 32

• Kriterij za kategorizaciju vrijednosti kontinuirane numeričke varijable treba bititemeljen na razumijevanju problema koji proučavamo, tj. podatke ćemo katego-rizirati na način koji nam omogućava efikasno dobivanje potrebnih informacija.

Primjer 3.12 (komarci.sta)Iskoristite podatke iz baze komarci.sta. Mijenjajte broj intervala na koji dijelite skupvrijednosti. Proučavajte što se događa i pribilježite vaš zaključak.

Zadatak 3.7 (anketa.sta)

a) Odredite tablicu frekvencija i histogram kontinuirane numeričke varijable prosjekiz baze podataka hormon.sta tako da za kategorije uzmete sve međusobno različiteizmjerene vrijednosti te varijable.

b) Iskoristite izmjerene vrijednosti varijable prosjek i mijenjajte broj intervala nakoji vršite podjelu. Proučavajte što se događa i pribilježite vaš zaključak.

c) Kategorizaciju izmjerenih vrijednosti varijable prosjek napravite na način kojivam izravno daje informaciju o frekvenciji i relativnoj frekvenciji studenata kojiimaju prosjek ocjena veći od 3.5.

Rješenje:

a) Zbog prevelikog broja različitih izmjerenih vrijednosti broj kategorija je prevelik irezultat analize najčešće ne daje željene informacije. Na sljedećoj slici prikazanisu histogram frekvencija i relativnih frekvencija te strukturirani krug izmjerenihvrijednosti varijable prosjek u kojima su kao kategorije uzete sve različite izm-jerene vrijednosti:

Histogram of prosjek

2,16

2,45

2,86

2,87

2,88

2,93

3,00

3,16

3,23

3,28

3,35

3,36

3,39

3,43

3,46

3,56

3,57

3,63

3,76

3,98

4,03

4,13

4,16

4,23

4,29

4,36

4,39

4,40

4,43

4,45

4,48

4,56

4,58

4,63

4,67

4,72

4,76

4,83

4,87

4,98

5,00

prosjek

0

1

2

3

4

No

of o

bs

0%

2%

4%

6%

8%

Pie Chart of prosjek

prosjek

2,162,452,862,87

2,882,93

33,16

3,23

3,28

3,35

3,36

3,39

3,433,46

3,563,57

3,633,76

3,984,034,134,16

54,98

4,874,83

4,76

4,724,67

4,63

4,58

4,56

4,484,45

4,434,44,39

4,36

4,29 4,23

2,162,452,862,87

2,882,93

33,16

3,23

3,28

3,35

3,36

3,39

3,433,46

3,563,57

3,633,76

3,984,034,134,16

54,98

4,874,83

4,76

4,724,67

4,63

4,58

4,56

4,484,45

4,434,44,39

4,36

4,29 4,23

b) Budući tablični i grafički prikazi kontinuiranih numeričkih varijabli u kojima kaokategorije uzimamo sve različite izmjerene vrijednosti nisu pregledni, pa stoganiti osobito korisni, pribjegavamo različitim metodama kategoriziranja takvihvarijabli. Ako veliki skup podataka kategoriziramo (podijelimo) u nekoliko dis-junktnih intervala po kriteriju za koji smatramo da će nam dati željene rezultate,

Page 33: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 33

tablični i grafički prikazi frekvencija i relativnih frekvencija postaju pregledniji iinformativniji. Takva dva načina kategorizacije izmjerenih vrijednosti varijableprosjek grafički su prikazani sljedećim histogramoma i strukturiranim krugov-ima:

Histogram of prosjekIzmjerene vrijednosti su kategorizirane u deset disjunknih intervala jednake duljine

2,160 2,444 2,728 3,012 3,296 3,580 3,864 4,148 4,432 4,716 5,000

prosjek

0

1

2

3

4

5

6

7

8

9

10

No

of o

bs

0%

2%

4%

6%

8%

10%

12%

14%

16%

18%

20%

Pie Chart of prosjekIzmjerene vrijednosti su kategorizirane u deset disjunknih intervala jednake duljine

prosjek

<= 2,444; 2% (2,444;2,728]; 2%

(2,728;3,012]; 10%

(3,012;3,296]; 8%

(3,296;3,58]; 14%

(3,58;3,864]; 4%

(3,864;4,148]; 6%

> 4,716; 18%

(4,432;4,716]; 16%

(4,148;4,432]; 18%

<= 2,444; 2% (2,444;2,728]; 2%

(2,728;3,012]; 10%

(3,012;3,296]; 8%

(3,296;3,58]; 14%

(3,58;3,864]; 4%

(3,864;4,148]; 6%

> 4,716; 18%

(4,432;4,716]; 16%

(4,148;4,432]; 18%

Histogram of prosjekIzmjerene vrijednosti su kategorizirane u pet disjunknih intervala jednake duljine

2,160 2,728 3,296 3,864 4,432 5,000

prosjek

0

2

4

6

8

10

12

14

16

18

No

of o

bs

0%

4%

8%

12%

16%

20%

24%

29%

33%

37%

Pie Chart of prosjekIzmjerene vrijednosti su kategorizirane u pet disjunknih intervala jednake duljine

prosjek

<= 2,728; 4%

(2,728;3,296]; 18%

(3,296;3,864]; 18%

> 4,432; 35%

(3,864;4,432]; 24%

<= 2,728; 4%

(2,728;3,296]; 18%

(3,296;3,864]; 18%

> 4,432; 35%

(3,864;4,432]; 24%

c) Počevši od 2.0, izmjerene vrijednosti varijable prosjek kategorizirane su u šestdisjunktnih intervala duljine 0.5. Na taj način jednostavno je dobiti informacijuo zastupljenosti studenata s prosjekom većim od 3.5 u promatranom uzorku -takvih studenata ima 33 (33/49 ≈ 67.35%).

Histogram of prosjekPočevši od 2, izmjerene vrijednosti su kategorizirane u 6 disjunktnih intervala duljine 0.5

1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5

prosjek

0

2

4

6

8

10

12

14

16

No

of o

bs

0%

4%

8%

12%

16%

20%

24%

29%

33%

Pie Chart of prosjekPočevši od 2, izmjerene vrijednosti su kategorizirane u 6 disjunktnih intervala duljine 0.5

prosjek

(2;2,5]

(2,5;3]

(3;3,5]

(3,5;4]

(4,5;5]

(4;4,5]

(2;2,5]

(2,5;3]

(3;3,5]

(3,5;4]

(4,5;5]

(4;4,5]

Zadatak 3.8 (hormon.sta)

Page 34: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 34

a) Odredite tablicu frekvencija i histogram neke od kontinuiranih numeričkih var-ijabli iz baze podataka hormon.sta tako da za kategorije uzmete sve međusobnorazličite izmjerene vrijednosti.

b) Iskoristite izmjerene vrijednosti iste varijable iz baze podataka hormon.sta. Mi-jenjajte broj intervala na koji dijelite skup vrijednosti. Proučavajte što se događai pribilježite vaš zaključak.

Rješenje:

a) Histogram frekvencija i relativnih frekvencija te strukturirani krug izmjerenihvrijednosti varijable Gastr S u kojima su kao kategorije uzete sve različiteizmjerene vrijednosti (analogno za varijable Somat S i Somat Z):

Histogram of Gastr S

16,2338,08

40,5041,86

42,9044,20

45,4048,70

49,8053,30

56,2061,60

68,6682,30

140,30

Gastr S

0

1

2

3

No

of o

bs

0%

1%

3%

4%

Pie Chart of Gastr S

Gastr S

16,2332,536,336,937,638,0839,1139,4

39,6439,7

40,541,241,541,641,741,8641,942,342,742,8

42,943,01

43,143,7

44,144,2

44,344,544,645,345,447,248,2

140,394,293,692,4792,382,376,873,571,6

69,268,6667,5

67,262,7

62,561,6

60,1259,659,3

58,9656,2

55,4955,1

55,0953,7

53,352,02

50,950,749,9749,849,5

49,148,948,848,748,648,5

16,2332,536,336,937,638,0839,1139,4

39,6439,7

40,541,241,541,641,741,8641,942,342,742,8

42,943,01

43,143,7

44,144,2

44,344,544,645,345,447,248,2

140,394,293,692,4792,382,376,873,571,6

69,268,6667,5

67,262,7

62,561,6

60,1259,659,3

58,9656,2

55,4955,1

55,0953,7

53,352,02

50,950,749,9749,849,5

49,148,948,848,748,648,5

b) Promjeri dvaju načina kategorizacije izmjerenih vrijednosti varijable Gastr S(analogno za varijable Somat S i Somat Z):

Histogram of Gastr SIzmjerene vrijednosi kategoritizane su u deset disjunktnih intervala jednake duljine

16,23028,637

41,04453,451

65,85878,265

90,672103,079

115,486127,893

140,300

Gastr S

0

5

10

15

20

25

30

35

40

45

No

of o

bs

0%

6%

13%

19%

26%

32%

38%

45%

51%

58%

Pie Chart of Gastr SIzmjerene vrijednosi kategoritizane su u deset disjunktnih intervala jednake duljine

Gastr S

<= 28,637; 1%

(28,637;41,044]; 17%

> 127,893; 1%(90,672;103,079]; 5%(78,265;90,672]; 1%

(65,858;78,265]; 9%

(53,451;65,858]; 15%

(41,044;53,451]; 50%

<= 28,637; 1%

(28,637;41,044]; 17%

> 127,893; 1%(90,672;103,079]; 5%(78,265;90,672]; 1%

(65,858;78,265]; 9%

(53,451;65,858]; 15%

(41,044;53,451]; 50%

Page 35: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 35

Histogram of Gastr SPočevši od 10, izmjerene su vrijednosti kategorizirane u disjunktne intervale duljine 10

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160

Gastr S

0

5

10

15

20

25

30

35

40N

o of

obs

0%

6%

13%

19%

26%

32%

38%

45%

51%

Pie Chart of Gastr S

Gastr S

(10;20]; 1%

(30;40]; 14%(140;150]; 1%

(90;100]; 5%(80;90]; 1%

(70;80]; 4%

(60;70]; 10%

(50;60]; 18%

(40;50]; 45%

(10;20]; 1%

(30;40]; 14%(140;150]; 1%

(90;100]; 5%(80;90]; 1%

(70;80]; 4%

(60;70]; 10%

(50;60]; 18%

(40;50]; 45%

3.2.2 Mjere centralne tendencije i raspršenosti podataka

Karakteristika numeričkih varijabli je da među njihovim vrijednostima postoji priro-dan uređaj. Na osnovu te činjenice možemo definirati numeričke karakteristike tihvarijabli koje imaju logičnu interpretaciju i mogu se iskoristiti u cilju prikazivanjaskupa mjerenih vrijednosti.

Aritmetička sredinaAritmetička sredina niza izmjerenih vrijednosti x1, x2, . . . , xn varijable X definiranaje izrazom:

x =1

n

n∑i=1

xi

Aritmetička sredina je numerička karakteristika koja spada u mjere centralne tenden-cije, tj. ona mjeri "srednju vrijednost" podataka.

MedijanDa bismo razumjeli i odredili medijan potrebno je prvo poredati izmjerene vrijed-nosti x1, x2, . . . , xn varijable X po veličini (u rastućem poretku, tj. od manjeg premavećem). Medijan je također jedna mjera centralne tendencije kao i aritmetička sred-ina, a ima značenje izmjerene vrijednosti koja se nalazi na sredini niza podataka kadaje on uređen po veličini, tj. baram pola podataka je manje ili jednako medijanu, aistovremeno je barem pola podataka veće ili jednako od medijana.Način njegovog izračuna ovisi o tome da li imamo paran ili neparanbroj izmjerenih vrijednosti za varijablu.Ukoliko imamo neparan broj izmjerenih vrijednosti, onda postoji vrijednost kojaje na srednjoj poziciji u uređenom skupu, pa nju definiramo kao medijan.

Primjer 3.13 Neka su izmjerene vrijednosti jedne varijable sljedeće:

1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3.

Page 36: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 36

Prvo ove vrijednosti poredamo po veličini:

1, 1, 2, 2, 2,2, 3, 5, 5, 6, 7.

Obzirom da ih ima ukupno 11, medijan je vrijednost koja je na šestoj poziciji u takodobivenom nizu, tj. broj 2.

Ukoliko imamo paran broj izmjerenih vrijednosti, onda ne postoji podatak kojije na srednjoj poziciji jer srednju poziciju "zauzimaju" dva podatka. Medijan setada definira kao polovina između ta dva podatka (tj. aritmetička sredina tih dvajupodataka).

Primjer 3.14 Neka su izmjerene vrijednosti jedne varijable sljedeće:

1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3.

Prvo ove vrijednosti poredamo po veličini:

1, 1, 2, 2, 2,2,3, 3, 5, 5, 6, 7.

Obzirom da ima 12 podataka, "sredinu" čine šesti i sedmi podatak, tj. vrijednosti 2 i3. Medijan ovog skupa podataka je sredina ta dva broja, tj. medijan je (2+3)/2 = 2.5.

Postotna vrijednost, donji i gornji kvatilMedijan odgovara pedeset postotnoj vrijednosti obzirom da je barem 50% podatakamanje od medijana i barem 50% podataka veće od medijana. Postotna vrijednostza neki izabrani broj p ∈ 〈0, 100〉, označimo je x′p, definira se poštujući zahtjev daje barem p% izmjerenih vrijednosti manje ili jednako x′p, dok je barem (100 − p)%

vrijednosti veće ili jednako x′p. Dvadesetpet postotna vrijednost zove se donji kvar-til, a sedamdesetpet postotna vrijednost zove se gornji kvartil. Analogno kao ikod računanja medijana, ako se na traženoj poziciji za računaje postotne vrijednostinalaze dva podatka u uređenom skupu izmjerenih vrijednosti, postotnu vrijednostodređujemo kao njihovu sredinu. Donji i gornji kvartil su mjere koje spadaju u grupumjera raspršenosti podataka.

Primjer 3.15 Neka su izmjerene vrijednosti jedne varijable sljedeće:

1, 2, 5, 6, 6, 1, 3, 7, 3, 3, 3, 3.

Prvo ove vrijednosti poredamo po veličini:

1, 1, 2, 3, 3, 3, 3, 3, 5, 6, 6, 7.

Želimo li odrediti donji kvartil, potrebno je prvo odrediti četvrtinu podataka (25%).Obzirom da imamo 12 podataka, četvrtinu (25%) čine tri podatka. Treći podatak ugornjem skupu je broj 2, a četvrti 3. Donji kvartil je 2.5. Deveti broj u gornjem skupupodataka je broj 5, a deseti 6 pa je gornji kvartil 5.5.

Page 37: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 37

Najmanja i najveća vrijednost, raspon podatakaRaspon podataka je mjera koja pokazuje koliko su podaci raspršeni, tj. to je jednaod mjera raspršenosti podataka. Definiran je kao razlika između najveće i najmanjevrijednosti u skupu mjerenih vrijednosti varijable (tj. razlika maksimalne i minimalneizmjerene vrijednosti varijable). Ako su x1, x2, . . . , xn izmjerene vrijednosti varijableX, označimo najmanju od njih (minimum) xmin, a najveću xmax.

Primjer 3.16 Neka su izmjerene vrijednosti jedne varijable sljedeće:

1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3.

Vidimo da je vrijednost 1 najmanja izmjerena vrijednost, a 7 najveća. Prema tome,raspon ovog skupa izmjerenih vrijednosti je 7− 1 = 6.

U mnogim primjerima zanimljivo je promatrati maksimalno odstupanje izmjerenihvrijednosti varijable od "prosjeka", tj. aritmetičke sredine, izmjerenih vrijednosti. Taje numerička karakteristika definirana kao veći od brojeva (x− xmin) i (xmax − x), tj.broj

max (x− xmin), (xmax − (x)).

Primjer 3.17 Neka su 1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3 izmjerene vrijednosti neke varijable X.Tada je

xmin = 1, xmax = 7, x =1 + 2 + 5 + 6 + 5 + 1 + 2 + 7 + 2 + 2 + 3 + 3

12= 3.25.

Maksimalno odstupanje izmjerenih vijednosti ove varijable od njihovog prosjeka je

max 3.25− 1, 7− 3.25 = max 2.25, 3.75 = 3.75.

Varijanca i standardna devijacijaVarijanca i standardna devijacija također spadaju u grupu mjera raspršenosti po-dataka. One karakteriziraju raspršenost podataka oko aritmetičke sredine. Varijancaniza izmjerenih vrijednosti x1, x2, . . . , xn varijable X definirana je izrazom:

s2 =1

n

n∑i=1

(xi − x)2,

a standardna devijacija je kvadratni korijen varijance, tj.

s =√s2 =

√√√√ 1

n

n∑i=1

(xi − x)2.

ModMod je vrijednost iz niza izmjerenih vrijednosti varijable X kojoj pripada najvećafrekvencija, tj. izmjerena je najviše puta. Mod ne mora biti jedinstven.

Page 38: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 38

Primjer 3.18 Neka su izmjerene vrijednosti jedne varijable sljedeće:

1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3.

Vidimo da je vrijednost 2 izmjerena najviše puta (četiri puta) pa je 2 mod ovog skupapodataka.

Primjer 3.19 Neka su izmjerene vrijednosti jedne varijable sljedeće:

1, 2, 5, 6, 5, 3, 1, 2, 7, 2, 2, 3, 3.

Vidimo da su najviše puta izmjerene dvije vrijednosi - 2 i 3 su obje izmjerene točnočetiri puta. Dakle, mod ovog skupa podataka nije jedinstven. U programskom paketuStatistica za mod ovog skupa izmjerenih vrijednosti bi pisalo mod = multiple, te bismou tom slučaju sve vrijednosti moda saznali analizom pripadne tablice frekvencija.

Korištenjem numeričkih karakteristika numeričkih varijabli može se skup mjerenihvrijednosti prikazati grafički pomoću kutijastog dijagrama (engleski: box plot iliboxplot ili box-and-whisker plot).

Kutijastm dijagramom prikazujemo odnos pet numeričkih karakteris-tika skupa izmjerenih vrijednosti: minimalnu vrijednost, donji kvartil,medijan, gornji kvartil i maksimalnu vrijednost. Na kutijastom di-jagramu se također označavaju takozvane stršeće vrijednosti (engl.outliers) ako postoje.

Primjer 3.20 Pažljivim proučavanjem kretanja cijena prehrambenih proizvoda anali-tičar tržišta uočio je da isti proizvodi nemaju jednaku cijenu u različitim trgovačkimcentrima. Promatrajući deset trgovačkih centara, zabilježio je cijene proizvoda kodkojega su razlike bile najizraženije:

Trgovački centar 1 2 3 4 5 6 7 8 9 10

Cijena proizvoda 45.52 44.64 39.99 48.95 51.59 46.89 52.02 56.89 50.21 49.99

a) Izračunajte aritmetičku sredinu, mod, raspon te varijancu i standardnu devi-jaciju ovog skupa podataka.

b) Izračunajte numeričke karakteristike ovog skupa podataka koje su vam potrebneda biste skicirali kutijasti dijagram te ga skicirajte.

c) Koristeći Statisticu i Excel kreirajte bazu podataka, izračunajte sve spomenutenumeričke karakteristike ovog skupa podataka te nacrtajte pripadni kutijastidijagram na bazi medijana.

Rješenje:

Page 39: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 39

b) Tražene numeričke karakteristike računamo u programskom paketu Statistica:

Statistics → Basic Statistics/Tables → Descriptive Statistics → Variables →Advanced → označiti mean (aritmetička sredina), mod, range (raspon), vari-ance i standard deviation → Summary.

Descriptive Statistics (cijene_proitvoda.sta)

VariableValid N Mean Mode Frequency

of ModeRange Variance Std.Dev.

cijena proizvoda 10 49,66900 Multiple 1 20,00000 34,73377 5,893536

Uočimo da mod nije jedinstven - naime sve su izmjerene vrijednosti međusobnorazličite, tj. svaka je vrijednost izmjerena točno jedanput.

c) Za skiciranje kutijastog dijagrama potrebne su nam sljedeće numeričke katakter-istike ovog skupa podataka:

Statistics → Basic Statistics/Tables → Descriptive Statistics → Variables →Advanced → označiti median, minimum & maximum i lower & upper quartiles(donji i gornji kvartil) → Summary.

Descriptive Statistics (cijene_proitvoda.sta)

VariableValid N Median Minimum Maximum Lower

QuartileUpper

QuartileRange

cijena proizvoda 10 49,58000 39,99000 59,99000 45,52000 52,02000 20,00000

Kutijasti dijagram na bazi medijana:

Statistics → Basic Statistics/Tables → Descriptive Statistics → Variables →Options→ po "Options for Box-Whisker Plots" označiti opciju "Median/Quartiles/Range" → Quick → Box and whisker Plot for all variables.

Page 40: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 40

Box & Whisker Plot

Median = 49,58 25%-75% = (45,52, 52,02) Min-Max = (39,99, 59,99)

cijena proizvoda38

40

42

44

46

48

50

52

54

56

58

60

62

Zadatak 3.9 U razredu koji broji 25 učenika zaključne ocjene iz matematike na krajuškolske godine raspodjenjene su na sljedeći način: tri učenika ima peticu, sedamučenika četvorku, osam učenika trojku, pet učenika dvojku, a dva učenika moraju pris-tupiti popravnom ispitu (imaju jedinicu).

a) Sastavite tablicu frekvencija i relativnih frekvencija za kategoriju ocjena .

b) Koristeći Statisticu grafički prikažite frekvencije i relativne frekvencije (histogramimai strukturiranim krugovima).

c) Izračunajte aritmetičku sredinu, mod, raspon te varijancu i standardnu devi-jaciju ovog skupa podataka.

d) Izračunajte numeričke karakteristike ovog skupa podataka koje su vam potrebneda biste skicirali kutijasti dijagram te ga skicirajte.

e) Koristeći Statisticu i kreirajte bazu podataka, izračunajte sve spomenute numer-ičke karakteristike ovog skupa podataka te nacrtajte pripadni kutijasti dijagramna bazi medijana.

Primjer 3.21 (ocjena.sta)Proučite bazu podataka ocjena.sta. Odredite obrađene numeričke karakteristike zanekoliko varijabli po vašem izboru. Komentirajte značenje aritmetičke sredine i moda.Također prikažite izmjerene vrijednosti tih varijabli kutijastim dijagramima i proanal-izirajte ih.

Rješenje: Numeričke karakteristike varijable ukupno koja sadrži ocjene jednog preda-vanja iz matematike održanog u osnovnoj školi (0 - najniža ocjena; 10 - najviša oc-jena):

Page 41: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 41

Descriptive Statistics (ocjena.sta)

VariableValid N Mean Mode Frequency

of ModeRange Variance Std.Dev.

ukupno 62 8,112903 9,000000 19 6,000000 2,265732 1,505235

Descriptive Statistics (ocjena.sta)

VariableValid N Median Minimum Maximum Lower

QuartileUpper

Quartileukupno 62 8,000000 4,000000 10,00000 7,000000 9,000000

Uočimo da je čak 19 ispitanika predavanje ocijenilo visokom ocjenom 9 (ocjena 9 jemedijan ovog skupa izmjerenih vrijednosti) te da je prosječna ocjena predavanje 8.11.Kutijasti dijagram:

Box & Whisker Plot

Median = 8 25%-75% = (7, 9) Min-Max = (4, 10)

ukupno3

4

5

6

7

8

9

10

11

Analiza kutijastog dijagrama: nitko od ispitanika predavanje nije ocijenio ocjenomnižom od četiri, barem 25% ispitanika je predavanje ocijenilo ocjenama 4, 5, 6 ili 7,barem 25% ocjenama 7 ili 8, barem 25% ocjenama 8 ili 9 te barem 25% ocjenama 9

ili 10. Zanimljivo je uočiti da je barem 75% ispitanika predavanje ocijenilo ocjenom7 i više.

Zadatak 3.10 (anketa.sta)Proučite bazu podataka anketa.sta. Odredite obrađene numeričke karakteristike zanekoliko varijabli po vašem izboru. Komentirajte značenje aritmetičke sredine i moda.Također prikažite izmjerene vrijednosti tih varijabli kutijastim dijagramima i proanal-izirajte ih.

Rješenje: Numeričke karakteristike varijable težina kolegija (1 - najniža ocjena; 5 -najviša ocjena):

Page 42: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 42

Descriptive Statistics (anketa.sta)

VariableValid N Mean Mode Frequency

of ModeRange Variance Std.Dev.

težina kolegija 49 4,183673 5,000000 21 4,000000 0,778061 0,882078

Descriptive Statistics (anketa.sta)

VariableValid N Median Minimum Maximum Lower

QuartileUpper

Quartiletežina kolegija 49 4,000000 1,000000 5,000000 4,000000 5,000000

Uočimo da je čak 21 ispitanik težinu kolegija ocijenio ocjenom 5 (ocjena 5 je medi-jan ovog skupa izmjerenih vrijednosti) te da je prosječna ocjena težine kolegija 4.18.Kutijasti dijagram:

Box & Whisker Plot

Median = 4 25%-75% = (4, 5) Min-Max = (1, 5)

težina kolegija0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,5

5,0

5,5

Analiza kutijastog dijagrama: barem 25% ispitanika je težinu kolegija ocijenilo ocje-nama 1, 2, 3 ili 4, barem 50% ocjenom 4 te barem 25% ocjenama 4 ili 5. Zanimljivoje uočiti da je barem 75% ispitanika težinu kolegija ocijenilo ocjenam 4 ili 5.

3.2.3 Detekcija stršećih vrijednosti

Podatak koji je značajno veći ili manji u odnosu na druge izmjerene vrijednosti jednevarijable nazivamo stršeći podatak ili outlier. Pojavljivanje stršećih podataka najčešćeje vezano uz jedan od sljedećih razloga:

• podatak je ili netočno izmjeren ili krivo unesen u bazu podataka,

• podatak dolazi iz druge populacije (ne iz populacije koju promatramo u kon-tekstu problema kojeg proučavamo) - npr. ako u varijablu čije su izmjerene vri-jednosti godišnje plaće 1000 poreznih obveznika u Hrvatskoj upišemo godišnjuplaću Microsoftovog managera iz SAD-a taj će podatak biti stršeća vrijednost,

Page 43: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 43

• podatak je točno izmjeren i unesen u bazu, ali predstavlja rijetku pojavu upopulaciji - npr. ako se u varijabli čije su izmjerene vrijednosti koncentracijeglukoze u krvi za 1000 osoba nađe točno izmjerena vrijednost 46.7 taj ćemopodatak smatrati outlierom jer se radi o vrlo visokoj koncentraciji glukoze kojase rijetko pojavljuje.

Vrlo korisna grafička metoda za detekciju stršećih vrijednosti je kutijasti dijagramna bazi medijana - u programskom paketu Statistica kutijasti dijagrami osjetljivi nastršeće vrijednosti crtaju se na sljedeći način:

Graphs→ 2D Graphs→ BoxPlots→ Variables→ Advanced→ pod Whisker odabrati"Non-outlier range" → pod Outliers odabrati "Outl. & Extremes" → OK.

Zadatak 3.11 (zdravlje.sta, zdravlje-sv.sta)

a) Nacrtajte i proanalizirajte kutijasti dijagram na bazi medijana za podatke sadržaneu varijabli godine u bazi podataka zdravlje.sta.

b) Među podacima u varijabli godine u bazi podataka zdravlje-sv.sta nalaze se dvijestršeće vrijednosti. Pokušajte ih identificirati crtanjem kutijastog dijagramaosjetljivog i neosjetljivog na stršeće vrijednosti. Što se događa s numeričkimkarakteristikama podataka u varijabli godine nakon zanemarivanja identificiranestršeće vrijednosti.

Rješenje:Box & Whisker Plot

Median = 39,5 25%-75% = (35, 53) Min-Max = (25, 66)

godine20

25

30

35

40

45

50

55

60

65

70Box Plot of godine

zdravlje_sv.sta 6v*50c

Median = 40 25%-75% = (35, 54) Non-Outlier Range = (25, 66) Outliers Extremes

godine0

20

40

60

80

100

120

140

160

180

200

220

240

260

zdravlje.sta: godine zdravlje-sv.sta: godineNumeričke karakteristike varijable godine iz baze podataka zdravlje-sv.sta sa i bez stršećih

vrijednosti:

Descriptive Statistics (zdravlje_sv.sta)

VariableValid N Mean Median Mode Frequency

of ModeMinimum Maximum Lower

QuartileUpper

Quartilegodine 50 46,84000 40,00000 39,00000 7 25,00000 235,0000 35,00000 54,00000

Page 44: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 44

Descriptive Statistics (zdravlje_sv.sta)

VariableValid N Mean Median Mode Frequency

of ModeMinimum Maximum Lower

QuartileUpper

Quartilegodine 49 43,00000 40,00000 39,00000 7 25,00000 66,00000 35,00000 53,00000

Iz tablica deskriptivne statistike koje sadrže vrijednosti nekih numeričkih karakteristikavarijable godine vidimo da su se uklanjanjem stršećeg podatka (starost 235 godina) izskupa izmjerenih vrijednosti aritmetička sredina (mean) i gornji kvartil smanjili, doksu mod medijan i donji kvartil ostali isti. Općenito, uklanjanjem stršećih podatakamod će najčešće ostati nepromijenjen.

Zadatak 3.12 (glukoza-sv.sta)

a) Napravite deskriptivnu statistiku podataka sadržanih u varijabli koncentracijaglukoze. Grafičkom metodom odredite stršeću vrijednost u ovom skupu podataka.Možete li se složiti s tvrdnjom da je identificirani podatak zaista stršeća vrijed-nost ili ipak sumnjate u dobiveni rezultat? Obrazložite svoj odgovor.

b) Grafičkom metodom identificirajte stršeće vrijednosti među podacima u varijablidob osobe. Što se događa s numeričkim karakteristikama podataka nakon zane-marivanja identificirane stršeće vrijednosti.

Rješenje:

a) Deskriptivna statistika i stršeće vrijednosti skupa izmjerenih vrijednosti varijablekoncentracija glukoze

Descriptive Statistics (glukoza_sv.sta)

VariableValid N Mean Median Minimum Maximum Lower

QuartileUpper

Quartilekoncentracija glukoze 100 7,726000 6,650000 4,700000 16,70000 5,700000 9,500000

Box Plot of koncentracija glukozeglukoza_sv.sta

Median = 6,65 25%-75% = (5,7, 9,5) Non-Outlier Range = (4,7, 13,8) Outliers Extremes

koncentracija glukoze4

6

8

10

12

14

16

18

Statistica je kao stršeću vrijednost detektirala podatak 16.7. Kako se ta koncentracijaglukoze u krvi može zaista pojaviti pri mjerenjima, ovaj podatak nećemo tretirati kaostršeću vrijednost.

Page 45: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 45

b) Deskriptivna statistika i stršeće vrijednosti skupa izmjerenih vrijednosti varijabledob osobe

Box Plot of dob osobeglukoza_sv.sta

Median = 56 25%-75% = (40, 73) Non-Outlier Range = (12, 101) Outliers Extremes

dob osobe-100

0

100

200

300

400

500

600

700

800

Descriptive Statistics (glukoza_sv.sta)

VariableValid N Mean Median Minimum Maximum Lower

QuartileUpper

Quartiledob osobe 100 66,88000 56,00000 12,00000 688,0000 40,00000 73,00000

Descriptive Statistics (glukoza_sv.sta)

VariableValid N Mean Median Minimum Maximum Lower

QuartileUpper

Quartiledob osobe 98 56,12245 55,50000 12,00000 101,0000 40,00000 72,00000

Statistica je kao stršeće vrijednosti među izmjerenim vrijednostima varijable dob osobedetektirala podatke 500 i 688. Uklanjanjem tih stršećih podataka dolazi do smanjenjaaritmetičke sredine (mean) i medijana izmjerenih vrijednosti.

3.3 Domaća zadaća 1

Zadatak 3.13 Koristeći javne izvore podataka ili podatke koje ste prikupljali u drugimkolegijima u eksperimentalnim uvjetima formirajte jednu bazu podataka koja će sadrža-vati najmanje dvije kvalitativne varijable, najmanje jednu diskretnu numeričku var-ijablu i jednu kontinuiranu numeričku varijablu. Opišite o kakvom se istraživanjuradi i zašto se mjere vrijednosti navedenih varijabli. Vodite računa da baza sadrži štoviše jedinki. Navedite točan izvor podataka. Iskoristite prethodno opisane postupke ipojmove te prikažite vašu bazu podataka.Domaću zadaću treba predati za 14 dana u printanom obliku. Bazu podataka neprintati u potpunosti nego samo tabelirani izvadak iz baze koji sadrži 5 jedinki i njihovevrijednosti za sve varijable.

Zadatak 3.14 Baza podataka tlak.sta sadrži podatke o krvnom tlaku za ispitanike jedneankete:

• varijable spol i dob sadrže informacije o spolu i broju godina za svakog ispitanika,

Page 46: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Deskriptivna statistika 46

• varijable sistolički-tlak i dijastolički-tlak sadrže vrijednosti sistoličkog i dijastoličkogtlaka za svakog ispitanika,

• varijabla tlak klasificira vrijednosti sistoličkog i dijastoličkog tlaka u tri kate-gorije: N - nizak tlak, O - normalan tlak, P - povišen tlak,

• varijabla puls sadrži broj otkucaja srca u minuti (puls) za svakog ispitanika,

• varijabla opće-stanje sadrži subjektivnu ocjenu (u standardnoj skali od 1 do 5)vlastitog zdravstvenog stanja svakog ispitanika.

Na temelju podataka sadržanih u ovoj bazi odgovorite na sljedeća pitanja:

a) Odredite tablice frekvencija i relativnih frekvencija, nacrtajte i proanalizirajtehistograme frekvencija i relativnih frekvencija te kružni dijagram s prikazom rel-ativnih frekvencija za podatke sadržane u varijabli opće-stanje. Kolike su frekven-cija i relativna frekvencija ispitanika koji su svoje opće zdravstveno stanje oci-jenili barem ocjenom 4? [1 bod]

b) Odredite tablice frekvencija i relativnih frekvencija za podatke sadržane u vari-jabli opće-stanje posebno za kategoriju ispitanika ženskog spola i kategoriju ispi-tanika muškog spola te nacrtajte pripadne histograme frekvencija i relativnihfrekvencija. Također nacrtajte histograme frekvencija i relativnih frekvencija zapodatke sadržane u varijabli opće-stanje kategorizirane po vrijednostima varijabletlak (N, O, P). Proanalizirajte dobivene histograme? [2 boda]

c) Odredite i ukratko protumačite sljedeće numeričke karakteristike podataka sadržanihu varijabli dob: aritmetičku sredinu, medijan, donji i gornji kvartil, mod, rasponi standardnu devijaciju. Je li mod jedinstven? Koliko iznosi maksimalno odstu-panje podataka sadržanih u varijabli dob od njihove aritmetičke sredine? Nacr-tajte i detaljno proanalizirajte kutijasti dijagram na bazi medijana za podatkesadržane u varijabli dob. Obrazložite svoj odgovor. [2 boda]

d) Nacrtajte i detaljno proanalizirajte kutijasti dijagram na bazi medijana za po-datke sadržane u varijabli dob. Obrazložite svoj odgovor. [2 boda]

e) Crtanjem i analizom kutijastog dijagrama na bazi medijana neosjetljivog nastršeće vrijednosti i kutijastog dijagrama na bazi medijana osjetljivog na stršećevrijednosti donesite zaključak o tome pojavljuju li se među podacima sadržanimau varijabli puls stršeće vrijednosti ili ne. Ako ste se uvjerili u njihovo postojanjekorištenjem kategoriziranih tablica frekvencija odredite sve prisutne stršeće vri-jednosti među podacima u varijabli puls. Kako biste neutralizirali njihov utjecajna numeričke karakteristike podataka? [1 bod]

Page 47: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Poglavlje 4

Slučajna varijabla

4.1 Definicija slučajne varijable

U prethodnom poglavlju naučili smo da su predmet istraživanja, u kojemu želimonapraviti statističku analizu, varijable čije vrijednosti mjerimo na jedinkama.

Primjer 4.1 Pretpostavimo da je građanima iz reprezentativnog uzorka stanovnikagrada Osijeka jednog dana u podne izmjerena koncentracija glukoze u krvi. Rezultattog istraživanje je podatak o koncentraciji glukoze u krvi za svaku osobu iz uzorka- te izmjerene vrijednosti u svrhu statističke analize podataka organiziramo u vari-jablu Koncentracija glukoze. U sljedećoj tablici prikazano je samo nekoliko izmjerenihvrijednosti te varijable:

Osoba Koncentracijaglukoze (mmol/L)

1 5.6352 12.5603 19.817...

...

Međutim, jasno je da su ove izmjerene vrijednosti samo neke od svih vrijednostikoje koncentracija glukoze u krvi može poprimiti. Medicinska istraživanja pokazujuda koncentracija glukoze u krvi čovjeka može biti bilo koji realan broj iz intervala〈0, 131]. Dakle, izmjerena vrijednost varijable Koncentracija glukoze za svaku osobu izovog uzorka je jedna vrijednost iz skupa svih mogućih vrijednosti koje koncentracijaglukoze u krvi čovjeka može poprimiti.

Primjer 4.2 Na nekoj mjernoj postaji svakog se sata mjeri vodostaj rijeke Drave. Neko-

47

Page 48: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 48

liko zadnjih izmjerenih vodostaja prikazao je u sljedećoj tablici:

Dan i sat Vodostaj (cm)

17.11.2010. - 9:00 17417.11.2010. - 8:00 16117.11.2010. - 7:00 152

......

Prema povijesnim podacima najniži izmjereni vodostaj Drave na ovoj mjernoj postajibio je 105 cm (1978.), a najviši čak 511 cm (1972.). Ove činjenice opravdavaju visokstupanj vjerovanja da vodostaj rijeke Drave na promatranoj mjernoj postaji može bitibilo koji realan broj iz intervala [105, 511]. Prema tome, svaka izmjerena vrijednostvarijable Vodostaj iz gornje tablice je jedna vrijednost iz skupa svih mogućih vrijed-nosti koje vodostaj Drave može poprimiti na toj mjernoj postaji. Podaci su preuzetisa http://www.voda.hr.

Prethodni primjeri navode na ideju da izmjerene vrijednosti varijable od interesa(koncentracija glukoze u krvi ili vodostaj rijeke Drave) možemo na neki način modeli-rati. Naime, prije samog mjerenja i u toku mjerenja istraživač ne zna koji će rezultatmjerenja (tj. izmjerenu vrijednost varijable) dobiti, ali zna iz kojeg skupa izmjer-ena vrijednost te varijable može biti: iz 〈0, 131] za varijablu Koncentracija glukoze teiz [105, 511] za varijablu Vodostaj. Dakle, da bismo napravili model na osnovu ko-jega možemo raditi statističko zaključivanje, varijable ćemo modelirati kao slučajnevarijable. Zašto ove varijable treba nazvati slučajnima? Razlog je taj što one moguprimiti mnogo različitih vrijednosti, a mi u trenutku njihovog proučavanja ne možemosa sigurnošću sagledati uvjete pod kojima će primiti neku od tih vrijednosti. Zapravo,mjerenje varijable provodimo, između ostalog, zato da ocijenimo stupanj izvjesnosti davarijabla u određenim uvjetima primi neke vrijednosti. Slučajna varijabla i način kakoje opisujemo predmet su ovog poglavlja. Slučajne varijable označavat ćemo velikimslovima, recimo X, Y, Z. 1

Slučajna varijabla je veličina čije realizacije su realni brojevi, alinjene realizacije nisu jednoznačno određene uvjetima koje možemosagledati prilikom istraživanja.

Već iz primjera 4.1 i 4.2 možemo vidjeti da je osnovni objekt koji služi za modeliranjeslučajne varijable skup svih mogućih realizacija slučajne varijable (u matem-atici taj skup zovemo slika slučajne varijable). Skup svih mogućih realizacija slučajnevarijable X označit ćemo R(X).

1U matematici se varijable obično označavaju malim slovima x, y, z.

Page 49: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 49

Primjer 4.3 Bacamo novčić i smatramo uspjehom ako je palo pismo. Realizacije ovogpokusa možemo modelirati slučajnom varijablom. Recimo, kažemo da slučajna vari-jabla X prima vrijednost 1 ako je palo pismo, a 0 ako nije palo pismo (tj.ako je palaglava). Na taj način dolazimo do skupa mogućih realizacija slučajne varijable X:R(X) = 0, 1 ⊂ R.

Primjer 4.4 Bacamo igraću kocku. Broj koji se okrene prilikom jednog bacanja nagornjoj strani kocke je realizacija jedne slučajne varijable, označimo ju X. Prirodno,skup svih mogućih realizacija slučajne varijable X je skup R(X) = 1, 2, 3, 4, 5, 6 ⊂R.

Primjer 4.5 Bacamo igraću kockicu dva puta. Zbroj brojeva koji se okrenu prilikomtih dvaju bacanja kockice je realizacija jedne slučajne varijable X. Skup svih mogućihrealizacija slučajne varijable X je skup R(X) = 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 ⊂ R.

Primjer 4.6 Broj ulovljenih komaraca u jednu klopku u Osijeku, u jednom danu lipnja2009. godine, možemo modelirati kao slučajnu varijablu. Naime, jedan dan u klopkusmo uhvatili, npr. 20 komaraca, drugi dan 25, treći dan 45, četvrti dan opet 20. Kolikoćemo ih uhvatiti sutra, prekosutra? Ne znamo kako će se ta varijabla realizirati sutrai prekosutra, ali znamo da će to svakako biti neki prirodan broj ili nula. Osim toga,ako smo postavili dvije identične klopke jednu pored druge, može se dogoditi da je uistom danu na jednu klopku uhvaćeno 20 komaraca, a na drugu 23. Dakle, prirodno jesmatrati tu varijablu slučajnom varijablom jer, u uvjetima koje mi možemo sagledati,ne možemo sa sigurnošću znati kako će se realizirati. Skup svih mogućih realizacijaove slučajne varijable je skup prirodnih brojeva s nulom (N0 = 0, 1, 2, . . . ⊂ R).

Primjer 4.7 Ako imamo jako preciznu vagu i mjerimo neto masu šećera koji je pakovanu pakovanja deklarirane mase 1 kg, da li ćemo dobiti točno 1 kg? Ako uzmemo drugopakovanje istog tipa, koliko vam se čini izvjesno da će neto težina biti ista kao uprethodno vaganom pakovanju? Očekujete li velika odstupanja? Ako neto težinušećera u toj seriji pakovanja modeliramo slučajnom varijablom X, koji skup svihmogućih realizacija biste Vi definirali za tu slučajnu varijablu? (Odgovor: skup svihmogućih realizacija ove slučajne varijable je interval realnih brojeva [0, 1] ⊂ R.)

4.2 Vjerojatnost

Promatrajući skup vrijednosti koji može primiti slučajna varijabla X uočavamo daje naš stupanj vjerovanja (uvjerenja) u realizaciju nekih podskupova od R(X) većiod stupnja vjerovanja u realizaciju nekih drugih poskupova od R(X). Kažemo dase neki podskupovi od R(X) realiziraju s većom šansom od nekih drugih poskupovaistog skupa.

Page 50: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 50

Primjer 4.8 U primjeru bacanja igraće kocke smo ishod jednog bacanja modeliralislučajnom varijablom X čiji je skup svih mogućih realizacija R(X) = 1, 2, 3, 4, 5, 6.Razmislite i odgovorite na sljedeća pitanja:

• Kojim biste realnim brojem iskazali svoj stupanj vjerovanja u realizaciju skupa3? (Rješenje: 1/6.)

• Da li očkujete da se vaš stupanj vjerovanja u realizaciju skupa 3 razlikuje odstupnja vjerovanja u realizaciju skupa 5 u slučaju pravilno izrađene igračekocke? (Rješenje: ne, stupnjevi vjerovanja u realizaciju skupova 3 i 5 sujednaki - 3 i 5 su jednako mogući skupovi.)

• Kojim biste realnim brojem iskazali svoj stupanj vjerovanja u realizaciju parnogbroja pri bacanju kocke (tj. da se na kocki okrene paran broj)? (Rješenje: radise o skupu 2, 4, 6, a stupanj vjerovanja u realizaciju broja iz tog skupa je 1/2.)

Primjer 4.9 Promotrimo skup Ω = ♣,♦,♥,♠. Elementi ovog skupa su oznake zacrne karte (tref i pik) i crvene karte (karo i herc) u standardnom špilu angloameričkihigraćih karata. Dakle skup Ω ima četiri elementa i možemo reći da njegovi elementiopisuju ishod pokusa koji se sastoji od izvlačenja jedne karte iz špila pri čemu nasza izvučenu kartu zanima samo boja (crvena ili crna) i tip (tref, pik, karo ili herc).Razmislite i odgovorite na sljedeća pitanja:

• Kojim biste realnim brojem iskazali svoj stupanj vjerovanja u realizaciju skupa♣ ⊂ Ω? (Rješenje: 1/4.)

• Kojim biste realnim brojem iskazali svoj stupanj vjerovanja u realizaciju skupa♣,♦ ⊂ Ω, a kojim stupanj vjerovanja u realizaciju skupa ♥,♠? (Rješenje:stupnjevi vjerovanja su jednaki i izražavamo ih realnim brojem 1/2 - ♣,♦ i♥,♠ su jednako mogući skupovi.)

• Kojim biste realnim brojem iskazali svoj stupanj vjerovanja u realizaciju skupa♣,♦,♥ ⊂ Ω, a kojim stupanj vjerovanja u realizaciju skupa ♥? (Rješenje:stupnjeve vjerovanja izražavamo realnim brojevima 3/4 i 1/4, redom.)

Iz primjera 4.9 vidimo da ima smisla govoriti o stupnju vjerovanja u realizaciju nekogpodskupa skupa čiji elementi nisu realni brojevi. I za takve skupove, čiji su ele-menti proizvoljni objekti (npr. slova, neki specijalni znakovi, razne kategorije), stu-panj vjerovanja u realizaciju nekog podskupa izražavamo prikaldnim realnim bro-jem. Dakle, mjeru kojom izražavamo stupanj vjerovanja u realizaciju nekog podkupamožemo definirati za proizvoljan neprazan skup Ω, bez obzira na prirodu njegovihelemenata. Mjeru koja modelira stupanj vjerovanja da će se realizirati neki podskuppromatranog nepraznog skupa Ω zvat ćemo vjerojatnost. Podskupove skupa Ω zvatćemo događajima. U ovom poglavlju navodimo definiciju vjerojatnosti, načine kako

Page 51: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 51

u konkretnim primjerima možemo modelirati vjerojatnost te neka osnovna svojstvavjerojatnosti.

Neka je Ω neprazan skup te neka familija skupova F sadrži određenepodskupove od Ω (tj. određene događaje). Vjerojatnost (oznaka P ) jefunkcija koja svakom događaju A ∈ F pridružuje realan broj iz inter-vala [0, 1] (tj. 0 ≤ P (A) ≤ 1) tako da vrijede sljedeći zahtjevi:

(i) P (Ω) = 1,

(ii) ako su A1 i A2 događaji iz F koji nemaju zajedničkih elemenata, tj.A1, A2 ∈ F i A1 ∩ A2 = ∅, tada vrijedi

P (A1 ∪ A2) = P (A1) + P (A2),

tj. vjerojatnost unije događaja A1 i A2 jednaka je zbroju vjero-jatnosti P (A1) i P (A2).

Vidimo da je na ovaj način definirana vjerojatnost na familiji podskupova proizvoljnognepraznog skupa Ω. Uzmemo li da je Ω = R(X) dobivamo definiciju vjerojatnosti naskupu svih mogućih realizacija slučajne varijable X.

4.2.1 Uobičajene oznake i nazivi

Neka je R(X) skup svih mogućih realizacija slučajne varijable X i F familija pod-skupova od R(X) na kojoj je definirana vjerojatnost P . Familiju F obično zovemofamilija događaja.Zbog lakšeg razumijevanja i opisivanja događaja koje razmatramo, tj. podskupovaod R(X) (odnosno elemenata od F) skup C ∈ F označavat ćemo oznakom X ∈ C.Naime, skup C će se dogoditi (realizirati) ako slučajna varijabla X primi vrijednosti(realizacije) iz skupa C. Na taj način lakše povezujemo događaje sa slučajnom vari-jablom na koju se odnose.

Primjer 4.10

• Skup X ∈ [2, 3] definira događaj koji se dogodi ako se slučajna varijablarealizira nekom vrijednošću iz intervala [2, 3]. Uočimo da isti događaj možemozapisati i na sljedeći način:

2 ≤ X ≤ 3.

• Skup 4 < X ≤ 7 definira događaj koji se dogodi ako se slučajna varijablarealizira brojem koji je veći od 4, ali manji od ili jednak 7.

Page 52: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 52

Slučajnu varijablu X smo definirali ako smo definirali R(X) i vjerojatnost P na famil-iji podskupova F. Tada kažemo da smo zadali razdiobu (distribuciju) slučajnevarijable X.Definiranje vjerojatnosti za pojedine primjere temelji se na dosadašnjem iskustvu uistraživanju dane slučajne varijable i može biti složen postupak. Međutim, u velikombroju primjera, za definiranje vjerojatnosti se može koristiti jedna od dvije metode zamodeliranje vjerojatnosti opisane u nastavku poglavlja: klasična metoda i statis-tička metoda.

4.2.2 Klasična metoda modeliranja vjerojatnosti

Neka vrijede sljedeći uvjeti:

(1) skup Ω 6= ∅ ima konačno mnogo elemenata, tj. Ω je oblika

Ω = ω1, . . . , ωn, n ∈ N,

(2) svi jednočlani podskupovi skupa Ω su jednako vjerojatni, tj.

P (ωi) = P (ωj) , za sve i, j ∈ 1, . . . , n.

Tada vjerojatnost skupa (događaja) A ⊆ Ω definiramo na sljedeći način:

P (A) =broj elemenata od A

broj elemenata od Ω=k(A)

k(Ω),

gjde je k(·) oznaka za broj elemenata skupa (tj. k(A) je oznaka za broj elemenataskupa A, a k(Ω) za broj elemenata skupa Ω).Klasična metoda definiranja vjerojatnosti temelji se na ideji da vjerojatnost pred-stavlja mjeru dijela u odnosu na cjelinu.

SlikaNa potpuno isti način možemo definirati vjerojatnost na familiji podskupova skupasvih mogućih realizacija slučajne varijable X, tj. skupu R(X), pod uvjetom da R(X)

ima konačno mnogo jednako vjerojatnih elemenata. Dakle, ako je Ω = R(X), tadavjerojatnost skupa B ⊆ R(X) definiramo na sljedeći način:

P (B) =k(B)

k (R(X)).

Primjer 4.11 Iz špila karata koji se sastoji od 32 karte (mađarice) izvlačimo jednukartu. Kolika je vjerojatnost da je izvučena karta as (tipove karata kodiramo nasljedeći način: "as" brojem 1, "kralj" brojem 2, itd.)? Kolika je vjerojatnost daizvučena karta nije as? Kolika je vjerojatnost da je izvučena karta as ili kralj?

Page 53: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 53

Rješenje: Karte "mađarice" možemo podijeliti u 8 skupina od po 4 karte: sedmica(4), osmica (4), ...., kralj (4), as (4). Kodirajući kao što je navedeno, vidimo dase izvlačenjem jedne karte mogu realizirati brojevi 1, 2, 3, . . . , 8. Time smo zapravodefinirali slučajnu varijablu X koja svakoj karti iz špila (kojeg možemo shvatiti kaoskup Ω) pridružuje točno jedan od brojeva 1, 2, 3, 4, 5, 6, 7, 8 prema definiranom prav-ilu kodiranja. Dakle, skup svih mogućih realizacija slučajne varijable X je R(X) =

1, 2, 3, 4, 5, 6, 7, 8. R(X) ima 8 elemenata koji su svi jednako mogući. Prema tome,iz klasične metode za modeliranje vjerojatnosti slijedi da vjerojatnost da izvučemoasa iznosi 1/8. Vjerojatnost da ne izvučemo asa tada iznosi 7/8, a vjerojatnost daizvučemo asa ili kralja 1/8+1/8 = 1/4 (prema svojstvu (2) iz definicije vjerojatnosti).

Primjer 4.12 Iz špila karata koji se sastoji od 32 karte (mađarice) izvlačimo dvije karteza redom. Kolika je vjerojatnost da su obje izvučene karte asovi?

Rješenje: Skup Ω ovdje se sastoji od svih parova različitih karata iz špila - kako se špilsastoji od 32 karte i svaku kartu možemo spariti sa svakom drugom kartom (ali ne i sasamom sobom, jer nakon prvog izvlačenja izvučenu kartu ne vraćamo u špil pa drugukartu biramo od preostale 31 karte) zaključujemo da takvih parova ima 32 · 31 = 992,tj. k (Ω) = 248. Budući u špilu ima četiri različita asa, za svakog prvog izvučenog asadrugog asa izvlačimo od preostala tri asa, pa takvih parova (as1, as2) ima 4 cot 3 = 12,tj. k(A) = 12, gdje je A skup svih parova različitih asova. Prema klasičoj metodimodeliranja vjerojatnosti slijedi:

P (A) =k(A)

k(Ω)=

12

992=

3

248.

Primjer 4.13 Slučajan pokus sastoji se od bacanja simetrične igraće kockice. Akose na kockici okrene paran broj zaradit ćemo jednu kunu, a ako se okrene neparanbroj izgubit ćemo jednu kunu. Primjenom klasične metode modeliranja vjerojatnostiodredite vjerojatnost zarade.

Rješenje:

(1) Ω = 1, 2, 3, 4, 5, 6, A = 2, 4, 6 ⊂ Ω, P (A) =k(A)

k(Ω)=

3

6=

1

2

(2) Definirajmo slučajnu varijablu X čija je realizacija 1 ako pri bacanju kockicepadne paran broj, a (−1) ako pri bacanju kockice padne neparan broj. Dakle,R(X) = −1, 1. Zarada jedne kune realizira se samo onda kada pri bacanjukockice padne paran broj, što odgovara vrijednosti 1 slučajne varijable X. Dakle,povoljan događaj u ovo kontekstu je događaj 1 ⊂ R(X), pa je

P (X = 1) = P (A) =1

2.

Page 54: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 54

Primjer 4.14 Bacamo jednom dvije simetrične igraće kocke.

a) Kolika je vjerojatnost da je suma brojeva koji su pali na obje kocke jednaka 6?

b) Kolika je vjerojatnost da je suma brojeva koji su pali na obje kocke manja od6?

Rješenje:

(1) Ω = (i, j) : i, j ∈ 1, 2, 3, 4, 5, 6, k(Ω) = 6 · 6 = 36.

a) A - suma brojeva koji su pali na obje kocke jednaka je 6

A = (1, 5), (2, 4), (3, 3), (4, 2), (5, 1) ⊂ Ω

P (A) =k(A)

k(Ω)=

5

36.

b) A - suma brojeva koji su pali na obje kocke manja je od 6

B = (1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (4, 1) ⊂ Ω

P (B) =k(B)

k(Ω)=

10

36=

5

18.

(2) Definirajmo slučajnu varijablu X čija je realizacija zbroj brojeva koji su pali pribacanju dviju kockica, dakle R(X) = 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12.

a) A - suma brojeva koji su pali na obje kocke jednaka je 6

P (X = 6) = P (A) =5

36.

b) A - suma brojeva koji su pali na obje kocke manja je od 6

P (X < 6) = P (B) =5

18.

Vjerojatnost na R(X) zadana je sljedećom tablicom (u prvom redu tablice su elementiskupa R(X), a u donjem redu pripadne vjerojatnosti):

k 2 3 4 5 6 7 8 9 10 11 12P (X = k) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Primjer 4.15 Simetrična igraća kockica baca se dva puta. Zanima nas vjerojatnostpojavljivanja sljedećih događaja:

a) A - pali su jednaki brojevi,

b) B - suma brojeva koji su pali je 8,

c) C - produkt brojeva koji su pali je 8.

Rješenje: Ω = (i, j) : i, j ∈ 1, 2, 3, 4, 5, 6, k(Ω) = 6 · 6 = 36.

a) A = (i, j) ∈ Ω : i = j, P (A) = 6/36 = 1/6.

Page 55: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 55

b) B = (i, j) ∈ Ω : i+ j = 8, P (B) = 5/36.

c) C = (i, j) ∈ Ω : i · j = 8, P (C) = 2/36 = 1/18.

Primjer 4.16 Promotrimo kutiju u kojoj se nalazi 100 papirića numeriranih brojevima1, 2, . . . , 100. Realizacija slučajne varijable je broj na jednom slučajno izvučenompapiriću. Odredite vjerojatnosti sljedećih događaja:

a) A - izvučeni broj je jednoznamenkast,

b) B - izvučeni broj je dvoznamenkast,

c) C - izvučeni broj je manji ili jednak od 57,

d) D - izvučeni broj je strogo veći od 57.

Rješenje: Ω = 1, 2, . . . 100, k(Ω) = 100.

a) A = 1, . . . , 9, P (A) = 9/100.

b) B = 10, . . . , 99, P (A) = 90/100 = 9/10.

c) C = 1, . . . , 57, P (C) = 57/100.

d) A = 58, . . . , 100, P (D) = 1− (57/100) = 43/100.

Zadatak 4.1 Ako ispunite listić s 12 kombinacija u igri LOTO 6 od 45, kolika je vjero-jatnost da osvojite dobitak na pogođenih svih šest brojeva, a kolika je vjerojatnost daosvojite dobitak na pet pogođenih brojeva?

4.2.3 Statistička metoda modeliranja vjerojatnosti

Izvedite sljedeći pokus: bacite novčić 40 puta. U Statistici (ili Excelu) bilježite re-alizacije pisma (oznaka 1) ili glave (oznaka 0) kao što je to prikazano u sljedećojtablici.

Redni broj bacanja Realizacija1 02 13 04 0...

...

Izračunajte relativne frekvencije pojavljivanja pisma u prvih n bacanja za svaki n =

1, . . . , 40. Tako dobiven niz relativnih frekvencija prikažite grafički. Grafički prikazrelativnih frekvencija pojavljivanja pisma za 40 bacanja novčića zabilježenih u Exceldokumentu novcic.xls):

Page 56: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 56

Ako je pokus takav da ga možemo nezavisno ponavljati mnogo puta, rel-ativna frekvencija pojavljivanja događaja A će se s povećanjem brojaponavljanja pokusa stabilizirati oko nekog broja koji predstavlja statis-tički definiranu vjerojatnost pojavljivanja događaja A.

Primjer 4.17 Iskoristite vaše podatke dobivene bacanjem novčića i statističkommetodommodeliranja vjerojatnosti odredite vjerojatnost da se pri bacanju okrene pismo zanovčić koji ste bacali. Usporedite rezultate s kolegama u grupi.

Primjer 4.18 (kolegij.sta)Baza podataka kolegij.sta sadrži informacije o spolu, ocjenama iz sedam položenihkolegija (varijable org-kemija, anorg-kemija, opća-kemija, biokemija, praktikum-1, praktikum-2, praktikum-3) i prosječnu ocjenu studenta na osnovu ocjene svih sedam kolegija(varijabla prosjek) za 100 slučajno odabranih studenata nekog fakulteta. Statističkommetodom odredite vjerojatnost da slučajnim odabirom izaberemo studenta koji jeorgansku kemiju položio

a) ocjenom 5,

b) barem ocjenom 4,

c) ocjenom manjom od 3,

d) ocjenom 2 ili ocjenom 3.

Rješenje: Rješenja možemo dobiti pomoću tablice frekvencija i relativnih frekvencijasvih izmjerenih vrijednosti varijable org-kemija:

Frequency table: organska kemija (kolegij.sta)

CategoryCount Cumulative

CountPercent Cumulative

Percent2345Missing

56 56 56,00000 56,000019 75 19,00000 75,000014 89 14,00000 89,000011 100 11,00000 100,0000

0 100 0,00000 100,0000

Page 57: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 57

Vjerojatnost (određena statističkom metodom) da je slučajnim odabirom izabran stu-dent koji je organsku kemiju položio

a) ocjenom 5 je 0.11,

b) barem ocjenom 4 (tj. ocjenom 4 ili ocjenom 5) je 0.14 + 0.11 = 0.25,

c) ocjenom manjom od 3 (tj. ocjenom 2) je 0.56,

d) ocjenom 2 ili ocjenom 3 je 0.56 + 0.19 = 0.75.

4.2.4 Neka svojstva vjerojatnosti

Da bismo lakše računali vjerojatnosti događaja za razne podskupove konkretnog skupaΩ, u ovom poglavlju ćemo navesti osnovna svojstva vjerojatnosti.

(S1) Vjerojatnost suprotnog događaja:Ako je A ∈ F , tada je

P (Ac) = 1− P (A),

gdje je Ac = Ω \ A komplement skupa A.

Dokaz.

Svojstvo (1) iz definicije vjerojatnosti glasi P (Ω) = 1. Cijeli skup Ω možemo prikazatikao uniju skupova A i Ac (koji nemaju zajedničkih elemenata, tj A ∩ Ac = ∅), tj.

A ∪ Ac = Ω.

Sada prema svojstvu (2) iz definicije vjerojatnosti slijedi:

1 = P (Ω) = P (A ∪ Ac) = P (A) + P (Ac) ⇒ P (Ac) = 1− P (A).

(S2) Vjerojatnost nemogućeg događaja:

P (∅) = 0.

Dokaz.Obzirom da je ∅ = Ωc, primjenom svojstva (1) iz definicije vjerojatnosti i prethodnodokazanog svojstva (S1) slijedi:

P (∅) = P (Ωc) = 1− P (Ω) = 0.

Page 58: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 58

(S3) Monotonost vjerojatnosti:Ako su A i B skupovi iz F takvi da je A ⊆ B, tada je P (A) ≤ P (B). Osimtoga vrijedi i da je P (B \ A) = P (B)− P (A).

Dokaz.

• Prikažimo skup B kao uniju skupova koji nemaju zajedničkih elemenata: B =

A∪ (B \A), A∩ (B \A) = ∅. Sada prema svojstvu (2) iz definicije vjerojatnostislijedi:

P (B) = P (A ∪ (B \ A)) = P (A) + P (B \ A) ≥ P (A),

jer je zbog nenegativnosti vjerojatnosti P (B\A) ≥ 0. Slijedi da je u tom slučajuP (B) ≥ P (A), tj. P (A) ≤ P (B).

• Primjenjujemo isti pristup kao u dokazu prethodne tvrdnje:

P (B) = P (A ∪ (B \ A)) = P (A) + P (B \ A) ⇒ P (B \ A) = P (B)− P (A).

(S4) Vjerojatnost unije:Ako su A,B ∈ F proizvoljni događaji (koji ne moraju biti disjunktni), tada je

P (A ∪B) = P (A) + P (B)− P (A ∩B).

Dokaz.

Prikažimo skup A ∪B kao uniju skupova koji nemaju zajedničkih elemenata:

A ∪B = (A \B) ∪ (A ∩B) ∪ (B \ A) = (A \ (A ∩B)) ∪ (A ∩B) ∪ (B \ (A ∩B)) ,

gdje je A ∩ B ⊆ A i A ∩ B ⊆ B. Sada prema svojstvu (2) iz definicije vjerojatnostislijedi:

P (A ∪B) = P (A \ (A ∩B)) + P (A ∩B) + P (B \ (A ∩B)) =

P (A)− P (A ∩B) + P (A ∩B) + P (B)− P (A ∩B) = P (A) + P (B)− P (A ∩B).

Page 59: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 59

Primjer 4.19 Računalo slučajno generira posljednju znamenku telefonskog broja. Odred-ite vjerojatnost da je ta znamenka:

a) jednaka 8,

b) jednaka 8 ili 9,

c) neparna ili 2,

d) parna ili 2,

e) neparna, ali nije 3.

Rješenje: Ω = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, k(Ω) = 10.

a) P (8) = 1/10,

b) P (8 ∪ 9) = P (8, 9) = 2/10 = 1/5,

c) P (1 ∪ 3 ∪ 5 ∪ 7 ∪ 9 ∪ 2) = P (1, 2, 3, 5, 7, 9) = 6/10 = 3/5,

d) P (0 ∪ 2 ∪ 4 ∪ 6 ∪ 8 ∪ 2) = P (0, 2, 4, 6, 8) = 5/10 = 1/2,

e) P (1, 5, 7, 9) = P (1, 3, 5, 7, 9 \ 3) = P (1, 3, 5, 7, 9)−P (3) = (5/10)−(1/10) = 4/10 = 2/5.

Zadatak 4.2 Između 100 istovrsnih objekata označenih različitim brojevima od 1 do100, na slučajan način izabiremo jedan objekt. Odredite sljedeće vjerojatnosti:

a) izabran je objekt s oznakom većom ili jednakom 30,

b) izabran je objekt s oznakom većom od 30 ili manjom od 10,

c) izabran je objekt s parnom oznakom,

d) izabran je objekt s parnom oznakom ili s oznakom većom od 30,

e) izabran je objekt s oznakom kojoj je zadnja znamenka 8,

f) izabran je objekt kojemu zadnja znamenka nije 8,

g) izabran je objekt s parnom oznakom kojoj zadnja znamenka nije 8.

Page 60: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 60

4.3 Diskretna slučajna varijabla

Kao što smo opisali u poglavlju o tipovima varijabli koje su predmet statističkogopisivanja i istraživanja, bitna je razlika u opisu numeričkih varijabli koje su diskretnogtipa od onih koje su kontinuiranog tipa. Te razlike vidljive su i u načinu koji koristimokada opisujemo vjerojatnosna svojstva slučajnih varijabli kojima modeliramo varijableu istraživanju. Mi ćemo razlikovati dva tipa slučajnih varijabli: diskretne slučajnevarijable i neprekidne slučajne varijable

Ukoliko je R(X) konačan ili prebrojiv skup kažemo da je slučajna var-ijabla X diskretna.

U tom slučaju skup svih mogućih realizacija označit ćemo R(X) = x1, x2, x3, . . . , xnako je on konačan, odnosno, R(X) = x1, x2, x3, . . . ako je beskonačan. Vjerojatnostidogađaja vezanog uz realizaciju diskretne slučajne varijable možemo najjednostavnijeračunati koristeći vjerojatnosti da se dogode pojedinačne realizacije. Zato, uz skupsvih mogućih realizacija diskretne slučajne varijableX, u njezinom opisu ključnu uloguima i pridruženi niz pozitivnih realnih brojeva (p1, p2, p3, . . . , pn) (odnosno (pi, i ∈ N),ako je R(X) beskonačan) kojim su zadane vjerojatnosti da se dogode pojedinačnerealizacije iz R(X). Preciznije to možemo iskazati na sljedeći način.

Neka je X diskretna slučajna varijabla sa konačnim skupom svih mogućihrealizacija R(X) = x1, x2, x3, . . . , xn (odnosno prebrojivim skupom svihmogućih realizacija R(X) = x1, x2, x3, . . .). Za svaku pojedinu real-izaciju xi definiramo realan broj

pi = P (X = xi) .

Diskretna slučajna varijabla X je u potpunosti zadana skupom R(X)

i pripadnim nizom (pi, i = 1, . . . , n) (odnosno nizom (pi, i ∈ N) ako je R(X)

prebrojiv skup).

Uočimo da za ovako definiran niz realnih brojeva (pi, i = 1, . . . , n) (odnosno (pi, i ∈N)) moraju vrijediti sljedeća dva bitna svojstva kako bi on definirao vjerojatnost naR(X):

(1) pi ≥ 0 za sve pripadne xi ∈ R(X),

(2)∑

svim xi∈R(X)

pi = 1.

Također, korištenjem svojstava iz definicije vjerojatnosti izvodimo način računanjavjerojatnosti da slučajna varijabla primi vrijednosti iz nekog skupa A ⊆ R(X).Naime, vrijedi:

P (X ∈ A) =∑xi∈A

pi.

Page 61: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 61

Dokaz.Svaki skup A ⊆ R(X) možemo prikazati kao uniju jednočlanih podskupova xi odR(X) gdje je i ∈ IA, tj.

A = ∪i∈IAxi.

Odavde korištenjem poopćenja svojstva (2) iz definicije vjerojatnosti slijedi:

P (X ∈ A) = P (X ∈ ∪i∈IAxi) =∑i∈IA

P (X = xi) =∑xi∈A

pi.

Korištenjem ovih rezultata, diskretna slučajna varijabla se često prikazuje pomoću tadva bitna niza na sljedeći način:

X =

(x1 x2 . . . xn

p1 p2 . . . pn

), odnosno X =

(x1 x2 x3 . . .

p1 p2 p3 . . .

),

pri čemu se prvom tablicom zadaje diskretna slučajna varijabla karakterizirana kon-ačnim skupom R(X), a drugom tablicom diskretna slučajna varijabla karakteriziranaprebrojivim skupom R(X) (pogledajte primjer 4.14). Ovakvu tablicu zovemo tablicadistribucije diskretne slučajne varijable. Ako je poznata tablica distribucije nekediskretne slučajne varijable, kažemo da je poznata razdioba ili distribucija tediskretne slučajne varijable.Tablice distribucije možemo prikazivati i u klasičnom tabličnom obliku:

vrijednosti x1 x2 . . . xn

vjerojatnosti p1 p2 . . . pn.

Distribuciju diskretne slučajne varijable možemo slikovito prikazati histogramom.

Primjer 4.20 Diskretna slučajna varijablaX zadana je sljedećom tablicom distribucije:

X =

(1 2 3 4 515

15

110

110

25

).

Nacrtajte histogram distribucije ove slučajne varijable.

Histogram distribucije diskretne slučajne varijable X

1 2 3 4 5

moguće realizacije slučajne varijable X

0

1/10

1/ 5

3/10

2/ 5

1/ 2

vjer

ojat

nost

i

Page 62: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 62

Uočite:

P (X = 5) =2

5, P (X ∈ 2, 3) = P (X = 2)+P (X = 3) =

1

5+

1

10=

3

10.

Primjer 4.21 Diskretna slučajna varijabla koja može primiti vrijednosti 2, 3, 8, 10 zadanaje sljedećom tablicom distribucije:

vrijednosti 2 3 8 10vjerojatnosti 0.15 0.10 0.25 0.5

Kolika je vjerojatnost da ova slučajna varijabla primi vrijednosti manje ili jednake 8?

Rješenje:P (X ≤ 8) = P (X ∈ 2, 3, 8) =

= P (X = 2) + P (X = 3) + P (X = 8) = 0.15 + 0.10 + 0.25 = 0.5.

Primjer 4.22 Procjenjuje se učinak investicije na jednom području izražen u oblikudobiti odnosno gubitka. Distribucija vjerojatnosti učinka investicije navedena je tabli-com:

dobit (gubitak) / 1000 kn vjerojatnost−400 0.05

−200 0.15

−100 0.3

0 0.1

100 0.3

200 0.03

300 0.04

400 0.03

a) Kolika je vjerojatnost da će investicija rezultirati gubitkom?

b) Kolika je vjerojatnost da investicija neće rezultirati dobitkom?

c) Kolika je vjerojatnost da će dobit biti barem 100, ali manje od 300 tisuća kuna?

Rješenje: Neka je X diskretna slučajna varijabla čije su realizacije iznosi dobitka(odnosno gubitka) u tisućama kuna. Prema prethodnoj tablici je

R(X) = −400,−200,−100, 0, 100, 200, 300, 400,

a pripadne vjerojatnosti su sljedeće:

P (X = −400) = 0.05, P (X = −200) = 0.15, P (X = −100) = P (X = 100) = 0.3,

P (X = 0) = 0.1, P (X = 200) = P (X = 400) = 0.03, P (X = 300) = 0.04.

Dakle, predhodnom tablicom zapravo je zadana distribucija dikretne slučajne varijableX.

Page 63: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 63

a) Investicija rezultira gubitkom ako slučajna varijabla X primi neku od vrijednostiiz skupa −400,−200,−100 ⊂ R(X):

P (X ∈ −400,−200,−100) = 0.05 + 0.15 + 0.3 = 0.5.

b Investicija neće rezultirati dobitkom ako slučajna varijabla X primi neku od vri-jednosti iz skupa −400,−200,−100, 0 ⊂ R(X):

P (X ∈ −400,−200,−100, 0) = 0.05 + 0.15 + 0.3 + 0.1 = 0.6.

c) Vjerojatnost da će dobit biti barem 100, ali manje od 300 tisuća kuna:

P (X ∈ 100, 200) = 0.3 + 0.03 = 0.33.

Primjer 4.23 Objasnite zašto sljedećom tablicom nije dana distribucija diskretne sluča-jne varijable:

vrijednosti 2 3 8 10vjerojatnosti 0.15 0 0.21 0.2

Rješenje: Zato što suma u drugom redu tablice nije jednaka 1 (0.15 + 0 + 0.21 + 0.2 =

0.56), pa niz brojeva 0.15, 0, 0.21, 0.2 ne definira vjerojatnost na skupu 2, 3, 8, 10.

4.4 Empirijska distribucija diskretne slučajne vari-jable

U statističkom ispitivanju bilježimo realizacije jedne diskretne numeričke varijable uM promatranja. Uvjereni smo da svi ti podaci predstavljaju nezavisne realizacije istediskretne slučajne varijable X:

X =

(x1 x2 . . . xn

p1 p2 . . . pn

),

ali pripadni niz vjerojatnosti pi, i = 1, . . . , n, želimo odrediti na osnovu prikupljenihpodataka. U tu svrhu iskoristit ćemo statističku definiciju vjerojatnosti i odreditipojedini pi korištenjem relativne frekvencije pojavljivanja realizacije xi u prikupljenimpodacima. Ovako dobivenu distribuciju zovemo empirijska distribucija diskretneslučajne varijable X.Dakle, ako s fi označimo frekvenciju pojavljivanja realizacije xi u podacima, onda jeempirijska distribucija ove slučajne varijable zadana tablicom

X =

(x1 x2 . . . xnf1M

f2M

. . . fnM

), f1 + f2 + · · · fn = M.

Rezultati koji su dokazani u okviru matematičke statistike garantiraju da će empiri-jska distribucija to bolje oslikavati stvarnu distribuciju slučajne varijable što je brojpromatranja (tj. izmjerenih vrijednosti varijable od interesa) veći.

Page 64: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 64

Primjer 4.24 U jednoj trgovini uveden je novi proizvod. Nakon nekog vremena vlas-nika zanima da li se kupcima taj proizvod sviđa ili ne pa je provedeno ispitivanjeslučajnog uzorka kupaca. Pri tome je provedeno sljedeće kodiranje odgovora:

• ne sviđa mi se: −1,

• niti mi se sviđa niti mi se ne sviđa: 0,

• sviđa mi se: 1.

Bilježeći odgovore na ovaj način, ispitivanjem 50 kupaca, dobiven je niz nula, jedinicai minus jedinica koji preglednije prikazujemo pomoću tablice frekvencija:

xi -1 0 1ni 24 11 15

a) Sastavite empirijsku distribuciju slučajne varijable koja može primiti navedenetri vrijednosti i modelira odnos kupaca prema novom proizvodu. Distribucijuprikažite histogramom.

−1 0 1

0.48 0.22 0.3

b) Uz pretpostavku da empirijska distribucija odgovara stvarnoj distribuciji oveslučajne varijable, odredite kolika je vjerojatnost da se slučajno odabanomkupcu iz populacije sviđa novi proizvod. (Rješenje: 0.3.)

c) Ako u trgovinu dođe 200 kupaca iz ove populacije, koji broj kupaca kojima seovaj proizvod sviđa možete očekivati među njima. (Rješenje: možemo očekivati60 kupaca.)

Primjer 4.25 (carsold.sta)Promatramo broj prodanih automobila dnevno jednog prodajnog salona za proteklih100 dana. Podaci su dani u bazi carsold.sta. Analizom tih podataka mogu se donijetiizvjesni zaključi o budućoj prodaji što će pomoći u donošenju poslovnih odluka.

a) Nacrtajte histogram i odredite empirijsku distribuciju.

9 10 11 12 13 14 15 16 17

0.07 0.15 0.08 0.11 0.12 0.09 0.11 0.13 0.14

b) Koliko iznosi prosječna dnevna prodaja, a koliko je maksimalno odsupanje odprosjeka? (Rješenje: x = 13.26, max xmax − x, x− xmin = 4.26.)

c) Uz pretpostavku da empirijska distribucija odgovara stvarnoj distribuciji oveslučajne varijable, odredite vjerojatnost da će ova auto kuća prodati više od 13

automobila dnevno? (Rješenje: 0.47.)

Page 65: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 65

d) Uz pretpostavku da empirijska distribucija odgovara stvarnoj distribuciji oveslučajne varijable, odredite vjerojatnost da bude prodano više od 9, ali manjeod 12 automobila dnevno? (Rješenje: 0.23.)

Primjer 4.26 (training.sta)Broj treninga koje treba provesti prije no što studenti savladaju jedan složeni kompju-torski program kreće se u rasponu od jednog do pet. Proizvođači programa odlučili suprikupiti podatke koji pokazuju koliko je treninga bilo potrebno svakom pojedinomispitaniku da bi savladao program. Podaci su dani u bazi training.sta.

a) Odredite empirijsku distribuciju broja provedenih treninga do savladavanja pro-grama i nacrtajte histogram.

1 2 3 4 5

0.1 0.26 0.4 0.14 0.1

b) Ako proizvođači tog programa žele osigurati da barem 76% studenata savladaprogram, koji je minimalan broj treninga koji trebaju provesti? (Rješenje: 3.)

Primjer 4.27 (coffee.sta)Broj gostiju koji dnevno dolaze na kavu u "Sunrise Coffee Shop" nalazi se u bazipodataka coffee.sta.

a) Odredite empirijsku distribuciju i prikažite je histogramom.

45 46 . . . 67

0.057 0.0143 . . . 0.0143

b) Ako vjerojatnost da će dnevno biti najmanje 56 gostiju iznosi više od 0.5 vlas-nik kafića planira zaposliti još jednog konobara. Ako odluči vjerovati da jeempirijska distribucija broja gostiju iz navedenog ispitivanja identična stvarnojdistribuciji broja gostiju, treba li mu još jedan konobar ili ne? (Rješenje: treba,vjerojatnost je 0.53.)

c) Kolika je u tom slučaju vjerojatnost da će kafić posjetiti izmedu 50 i 54 osobednevno? (Rješenje: treba, vjerojatnost je 0.085714.)

Primjer 4.28 (prihod.sta)Raspolažemo podacima o prihodu od prodaje za 153 poduzeća u Hrvatskoj.

a) Nacrtajte histogram i izračunajte očekivanje i standardnu devijaciju empirijskedistribucije. (Rješenje: x = 742398.4, s = 525905.9.)

b) Koji je najčešći prijavljeni prihod za ispitana poduzeća? (Rješenje: mod je999999.)

Page 66: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 66

c) Uz pretpostavku da empirijska distribucija odgovara stvarnoj distribuciji oveslučajne varijable, odredite vjerojatnost da će prihod biti 1200000 i veći, te daće prihod biti izmedu 300000 i 700000 eura? (Rješenje: 0.196078, 0.078432.)

Primjer 4.29 (mba.sta)Vijeće jednog MBA studija ima zadatak odrediti graničnu vrijednost za primanjestudenata na MBA studij koristeći GMAT test (Graduate Management AdmissionTest). Vijeće predlaže da se odabere takva granična vrijednost koja će odobriti upisza 25% prijavljenih studenata sa najboljim rezultatima na GMAT testu.

a) Koja bi to vrijednost bila? (Rješenje: gornji kvartil skupa podataka je 523.)

b) Jedan od profesora predlaže da se primi 1/3 studenata. Koliko bi u tom slučajutrebala iznosti granična vrijednost? (Rješenje: 506.)

Primjer 4.30 (dob-poduz.sta)Raspolažemo podacima o dobi 200 poduzetnika u Hrvatskoj.

a) Zanima nas prosječna starost poduzetnika kao i standardna devijacija empirijskedistribucije. (Rješenje: x = 42.605, s = 8.994078.)

b) Također, raspolažemo informacijom da je u SAD-u 50% poduzetnika mlađe od 35

godina, pa nas zanima kakva je situacija u Hrvatskoj. (Rješenje: 19% poduzetnikau Hrvatskoj je mlađe od 35 godina.)

c) Kolika je relativna frekvencija poduzetnika koji imaju između 46 i 60 godina?(Rješenje: 0.275.)

4.5 Kontinuirana (neprekidna) slučajna varijabla

Diskretne slučajne varijable poslužit će kao matematički model kojim opisujemo diskretnenumeričke varijable u istraživanju. Za modeliranje kontinuiranih numeričkih varijabliu istraživanjima trebat će nam model slučajne varijable čiji skup svih mogućih real-izacija R(X) ima oblik intervala ili segmenta iz skupa realnih brojeva ili je naprostoR(X) = R. Za takve slučajne varijable bit će karakteristično da se, općenito, njihovavjerojatnosna svojstva ne mogu modelirati korištenjem niza vjerojatnosti pojedinačnihrealizacija kao u diskretnom slučaju. Kao što smo već uočili kod kontinuiranih var-ijabli, naglasak pri njihovom opisivanju je stavljen na interval vrijednosti koje takvavarijabla prima, a ne na pojedinačne realizacije.

Za slučajnu varijablu X kažemo da je kontinuirana (neprekidna) sluča-jna varijabla ako postoji nenegativna realna funkcija f , definirana naskupu realnih brojeva, takva da je vjerojatnost

Pa ≤ X ≤ b = Pa < X ≤ b =

b∫a

f(x) dx.

Page 67: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 67

Takvu funkciju f zovemo funkcija gustoće kontinuirane (neprekidne)slučajne varijable X.

Uočimo da vjerojatnost Pa ≤ X ≤ b = Pa < X < b zapravo predstavlja površinuizmeđu osi x i grafa funkcije f na intervalu [a, b].

a b x

f(x)

Pa ≤ X ≤ b

Slika 4.1: Vjerojatnost kao površina između osi x i grafa funkcije f na intervalu [a, b]

Na taj način lako vizualiziramo značenje vjerojatnosti da kontinuirana slučajna vari-jabla primi vrijednost iz nekog podskupa skupa R. Dakle, prilikom računanja vjero-jatnosti za kontinuiranu slučajnu varijablu treba prvo skicirati graf njene funkcijegustoće i koristiti ga prilikom analiziranja slučajne varijable i računanja vjerojatnostida ona primi vrijednost iz nekog skupa. Kontinuirana slučajna varijabla je zadanaako je poznata njena funkcija gustoće. Tada kažemo da poznajemo razdiobu ilidistribuciju kontinuirane slučajne varijable.

Primjer 4.31 Funkcija gustoće neprekidne slučajne varijable dana je izrazom

f(x) =

1/2 , x ∈ [−1, 1]

0 , x /∈ [−1, 1]

Odredite vjerojatnosti sljedećih događaja.

a) PX ∈ (0, 1),

b) PX ∈ (−1,−1/2),

c) PX ∈ (−1/2, 1),

d) PX ∈ (−3/2, 1/2),

e) PX ∈ (−2, 2).

Primjer 4.32 Funkcija gustoće neprekidne slučajne varijable dana je izrazom

f(x) =

−|x|+ 1 , x ∈ [−1, 1]

0 , x /∈ [−1, 1]

Page 68: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 68

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

0.2

0.4

0.6

0.8

1.0

Slika 4.2: Graf funkcije gustoće f

Odredite vjerojatnosti sljedećih događaja.

a) PX ∈ (0, 1),

b) PX ∈ (−1,−1/2),

c) PX ∈ (−1/2, 1).

Rješenje:

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

0.2

0.4

0.6

0.8

1.0

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

0.2

0.4

0.6

0.8

1.0

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

0.2

0.4

0.6

0.8

1.0

a) PX ∈ (0, 1) = 12

b) PX ∈ (−1,−1/2) = 18

c) PX ∈ (−1/2, 1) = 78

Primjer 4.33 Funkcija gustoće neprekidne slučajne varijable dana je izrazom

f(x) =

|x| , x ∈ [−1, 1]

0 , x /∈ [−1, 1]

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

0.2

0.4

0.6

0.8

1.0

Slika 4.3: Graf funkcije gustoće f

Page 69: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 69

Odredite vjerojatnosti sljedećih događaja.

a) PX ∈ (0, 1),

b) PX ∈ (−1,−1/2),

c) PX ∈ (−1/2, 1).

Rješenje:

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

0.2

0.4

0.6

0.8

1.0

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

0.2

0.4

0.6

0.8

1.0

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

0.2

0.4

0.6

0.8

1.0

a) PX ∈ (0, 1) = 12

b) PX ∈ (−1,−1/2) = 38

c) PX ∈ (−1/2, 1) = 58

Primjer 4.34 Pokrenite programski paket Statistica te izaberite:

Statistics → Probability Calculator → Distributions.

Pogledajte grafove nekih funkcija gustoća vjerojatnosti koje se koriste u primjenama.Diskutirajte razlike u grafovima. Odaberite jednu slučajnu varijablu koja prima bro-jeve bliske nuli s velikom vjerojatnošću.

Primjer 4.35

a) U programskom paketu Statistica pod opcijom Distributions u Probability Cal-culatoru proučite grafove funkcija gustoća normalne, Studentove, Fisherove, ek-sponencijalne i χ2 distribucije (koristite parametre unaprijed zadane u Statis-tici). Za svaku od ovih distribucija odredite P (X ≤ −1), P (X ≤ 1), P (X ≥ 1)

i P (0 < X ≤ 1).

b) Uočite sličnost grafa funkcija gustoća normalne distribucije s parametrima 0

i 1 i Studentove distribucije. Povećavajte parametar df (tj. broj stupnjevaslobode) Studentove distribucije. Što se događa s grafom gunkcije gustoće zavelike vrijednosi parametra df?

c) Mijenjajte vrijednost parametra mean normalne distribucije - kakve su vjero-jatnosti P (X ≤ −1) i P (X ≥ 1) kada mean nije nula?

Rješenje:

Page 70: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 70

a) normalna distribucija s parametrima µ = 0 i σ = 1 (mean=0, st.dev.=1):

-4 -3 -2 -1 1 2 3 4

0.1

0.2

0.3

0.4

-4 -3 -2 -1 1 2 3 4

0.1

0.2

0.3

0.4

P (X ≤ −1) P (X ≤ 1)

-4 -3 -2 -1 1 2 3 4

0.1

0.2

0.3

0.4

-4 -3 -2 -1 1 2 3 4

0.1

0.2

0.3

0.4

P (X ≥ 1) P (0 < X ≤ 1)

P (X ≤ −1) =

∫ −1−∞

f(x) dx = 0.158655,

P (X ≤ 1) =

∫ 1

−∞f(x) dx = 0.841345,

P (X ≥ 1) = 1−∫ 1

−∞f(x) dx = 1− 0.841345 = 0.158655,

P (0 < X ≤ 1) =

∫ 1

−∞f(x) dx−

∫ 0

−∞f(x) dx = 0.841345−0.341345 = 0.341345.

Studentova distribucija s jednim stupnjem slobode (df=1):

-4 -3 -2 -1 1 2 3 4

0.05

0.10

0.15

0.20

0.25

0.30

-4 -3 -2 -1 1 2 3 4

0.05

0.10

0.15

0.20

0.25

0.30

P (X ≤ −1) P (X ≤ 1)

-4 -3 -2 -1 1 2 3 4

0.05

0.10

0.15

0.20

0.25

0.30

-4 -3 -2 -1 1 2 3 4

0.05

0.10

0.15

0.20

0.25

0.30

P (X ≥ 1) P (0 < X ≤ 1)

Page 71: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 71

P (X ≤ −1) =

∫ −1−∞

f(x) dx = 0.25,

P (X ≤ 1) =

∫ 1

−∞f(x) dx = 0.75,

P (X ≥ 1) = 1−∫ 1

−∞f(x) dx = 1− 0.75 = 0.25,

P (0 < X ≤ 1) =

∫ 1

−∞f(x) dx−

∫ 0

−∞f(x) dx = 0.75− 0.25 = 0.25.

Fisherova distribucija sa stupnjevima slobodem = 10 i n = 10 (df1=10, df2=10):

-1 1 2 3 4

0.1

0.2

0.3

0.4

0.5

0.6

0.7

-1 1 2 3 4

0.1

0.2

0.3

0.4

0.5

0.6

0.7

P (X ≤ 1) = P (0 < X ≤ 1) P (X ≥ 1)

P (X ≤ −1) =

∫ −1−∞

f(x) dx = 0,

P (X ≤ 1) =

∫ 1

−∞f(x) dx = 0.5,

P (X ≥ 1) = 1−∫ 1

−∞f(x) dx = 1− 0.5 = 0.5,

P (0 < X ≤ 1) =

∫ 1

−∞f(x) dx−

∫ 0

−∞f(x) dx = 0.5− 0 = 0.5.

Eksponencijalna distribucija s parametrom λ = 1:

-1 1 2 3 4

0.2

0.4

0.6

0.8

1.0

-1 1 2 3 4

0.2

0.4

0.6

0.8

1.0

P (X ≤ 1) = P (0 < X ≤ 1) P (X ≥ 1)

P (X ≤ −1) =

∫ −1−∞

f(x) dx = 0,

P (X ≤ 1) =

∫ 1

−∞f(x) dx = 0.632121,

P (X ≥ 1) = 1−∫ 1

−∞f(x) dx = 1− 0.632121 = 0.367879,

Page 72: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 72

P (0 < X ≤ 1) =

∫ 1

−∞f(x) dx−

∫ 0

−∞f(x) dx = 0.632121− 0 = 0.632121.

χ2 distribucija s 3 stupnja slobode (df=3):

-1 1 2 3 4 5 6 7 8 9 10

0.05

0.10

0.15

0.20

0.25

-1 1 2 3 4 5 6 7 8 9 10

0.05

0.10

0.15

0.20

0.25

P (X ≤ 1) = P (0 < X ≤ 1) P (X ≥ 1)

P (X ≤ −1) =

∫ −1−∞

f(x) dx = 0,

P (X ≤ 1) =

∫ 1

−∞f(x) dx = 0.198748,

P (X ≥ 1) = 1−∫ 1

−∞f(x) dx = 1− 0.198748 = 0.801252,

P (0 < X ≤ 1) =

∫ 1

−∞f(x) dx−

∫ 0

−∞f(x) dx = 0.198748− 0 = 0.198748.

Uočavamo da je kod normalne distribucije s parametrima 0 i 1 i Studentovedistribucije s parametrom df = 1 (tj. s jednim stupnjeva slobode) P (X ≤ −1) =

P (X ≥ 1) što ukazuje na simetričnost tih distribucija. Budući je kod Fisherove,eksponencijalne i χ2 distribucije P (X ≤ −1) = P (X ≤ 0) = 0, zaključujemo dasu te tri distribucije nenegativne, tj. da slučajne varijable s tim distribucijamane poprimaju negativne vrijednosti.

b) Graf funkcije gustoće Studentove distribucije s povećanjem vrijednoste parame-tra df (tj. s povećanjem broja stupnjeva slobode) sve više nalikuje grafu funkcijegustoće normalne distribucije s parametrima 0 i 1. Što je broj stupnjeva slo-bode veći, to je vjerojatnost da slučajna varijabla sa Studentovom distribucijompoprimi vrijednosti iz nekog intervala realnih brojeva bliža vjerojatnosti da sluča-jna varijabla s normalnom distribucijom poprimi vrijednosti iz tog istog inter-vala.

c) Kada vrijednost parametra mean nije 0 nego npr. 1, uočavamo da je P (X ≤−1) = 0.022750, a P (X ≥ 1) = 0.5. No u ovom je slučaju P (X ≤ 1) = P (X ≥1) = 0.5 i također P (X ≤ 0) = P (X ≥ 2) = 0.158655. Zaključujemo da jenormalna distribucija simetrična s obzirom na vrijednost parametra mean.

Page 73: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 73

4.6 Mjere centralne tendencije i raspršenosti sluča-jne varijable

Kao što smo kod podataka prikupljenih mjerenjem numeričkih varijabli koristili mjerecentralne tendencije i raspršenosti da bismo lakše opisali skup podataka, tako i kodslučajnih varijabli možemo koristiti analogne mjere za lakši opis svojstava slučajnihvarijabli. Međutim, teorijska analiza takvih mjera precizno definiranih na osnovutablice distribucije kod diskretnih, odnosno funkcije gustoće kod neprekidnih, sluča-jnih varijabli donosi i neke njihove bitne značajke koje se koriste u statističkom za-ključivanju. U ovom poglavlju definirat ćemo mjere centralne tendencije i raspršenostislučajne varijable posebno za diskretne a posebno za neprekidne slučajne varijable.

Neka je X diskretna slučajna varijabla:

X =

(x1 x2 . . . xn

p1 p2 . . . pn

)odnosno X =

(x1 x2 x3 . . .

p1 p2 p3 . . .

).

Očekivanje slučajne varijable X je realan broj (ako postoji):

µ = EX =∑

svimxi∈R(X)

xipi,

a njena varijanca realan broj (ako postoji):

σ2 = V arX =∑

svimxi∈R(X)

(xi − µ)2pi.

Neka je X neprekidna slučajna varijabla s gustoćom f . Očekivanje ove slučajnevarijable je realan broj (ako postoji)

µ = EX =

∞∫−∞

x f(x) dx,

a varijanca realan broj (ako postoji):

σ2 = V arX =

∞∫−∞

(x− µ)2f(x) dx.

Drugi korijen iz varijance zovemo standardna devijacija slučajne varijable i oz-načavamo ga σ.

Očekivanje je jedna od mjera centralne tendencije, a varijanca (i standardna devi-jacija) jedna od mjera raspršenja oko očekivanja. Ovu činjenicu potkrijepljuju mnogirezultati teorije vjerojatnosti, a jedan od njih je i takozvana Čebiševljeva nejed-nakost.

Page 74: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 74

Čebiševljeva nejednakost:Neka je X slučajna varijabla koja ima varijancu. Neka je σ standardnadevijacija te slučajne varijable, a µ njeno očekivanje. Tada za svakiprirodan broj k vrijedi:

P|X − µ| ≥ kσ ≤ 1

k2, k ∈ N.

Interpretacija: Vjerojatnost da se slučajna varijabla realizira vrijednostima kojesu od očekivanja µ udaljene više od kσ manja je ili jednaka 1/k2. Uvrštavajući k = 3

vidimo da realizacija slučajne varijable pada u interval 〈µ − 3σ, µ + 3σ〉 s vjerojat-nošću približno 0.9. Ta činjenica praktično znači da približno 90% realizacija slučajnevarijable X padne u interval 〈µ− 3σ, µ+ 3σ〉.

Iz Čebiševljeve nejednakosti primjernom svojstva vjerojatnosti suprotnog događajaslijedi da je

P|X − µ| < kσ ≥ 1− 1

k2.

Na sljedećim slikama prikazana je vjerojatnost P|X − µ| < kσ za k = 1 i k = 3 zanormalnu slučajnu varijablu X s parametrima µ = 0 i σ = 1.

−σ σ x

f(x)

P|X − µ| < σ

Slika 4.4: Prema Čebiševljevoj nejednakosti je P|X − µ| < σ = PX ∈ 〈µ− σ, µ+ σ〉 ≥ 0

−3σ 3σ x

f(x)

P|X − µ| < 3σ

Slika 4.5: Prema Čebiševljevoj nejednakosti je P|X − µ| < 3σ = PX ∈ 〈µ− 3σ, µ+ 3σ〉 ≥ 8

9

Page 75: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 75

Medijan slučajne varijable X je realan broj m za koji vrijedi:

PX ≥ m ≥ 1

2i PX ≤ m ≥ 1

2.

Medijan je također jedna mjera centralne tendencije.

Primjer 4.36 Odredite očekivanje, varijancu, standardnu devijaciju i medijan svakeslučajne varijable iz primjera poglavlja 4.4. Također, za svaku od navedenih sluča-jnih varijabli odredite P|X − µ| < 3σ korištenjem distribucije slučajne varijable.Dobiveni rezultat usporedite s ocjenom vjerojatnosti dobivenom pomoću Čebiševljenejednakosti.

Rješenje: Navodimo rješenje za podatke iz baze carsold.sta. Pretpostavljamo da jestvarna distribucija slučajne varijable iz koje potječu ovi podaci jednaka empirijskojdistribuciji - očekivanje, varijanca, standardna devijacija i medijan su dane u sljedećojtablici:

Descriptive Statistics (CARSOLD.STA)

Variable Valid N Mean Median Variance Std.Dev.AUTI 100 13,26000 13,00000 6,840808 2,615494

Iz distribucije ove slučajne varijable slijedi:

P|X − µ| < 3σ = Pµ− 3σ < X < µ+ 3σ = P (5.413518 < X < 21.106482) = 1.

Ocjena ove vjerojatnosti dobivena pomoću Čebiševljeve nejednakosti je (pogledajte sliku4.5)

P|X − µ| < 3σ ≥ 1− 1

9=

8

9≈ 0.888.

Primjer 4.37 Odredite očekivanje, varijancu i standardnu devijaciju svake slučajne var-ijable iz primjera poglavlja 4.5. Također, za svaku od navedenih slučajnih varijabliodredite P|X −µ| < 3σ korištenjem distribucije slučajne varijable. Dobiveni rezul-tat usporedite s ocjenom vjerojatnosti dobivenom pomoću Čebiševlje nejednakosti.

Rješenje: Navodimo rješenje za normalnu slučajnu varijablu s parametrima 0 i 1 -iz Probability Calculatora u programskom poaketu Statistica vidimo da je EX = 0,V arX = 1, σ = 1 i medijan = 0. Iz distribucije ove slučajne varijable slijedi:

P|X − µ| < 3σ = P|X| < 3 = P−3 < X < 3 = P (X < 3)− P (X ≤ −3) =

=

∫ 3

−3f(x) dx =

∫ 3

−∞f(x) dx−

∫ −3−∞

f(x) dx = 0.998650− 0.001350 = 0.9973.

Ocjena ove vjerojatnosti dobivena pomoću Čebiševljeve nejednakosti je (pogledajte sliku4.5)

P|X − µ| < 3σ = P|X| < 3 ≥ 1− 1

9=

8

9≈ 0.888.

Page 76: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 76

4.7 Važni primjeri diskretnih i neprekidnih slučajnihvarijabli

4.7.1 Bernoullijeva slučajna varijabala

Ukoliko varijabla koju istražujemo može primiti samo dvije vrijednosti (npr. 0 ili 1),možemo ju modelirati korištenjem Bernoullijeve slučajne varijable.

Bernoulijeva slučajna varijabla s parametrom p ∈ 〈0, 1〉 je svaka slučajna varijablakoja ima tablicu distribucije sljedećeg oblika:

X =

(0 1

q p

), p ∈ 〈0, 1〉, q = 1− p.

Parametar p ∈ 〈0, 1〉 ima značenje vjerojatnosti da slučajna varijabla X primi vrijed-nost 1.

Primjer 4.38 Igramo kockarsku igru u kojoj ostvarujemo dobitak ako se na igraćojkocki okrene šestica.

X =

(0 156

16

).

Dakle, realizaciju šestice možemo modelirati Bernoullijevom slučajnom varijablom:ako se pri bacanju kockice realizira šestica Bernoullijeva slučajna varijabla X poprimavrijednost 1, a inače poprima vrijednost 0. Uočite da su vjerojatnosti u tablici dis-tribucije slučajne varijableX određene klasičnom metodom modeliranja vjerojatnosti.

Primjer 4.39 Izvlačimo jedan proizvod iz velike pošiljke u kojoj je 2% loših proizvoda(oznake: 0 - loš proizvod, 1 - dobar proizvod). Modelirajte rezultat izvlačenja sluča-jnom varijablom.

X =

(0 1

0.02 0.98

).

Očekivanje Bernoulijeve slučajne varijable s parametrom p je

EX = 1 · p+ 0 · q = p,

a varijancaV arX = pq.

4.7.2 Binomna slučajna varijabla

Binomna slučajna varijabla vezana je uz n nezavisnih ponavljanja pokusa koji imasamo dva moguća ishoda - uspjeh i neuspjeh (oznake: 1 -uspjeh; 0 - neuspjeh). Pritome se u svakom izvoženju pokusa uspjeh relaizira s vjerojatnošću p ∈ 〈0, 1〉. Svakoponavljanje takvog pokusa opisano je Bernoullijevom slučajnom varijablom.

Page 77: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 77

Binomna slučajna varijabla s parametrima n ∈ N i p ∈ 〈0, 1〉 je slučajna varijablakoja ima tablicu distribucije sljedećeg oblika:

X =

0 1 2 . . . n

qn

(n

1

)pqn−1

(n

2

)p2qn−2 . . . pn

.

Oznaka: X ∼ B(n, p)

Objašnjenje: pokus čijim se jednim izvoženjem moše realizirati ili uspjeh (0) ili neusp-jeh (1) ponavljamo nezavisno n puta. Zanima nas kolika je vjerojatnost da se pojavitočno k uspjeha (tj. točno k jedinica), k = 0, 1, . . . , n. Prema tablici distribucijebinomne slučajne varijable slijedi:

P (X = k) =

(n

k

)pkqn−k,

jer se u n nezavisnih ponavljanja pokusa točno k puta (svaki puta sa vjerojatnošćup) pojavila realizacija koju nazivamo uspjeh i točno (n − k) puta realizacija kojunazivamo neuspjeh (svaki puta sa vjerojatnošću q).značenje parametara binomne distribucije: n - broj nezavisnih ponavljanja pokusa sasamo dva moguća ishoda; p - vjerojatnost realizacije uspjeha (1) u jednom izvođenjutog pokusa.

Primjer 4.40 Broj realizacija šestice pri n nezavisnih bacanja simetrične igraće kockicemožemo modelirati binomnom slučajnom varijablom X s parametrima n i p = 1/6.Neka je n = 100, dakle X ∼ B(100, 1/6). Histogram koji prikazuje distribuciju (tj.vjerojatnosti iz tablice distribucije) slučajne varijable X je sljedećeg oblika:

20 40 60 80 100

0.02

0.04

0.06

0.08

0.10

Nadalje, jedna realizacija slučajne varijabe Y ∼ B(100, 5/6) u ovom kontekstu je brojkoji nam kaže koliko se puta šestica nije pojavila u 100 nezavisnih bacanja simetričneigraće kockice. Histogram koji prikazuje distribuciju slučajne varijable Y je sljedećegoblika:

Page 78: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 78

20 40 60 80 100

0.02

0.04

0.06

0.08

0.10

Očekivanje binomne slučajne varijable s parametrom p je

EX = np,

a varijancaV arX = npq.

Primjer 4.41 Neka je X binomna slučajna varijabla s parametrima n = 10 i p = 0.1,tj. X ∼ B(10, 0.1). Prema tome očekivanje, varijanca i standardna devijacija slučajnevarijable X su

EX = 1, V ar(X) = 0.9, σ =√

0.9 ≈ 0.95.

Vjerojatnost da realizacija slučajne varijable X padne u interval 〈EX−σ,EX+σ〉 =

〈0.05, 1.95〉 je

P|X − 1| < 0.95 = PX ∈ 〈0.05, 1.95〉 = PX = 1 = 0.38742.

Nadalje, vjerojatnost da realizacija slučajne varijable X padne u interval 〈EX −3σ,EX + 3σ〉 = 〈−1.85, 3.85〉 je

P|X − 1| < 3 · 0.95 = PX ∈ 〈−1.85, 3.85〉 =

= PX = 0+ PX = 1+ PX = 2+ PX = 3 =

=3∑

k=0

(10

k

)0.1k0.910−k ≈ 0.987205.

Vidimo da su obje izračunate vjerojatnosti u skladu s odgovarajućom Čebiševljevomocjenom (pogledajte slike 4.4 i 4.5)

Zadatak 4.3 Poznato je da je u velikom skladištu trgovine informatičkom opremomvjerojatnost pojavljivanja prijenosnog računala s greškom nastalom u proizvodnji jed-naka 0.02. Pretpostavimo da iz tog skladišta biramo 10 prijenosnih računala. Odreditesljedeće vjerojatnosti:

Page 79: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 79

a) vjerojatnost da je točno 5 prijenosnih računala sa greškom,(Rješenje: 7.28922 · 10−7)

b) vjerojatnost da su s greškom najviše 3 prijenosna računala,(Rješenje: 0.999969)

c) vjerojatnost da je s greškom barem 6 prijenosnih računala.(Rješenje: 1.25423 · 10−8)

Zadatak 4.4 Jedno je istraživanje pokazalo da se 5% Amerikanaca boje biti sami u kućitijekom noći. Ako na reprezentativan način odaberemo uzorak od 20 Amerikanaca,odredite sljedeće vjerojatnosti:

a) ima točno pet ljudi u uzorku koji se boje biti sami noću,(Rješenje: 0.00224465)

b) ima najviše tri osobe u uzorku koje se boje biti same noću,(Rješenje: 0.984098)

c) Ima barem tri osobe u uzorku koje se boje biti same noću.(Rješenje: 0.0754837)

Zadatak 4.5 Računovodstvena služba nekog poduzeća je utvrdila da 40% kupaca neplaća račune na vrijeme. Ako se na slučajan način iz skupa računa odabere 6 kupaca,kolika je vjerojatnost:

a) Da su svi odabrani kupci podmirili račune na vrijeme?(Rješenje: 0.046656)

b) Da je preko 34odabranih kupaca podmirilo račune?

(Rješenje: 0.23328)

c) Da 50% odabranih kupaca nije platilo račune na vrijeme?(Rješenje: 0.27648)

Zadatak 4.6 Vjerojatnost da izvještaj o povratu poreza neke osobe bude ponovo pre-gledan iznosi 1.5% za prihod manji od 100000 dolara, a 3% ako je prihod jednak100000 dolara i veći (izvor: Statistical Abstract of the USA, 1998).

a) Kolika je vjerojatnost da poreznom obvezniku, čiji je prihod manji od 100000 $,porezna kartica bude ponovno pregledana, a kolika za onoga čiji je prihod jednakili veći od 100000?(Rješenje: 0.015, 0.03)

b) Ako se odabere 5 poreznih obveznika sa prihodom manjim od 100000, kolika jevjerojatnost da će biti pregledana samo jedna porezna prijava, a kolika da će ihbiti pregledano više od jedne?(Rješenje: 0.0706002, 0.00218326)

Page 80: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 80

c) Isto izračunajte za 5 poreznih obveznika s prihodom većim od 100000.(Rješenje: 0.132794, 0.00847205)

d) Koje pretpostavke ste morali postaviti da biste riješili ove zadatke upotrebombinomne distribucije?(Rješenje: pretpostavljamo da se radi o malom uzorku (5 osoba) iz velike pop-ulacije, što aproksimativno odgovara modelu u kojem 5 puta nezavisno pon-avljamo isti Bernoullijev pokus. Ta pretpostavka ovdje omogućuje upotrebubinomne distribucije.)

4.7.3 Normalna slučajna varijabala

Normalna slučajna varijabla je najvažnija neprekidna slučajna varijabla. Njena važnostposljedica je činjenice da se suma mnogo nezavisnih i jednako distribuiranihslučajnih varijabli može dobro aproksimirati slučajnom varijablom kojaima normalnu distribuciju. Analogna tvrdnja često vrijedi i ako sve slučajne var-ijable u sumi nisu jednako distribuirane, a također i u nekim slučajevima kada nisunezavisne.

Normalna slučajna varijabla je neprekidna slučajna varijabla za kojuje

R(X) = R,

a funkcija gustoće vjerojatnosti definirana je izrazom

f(x) =1

σ√

2πe−

(x−µ)2

2σ2 ,

gdje je µ bilo koji realan broj, a σ > 0. Oznaka: X ∼ N (µ, σ2).Graf funkcije gustoće normalne slučajne varijable ovisi o izboru parametara µ i σ2.Na Slici 4.6 prikazani su grafovi funkcije gustoće normalne distribucije za različitevrijednosti parametara µ i σ2.

Specijalno, ako je µ = 0, σ2 = 1, normalnu slučajnu varijablu zovemo standardnanormalna slučajna varijabla. Graf funkcije gustoće standardne normalne sluča-jne varijable je zeleni graf prikazan na slici 4.6.Značenje parametara normalne distribucije:

µ = EX, σ2 = V arX.

Uočimo:

• Funkcija gustoće normalne slučajne varijable ima maksimum za x = µ.

• Funkcija gustoće normalne slučajne varijable simetrična je u odnosu na pravackoji prolazi maksimumom krivulje i paralelan je s y osi.

Page 81: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 81

-4 -2 2 4 6 8 10

0.2

0.4

0.6

0.8

1

Μ=2, Σ2=4

Μ =-2,Σ2=0.25

Μ=0, Σ2=1

Slika 4.6: Graf funkcije gustoće normalne distribucije za različite µ and σ2

• Standardna devijacija je pozitivan broj i ona određuje koliko je funkcija gustoće"široka".

Postupak standardizacije:Neka je X normalna slučajna varijabla X ∼ N (µ, σ2). Tada je slučajna varijabla

Z =X − µσ

standardna normalna slučajna varijabla (tj. normalna slučajna varijabla s očekivan-jem 0 i varijancom 1).

Primjer 4.42 Dokažite sljedeće tvrdnje korištenjem postupka standardizacije i nekogkalkulatora površine (npr. Probability Calculator iz programskog paketa Statistica)ispod grafa funkcije gustoće standardne normalne slučajne varijable.

• Vjerojatnost da realizacija padne u interval [µ− σ, µ+ σ] iznosi 0.68.

• Vjerojatnost da realizacija padne u interval [µ− 2σ, µ+ 2σ] iznosi 0.95.

• Vjerojatnost da realizacija padne u interval [µ− 3σ, µ+ 3σ] iznosi 0.9972.

Zadatak 4.7 Neka je Z standardna normalna slučajna varijabla, tj Z ∼ N (0, 1).Odredite sljedeće vjerojatnosti:

1. P (−0.5 ≤ Z ≤ 1.1)

(Rješenje: 0.555796)

2. P (−0.38 ≤ Z ≤ 1.72)

(Rješenje: 0.605311)

3. P (Z ≥ 1.6)

(Rješenje: 0.054799)

Page 82: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 82

4. P (Z ≤ −1.8)

(Rješenje: 0.035930)

Zadatak 4.8 Prinos usjeva određenog gospodarstva mjeri se količinom proizvoda kojise proizvede po hektaru. Poznato je da se normalna slučajna varijabla može upotri-jebiti za opis prinosa kroz vrijeme (izvor: American Journal of Agricultural Economics,1999). Povijesni podaci pokazuju da prinos pamuka za iduću godinu može biti opisannormalnom distribucijom s očekivanjem 1500 funti po hektaru i standardnom devi-jacijom 250. Poljoprivredno gospodarstvo koje promatramo bit će profitabilno akoproizvede barem 1600 funti po hektru.

1. Kolika je vjerojatnost da će to gospodarstvo izgubiti novac slijedeće godine?(Rješenje: 0.655422)

2. Kolika je vjerojatnost da slijedeće godine prinos padne unutar dvije standardnedevijacije oko 1500?(Rješenje: 0.9545)

Zadatak 4.9 Količina novca koji aviokompanije troše na hranu po jednom putniku jenormalno distribuirana sa očekivanjem 64 kn i standardnom devijacijom 16. Odredite:

1. Koliki postotak aviokompanija troši više od 100 kn po putniku?(Rješenje: 0.012224)

2. Koliki postotak aviokompanija troši između 48 i 80 kn po putniku?(Rješenje: 0.68269)

4.8 Empirijska distribucija slučajne varijable

U statističkim istraživanjima, varijable o kojima prikupljamo podatke na osnovuuzorka modeliramo kao slučajne varijable. Ukoliko su varijable numeričke i diskretnepo svom karakteru, za modeliranje koristimo diskretnu slučajnu varijablu. Pri tomekao distribuciju možemo koristiti empirijsku distribuciju diskretne slučajne varijableo kojoj je već bilo riječi. U tom slučaju, očekivanje slučajne varijable zapravo primavrijednost aritmetičke sredine prikupljenih podataka, a varijanca i standardna devi-jacija slučajne varijable primaju vrijednost varijance odnosno standardne devijacijeprikupljenih podataka iz te varijable. Preciznije govoreći vrijedi sljedeća tvrdnja.

Ako za distribuciju slučajne varijable, za koju smo nezavisnim ponavljanjem pokusa(mjerenja) prikupili realizacije (x1, . . . , xn), smatramo empirijsku distribuciju tog skupapodataka, tj. računamo vjerojatnosti kao:

PX ∈ [a, b] = relativna frekvencija pojavljivanja realizacije iz intervala [a, b]

Page 83: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 83

tada vrijedi:

EX =1

n

∑i

xi = x, V ar X =1

n

∑i

(xi − x)2.

Upitno je koliko je opravdano empirijsku distribuciju podataka prikupljenih na os-novu nezavisnih realizacija slučajne varijable smatrati njezinom pravom distribuci-jom. Kod varijabli koje su po karakteru kontinuirane i želimo ih modelirati kao kon-tinuirane slučajne varijable, očigledno je da računanje vjerojatnosti korištenjem empir-ijske distribucije može biti samo aproksimacija stvarnih vjerojatnosti (vidi definicijukontinuirane slučajne varijable).Zapravo, empirijska distribucija podataka prikupljenih na osnovu nezavisnih real-izacija slučajne varijable X samo je procjena za njenu stvarnu distribuciju dok suaritmetička sredina, varijanca, standardna devijacija i medijan tih podataka procjeneza očekivanje, varijancu, standardnu devijaciju i medijan slučajne varijable.

4.9 Zadaci za vježbu

1. Simetrična igraća kockica baca se dva puta. Zanima nas vjerojatnost pojavlji-vanja sljedećih događaja:

a) A = barem jednom se okrenuo broj 2,

b) B = suma brojeva koji su pali je 7,

c) C = produkt brojeva koji su pali je 4,

2. Na raspolaganju nam je kutija u kojoj se nalazi 150 papirića numeriranih bro-jevima 1, 2, . . . , 150. Realizacija slučajne varijable je broj na jednom slučajnoizvučenom papiriću. Odredite vjerojatnosti sljedećih događaja:

a) A = izvučeni broj je djeljiv s tri,

b) B = izvučeni broj je troznamenkast,

c) C = izvučeni broj je manji ili jednak od 99,

d) D = izvučeni broj je strogo veći od 99,

3. Neka je distribucija slučajne varijable X dana tablicom:

X =

(−3 −2 −1 4 5 616

16

112

112

112

512

)

• Odredite vjerojatnost skupova: X < 0, X = −3, X = 0, X > 6,X ≥ 5.

Page 84: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Slučajna varijabla 84

• Odredite njeno očekivanje, varijancu i standardnu devijaciju.

• Odredite P|X − µ| ≤ 2σ, gdje je µ očekivanje a σ2 varijanaca.

4. Baza podataka desno.xls sadrži dio podataka iz istraživanja kojim se proučavaučestalost korišenja desne ruke u skupini dešnjaka, ljevaka i ambidekstera jednepoulacije. Varijabla sum sadrži ocjenu učestalosti korištenja desne ruke u desetizabranih radnji i može primiti vrijednosti od 0 do 30. Varijabla objetivno sadržiinformaciju o tome da li je osoba dešnjak, ljevak ili ambidekster.

• Procijenite vjerojatnost da slučajnim izborom osobe iz ove populacije od-aberemo dešnjaka.

• Procijenite vjerojatnost da slučajnim izborom osobe iz ove populacije od-aberemo ljevaka.

• Procijenite vjerojatnost da slučajnim izborom osobe iz ove populacije od-aberemo osobu čija učestalost korištenja desne ruke je manja ili jendaka10.

• Procijenite vjerojatnost da slučajnim izborom osobe iz ove populacije od-aberemo osobu čija učestalost korištenja desne ruke je barem 10.

• Procijenite vjerojatnost da slučajnim izborom osobe iz ove populacije od-aberemo osobu čija učestalost korištenja desne ruke nije 20.

• Procijenite vjerojatnost da slučajnim izborom osobe iz ove populacije od-aberemo osobu čija je učestalost korištenja desne ruke veća od 20.

• Procijenite vjerojatnost da slučajnim izborom osobe iz ove populacije od-aberemo osobu čija je učestalost korištenja desne ruke 30.

• Uz pretpostavku da stvarna distribucija varijable slučajne sum odgovaraempirijskoj distribuciji te varijable, odredite njeno očekivanje, varijancu istandardnu devijaciju.

• Uz pretpostavku da stvarna distribucija slučajne varijable sum odgovaraempirijskoj distribuciji, te uz oznaku µ = EX, σ2 = V arX, odreditesljedeće vjerojatnosti: P|X−µ| ≤ σ, P|X−µ| ≤ 2σ i P|X−µ| ≤ 3σ.

• Uz pretpostavku da stvarna distribucija slučajne varijable sum odgovaraempirijskoj distribuciji, odredite jedan medijan slučajne varijable sum. Također,odredite P|X −m| ≤ σ, P|X −m| ≤ 2σ i P|X −m| ≤ 3σ, gdje jem medijan koji ste odabrali. Diskutirajte razlike u odnosu na prethodnopitanje.

5. Odredite vjerojatnosti skupova X ≤ 1, X ≥ 5, 1 < X < 3, ako je Xnormalna slučajna varijabla s očekivanjem 2 i varijancom 4.

Page 85: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Poglavlje 5

Statističko zaključivanje o jednojslučajnoj varijabli

5.1 Procjena distribucije, očekivanja i varijance

Primjer 5.1 Raspolažemo podacima o realizaciji slučajne varijable X koja opisujepotrošnju goriva novog modela automobila pri brzini od 110 km/h na autocesti u100 nezavisnih mjerenja. Podaci se nalaze u bazi podataka automobili.sta. Često naszanimaju odgovori na pitanja sljedećeg tipa:

• Kolika je vjerojatnost da je potrošnja goriva tog modela u navedenim uvjetimamanja od 5.5 L?

• Kolika je očekivana potrošnja goriva u navedenim uvjetima?

• Kolika je standardna devijacija slučajne varijable koja opisuje potrošnju gorivau navedenim uvjetima?

Problem prilikom rješavanja ovog zadatka je činjenica da mi ne znamo stvarnu dis-tribuciju slučajne varijableX koja opisuje potrošnju goriva u danim uvjetima. Ta namdistribucija treba za precizno odgovaranje na postavljena pitanja. Temeljem statis-tičke definicije vjerojatnosti, znamo da ima smisla koristiti empirijsku distribucijuovih podataka kao osnovu za računanje vjerojatnosti događaja oblika PX ∈ [a, b],a, b ∈ R, ukoliko imamo veliki broj realizacija (tj. nmnogo izmjerenih vrijednostipotrošnje goriva). Dapače, što je broj realizacija veći, korištenje empirijske distribu-cije za računanje ovih vjerojatnosti je opravdanije. Zato kažemo da je empirijskadistribucija podataka (x1, . . . , xn), koji predstavljaju nezavisne realizacijejedne slučajne varijable X, dobar procjenitelj za distribuciju slučajne vari-jable X. Što je tih podataka više, procjena dobivena temeljem empirijske distribucijebit će kvalitetnija (tj. bliža očekivanju slučajne varijable X).Ako razmislimo o tipu slučajne varijable koja opisuje potrošnju goriva u gornjemprimjeru, prirodno je modelirati ju kao neprekidnu slučajnu varijablu. Međutim, em-pirijska distribucija podataka koju koristimo kao temelj za računanje vjerojatnosti

85

Page 86: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 86

u upravo predloženom postupku je diskretna. Na osnovu poznavanja svojstava var-ijable koju proučavamo često možemo unaprijed odrediti oblik neprekidne distribu-cije koju je opravdano koristiti prilikom modeliranja slučajne varijable. Npr., već jespomenuto da suma puno nezavisnih slučajnih utjecaja na varijablu osigurava da seslučajan karakter varijable može opisati korištenjem normalne distribucije s nepozna-tim očekivanjem µ i varijancom σ2. U takvim slučajevima za odrađivanje distribucijeiz podataka možemo koristiti pretpostavljeni tip distribucije te procijeniti nepoznateparametre: očekivanje i varijancu.

Za procjenu očekivanja slučajne varijable koristimo aritmetičku sredinupodataka (x1, x2, . . . , xn) dobivenih mjerenjem realizacija navedene slučajnevarijable u međusobno nezavisnim ponavljanjima pokusa, tj.

xn =1

n

n∑i=1

xi.

Za procjenu varijance slučajne varijable koristimo korigiranu varijancu po-dataka (x1, x2, . . . , xn) dobivenih mjerenjem realizacija navedene slučajnevarijable u međusobno nezavisnim ponavljanjima pokusa, tj.

s2n =1

n− 1

n∑i=1

(xi − x)2.

Primjer 5.2 Promotrimo podatke o potrošnji goriva iz baze podataka automobili.sta.Već smo rekli da su izmjerene vrijednosti potrošnje goriva u danim uvjetima primjera5.1. realizacije jedne kontinuirane slučajne varijable X. Pokušajmo odrediti o kojemse tipu neprekidne slučajne varijable radi tako da kategoriziramo podatke i nacrtamohistogram frekvencija i relativnih frekvencija:

Histogram of Potrosnja

1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5

Potrosnja

0

10

20

30

40

50

60

70

No

of o

bs

0%

3%

7%

10%

13%

17%

20%

23%

Page 87: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 87

Iz ovog histograma uočavamo da ovu varijablu ima smisla modelirati kao normalnuslučajnu varijablu. Štoviše, povećanje broja kategorija podataka pokazuje još boljuusklađenost histograma kategoriziranih izmjerenih vrijednosti potrošnje goriva s funkci-jom gustoće normalne distribucije. Sada smo odredili tip kontinuirane slučajne vari-jable kojom ima smisla modelirati potrošnju goriva ovog modela automobila u danimuvjetima, ali njezine numeričke karakteristike (očekivanje i varijanca) su nepoznate.Stvarno očekivanje i varijancu ni ne možemo znati, no obje ove numeričke karakteris-tike možemo procijeniti na temelju 300 izmjerenih vrijednosti potrošnje goriva iz bazepodataka:

x300 = 5.12, sn = 0.97.

Ove procjene za očekivanje i varijancu možemo iskoristiti kao parametre normalnedistribucije kojom vršimo modeliranje, tj. možemo uzeti da je X ∼ N (5.12, 0.97). Po-moću ove normalne distribucije s procijenjenim parametrima možemo izračunati vjero-jatnost da je potrošnja goriva tog modela u navedenim uvjetima manja od 5.5 L (koris-tite Probability Calculator u programskom paketu Statistica): PX < 5.5 = 0.652.Istu vjerojatnost mogli smo izračunati i pomoću empirijske distribucije podataka -ovim pristupom dobivamo da je PX < 5.5 = 0.657. Budući znamo da je em-pirijska distribucija dobar procjenitelj za stvarnu distribuciju slučajne varijable X izkoje potječu podaci te smo korištenjem empirijske distribucije i normalne distribu-cije s parametrima x300 = 5.12 i s300 = 0.97 dobili približno jednake vjerojatnostiPX < 5.5, zaključujemo da je X ∼ N (5.12, 0.97) dobar model za promatranuvarijablu.

Zadatak 5.1 Baza podataka dob-poduz.sta sadrži podatke o godinama starosti za 200

poduzetnika iz Republike Hrvatske.

a) Procijenite očekivanje i varijancu slučajne varijable kojom modeliramo starost(u godinama) hrvatskih poduzetnika.

b) Kategorizirajte podatke s kojima raspolažete te odlučite ima li smisla modeliratiovu varijablu kao normalnu slučajnu varijablu. Ako ima, korištenjem normalnedistribucije s procijenjenim vrijednostima očekivanja i varijance odredite vjero-jatnost da je poduzetnik stariji od 30, ali mlađi od 40 godina.

Zadatak 5.2 Baza podataka farmakologija.sta sadrži podatke o koncentraciji nekog li-jeka u organizmu mjerenoj od trenutka njegovog unosa do trenutka njegove eliminacijeiz organizma.

a) Modeliramo li koncentraciju lijeka u organizmu diskretnom ili kontinuiranomslučajnom varijablom? Kategorizirajte ove podatke i nacrtajte histogam frekven-cija i relativnih frekvencija. Je li normalna slučajna varijabla prikladna za mod-eliranje ovih podataka? Ako smatrate da nije, pokušajte modelirati podatkepomoću eksponencijalne distribucije:

Page 88: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 88

Graphs → Histograms → Advanced → Fit type - Exponential.

Što zaključujete?

b) Procijenite očekivanje i varijancu slučajne varijable kojom modeliramo koncen-traciju ovog lijeka u organizmu. Korištenjem empirijske distribucije i eksponen-cijalne distribucije s parametrom λ = 0.37 odredite vjerojatnost da je koncen-tracija lijeka u krvi u slučajno odabranom trenutku prije njegove eliminacije izorganizma manja od pet. Što zaključujete?

Obzirom da očekivanje i varijanca slučajne varijable imaju bitnu interpretaciju i kadane znamo točno tip distribucije, često je u primjenama korisno dobiti procijenjenevrijednosti za očekivanje i varijancu kao sumarnu informaciju o varijabli koju opisu-jemo. Npr., u primjeru o potrošnji goriva s početka ovog poglavlja kao informaciju opotrošnji goriva navedenog modela možemo reći da očekivanje potrošnje goriva iznosi5.12, varijanca 0.92, a standardna devijacija 0.985.

Međutim, ponavljanjem mjerenja, dobit ćemo nove podatke. Procjena s tim novimpodacima dat će neku drugu vrijednost za očekivanje i varijancu.

Primjer 5.3 Odredite procjene za očekivanje i standardnu devijaciju korištenjem samosto podataka iz baze automobili.sta. Ponovite procjenu korištenjem 150, 200 i 250

podataka. Komentirajte svoja zapažanja.

Da bismo bolje objasnili pojam procjene i procjenitelja kao i neka njihova svojstvapotrebna za statističko zaključivanje potrebno je prvo razumjeti matematički modeljednostavnog slučajnog uzorka koji koristimo za modeliranje skupa prikupljenihpodataka jedne varijable.Do sada smo naučili da varijablu koju istražujemo modeliramo kao slučajnu vari-jablu. Označimo je X. Podatak x koji smo pri tome dobili mjerenjem (odnosnonekom drugom metodom prikupljanja podataka opisanom u uvodu) jedna je real-izacija te slučajne varijable. Obzirom da smo iz te varijable prikupili n podataka,označili smo ih x1, . . . , xn. Pri tome je svaki xi jedna realizacija slučajne varijable Xi,i ∈ 1, . . . , n koja je distribuirana jednako kao slučajna varijabla X. Osim toga, pos-tupak prikupljanja podataka mora biti takav da su mjerenja međusobno nezavisna.Na temelju ovoga, prirodno je izmjerene podatke x1, . . . , xn smatrati jednom realizaci-jom od n slučajnih varijabli X1, . . . , Xn koje imaju distribuciju kao X i međusobnosu nezavisne. Takav model u statistici zovemo model jednostavnog slučajnog uzorkaiz distribucije koja je zadana slučajnom varijablom X.

Jednostavan slučajan uzorak iz distribucije zadane slučajnom vari-jablom X je uređena n-torka slučajnih varijabli (X1, . . . , Xn) od kojihsvaka ima istu distribuciju kao X i međusobno su nezavisne.

Page 89: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 89

Obzirom da ćemo u ovom poglavlju koristiti samo model jednostavnog slučajnoguzorka, umjesto ovog dugačkog naziva koristit ćemo termin uzorak za model, a re-alizacija uzorka za prikupljene podatke.U trenutku kada radimo procjenu neke numeričke karakteristike slučajne varijableX primjenjujemo zadanu formulu na jednu realizaciju uzorka (npr. formulu za ar-itmetičku sredinu jedne realizacije utorka ako procjenjujemo očekivanje, formulu zakorigiranu varijancu realizacije uzorka ako procjenjujemo varijancu, . . . ). Obziromda uzorak ima slučajan karakter, neka druga realizacija u ponovnom prikupljanju po-dataka je prirodna, pa tako i druga vrijednost za procjenu. Samim tim i procjenune možemo smatrati determinističkom već slučajnom veličinom. Dakle, pojedinačnaprocjena nije ništa drugo do realizacija jedne slučajne varijable, zovemo je procjen-itelj, slično kao što je jedno mjerenje samo jedna realizacija slučajne varijable kojanas zanima i o kojoj nastojimo nešto zaključiti.

Dakle, iako mi želimo izvršiti procjenu neke numeričke vrijednosti jednim brojem, valjapriznati realnost, tj. slučajan karakter procjenitelja, i pokušati dobiti što kvalitetnijuinformaciju iz postupka procjene. U tu svrhu vršimo procijenu intervalom unaprijedizabrane pouzdanosti. Ako smo izabrali pouzdanost 95 % kažemo da smo procijenilidanu veličinu intervalom s pouzdanošću 95 %.

Interval izabrane pouzdanosti γ za procjenu neke veličine (recimo očeki-vanja) u stvari nije pravi interval s granicama koji su realni brojevi. To jeinterval koji ima slučajne varijable kao granice i određen je temeljem zaht-jeva da se stvarna vrijednost veličine koju procjenjujemo nalazi u takvom,slučajnom, intervalu s vjerojatnošću barem γ. Svaki puta kada primijen-imo formule za određivanje granica intervala pouzdanosti γ na podatke izuzorka slučajne varijable, dobit ćemo običan interval s realnim brojevimakao granicama. U 100γ% slučajeva taj izračunati interval realnih brojevasadržavat će stvarnu vrijednost veličine koju procjenjujemo. Dakle, intervalpouzdanosti γ je takozvani slučajan interval, tj. granice su mu slučajne varijable.Jedna realizacija intervala pouzdanosti γ, određena na osnovu prikupljenog uzorka,je običan interval realnih brojeva. Uobičajneno je u praksi i tu realizaciju pouzdanogintervala također zvati pouzdani interval. Međutim, važno je znati razliku izmeđupouzdanog intervala kao slučajnog intervala i njegove realizacije - običnog intervalarealnih brojeva.Pri tome je važno voditi računa o interpretaciji.

Page 90: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 90

5.2 Procjena očekivanja intervalom zadane pouzdanostiza velike uzorke

Za uzorak kažemo da je velik ako je njegova dimenzija veća od 30, tj. ako sadrživiše od 30 izmjerenih vrijednosti. Za velike uzorke možemo odrediti interval izabranepouzdanosti za očekivanje slučajne varijable iz koje smo sakupili uzorak na sljedećinačin.

Neka je Xn aritmetička sredina uzorka dimenzije n iz slučajne varijable X. Pret-postavimo da je očekivanje slučajne varijable X nepoznato i iznosi µ, a varijanca jepoznata i iznosi σ2. Teorija vjerojatnosti pokazuje da aritmetička sredina uzorka, zavelike dimenzije uzorka, ima približno normalnu distribuciju s očekivanjem µ i vari-jancom σ2

n. Korištenjem postupka standardizacije odavde slijedi da slučajna varijabla

Z =Xn − EXn√V ar(Xn)

=Xn − µ

σ

√n

ima standardnu normalnu distribuciju, Z ∼ N (0, 1).Neka je zγ takav broj za koji vrijedi: P|Z| ≤ zγ = γ. Budući je Z ∼ N (0, 1), vrijed-nost γ interpretiramo kao površinu ispod grafa funkcije gustoće standardne normalnedistribucije nad intervalom [−zγ, zγ], tj.

P|Z| ≤ zγ =1√2π

zγ∫−zγ

e−x2/2 dx = γ.

Uvrštavanjem izraza Z = Xn−µσ

√n u jednakost P|Z| ≤ zγ = γ slijedi:

P (|Z| ≤ zγ) = P (−zγ ≤ Z ≤ zγ) =

= P

(−zγ ≤

Xn − µσ

√n ≤ zγ

)=

= P

(Xn − zγ

σ√n≤ µ ≤ Xn + zγ

σ√n

)= γ.

Ovaj rezultat zapisujemo na sljedeći način:

P

µ ∈

[Xn − zγ

σ√n,Xn + zγ

σ√n

]= γ.

Ovo razmatranje dovodi do sljedećeg zaključka: ako je (x1, . . . , xn) realizacija uzorkaiz slučajne varijable X, xn aritmetička sredina koju smo izračunali iz te realizacije iγ ∈ (0, 1), onda će u 100γ% slučajeva interval izračunat po formuli

Page 91: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 91

[xn − zγ

σ√n, xn + zγ

σ√n

]xn — aritmetička sredina uzorka,σ — standardna devijacija slučajne varijable X,zγ — takav broj za koji vrijedi: P|Z| ≤ zγ = γ,Z — standardna normalna slučajna varijabla.

sadržati stvarnu (nepoznatu) vrijednost očekivanja slučajne varijable X, tj. vrijednostµ.

Primjer 5.4 (automobili.sta)Za podatke iz baze automobili.sta procijenite očekivanu potrošnju goriva intervalompouzdanosti 95 %.

Rješenje:

(1) Mjere deskriptivne statistike potrebne za računanje jedne realizacije intervalapozdanosti 95 %:

n = 300, x = 5.12, σ = 0.97.

Vrijednost zγ za γ = 0.95 određujemo pomoću Probability Calculatora u Statis-tici:

zγ = 1.959964 ≈ 1.96.

Sada uvrštavanjem slijedi:

xn − zγσ√n

= 5.12− 1.960.97√

300≈ 5.01023,

xn + zγσ√n

= 5.12 + 1.960.97√

300≈ 5.22977.

Dakle, interval pouzdanosti je [5.01023, 5.22977].

(2) Realizaciju intervala pouzdanosti 95 %, temeljenu na podacima iz baze automo-bili.sta, možemo izračunati i u Statistici:Statistics → Basic Statistics/Tables → Descriptive Statistics → Variables →Advanced → označiti "Conf. limits for means interval" i odabrati vrijednost95 % → Summary.Interval pouzdanosti koji kao rješenje daje Statistica je [5.004597, 5.225560]. Ra-zlike u rezultatima posljedica su zaokruživanja vrijednosti mjera deskriptivnestatistike u prvom načinu rješavanja.

Page 92: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 92

Primjer 5.5 (dob-poduz.sta)Podaci o dobi 200 poduzetnika u Hrvatskoj dani su u bazi podataka dob-poduz.sta.Procijenite očekivanje slučajne varijable kojom je modelirana dob poduzetnika uHrvatskoj intervalima pouzdanosti 95 % i 97 %. Koji od ovih dvaju intervala je širi?Obrazložite zašto.

Rješenje:Realizacija intervala pouzdanosti 95 % - [41.35088, 43.85912].Realizacija intervala pouzdanosti 97 % - [41.21490, 43.99510].Očito za izračunate intervale vrijedi

[41.35088, 43.85912] ⊂ [41.21490, 43.99510].

Objašnjenje leži u činjenici da za intervale različitih pouzdanosti γ1 i γ2 takve da jeγ1 < γ2 (npr. γ1 = 0.95, γ2 = 0.97) vrijedi da je

zγ1 < zγ2 ,

pa za istu realizaciju (x1, . . . , xn) slučajnog uzorka vrijedi[xn − zγ1

σ√n, xn + zγ1

σ√n

]⊂[xn − zγ2

σ√n, xn + zγ2

σ√n

].

Primjer 5.6 (iq25.sta, iq60.sta)Zakon o diskriminaciji prema dobi iz 1967. godine označava ilegalnim postupak diskrim-inacije djelatnika starih 40 godina i više. Oni koji se ne slažu sa zakonom argumen-tiraju da postoje ekonomski razlozi zašto poslodavci nerado zapošljavaju osobe kojesu blizu mirovine. Također govore da je sposobnost ljudi te dobi upitna. U bazi po-dataka iq25.sta nalaze se rezultati testa inteligencije za 25-godišnjake, a u bazi iq60.starezultati testa inteligencije za 60-godišnjake. Procijenite očekivanje slučajne varijablekojom je modeliran reultat provedenog testa inteligencija intervalom pouzdanosti 95 %

za obje dobi. Dajte objašnjenje tih intervala i komentar u kontekstu problema koji jeopisan.

Rješenje:Interval pouzdanosti za očekivanje za 25-godišnjake je [61.97539, 71.69127], a za 60-godišnjake [41.00907, 49.60204].

Primjer 5.7 (glukoza-kol.sta)U bazi podataka glukoza-kol.sta nalaze se podaci o dobi (varijabla dob) i koncentracijiglukoze u krvi (varijabla glukoza) za 100 ispitanika. Procijenite očekivanje slučajnevarijable kojom je modelirana koncentraciju glukoze intervalom pouzdanosti 95 %.Objasnite rezultat.

Page 93: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 93

Rješenje:Interval pouzdanosti za očekivanje slučajne varijable kojom modeliramo koncentracijuglukoze u krvi je [5.495478, 6, 298322].

Primjer 5.8 (turizam1.sta)U bazi podataka turizam1.sta nalaze se podaci o cijenama sedmodnevnih turističkiharanžmana za dvije osobe u ljetovalištima na jadranskoj obali (varijabla Obala) i uljetovalištima na otocima (varijabla Otoci).

a) Je li viša prosječna cijena turističkog aranžmana na obali ili prosječna cijena tur-ističkog aranžmana na otocima? Na temelju čega izvodite taj zaključak? Ima lismisla varijable Obala i Otocimodelirati normalnim slučajnim varijablama? Akosmatrate da ima, koje ćete vrijednosti parametara normalne slučajne varijablekoristiti i zašto?

b) Procijenite očekivanja slučajnih varijabli kojima modeliramo cijene turističkiharanžmana na obali i na otocima intervalima pouzdanosti 95 %. Usporeditedobivene intervale i komentirajte svoj zaključak.

5.3 Procjena proporcije intervalom zadane pouzdanosti

Procjena proporcije koristi se kada želimo procijeniti vjerojatnost pojavljivanja nekogunaprijed izabranog događaja na osnovu nezavisnih ponavljanja istog pokusa. Ovajnaziv dolazi iz interpretacije vjerojatnosti kao odnosa dijela i cjeline.

Primjer 5.9

• Vjerojatnost izvlačenja asa iz špila karata odgovara kvocijentu broja asova u špilui broja svih karata u špilu.

• Vjerojatnost pobjede izabrane stranke na izborima odgovara kvocijentu broja os-oba koje će glasati za tu stranku i ukupnog broja glasača.

• Vjerojatnost izbora pokvarenog proizvoda iz nekog skupa proizvoda odgovara kvo-cijentu broja pokvarenih proizvoda i broja proizvoda u skupu iz kojeg biramo.

Pri analizi ovakvih problema, možemo u modeliranju iskoristiti Bernoullijevu slučajnuvarijabu, tj.

X =

(0 1

q p

)p ∈ (0, 1), q = 1− p.

Pri tome 1 odgovara činjenici da se dogodio događaj, a 0 čijenici da se događaj nijedogodio. Dakle, p je vjerojatnost da se odabrani događaj dogodi.Nezavisnim ponavljanjem našeg pokusa n puta bilježimo da li se dogodio odabranidogađaj (1) ili ne (0). Tako prikupljeni uzorak je niz jedinica i nula (sve skupa n

Page 94: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 94

njih). Trebamo na neki način procijeniti vjerojatnost uspjeha p. Međutim, p je ujednoočekivanje Bernoullijeve slučajne varijable X, pa se problem procjene vjerojatnosti psvodi na problem procjene očekivanja slučajne varijable X.Očekivanje slučajne varijable procjenjujemo aritmetičkom sredinom uzorka. Obziromda se ovdje uzorak (x1, . . . , xn) sastoji od samih nula i jedninica, aritmetička sredinauzorka odgovara relativnoj frekvenciji jedinica u uzorku.Za procjenu vjerojatnosti realizacije jedinice u Bernoullijevoj slučajnoj var-ijabli, na osnovu n nezavisnih ponavljanja tog Bernoullijevog pokusa, ko-ristimo relativnu frekvenciju jedinice u uzorku:

p =f1n.

Za određivanje intervala zadane pouzdanosti za vjerojatnost p koristimo ponovo čin-jenicu da, za velike dimenzije uzorka (n > 30), aritmetička sredina uzorka ima prib-ližno normalnu distribuciju s očekivanjem koje odgovara populacijskom očekivanju ivarijancom koja je jednaka populacijskoj varijanci podjeljenoj s dimenzijom uzorka.Obzirom da je, u ovom problemu, populacijsko očekivanje jednako p, a populacijskavarijanca pq (pogledati poglavlje 4.7.1 o Bernoullijevoj slučajnoj varijabli), onda sluča-jna varijabla

Z =p− p√pq

√n

ima približno standardnu normalnu distribuciju, Z ∼ N (0, 1).Neka je zγ broj za koji vrijedi: P|Z| ≤ zγ = γ, gdje je Z ∼ N (0, 1). Uvrštavanjemizraza Z = p−p√

pq

√n u jednakost P|Z| ≤ zγ = γ i analiziranjem nejednakosti p−p√

pq

√n ≤

zγ može se pokazati da vrijedi

P

p ∈

[p− zγ

√pq

n, p+ zγ

√pq

n

]= γ.

Ovo razmatranje dovodi do sljedećeg zaključka: ako je p relativna frekvencija jedinicau n-dimenzionalnom uzorku iz Bernoullijeve distribucije i γ ∈ (0, 1), onda će u 100γ%

slučajeva interval izračunat po formuli

[p− zγ

√pq

n, p+ zγ

√pq

n

],

p — relativna frekvencija jedinice (uspjeha) u uzorku,q = 1− p,zγ — broj za koji vrijedi P|Z| ≤ zγ = γ,Z — standardna normalna slučajna varijabla.

Page 95: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 95

sadržavati pravu vrijednost vjerojatnosti p.Dimenzija uzorka je dovoljno velika ako interval[

p− 3

√p(1− p)

n, p+ 3

√p(1− p)

n

]

ne sadrži ni 0 ni 1.Uočimo da iz ovog razmatranja možemo odrediti dimenziju uzorka koja će osigu-rati zadanu preciznost procjene pouzdanim intervalom, tj. zadanu duljinu intervala.Analizirajte ovaj problem!

Primjer 5.10 Jedna tvornica hrane želi provesti istraživanje tržišta intervjuirajući 1000

potrošača kako bi odredili koju marku pahuljica za doručak oni preferiraju. Priku-pljeni podaci su pokazali da 313 ispitanika upravo odabire marku tvornice koja jeprovela istraživanje. Na osnovu dobivenih rezultata odredite interval pouzdanosti95 % za proporciju konzumenata pahuljica navedene tvrtke u odnosu na sve potrošačepahuljica istraživanog tržišta. Objasnite rezultat.

Rješenje:Interval pouzdanosti za proporciju konzumenata pahuljica tvrtke koja je provela is-traživanje je [0.284, 0.342].

Primjer 5.11 (vrtic.sta)U vašem je poduzeću uposleno više od 3000 ljudi. Želite ponuditi pomoć svojimzaposlenicima oko organizacije čuvanja djece. Razmišljali ste o dvije opcije - otvoritislužbu čuvanja unutar poduzeća ili ponuditi novčanu pomoć roditeljima s malomdjecom i tako im pomoći da sami organiziraju čuvanje djece. Odabratli ste 60 roditeljai jednostavno ih upitali da odaberu opciju za koju smatraju da im više odgovara.Njihove ste odgovore označili na sljedeći način:

0 - radije bih novčanu pomoć za samostalno organiziranje čuvanja djece1 - radije bih da poduzeće otvori službu za čuvanje djece

Intervalom pouzdanosti 95 % procijenite stvarnu proporciju zaposlenika tvrtke kojižele organizirano čuvanje djece. Procijenite s pouzdanošću γ=0.95 proporciju roditeljakoji žele organizirano čuvanje djece.

Rješenje:Interval pouzdanosti za proporciju zaposlenika tvrtke koji žele organizirano čuvanjedjece je [0.512111, 0.755889].

Primjer 5.12 Neka agencija je provela istraživanje koje je obuhvatilo 1252 osobe kojeposjeduju kreditnu karticu. Njih 180 koristilo je karticu za kupovinu putem Interneta.

Page 96: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 96

a) Da li je uzorak dovoljno velik za konstruiranje valjanog intervala pouzdanosti zaproporciju onih koji su koristili karticu za kupovinu putem Interneta u odnosuna sve osobe koje posjeduju kreditnu karticu? Obrazložite odgovor.

b) Odredite interval pouzdanosti 98 % za navedenu proporciju te interpretirajterezultat u kontekstu problema koji proučavate.

c) Da ste konstruirali interval pouzdanosti 90 % bi li on bio uži ili širi?

Rješenje:

a) Budući interval[p− 3

√p(1−p)n

, p+ 3√

p(1−p)n

]= [0.114023, 0.173517] ne sadržni

niti nulu niti jedinicu, uzorak je dovoljno velik za konstruiranje traženog inter-vala pouzdanosti.

b) Interval pouzdanosti za proporciju korisnika kartice koji su karticu koristili zakupovinu putem Interneta je [0.120702, 0.166838].

c) Interval pouzdanosti - [0.12746, 0.16008]. Očito je, temeljeno na istim podacima,realizacija intervala pouzdanosti 90 % uža od realizacije intervala pouzdanosti98 %.

Primjer 5.13 (glukoza-kol.sta)U bazi podataka glukoza-kol.sta nalaze se podaci o dobi (varijabla dob) i koncentracijiglukoze u krvi (varijabla glukoza) za 100 ispitanika. Odredite interval pouzdanosti95 % za proporciju ispitanika kod kojih je koncentracija glukoze u krvi između 4 i 6

mMol/L. Objasnite rezultat.

Rješenje:Interval pouzdanosti za proporciju ispitanika kod kojih je koncentracija glukoze u krviizmeđu 4 i 6 mMol/L je [0.256516, 0.443484].

Primjer 5.14 (kolokvij.sta)U bazi podataka kolokvij.sta nalaze se rezultati dvaju kolokvija iz nekog kolegija. Var-ijabla ocjena sadži prijedloge ocjena s kojima ispitani studenti pristupaju usmenomispitu, a varijabla stanovanje informaciju o mjestu stanovanja studenta (Osijek - stu-dent stanuje u Osijeku; Drugo-mjesto - student stanuje u nekom drugom mjestu).Intervalom pouzdanosti 95 % procijenite stvarnu proporciju studenata koji usmenomispitu pristupaju s ocjenom većom od 3 za svaku od spomenutih kategorija po mjestustanovanja. Odredite i interval pouzdanosti 95 % bez obzira na kategorizaciju pomjestu stanovanja.

Page 97: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 97

5.4 Testiranje hipoteza

Pretpostavimo da želimo provjeriti da li je očekivana vrijednost vremena čekanja uredu studentske menze u vrijeme ručka veća od pet minuta. Naime, ako je veća,onda ćemo u vrijeme ručka pokrenuti još jednu traku. U tu svrhu od sto studenatakoji odlaze na ručak u studentsku menzu prikupljamo podatke o vremenu čekanja zavrijeme ručka: (x1, . . . , x100). Da bi donijeli odluku potrebno je testirati hipotezu naosnovu prikupljenih podataka. Ovakvim i sličnim problemima bavi se teorija testiranjastatističkih hipoteza.

Za testiranje hipoteze vezane uz varijablu koja nas zanima, koristimo modeliranjevarijable kao što je opisano u prethodnim poglavljima, tj. varijable u ispitavanju suslučajne varijable. Slučajna varijabla određena je svojom distribucijom. Distribu-cije nam nisu u potpunosti poznate ali smo već naučili kako možemo pribaviti nekeinformacije o distribuciji na osnovu teorije procjene. Hipotezu koju želimo testiratikorištenjem statističkog testa moramo izraziti u terminima hipoteze koja seodnosi na distribuciju slučajne varijable. Tako, u postupku donošenja odluke ootvaranju nove trake u studentskoj menzi, treba testirati jednu hipotezu o vrijednostiočekivanja slučajne varijable koja opisuje vrijeme čekanja u redu studentske menzeza vrijeme ručka. Hipotezu koja je formulirana u terminima distribucije slučajnevarijable zovemo statistička hipoteza.

Postupak testiranja hipoteza uvijek počinje postupkom prevođenja problema koji naszanima u statističku hipotezu. Npr. u prethodnom primjeru studentske menze, udonošenju odluke nam može pomoći testiranje statističke hipoteze da je očekivanječekanja u redu veće od 5 minuta. Statističku hipotezu standardno označavamo H.Testirati hipotezu znači donijeti odluku da li ćemo H odbaciti ili prihvatiti. Zbog togačesto govorimo o testiranju dvije hipoteze u statističkom testu. Jednu od njih zovemonul-hipoteza i označavamo H0, a drugu alternativna hipoteza i označavamo H1.Alternativna hipoteza je ona koju prihvaćamo u slučaju odbacivanja nul-hipoteze.Statistički test koji ćemo koristiti za testiranje statističke hipoteze dizajniran je takoda, korištenjem informacija iz prikupljenih podataka o realizacijama slučajne vari-jable, donosimo odluku o odbacivanju nulte hipoteze (prihvaćanju alternativnehipoteze) ili ne odbacivanju nulte hipoteze. Uočimo da nulta i alternativnahipoteza u ovoj formulaciji nisu ravnopravne, npr. nigdje nije napisano da prihvaćamonultu hipotezu. Razlog za ovakvo neobično izražavanje leži u činjenici da se odluči-vanje u statističkom testu provodi uz toleranciju malih vjerojatnosti pogrešne odluke.Da bismo bolje razumjeli ovaj koncept opisat ćemo vrste pogrešaka statističkog testai mogućnosti koje daje test u odnosu na njihovu kontrolu.

Page 98: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 98

5.4.1 Pogreške statističkog testa

Odluka koja je donesena statističkim testom može biti pogrešna ili ispravna. Pri tomese mogu dogoditi dva tipa pogrešne odluke:

pogreška I. tipa: odbaciti H0 ako je ona istinita ipogreška II. tipa: ne odbaciti H0 ako je H1 istinita.

Vjerojatnost pogreške prvog tipa i pogreške drugog tipa ovisi o stvarnoj distribucijislučajne varijable o kojoj testiramo hipotezu, međutim, mi bi htjeli da su te vjerojat-nosti pogreške što je moguće manje. Postupak kreiranja statističkog testa, tj. defini-ranje pravila na osnovu kojih ćemo odlučivati, vodi računa upravo o tom zahtjevu.Statistički test je dizajniran tako da dopušta istraživaču izbor maksimalne vjerojat-nosti pogreške prvog tipa koju istraživač želi prihvatiti. Te vrijednosti se uglavnombiraju izmađu brojeva 0.01, 0.05 ili 0.1. Odabrana maksimalna vjerojatnost pogreškeprvog tipa zove se razina značajnosti testa ili nivo signifikantnosti testa i stan-dardno označava α. Maksimala vjerojatnost pogreške drugog tipa određena je diza-jnom testa uz izabrani nivo signifikantnosti. Testovi se dizajniraju uz nastojanje dase vjerojatnost pogreške drugog tipa učini što manjom i ona se, u pravilu, ne iskazujeu primjeni statističkih testova.Uzimajući u obzir da ćemo mi biti u mogućnosti birati maksimalnu vjerojatnostpogreške prilikom odbacivanja nulta hipoteze, to je informacija koju u primjeni testareferiramo. Npr. reći ćemo da odbacujemo nultu hipotezu na nivou značajnostiα i prihvaćamo hipotazu H1 što će značiti da prihvaćamo alternativnu hipotezuuz vjerojatnost α da smo pri tome pogriješili. Ako pravilo testa primijenjeno na po-datke sugerira da ne odbacimo nultu hipotezu, prilikom primjene testa nećemo imatidostupnu informaciju koliko iznosi maksimalna vjerojatnost da smo pogriješili. Zatoćemo tada reći da podaci ne podupiru tvrdnju da H0 treba odbaciti.Ovakav neravnopravan odnos između nulte i alternativne hipoteze prilikom kreiranjastatističkog testa upućuje na činjenicu da nije svejedno kako smo izbrali nultu i al-ternativnu hipotezu i pripadni test. Ukoliko je moguće, uputno je u primjenibirati statistički test kojemu alternativna hipoteza odgovara tvrdnji kojuželimo dokazati.

5.5 Testiranje hipoteza o očekivanju za velike uzorke

U ovom poglavlju pokazat ćemo nekoliko statističkih testova koje možemo koristitiprilikom rješavanja problema potrebe za otvaranjem nove trake u studentskoj menziiz prethodnog poglavlja kao i u svim ostalim problemima koji se mogu modelirati naanalogan način.

Primjer 5.15 Pretpostavimo da želimo provjeriti da li je očekivana vrijednost vremenačekanja u redu studentske menze u vrijeme ručka veća od pet minuta. U tu svrhu od

Page 99: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 99

sto studenata koji odlaze na ručak u studentsku menzu prikupljamo podatke o vremenučekanja za vrijeme ručka: (x1, . . . , x100). Na osnovu podataka procijenili smo očeki-vanje aritmetičkom sredinom. Procjena je iznosila 6.5 minuta. Znajući iz prethodnihproučavanja ove slučajne varijable da je njena varijanca 25, ispitajmo da li se očeki-vano vrijeme čekanja u redu statistički značajno razlikuje od 5 minuta.

Neka je µ očekivanje slučajne varijable koja modelira vrijeme čekanja u redu menzeza vrijeme ručka. Postavimo nultu i alternativnu hipotezu na sljedeći način:

H0: µ = 5

H1: µ 6= 5.

Ako je H0 istinita hipoteza, onda je distribucija artmetičke sredine uzorka približnonormalna s očekivanjem µ i varijancom σ2

100. Dakle, pod pretpostavkom istinitosti nulte

hipoteze je

Z =X100 − µ

σ

√100

približno standardna normalna slučajna varijabla i velika je vjerojatnost pojavljivanjarealizacije bliske nuli (vidi sliku). Uočimo da se realizacije koje su po apsolutnojvrijednosti veće od 1.96 pojavljuju s vjerojatnošću 0.05.

−1.96 1.96 x

f(x)

PZ ≤ −1.96 = 0.025 PZ ≥ 1.96 = 0.025

Slika 5.1: P|Z| ≥ 1.96 = PZ ≤ −1.96+ PZ ≥ 1.96 = 0.05

Pretpostavimo da iz podataka možemo izračunati da se, u našem slučaju, Z realiziralabrojem 3. U uvjetima istinitosti hipoteze H0 vjerojatnost da apsolutna vrijednost sluča-jne varijable Z bude veća ili jednaka 3 iznosi 0.0027:

P|Z| ≥ 3 = PZ ∈ 〈−∞− 3] ∪ [3,∞〉 = 0.0027.

Gornje su vjerojatnosti izračunate pomoću Probability Calculatora u programskompaketu Statistica.Zaključujemo: Broj 3 je relativno daleko od nule. Ako je H0 istinita hipoteza, real-izacije veće ili jednake 3 mogu se pojaviti ali je vjerojatnost za to tek 0.0027. Dakle,ako odbacim nultu hipotezu, vjerojatnost da ću time pogriješiti je samo 0.0027, što

Page 100: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 100

je manje od standardno prihvaćenih vrijednosti za maksimalnu vjerojatnost pogreškeprvog tipa (nivo značajnosti). Dakle, razumno je odbaciti nul-hipotezu i prihvatitihipotezu da se očekivanje razlikuje od 5. Za naš problem to znači da treba pokrenutinovu traku u menzi. Izračunatu vjerojatnost da smo ovom odlukom pogriješili zovemop− vrijednost.

U ovom postupku koristimo aritmetičku sredinu uzorka kao procjenu za očekivanje.

H0 : µ = µ0

Test statistika:z =

x− µ0

σ/√n

Ovdje je n dimenzija uzorka, x aritmetička sredina uzorka, a σ standardnadevijacija uzorka.

U uvjetima istinitosti nulte hipoteze očekujemo da je izračunata vrijednost za z (oz-načit ćemo je z) blizu 0. Zapravo, može se pokazati da slučajna varijabla za kojuje gornja vrijednost z jedna realizacija ima standardnu normalnu distribuciju. Naosnovu realizacije z na našem uzorku možemo odrediti p-vrijednost kao

p = P|Z| ≥ z,

ako nultoj hipotezi suprotstavljamo alternativnu da je stvarno očekivanje µ različitood hipotetske vrijednosti. Međutim, ako nultoj hipotezi suprotstavljamo alternativuda je stvarno očekivanje µ veće (manje) od hipotetske vrijednosti, tada p-vrijednostodređujemo kao

p = PZ ≥ z (PZ ≤ z).

Tako izračunatu p-vrijednost uspoređujemo s nivoom značajnosti α - u slučaju daje p < α donosimo zaključak da na nivou značajnosti α odbacujemo nul-hipotezuH0 i prihvaćamo alternativnu hipotezu H1. Ako je p > α zaključujemo da nemamodovoljno informacije koje bi poduprle odluku o odbacivanju nul-hipoteze.Ukoliko zasigurno znamo da naš uzorak potječe iz normalne distribucije,analogno testiranje možemo provesti i na malom uzorku (n < 30).

H0 : µ = µ0

Test statistika:t =

x− µ0

s/√n

Ovdje je s uzoračka standardna devijacija, x aritmetička sredina uzorka,a n dimenzija uzorka.

Page 101: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 101

U uvjetima istinitosti nulte hipoteze očekujemo da je izračunata vrijednost za t (oz-načit ćemo je t) blizu 0. Zapravo, može se pokazati da slučajna varijabla T za koju jegornja vrijednost t jedna realizacija ima Studentovu distribuciju s (n − 1) stupnjevaslobode. Na osnovu realizacije t na našem uzorku možemo odrediti p-vrijednost kao

p = P|T | ≥ t,

ako nultoj hipotezi suprotstavljamo alternativnu da je stvarno očekivanje µ različitood hipotetske vrijednosti. Međutim, ako nultoj hipotezi suprotstavljamo alternativuda je stvarno očekivanje µ veće (manje) od hipotetske vrijednosti, tada p-vrijednostodređujemo kao

p = PT ≥ t (PT ≤ t).

Tako izračunatu p-vrijednost uspoređujemo s nivoom značajnosti α - u slučaju daje p < α donosimo zaključak da na nivou značajnosti α odbacujemo nul-hipotezuH0 i prihvaćamo alternativnu hipotezu H1. Ako je p > α zaključujemo da nemamodovoljno informacije koje bi poduprle odluku o odbacivanju nul-hipoteze.

Primjer 5.16 Godine 1979. osnovna kablovska televizija je, u prosjeku, koštala 7.37

dolara mjesečno. Godine 1983. "Federalno udruženje kablovskih televizija" (broji višeod 4000 kablovskih sustava) zaključilo je da je kablovska televizija poskupjela za samo8% u odnosu na 1979., te da ne stoji statistički značajno više od 8 dolara mjesečno.No "Udruženje potrošača" sumnja u te izjave pa su ih odlučili provjeriti. Koristećipodatke prikupljene u bazi tv.sta provjerite govori li "Federalno udruženje kablovskihtelevizija" istinu.

Rješenje:H0 : µ = 8; HA : µ > 8; ne odbacujemo nultu hipotezu.

Primjer 5.17 (lopta.sta)Jedan se poduzetnik bavi proizvodnjom loptica za golf. U suradnji s projektantimau poduzeću napravio je preinake na jednom dijelu stroja (ubrizgavalici). Cijeli jeproces dizajniran tako da proizvodi loptice prosječne mase 0.25 unci. Kako bi istražioda li nova ubrizgavalica radi zadovoljavajuće, odabire 40 loptica i bilježi njihove mase(podaci su dostupni u bazi lopta.sta). Provjerite može li poduzetnik prihvatiti hipotezuda prosječna masa loptice nije 0.25 unci.

Rješenje:H0 : µ = 0.25; HA : µ 6= 0.25; odbacujemo nultu hipotezu na nivou značajnostiα = 0.05 i prihvaćamo alternativnu hipotezu.

Primjer 5.18 Kako bi odgovorili na pitanje koji faktori sprečavaju proces učenja urazredu, istraživači na Murray State University ispitali su 40 učenika koji su trebaliocjenama od 1 (uopće ne) do 7 (u velikoj mjeri) ocijeniti razinu do koje određeni

Page 102: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 102

faktori ometaju proces učenja. Faktor koji je dobio najveću ocjenu je: "Profesorikoji inzistiraju na jednom točnom odgovoru radije nego da evaluiraju cjelokupnorazmišljanje i kreativnost". Deskriptivna statistika za ocjenu razine utjecaja ovogfaktora je: x = 4.70, s = 1.62. Premašuje li očekivanje ocjene za navedeni faktorznačajno ocjenu 4? Interpretirajte rezultat.

Rješenje:H0 : µ = 4; HA : µ > 4; odbacujemo nultu hipotezu na nivou značajnosti α = 0.05 iprihvaćamo alternativnu hipotezu.

5.6 Testiranje hipoteza o vjerojatnosti događaja zavelike uzorke

U sklopu modela Bernoullijevog pokusa

X =

(0 1

q p

)

testiramo hipoteze o vrijednosti parametra p koji ima značenje vjerojatnosti realizacijejedinice u jednom izvođenju tog pokusa.U ovom postupku koristimo relativnu frekvenciju jedinice kao procjenu za vjerojatnost(proporciju) p.

H0 : p = p0

Test statistika:z =

p− p0√p0(1−p0)

n

U uvjetima istinitosti nul-hipoteze očekujemo da je izračunata vrijednost za z (oz-načit ćemo je z) blizu 0. Zapravo, može se pokazati da slučajna varijabla za kojuje gornja vrijednost z jedna realizacija ima standardnu normalnu distribuciju. Naosnovu realizacije z na našem uzorku možemo odrediti p-vrijednost kao

p = P|Z| ≥ z,

ako nultoj hipotezi suprotstavljamo alternativnu da je stvarna vjerojatnost p različitaod hipotetske vrijednosti. Međutim, ako nultoj hipotezi suprotstavljamo alternativnuda je stvarna vjerojatnost p veća (manja) od hipotetske vrijednosti, tada p-vrijednostodređujemo kao

p = PZ ≥ z (PZ ≤ z).

Page 103: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 103

Tako izračunatu p-vrijednost uspoređujemo s nivoom značajnosti α - u slučaju daje p < α donosimo zaključak da na nivou značajnosti α odbacujemo nul-hipotezuH0 i prihvaćamo alternativnu hipotezu H1. Ako je p > α zaključujemo da nemamodovoljno informacije koje bi poduprle odluku o odbacivanju nul-hipoteze.Dimenzija uzorka je dovoljno velika ako interval[

p0 − 3

√p0(1− p0)

n, p0 + 3

√p0(1− p0)

n

]ne sadrži ni 0 ni 1.

Primjer 5.19 (perec.sta)Odlučili ste prodavati nove perece u svojoj pekari. Niste sigurni sviđaju li se ili nevašim kupcima. O tome ovisi hoćete li nastaviti prodavati te perece ili ne. U bazipodataka perec.sta nalaze se podaci dobiveni iz uzorka od 50 potrošača:

0 - ne sviđa mi se1 - sviđa mi se2 - indiferentan sam

a) Odredite interval pouzdanosti 95 % za proporciju kupaca kojima se sviđaju novipereci.Rješenje: [0.173, 0.427].

b) Što ćete učiniti s dimenzijom uzorka ako želite povećati preciznost procjene?Rješenje: treba povećati dimenziju uzorka.

c) Testirajte hipotezu da je proporcija kupaca kojima se ne sviđaju novi perecijednaka 0.5.Rješenje: H0 : p = 0.5; HA : p 6= 0.5; ne odbacujemo nultu hipotezu.

Primjer 5.20 (vrtic.sta)Za podatke iz primjera 5.11. odgovorite na sljedeće pitanje: management poduzećarazmišlja o tome da organizira čuvanje ako se pokaže da barem 75 % roditelja odaberetu opciju. Testirajte ovu hipotezu na nivou značajnosti α = 0.05.

Rješenje: H0 : p = 0.75; HA : p < 0.75; odbacujemo nultu hipotezu na nivou znača-jnosti α = 0.05 i prihvaćamo alternativnu hipotezu.

Primjer 5.21 Reputacija mnogih poslova može biti snažno narušena pošiljkom proizve-dene robe koja sadrži veliki postotak oštećenih proizvoda. Na primjer, proizvođačalkalnih baterija želi biti siguran da je manje od 5% baterija u pošiljci oštećeno. Pret-postavimo da je slučajnim izborom iz vrlo velike pošiljke odabrano 300 baterija odkojih je 10 oštećenih. Je li to dovoljan dokaz proizvođaču da zaključi kako je proporcijadefektnih proizvoda u cijeloj pošiljci manja od 0.05 na nivou značajnosti α = 0.01?

Rješenje: H0 : p = 0.05; HA : p < 0.05; ne odbacujemo nultu hipotezu.

Page 104: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 104

5.7 Testiranje hipoteza o distribuciji općenito

U ovom poglavlju kao procjenu za stvarnu distribuciju slučajne varijable koristimo em-pirijsku distribuciju podataka koje smo sakupili kao realizacije naše slučajne varijableprilikom nezavisnih ponavljanja pokusa.Želimo testirati da li naša slučajna varijabla iz koje sakupljamo podatke ima nekupretpostavljenu distribuciju (zovemo je teoretska distribucija).χ2 test

• Neka je teoretska distribucija dana tablicom:(x1 x2 . . . xn

p1 p2 . . . pn

)

Ovdje je xi 6= xj za i 6= j, pi ≥ 0 za svaki i ∈ 1, . . . , n in∑i=1

pi = 1.

• Da bi koristili ovaj test mora biti svaki npi veći od 5, gdje je n dimenzija uzorka.

H0: distribucija je jednaka teoretskoj

• Iskoristimo programski paket Statistica. Formirajmo bazu podataka koja sadržieksperimentalno dobivene frekvencije i teoretske frekvencije izračunate na baziteoretske distribucije i broja podataka u uzorku. Provedemo χ2 test i odbacimoH0 ako je dobivena vrijednost za p < α, gdje je α odabrani nivo značajnostitesta.

• Ovaj test možemo koristiti i kod neprekidnih slučajnih varijabli tako da R(X)

razbijemo na disjunktne intervale i suprotstavimo teoretske frekvencije tih in-tervala njihovim uzoračkim frekvencijama, ali je test jako osjetljiv na izbor in-tervala.

Primjer 5.22 Savjetnik ekološkog kluba na jednom sveučilištu želi poštovati zahtjev daklub sačinjava 10% brucoša, 20% studenata druge godine, 40% studenata treće godine,te 30% apsolvenata. Članstvo ekološkog kluba za ovu godinu brojilo je 14 brucoša,19 studenata druge godine, 51 studenta treće godine, te 16 apslovenata. Provjeritepostoji li statistički značajna razlika trenutnog sastava kluba od traženih standardana nivou značajnosti α = 0.1.

Rješenje: odbacujemo nultu hipotezu na nivou značajnosti α = 0.1 i prihvaćamo alter-nativnu hipotezu.

Primjer 5.23 T ržišni analitičar želi istražiti imaju li potrošači neke posebne sklonostiprema jednom od okusa sokova koji su se pojavili na tržištu. Na uzorku od 100 ljudi

Page 105: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 105

prikupio je preferencije prema ponuđenim okusima. Frekvencije su dane u sljedećojtablici:

višnja jagoda naranča limun grejp32 28 16 14 10

Ispitajte postoji li na nivou značajnosti α = 0.05 statistički značajna preferencijapotrošača prema nekom od okusa ili je sklonost potrošača jednaka prema svim ponuđenimokusima.

Rješenje: odbacujemo nultu hipotezu na nivou značajnosti α = 0.05 i prihvaćamoalternativnu hipotezu.

Primjer 5.24 Jedna je studija na osnovu istraživanja o razlozima povratka na posaoljudi koji su umirovljeni postavila sljedeću distribuciju:

38% se ponovo zaposli u drugom poduzeću;32% osnuje obrt;23% rade kao konzultanti;7% osnuje vlastito poduzeće.

Poklapaju li se sljedeći rezultati, dobiveni ponovnim istraživanjem, s prethodno postavl-jenom tezom ili možemo utvrditi postojanje statistički značajne razlike?

122 se ponovo zaposlilo u drugom poduzeću;85 je osnovalo obrt;76 su radili kao konzultanti;17 je osnovalo vlastito poduzeće.

Rješenje: ne odbacujemo nultu hipotezu.

5.7.1 Kako saznati da li podaci dolaze iz normalne distribu-cije?

Ukoliko se radi o neprekidnoj slučajnoj varijabli, mi ćemo se u ovom kolegiju prven-stveno pozabaviti odgovorom na pitanje da li ona ima normalnu distribuciju ili ne.Odgovor na ovo pitanje od izuzetne je važnosti za točnost statističkih analiza obziromda su mnogi statistički testovi kreirani uz pretpostavku normalnosti obilježja.Da bismo testirali hipotezu

H0: varijabla ima normalnu distribuciju

potrebno je nezavisnim ponavljanjem pokusa prikupiti podatke iz realizacija naševarijable.Za prvi uvid u moguća odstupanja od normalne distribucije možemo koristiti raznemjere deskriptivne statistike i grafičke prikaze dok za testiranje hipoteze koristitimonekoliko testova kreiranih u tu svrhu. Standardni statistički aplikativni programiuglavnom sadrže sljedeća dva testa:

Page 106: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Zaključivanje o jednoj slučajnoj varijabli 106

• Lillieforsova inačica Kolmogorov-Smirnovljevog testa

• Shapiro-Wilk’s W test.

U ovom kolegiju nećemo opisivati test statistike na osnovu kojih su testovi kreirani,bit će dovoljno da ih naučimo koristiti. U tu svrhu, treba voditi računa o tome danulta hipoteza oba testa ide u prilog normalnosti distribucije. Ukoliko je p-vrijednostdobivena provođenjem ovakvih testova na našim podacima manja od izabranog nivoaznačajnosti, treba odbaciti hipotezu da podaci dolaze iz normalne distribucije.Važno je također naglasiti da su oba navedena testa primjenjiva samo u slučaju velikogbroje podataka.

Primjer 5.25 (auti1.sta)Raspolažemo mjerenjima potrošnje novog modela automobila za 100 takvih automo-bila. Provjerite da li je potrošnja normalna slučajna vrijabla.

Rješenje: ne odbacujemo nultu hipotezu.

Primjer 5.26 (dob-poduz.sta)Raspolažemo podacima o dobi 200 poduzetnika u nekoj zemlji. Zanima nas je li dobpoduzetnika u bazi podataka dob-poduz.sta normalno distribuirana slučajna varijabla.Napravite testiranje i donesite zaključak. Prokomentirajte dobiveni rezultat s obziromna kontekst pojave koju proučavate.

Rješenje: ne odbacujemo nultu hipotezu.

Primjer 5.27 (mba.sta) U bazi podataka mba.sta nalaze se podaci o rezultatima GMATtesta (Graduate Management Admission Test) za 100 studenata koji su prijavili nastudij. Provjerite potječu li podaci iz normalne distribucije.

Rješenje: ne odbacujemo nultu hipotezu.

Page 107: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Poglavlje 6

Statističko zaključivanje o dvijeslučajne varijable

6.1 Statističko zaključivanje o razlikama u distribu-ciji između dvije varijable

U praksi nas često zanima dolazi li do promjene obilježja koje proučavamo uslijedprovođenja neke akcije, u nekom drugom trenutku ili općenito u nekim drugim uvje-tima. Sljedeći primjer ilustrira probematiku tog tipa.

Primjer 6.1 (student.sta)Neko Sveučilište osim klasičnog načina studiranja nudi i studiranje putem Interneta.Povjerenstvo za praćenje kvalitete studiranja želi vidjeti postoji li razlika u dobiizmeđu studenata koji stanuju u gradu u kojemu je Sveučilište i onih koji studi-raju putem Interneta. Podaci o dobi studenata nalaze se u bazi student.sta - varijablaklasican_studij sadrži podatke o dobi za 50 studenata koji studiraju na klasičan način,a varijabla Internet_studij podatke o dobi za 50 studenata koji studiraju putem Inter-neta. Uvid u dobnu strukturu tih dvaju uzoraka studenata daju nam osnovne mjeredeskriptivne statistike, empirijska distribucija i kutijasti dijagram na bazi medijana:Deskriptivna statistika za varijable klasican_studij i Internet_studij:

Descriptive Statistics (student.sta)

VariableValid N Mean Median Mode Frequency

of ModeMinimum Maximum Std.Dev.

klasican_studijInternet_studij

50 22,12000 21,50000 Multiple 9 18,00000 32,00000 3,68471750 22,80000 21,50000 19,00000 9 18,00000 36,00000 4,789444

Kategorizirane tablice frekvencija i relativnih frekvencija:

107

Page 108: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 108

Frequency table: klasican_studij (student.sta)

From ToCount Cumulative

CountPercent Cumulative

Percent18,00000<=x<23,0000023,00000<=x<28,0000028,00000<=x<33,0000033,00000<=x<38,00000Missing

30 30 60,00000 60,000016 46 32,00000 92,0000

4 50 8,00000 100,00000 50 0,00000 100,00000 50 0,00000 100,0000

Frequency table: Internet_studij (student.sta)

From ToCount Cumulative

CountPercent Cumulative

Percent18,00000<=x<23,0000023,00000<=x<28,0000028,00000<=x<33,0000033,00000<=x<38,00000Missing

30 30 60,00000 60,000013 43 26,00000 86,0000

3 46 6,00000 92,00004 50 8,00000 100,00000 50 0,00000 100,0000

klasican_studij Internet_studijKutijasti dijagrami:

Box & Whisker Plot

Median 25%-75% Min-Max

klasican_studij Internet_studij16

18

20

22

24

26

28

30

32

34

36

38

Budući se ovdje radi o pručavanju istog obilježja (dobi) na dva uzorka studenata kojinemaju zajedničkih jedinki, kažemo da proučavamo nevezane uzorke.

Primjer 6.2 (djeca.sta)U jednoj je školi napravljeno istraživanje o tome što djeca misle i osjećaju prema sebi.Test se sastojao u tome da na početku testiranja djeca ocjenom od 1 (ne slažem se) do5 (slažem se) ocjene tvrdnju "Imam puno dobrih osobina". Nakon toga u razdobljuod 6 tjedana djeca su igrala četiri igrice koje potiču pozitivan stav prema samom sebi.Poslije tih igara ponovno im je postavljeno isto pitanje koje su oni ocijenili. U bazipodataka djeca.sta nalaze se ocjene prije i nakon provođenja igrica. Uvid u utjecajigrica na mišljenje djece daju nam osnovne mjere deskriptivne statistike, empirijskadistribucija i kutijasti dijagram na bazi medijana:Deskriptivna statistika za varijable prije i poslije:

Descriptive Statistics (djeca.sta)

VariableValid N Mean Median Mode Frequency

of ModeMinimum Maximum Std.Dev.

PRIJEPOSLIJE

33 4,545455 5,000000 5,000000 21 3,000000 5,000000 0,66571933 4,787879 5,000000 5,000000 27 3,000000 5,000000 0,484612

Tablice frekvencija i relativnih frekvencija:

Page 109: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 109

Frequency table: PRIJE: =6-OSOB (djeca.sta)

CategoryCount Cumulative

CountPercent Cumulative

Percent345Missing

3 3 9,09091 9,09099 12 27,27273 36,3636

21 33 63,63636 100,00000 33 0,00000 100,0000

Frequency table: POSLIJE: =6-OSOB_2 (djeca.sta)

CategoryCount Cumulative

CountPercent Cumulative

Percent345Missing

1 1 3,03030 3,03035 6 15,15152 18,1818

27 33 81,81818 100,00000 33 0,00000 100,0000

prije poslijeKutijasti dijagrami:

Box & Whisker Plot

Median 25%-75% Min-Max

PRIJE POSLIJE2,8

3,0

3,2

3,4

3,6

3,8

4,0

4,2

4,4

4,6

4,8

5,0

5,2

Budući se ovdje radi o pručavanju istog obilježja (subjektivnog mišljenja djetetao samom sebi) na istom uzorku djece prije i poslije tretmana igrama, kažemo daproučavamo vezane uzorke.

Primjer 6.3 (djeca.sta)Pretpostavimo da želimo usporediti daje li novi tip sjemana kukuruza, razvijen genetičkimmetodama, veće prinose nego do sada najčešće korištena sorta kukuruza na ovim po-dručjima. Pokusi moraju biti izvedeni sijanjem ovih sorti na poljima koja osiguravajuiste uvjete za rast. Urod kukuruza po kvadratnom metru isparceliranih polja pred-stavlja bazu podataka na osnovu koje možemo statistički zaključivati o pitanjimarazlika. U ovom se primjeru radi o proučavanju nevezanih uzoraka.

Prvi korak u ovakvim analizama je uvijek analiza svake varijable. Varijable koje us-poređujemo u ovakvim analizama zapravo opisuju isto obilježje ali u drugim uvjetimapa kažemo da analiziramo jedno obilježje u dva tretmana. Činjenica je da će seu empirijskim distribucijama kao i u procijenjenim vrijednostima za parametre kojinas zanimaju pojaviti razlike među tretmanima. Pitanje na koje odgovaramo u ovompoglavlju je:

Jesu li uočene razlike posljedica različitih tretmana?

Page 110: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 110

Da bismo bili u stanju odgovoriti na ovako postavljeno pitanje pokusmora biti vrlo pažljivo pripremljen tako da se osiguraju dva slučajnauzorka koja se bitno razlikuju samo po tretmanu.O postupku kojim se pripremaju ovakvi uzorci i o tome što se podrazumijeva podterminom "bitne razlike" bit će riječi na kraju poglavlja.

6.2 Usporedba očekivanja — nevezani uzorci

Zanima nas postoji li razlika u očekivanju između dva tretmana. Iz svakog od njihnezavisno sakupimo uzorak. To znači da mjerene vrijednosti varijable iz jednogtretmana nisu u nikakvoj vezi s mjerenim vrijednostima varijable iz drugog tretmana.Neka je n1 dimenzija uzorka iz prve slučajne varijable (iz prvog tretmana), a n2

dimenzija uzorka iz druge slučajne varijable (iz drugog treetmana). Osim toga, nekasu µ1 i σ1 očekivanje i standardna devijacija prve slučajne varijable, a µ2 i σ2 očekivanjei standardna devijacija druge slučajne varijable.

6.2.1 Veliki uzorci

U uvjetima kada imamo velike uzorke možemo testirati hipotezu o jednakosti očeki-vanja između varijabli u dva tretmana neovisno o distribuciji tih varijabli. Pod poj-mom "veliki uzorci" obicno se podrazumijeva n1 > 30 i n2 > 30.

H0 : µ1 − µ2 = 0

H1 : µ1 − µ2 6= 0

• test statistika:z =

(x1 − x2)√σ21

n1+

σ22

n2

• x1 i x2 su aritmetičke sredine u pojedinim tretmanima

• distribucija ove statistike, pri velikim uzorcima i u uvjetima istinitostinulte hipoteze, je približno standardna normalna

Za primjenu ovog testa potrebno je poznavati varijancu obilježja, što najčešće nijeslučaj. Međutim, pri velikim uzorcima možemo iskoristiti procjene za varijance.

6.2.2 Mali uzorci

Ukoliko su varijable u tretmanima normalno distribuirane i varijance su im jed-nake bolje rezultate dobivamo primjenom t-testa. Dakle, ako vrijede sljedeće pret-postavke:

Page 111: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 111

• varijable u oba tretmana su normalno distribuirane

• varijance u tretmanima, tj. σ21 i σ2

2, su jednake

možemo dobiti odgovor na ovakvo pitanje i kod malih uzoraka na osnovu sljedećegtesta:

H0 : µ1 − µ2 = 0

H1 : µ1 − µ2 6= 0

• test statistika:t =

(x1 − x2)

sp√

1n1

+ 1n2

s2p =(n1 − 1)s21 + (n2 − 1)s22

n1 + n2 − 2

• s1 i s2 su procjene standardnih devijacija

• x1 i x2 su aritmetičke sredine u pojedinim tretmanima

• distribucija ove statistike, u uvjetima istinitosti nulte hipoteze, jeStudentova t-distribucija s (n1 + n2 − 2) stupnja slobode

Budući nam stvarne varijance σ21 i σ2

2 nisu poznate u prethodnom testu koristimonjihove procjene s21 i s22. Zbog nepoznavanja stvarnih varijanci distribucija iz kojihdolaze podaci potrebno je testirati hipotezu o jednakosti varijanci σ2

1 i σ22:

H0 : σ21 = σ2

2.

Za testiranje ove hipoteze koristimo tzv. F -test:

H0 : σ21 = σ2

2

H1 : σ21 6= σ2

2

• test statistika:v =

s21s22

• s21 i s22 su procjene varijanci σ21 i σ2

2

• vrijednost test statistike v je realizacija slučajne varijable V koja uuvjetima istinitosti nulte hipoteze ima F distribuciju s (n1 − 1) i(n2 − 1) stupnjeva slobode

Page 112: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 112

U uvjetima istinitosti nulte hipoteze očekujemo da je izračunata vrijednost za v (oz-načit ćemo je v) približno 1. Nultu hipotezu odbacujemo ako za izračunatu vrijednostv vrijedi jedna od sljedećih nejednakosti

v ≤ c1 ili v ≥ c2,

gdje su c1 i c2 pozitivni realni brojevi za koje u uvjetima istinitosti nul-hipotze vrijedi

P (V ≤ c1) = P (V ≥ c2) =α

2,

gdje je α nivo značajnosti testa.

-1 1 2 3 4

0.1

0.2

0.3

0.4

0.5

0.6

0.7

c1 c2 x

f(x)

PV ≤ c1 = α/2 PV ≥ c2 = α/2

Slika 6.1: PV ≤ c1+ PV ≥ c1 = α

Brojeve c1 i c2 određujemo u Probability Calculatoru u Statistici pri čemu je ključnoza distribuciju odabrati F distribuciju s parametrima (stupnjevima slobode) (n1− 1)

i (n2 − 1). Npr. za V ∼ F (10, 10) (n1 = n2 = 11) je c1 = 0.645, a c2 = 1.551. Dakle,ako je

v ∈ 〈−∞, c1] ∪ [c2,∞〉

na nivou značajnosti α odbacujemo nul-hipotezuH0 i prihvaćamo alternativnu hipotezuo postojanju razlike među varijancama σ2

1 i σ22 (tj. standardnim devijacijama σ1 i σ2).

Ako jev ∈ 〈c1, c2〉,

tada nemamo dovoljno informacija koje bi poduprle odluku o odbacivanju nul-hipoteze.

Primjer 6.4 Za sljedeće parove uzoračkih standardnih devijacija provedite F -test nanivou značajnosti α te donesite zaključak:

a) s1 = 3.2, n1 = 30, s2 = 3, n2 = 30, α = 0.01.

b) s1 = 1989, n1 = 50, s2 = 1843, n2 = 30, α = 0.05.

c) s1 = 250, n1 = 20, s2 = 300, n2 = 16, α = 0.05.

Page 113: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 113

Rješenje:Niti u jednom od ova tri slučaja nemamo dovoljno argumenata koji bi poduprli tvrdnjuo odbacivanju nulte hipoteze o jednakosti standardnih devijacija σ1 i σ2 procijenjenihsa s1 i s2, redom.

Primjer 6.5 Poduzeće koje se bavi izdavaštvom želi testirati hipotezu da postoji ra-zlika u prosječnoj brzini dostavljanja materijala između dva transportna poduzeća.Deskriptivna statistika nizova prikupljenih podataka je sljedeća:

prvo poduzeće: n1=30, x1=16 sati, σ1=3,2 satadrugo poduzeće: n2=30, x2=18 sati, σ2=3 sata

Može li se na nivou značajnosti α = 0.01 tvrditi da postoji statistički značajna razlikau prosječnoj brzini dostavljanja materijala između ta dva transportna poduzeća?

Rješenje:Provedeni postupak testiranja ne daje dovoljno argumenata koji bi poduprli odluku oodbacivanju nulte hipoteze (H0 : µ1 = µ2).

Primjer 6.6 Američki ekonomisti odlučili su testirati hipotezu da su cijene japanskihautomobila u prosijeku veće u Japanu nego u Sjedinjenim Američkim Državama.Prikupljen je uzorak od 50 cijena u Sjedinjenim Američkim Državama i 30 u Japanuza isti vremenski period i isti model automobila. Dobivena je sljedeća deskriptivnastatistika nizova podataka:

SAD: n1=50, x1=16 545 USD, s1=1 989 USDJapan: n2=30, x2=17 243 USD, s2=1 843 USD

Je li na nivou značajnosti α = 0.05 razlika u prosječnim cijenama statistički značajna?

Rješenje:Provedeni postupak testiranja ne daje dovoljno argumenata koji bi poduprli odluku oodbacivanju nulte hipoteze (H0 : µ1 = µ2).

Primjer 6.7 (student.sta)Studentrska služba jednog sveučilišta želi vidjeti postoji li razlika u prosječnoj dobiizmeđu studenata koji stanuju u gradu u kojemu je sveučilište i onih koji studirajuputem Interneta. Prikupljeni podaci o dobi nalaze se u bazi student.sta. Možemo lina nivou značajnosti α = 0.05 prihvatiti hipotezu o nepostojanju razlika?

Rješenje:Provedeni postupak testiranja ne daje dovoljno argumenata koji bi poduprli odluku oodbacivanju nulte hipoteze (H0 : µ1 = µ2).

Page 114: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 114

Primjer 6.8 (burza.sta)Raspolažete cijenama nekih dionica na dvije burze: New York Stock Exchange i Amer-ican Stock Exchange. U jednom financijskom časopisu ste pročitali da je očekivanacijena po dionici veća na burzi New York Stock Exchange u odnosu na očekivanu ci-jenu na burzi American Stock Exchange. Testirajte ovu hipotezu na temelju podatakau bazi burza.sta. Neka je nivo značajnosti α = 0.05.

Rješenje:Provedeni postupak testiranja ne daje dovoljno argumenata koji bi poduprli odluku oodbacivanju nulte hipoteze (H0 : µ1 = µ2).

Primjer 6.9 Management jednog velikog medicinskog centra želi provjeriti tvrdnjuda postoji razlika u procječnoj godišnjoj neto plaći između bolničarki i bolničara.Napravite testiranje na razini značajnosti α = 0.05 na temelju slijedećih informacijao uzorcima boliničarki i bolničara iz tog medicinskog centra

bolničarke: n1=20, x1=23750 kn, s1=250knbolničari: n2=16, x2=23800 kn, s2=300kn

pod uvjetima da su zadovoljene pretpostavke o jednakosti varijanci i o normalnojdistribuiranosti plaća. Postoji li dovoljno dokaza da se podupre tvrdnja da su bolničaribolje plaćeni od bolničarki?

Rješenje:Provedeni postupak testiranja ne daje dovoljno argumenata koji bi poduprli odluku oodbacivanju nulte hipoteze (H0 : µ1 = µ2).

Primjer 6.10 (indeks.sta)Jedna grupa istraživača razvila je indeks koji mjeri uspjeh managera, pri čemu većiindeks sugerira veću uspješnost managera. Neki istraživač želi usporediti taj indeksza dvije grupe managera. Jedna grupa managera ima puno interakcija s ljudima izvansvog radnog okruženja (telefoniranja, razgovori, sastanci i sl.) dok druga grupa imavrlo rijetke kontakte izvan svog okruženja. Postoji li statistički značajna razlika uprosječnom indeksu uspješnosti između navedene dvije grupe managera? Podaci senalaze u bazi podataka indeks.sta. (Zadovoljene su pretpostavke o jednakosti varijancii o normalnoj distribuiranosti slučajnih varijabli.)

Rješenje:Na nivou značajnosti α = 0.05 odbacujemo nultu hipotezu i prihvaćamo alternativnuhipotezu, tj. na nivou značajnosti α = 0.05 se prosječni indeksi uspješnosti manageraiz ovih dviju grupa statistički značajno razlikuju.

Primjer 6.11 (consumer.sta)Marketinški stratezi bi željeli predvidjeti odgovor potrošača prema novom proizvodu i

Page 115: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 115

njegovoj promociji. Studija koju su izradili Shushman i Riesz (1975.) ispituje razlikeizmeđu kupaca i onih koji nisu kupci za određeni proizvod. Oni su pokazali da suprosječna veličina i prihod domaćinstva značajno veći kod kupaca. Mi imamo podatkeo dobi za 20 kupaca jedne paste za zube i za 20 ne-kupaca te iste paste u bazi podatakaconsumer.sta. Provjerimo postoji li značajna razlika u prosječnoj dobi kupaca i ne-kupaca te paste ako je distribucija normalna? Neka je nivo značajnosti α = 0.1.

Rješenje:Na nivou značajnosti α = 0.1 odbacujemo nultu hipotezu i prihvaćamo alternativnuhipotezu, tj. na nivou značajnosti α = 0.05 se prosječna kupaca i ne-kupaca ove pasteza zube statistički značajno razlikuju.

6.3 Usporedba očekivanja — uzorci u paru

Često u praksi imamo potrebu uspoređivanja varijabli u vezanim tretmanima. Npr.ako želimo uspoređivati rezultate testa za iste bolesnike prije i nakon liječenja.Prethodni test ovdje nije adekvatan jer nemamo nezavisne pojave tj. mjerena vrijed-nost varijable u svakom pojedinom slučaju u drugom tretmanu ovisi o tome kolika jebila vrijednost varijable istog tog slučaja u prvom tretmanu.U ovakvim primjerima slučajevi se moraju pratiti u paru, a zaključci o postojanjurazlika među tretmanima donose se na osnovu praćenja razlika varijabli u pojedinimslučajevima kao što je prikazano u sljedećoj strukturi podataka:

par tretman 1 tretman 2 razlike1 x1 y1 d1 = x1 − y12 x2 y2 d2 = x1 − y2. . .. . .. . .n xn yn dn = x1 − yn

Uz sumarne statistike za svaki pojedini tretman, ovdje su također bitne i sumarnestatistike za stupac razlika, tj.

d = x− y s2d =1

n− 1

n∑i=1

(di − d)2.

Pretpostavka o nezavisnosti varijabli X i Y svakog tretmana nije ispunjena u ovakvimprimjerima. Dakle, slučajan uzorak koji se ovdje promatra sastoji se od n uređenihparova slučajnih varijabli (X1, Y1), . . . , (Xn, Yn).Uočimo također da se očekivanje slučajne varijable razlika D = X1 −X2 može dobitikao razlika očekivanja varijabli pojedinih tretmana, tj.

µd = µ1 − µ2.

Page 116: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 116

Na osnovu toga, testiranje hipoteze

H0 : µ1 − µ2 = 0

ovdje se provodi postupkom testiranja ekvivalentne hipoteze

H0 : µd = 0

koja se odnosi samo na jednu, novu, varijablu razlika D. Prikladni testovi za to danisu u Poglavlju 3.U programskom paketu Statistica, StatSoft imamo ugrađenu proceduru za testiranjeovakve hipoteze.Primjer :U jednoj je školi napravljeno istraživanje o tome što djeca misle i osjećaju prema sebi.Test se sastojao u tome da na početku testiranja djeca ocjenom od 1 (ne slažem se) do5 (slažem se) ocjene tvrdnju "Imam puno dobrih osobina". Nakon toga u razdobljuod 6 tjedana djeca su igrala četiri igrice koje potiču pozitivan stav prema samimasebi. Poslije tih igara ponovno im je postavljeno isto pitanje koje su oni ocijenili. Ubazi djeca.sta nalaze se ocjene. Da li su igre statistički značajno podigle prosječnuocjenu učenika o sebi? Napravite testiranje na razini α = 0, 05.Primjer :Pretpostavimo da želite usporediti očekivanu dnevnu prodaju dva restorana smještenau istome gradu. Imate podatke za 22 slučajno odabrana dana tijekom šesto mjesečnogperioda za oba restorana. Podaci se nalaze u datoteci rest1.sta. Da li podaci dajudovoljno dokaza da razlika između očekivane dnevne prodaje dva restorana zaistapostoji pod pretpostavkom da je dnevna prodaja normalno distribuirana slučajnavarijabla?Primjer :Jedan liječnik tvrdi da se uzimanjem specijalnog vitamina može povečati snaga dizačautega. Kako bi provjerili njegovu tvrdnju odabrano je 8 dizača kojima je izmjerenasnaga. Nakon dva tjedna treninga podržanih upotrebom specijalnog vitamnina ti istidizači utega su opet testirani. Upišite slijedeće podatke u tablicu i testirajte hipotezukojom možete provjeriti da li vitamin ima značajan učinak pod pretpostavkom da jedistribucija razlika normalna.

Prije: 210,230,182,205,262,253,219,216Poslije: 219,236,179,204,270,250,222,216

Što ste zaključili?

Primjer :U sklopu studije organizacije rada poduzeća ispituje se efikasnost zaposlenih u proizvod-nom procesu. Ispitivanje se provodi mjerenjem produktivnosti rada na uzorku radnika.

Page 117: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 117

Radi mogućeg povećanja produktivnosti, na radnim mjestima radnika u uzorku izmi-jenjen je red radnih operacija i prostorni razmještaj sredstava rada. Imamo rezultatemjerenja produktivnosti rada prije i poslije izmjena:

Prije: 45,34,42,28,35,39,50,41,27,29Poslije: 49,40,43,32,40,39,51,42,30,24

Što se može zaključiti na temelju navednih mjerenja pod pretpostavkom da je pro-duktivnost normalno distribuirana?

Page 118: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 118

6.4 Usporedba proporcija u velikim uzorcima

Ako želimo uspoređivati vjerojatnost pojavljivanja nekog događaja u dvije populacijetj. učestalost pojave tog događaja u dvije populacije poslužit ćemo se modeliranjemna osnovu Bernoullijeve slučajne varijable.Primjer :Na osnovu 1000 dimenzionalnog reprezentativnog uzorka u jednom gradu procijenjenje postotak pušača na p1 = 25%, a u nekom drugom gradu, na osnovu 2000 dimen-zionalnog uzorka postotak pušača je procijenjen na p1 = 28%. Možemo li tvrditi daje u drugom gradu stopa pušača statistički značajno veća nego u prvom?Ovdje problem modeliramo s dvije slučajne varijable Bernoullijevog tipa, tj.

X1 =

(0 1

q1 p1

)X2 =

(0 1

q2 p2

), p1, p2 ∈ (0, 1), qi = 1− pi, i = 1, 2.

p1 je vjerojatnost pojave događaja u prvoj populaciji, a p2 vjerojatnost pojave do-gađaja u drugoj populaciji.Prikupljeni uzorci iz ovih pokusa sastoje se od jedinica i nula koje označavaju da li seu pojedinom pokusu događaj dogodio ili ne.Primjer : U prethodnom primjeru pokusi se sastoje u anketiranju osoba izabranihu dane uzorke pitanjem da li su pušači ili ne.Označimo n1 dimenziju uzorka iz prve populacije, a n2 dimenziju uzorka iz drugepopulacije.Da bismo odgovorili na pitanje postavljeno u primjeru možemo se poslužiti sljedećimtestom:

H0 : p1 − p2 = 0

Test statistika:z =

p1 − p2√p(1− p)( 1

n1+ 1

n2)

U uvjetima istinitosti navedene hipoteze i pri velikim dimenzijama uzo-raka, ova statistika ima približno normalnu distribuciju s očekivanjem 0 ivarijancom 1.

Primjer :U uzorku od 100 potrošača jedne trgovine, 43 potrošača kupuje Master karticom. Udrugom uzorku koji broji također 100 potrošača, 58 kupuje Visa karticom. Na raziniα = 0, 05 testirajte postoji li statistički značajna razlika u proporcijama potrošačakoji kupuju s različitim karticama.Primjer :Grupa potrošača želi odrediti postoji li razlika između proporcija automobila kojatrebaju popravke u godinu dana za dva tipa automobila. Za prvi model je uzorak

Page 119: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 119

iznosio 400 automobila od kojih je 53 trebalo popravak, a za drugi model je u uzo-rak odabrano 500 automobila od kojih je 78 trebalo popravak. Testirajte postoji listatistički značajna razlika u navedenim proporcijama. Neka je α = 0, 05.Primjer :Raspolažete sljedećim podacima:

Manageri MBA studentiveličina uzorka 162 109postotak muškaraca 95 68,9postotak udanih/oženjenih 91,2 53,4

Da li populacija managera iz kojih je uzorak izabran sadrži statistički značajno višemuškaraca nego populacija MBA studenata? Da li populacija managera sadrži statis-tički značajno više ljudi koji su u braku od populacije MBA studenata? Testiranjanapravite na razini značajnosti α = 0, 01

Primjer :Ispituje se proporcija tekućih računa s negativnim saldom većim od dozvoljenog uprosincu 1998 godine u dvije poslovnice jedne banke. Analitička služba pretpostavljada je proporcija takvih računa u poslovnici II manja od proporcije u poslovnici I.U uzorku 562 računa poslovnice I, 75 je s nedozvoljenim prekoračenjem, a u uzorkuveličine 462 poslovnice II, 44 je s nedozvoljenim prekoračenjem. Što se može zaključitio pretposavci analitičke službe? Testirajte na razini značajnosti 10%.

6.5 Dvodimenzionalan slučajan vektor

6.5.1 Tablica distribucije

Primjer 6.12 Tvornica bombona koristi dvije linije za pakovanje bombona u vrećice.Svaka od linija povremeno ne zavari vrećicu na odgovarajući način pa se pakovanjene može poslati u prodaju. Radi analize uzroka ovih problema analitičar želi saznatidistribuciju broja pogrešno zavarenih pakovanja u jednom satu na svakoj liniji posebno,ali i njihovu zajedničku distribuciju. Naime, analitičar želi saznati da li se povećanbroj loše zavarenih pakovanja događa istovremeno na obje linije pa možda uzroke trebatražiti npr. u povremenim smetnjama u električnom napajanju i sličnim mogućimzajedničkim uzrocima. U tu svrhu analitičar je brojao pogrešno zavarena pakovanja sasvake linije tijekom 400 sati i dobio slijedeće podatke koje prikazuje u obliku tablicefrekvencija:

Page 120: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 120

Y0 1 2 3 4 zbroj

0 22 12 13 12 7 661 20 24 14 30 10 98

X 2 15 20 30 10 7 823 6 5 10 32 20 734 5 7 13 31 25 81

zbroj 68 68 80 115 69 400

Iz ovih podataka (tablice frekvencija), možemo izračunati empirijsku distribuciju brojapogrešno zavarenih pakovanja po satu na prvoj liniji X i na drugoj liniji Y kojimaprocjenjujemo stvarne distribucije ovih varijabli:

vrijednosti od Y 0 1 2 3 4pripadne vjerojatnosti 0.17 0.17 0.2 0.2875 0.1725

vrijednosti od X 0 1 2 3 4pripadne vjerojatnosti 0.165 0.245 0.205 0.1825 0.2025

Koliko procjenjujemo vjerojatnost da na drugoj liniji budu 4 loše zavarena pakovanjapo satu, a koliko na prvoj liniji, po navedenim distribucijama?Ako želimo odgovoriti na pitanje koliko iznosi vjerojatnost da na prvoj liniji ne budepogrešno zavarenih pakovanja, a istovremeno, na drugoj liniji 4, treba nam zajedničkadistribucija ovih slučajnih varijabli koju također možemo procijeniti iz podataka:

Y0 1 2 3 4

0 0.0550 0.0300 0.0325 0.0300 0.01751 0.0500 0.0600 0.0350 0.0750 0.0250

X 2 0.0375 0.0500 0.0750 0.0250 0.01753 0.0150 0.0125 0.0250 0.0800 0.05004 0.0125 0.0175 0.0325 0.0775 0.0625

Uočimo da se procjene pojedinačne distribucije od X i Y mogu dobiti sumiranjemodgovarajućih redaka odnosno stupaca kao što je prikazano u slijedećoj tablici:

Y0 1 2 3 4 zbroj

0 0.0550 0.0300 0.0325 0.0300 0.0175 0.1651 0.0500 0.0600 0.0350 0.0750 0.0250 0.245

X 2 0.0375 0.0500 0.0750 0.0250 0.0175 0.2053 0.0150 0.0125 0.0250 0.0800 0.0500 0.18254 0.0125 0.0175 0.0325 0.0775 0.0625 0.2025

zbroj 0.17 0.17 0.2 0.2875 0.1725 1

Page 121: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 121

Općenito, distribucija dvodimenzionalnog slučajnog vektora (X, Y ), pri čemu su x1, . . . , xmvrijednosti koje može poprimiti slučajna varijabla X (prva komponenta ovog vektora),a y1, . . . , yn slučajna varijabla Y (druga komponenta ovog vektora), dana je tabli-com distribucije:

Y

y1 y2 . . . yn

x1 p(x1, y1) p(x1, y2) . . . p(x1, yn)

X x2 p(x2, y1) p(x2, y2) . . . p(x2, yn)...

......

...xm p(xm, y1) p(xm, y2) . . . p(xm, yn)

Broj p(xi, yj) daje vjerojatnost da slučajna varijabla X primi vrijednost xi,a istovremeno, slučajna varijabla Y vrijednost yj.

p(xi, yj) = P (X = xi⋂Y = yj) = PX = xi, Y = yj

Uočimo da se distribucije slučajnih varijabli koje čine ovaj slučajan vektor (tj. posebnodistribucija od X i distribucija od Y ) mogu također dobiti iz tablice distribucije sluča-jnog vektora zbrajanjem vjerojatnosti u dogovarajućim retcima odnosno stupcima. Tedistribucije zovemo marginalne distribucije sučajnog vektora (X, Y ).

Y

y1 y2 . . . yn suma

x1 p(x1, y1) p(x1, y2) . . . p(x1, yn) pX(x1)

X x2 p(x2, y1) p(x2, y2) . . . p(x2, yn) pX(x2)...

......

......

xm p(xm, y1) p(xm, y2) . . . p(xm, yn) pX(xm)

suma pY (y1) pY (y2) . . . pY (yn) 1

Ovdje supY (y1) = PY = y1, . . . , pY (yn) = PY = yn

pX(x1) = PX = x1, . . . , pX(xm) = PX = xm.

Primjer 6.13 U bazi podataka bebe.sta nalaze se varijabla Nova-UZVDEF (67) u ko-joj je dana jedna ocjena ultrazvučnog pregleda mozga beba, a i varijabla Konvulzije(59) u kojoj je naznačeno da li je beba imala konvulzije ili ne. Odredite distribucijuslučajnog vektora (X, Y ) gdje Y predstavlja vrijednost ultrazvučnog nalaza, a X pojavukonvulzija.Koliko procjenjujemo da iznosi vjerojatnost da je ocjena ultrazvuka 1 a da su konvulz-ije bile prisutne?Koliko procjenjujemo da iznosi vjerojatnost da je ocjena ultrazvuka 4 a da su konvulz-ije bile prisutne?

Page 122: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 122

Koliko procjenjujemo da iznosi vjerojatnost da je ocjena ultrazvuka 4 a da konvulzijenisu bile prisutne?Koliko procjenjujemo da iznosi vjerojatnost pojave konvulzije u danoj populaciji djece?Koliko procjenjujemo da iznosi vjerojatnost pojave ultrazvučne ocjene 4 u danoj pop-ulaciji djece?

Primjer 6.14 U bazi podataka bebe.sta nalaze se varijable broj 5 (Apgar 1) i 24 (Nova-komp). Varijablom 5 dana je jedna ocjena bebe odmah nakon poroda dok je varijablom24 dana informacija o tome da li je tijekom trudnoće bilo komplikacija ili ne. Odreditedistribuciju slučajnog vektora (X, Y ) gdje Y predstavlja vrijednost varijable 5, a X

pojavu komplikacija tijekom trudnoće. Koliko procjenjujemo da iznosi vjerojatnost daje ocjena apgar 1 a da su komplikacije bile prisutne?Koliko procjenjujemo da iznosi vjerojatnost da je ocjena apgar 4 a da su komplikacijebile prisutne?Koliko procjenjujemo da iznosi vjerojatnost da je ocjena apgar 4 a da komplikacijenisu bile prisutne?Koliko procjenjujemo da iznosi vjerojatnost pojave komplikacija u danoj populacijidjece?Koliko procjenjujemo da iznosi vjerojatnost pojave ocjene apgara 4 u danoj populacijidjece?

Primjer 6.15 U bazi podataka boje.sta nalaze se podaci o pogreškama ocjenjivača in-tenziteta svjetline neke boje (varijabla IV) pri direktnom i indirektnom osvjetljenju(varijabla svjetlost). Odredite empirijsku distribuciju slučajnog vektora (X, Y ) gdje Ypredstavlja vrijednost varijable veličine pogreške (IV), a Y je indikator načina osv-jetljenja (1 direktno, 0 indirektno). Kolika je procijenjena vjerojatnost da je pogreška2, a osvjetljenje direktno? Postavite sami pitanja analogna pitanjima iz prethodnihprimjera i pokušajte na njih odgovoriti.

6.5.2 Uvjetne distribucije. Nezavisnost

Ako u primjeru 6.15 trebamo odgovoriti na pitanje: "Kolika je vjerojatnost da pogreškabude 2 uz uvjet da je osvjetljenje direktno?" moramo se pozabavti računanjem uvjet-nih vjerojatnosti. Iz definicije uvjtnih vjerojatnosti znamo da je

P (X = 2 | Y = 1) =PX = 2, Y = 1

PY = 1).

Pogledajmo u tablicu kako jednostavno močemo računati ove uvjetne vjerojatnosti ikako ih možemo dobiti korištenjem programskog paketa.

Page 123: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 123

Primjer 6.16 Korisimo primjer 6.12 Procijenite uvjetne vjerojatnosti da na drugojtraci budu 4 pogrešno zavarena pakovanja uz uvjet da je na prvoj traci također 4.Procijenite i preostale uvjetne vjerojatnosti za događaje na drugoj traci uz uvjet da suna prvoj traci 4 pogrešno zavarena pakovanja.Š to možete reći o nezavisnosti događaja X = 4 i Y = 4, a što o nezavisnostidogađaja X = 4 i svih mogućih realizacija druge slučajne varijable.

Općenito imamo, ako je dana tablica distribucije dvodimenzionalnog slučajnog vek-tora (X, Y )

Y

y1 y2 . . . yn suma

x1 p(x1, y1) p(x1, y2) . . . p(x1, yn) pX(x1)

X x2 p(x2, y1) p(x2, y2) . . . p(x2, yn) pX(x2)...

......

......

xm p(xm, y1) p(xm, y2) . . . p(xm, yn) pX(xm)

suma pY (y1) pY (y2) . . . pY (yn) 1

tada uvjetne distribucije slučajne varijable Y uz uvjet da se dogodio X =

xi dobijemo kao niz brojeva:

pY |X=xi(yj) =PX = xi, Y = yj

PX = xi=p(xi, yj)

pX(xi), j = 1, . . . , n

i analogno uvjetne distribucije od X uz uvjet da se dogodio dodađaj Y = yj.

Primjer 6.17 U prethodnom primjeru procijenite svih 5 uvjetnih distribucija za Y uzuvjet da se dogodi X = i, i = 0, 1, 2, 3, 4. Da li se te distribucije mijenjaju prom-jenom događaja na koji uvjetujemo? Mozete ki to objasniti i povezati s pojmom zav-isnosti i nezavisnosti slučajnih varijabli X i Y ?

Za slučajne varijable X i Y , čija je zajednička distribucija dana tablicom

Y

y1 y2 . . . yn suma

x1 p(x1, y1) p(x1, y2) . . . p(x1, yn) pX(x1)

X x2 p(x2, y1) p(x2, y2) . . . p(x2, yn) pX(x2)...

......

......

xm p(xm, y1) p(xm, y2) . . . p(xm, yn) pX(xm)

suma pY (y1) pY (y2) . . . pY (yn) 1

kažemo da su nezavisne ako za sve i = 1, . . . ,m, j = 1, dots, n vrijedi da je

p(xi, yj) = pX(xi) · pY (yj),

tj. distribucija slučajnog vektora se može dobiti kao produkt marginalnihdistribucija.

Primjer 6.18 Za primjere 6.14 i 6.15 procijenite uvjetne distribucije od X za svemoguće realizacije od Y . Komentirajte nezavisnost.

Page 124: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 124

6.6 Analiza kategoriziranih podataka

Iz tablica frekvencija slučajnog uzorka dvodimenzionalnog slučajnog vektora možemodobiti empirijsku distribuciju ovog slučajnog vektora kao što je pokazano u prethod-nom poglavlju. Na osnovu empirijske distribucije, uz do sada opisane metode statis-tičkog zaključivanja u poglavlju o jednoj slučajnoj varijabli, možemo donositi zaključkei o eventualnoj nezavisnosti slučajnih varijabli X i Y odnosno postojanju veze izmeđunjih.Neka je dana sljedeća tablica frekvencija dvodimenzionalnog slučajnog vektora (X, Y ):

Y

y1 y2 . . . yn suma

x1 n(x1, y1) n(x1, y2) . . . n(x1, yn) nX(x1)

X x2 n(x2, y1) n(x2, y2) . . . n(x2, yn) nX(x2)...

......

......

xm n(xm, y1) n(xm, y2) . . . n(xm, yn) nX(xm)

suma nY (y1) nY (y2) . . . nY (yn) N

Iz navedene tablice izračunamo tablicu koja daje empirijsku distribuciju:

Y

y1 y2 . . . yn suma

x1 p(x1, y1) p(x1, y2) . . . p(x1, yn) pX(x1)

X x2 p(x2, y1) p(x2, y2) . . . p(x2, yn) pX(x2)...

......

......

xm p(xm, y1) p(xm, y2) . . . p(xm, yn) pX(xm)

suma pY (y1) pY (y2) . . . pY (yn) 1

Pretpostavimo da je stvarna tablica distribucije od (X, Y ) dana na isti način samo supripadne vjerojatnosti označene s p bez "kapice".Kod dovoljno velikih dimenzija uzorka, za testiranje nulte hipoteze:

H0 : p(xi, xj) = pX(xi) · pY (yj), ∀i, j

možemo koristiti tzv. χ2 test koji se temelji na usporedbi frekvencija koje očekujemou uvjetima nulte hipoteze za pojedinu čeliju:

Eij = NpX(xi)pY (yj) =nX(xi)nY (yj)

N

i onih koje stvarno imamo u pojedinoj čeliji, tj. nij = n(xi, yj).Test statistika

χ2 =∑i,j

(nij − Eij)2

Eij

u uvjetima nulte hipoteze ima tzv. χ2 distribuciju s (n−1)(m−1) stupnjeva slobode.

Page 125: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 125

U uvjetima odbacivanja nulte hipoteze reći ćemo da podaci daju evidenciju o statis-tičkoj vezi između varijabliX i Y . Valje napomenuti da to još uvijek ne znači i uzročnuvezu. Naime, može se dogoditi da varijable nisu uzročno povezane ali imaju neku za-jedničku varijablu koja je s objema u uzročnoj vezi. (Analizirajte u tom kontekstuprimjer 6.12.)Uzorak je dovoljno velik ukoliko su očekivane frekvencije svakog razreda veće od 5.

Primjer 6.19 U primjerima 6.12, 6.14, 6.15 testirajte hipotezu o nezavisnosti.

Primjer 6.20 Raspolažete podacima o jednom istraživanju koje je provedeno na po-dručju grada Osijeka. Radi se o ispitivanju čitalačkih navika stanovnika Osijeka. Natemelju podataka koji se nalaze u bazi citanje.sta odogovorite na pitanje da li čita-lačke navike ovise o spolu? Testiranje napravite na razini značajnosti 5%.

Primjer 6.21 U bazi podataka live.sta nalaze se podaci o spolu, dobi, planovima zaposao nakon diplomiranja, namjerama o mjestu stanovanja itd. za skupinu od 129studenata jednog sveučilišta u Pragu. Zanima nas da li postoji razlika u planovima zaposao s obzirom na spol.Varijable koje trebate analizirati su:SEX: 1 - muškarci, 2 - ženeEDUWORK: 1 - raditi puno radno vrijeme, 2 - raditi pola radnog vremena, 3 - uopćene raditi

Testiranje napravite na razni značajnosti 10%.

Page 126: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 126

6.7 Jednostavna linearna regresija

Ako imamo parove podataka o dvije neprekidne slučajne varijable i želimo zaključi-vati o postojanju veze između njih, metoda iz prethodnog poglavlja nije prikladna.Naime, da bismo primijenili navedenu metodu trebali bismo varijable kategorizirati,a postupak kategorizacije nerijetko može značajno utjecati na statističke zaključkeobzirom da se u tom postupku uvijek gubi dio informacija.

Primjer 6.22 Ako sa x označimo dob osobe, a sa Y krvni tlak osobe, zanimljivo je pro-matrati vezu između dobi i krvnog tlaka. Krvni tlak za osobe iste dobi možemo modeli-rati kao slučajnu varijablu s pripadnom distribucijom (npr. normalnom). Budući sestarenjem povećava krvni tlak, prirodno je tražiti svojevrstan matematički opis statis-tičke zakonitosti koja obuhvaća vremensku promjenjivost krvnog tlaka. To zapravoznači da moramo promatrati familiju normalnih distribucija, tako da svakoj dobi xpripada odgovarajuća normalna razdioba N (µ(x), σ2(x)) krvnog tlaka Yx. Činjenicada se starenjem povećava krvni tlak odražava se na funkciju x 7→ µ(x) koja dobipridružuje srednju vrijednost krvnog tlaka (upravo u toj dobi). Očito je da je ovafunkcija monotono rastuća.

• Dakle, poanta svega je na temelju sparenih mjerenja (x1, y1), . . . , (xn, yn) us-tanoviti prirodu ovisnosti slučajnih varijabli Yi o nezavisnoj varijabli x.

• Ako matematički model definiramo relacijom

Yi = f(xi) + εi, i = 1, . . . , n,

gdje je x 7→ f(x) realna funkcija jedne realne varijable, a ε1, . . . , εn nezavisneslučajne varijable t.d. je E[εi] = 0 i V ar(εi) = σ2, onda govorimo o jednodi-menzionalnom regresijskom modelu.

• Prvi korak u uspostavljanju ovakvih veza između varijabli Y i x je prikazpodataka u dijagramu raspršenosti iz kojeg se lako vidi grupiraju li se točke(sparena mjerenja) oko pravca (linearna zavisnost) ili neke krivulje (neka drugafunkcijska zavisnost: polinomijalna (n ≥ 2), logaritamska, . . . ).

Primjer 6.23 U bazi podataka krv.xls nalaze se podaci o mjerenim vrijednostima neko-liko različitih analiza krvi u definiranoj populaciji bolesnih osoba. Analitičar želi is-tražiti može li se odrediti veza između izmjerenih vrijednosti ovih analiza. Utvrđivanjeveze i jasno uspostavljanje zakona koji ih povezuje smanjio bi broj potrebnih pretragakrvi. Naime, trebalo bi napraviti samo one koje su međusobno nezavise, dok bi seostale mogle na osnovu njih prognozirati. Za podatke iz baze prikažite svake dvijevarijable u dijagramu raspršenosti i kratko ga proanalizirajte.

Page 127: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 127

Deterministička veza između dvije varijable:

y = f(x)

y je zavisna varijabla, x je nezavisna varijabla, a f : R→ R zadana funkcija. Npr:

y = 2x+ 3

y = sin 3x

Ovakve veze omogućavaju točno izračunavanje vrijednosti zavisne varijable iz vrijed-nosti nezavisne varijable.U statističkim analizama nije realno očekivati determinističke veze obzirom da supojave koje promatramo slučajnog karaktera.

Statistički model s aditivnom greškom:Realno možemo očekivati da ćemo moći uspostaviti funkcijsku vezu do na dodanugrešku, tj.

Y = f(x) + ε.

Ovdje pretpostavljamo da je ε slučajna varijabla koja opisuje grešku u našem mod-eliranju. Koristeći se činjenicom da mnogo nezavisnih slučajnih smetnji i pravilu imanormalnu distribuciju, u primjenama se, u klasičnom, načinu modeliranja prihvaćada je model adekvatan ako modelom postignemo normalnu distribuciju grečaka ε uzostale zahtjeve o kojima će biti riječi poslije.Prvi korak u uspostavljanju ovakvih veza između dvije varijable je grafički prikazpodataka u dijagramu raspršenja.

Primjer 6.24 Za podatke iz baze krv.xls prikažite svake dvije varijable u dijagramuraspršenja.

6.7.1 Regresijski pravac

Pretpostavimo li da je graf funkcije f(x) u statističkom modelu, koja opisuje vezuizmeđu zavisne i nezavisne varijable, pravac, znači da je funkciju možemo prikazatialgebarski u obliku

f(x) = α + βx

Primjer 6.25 Skicirajte grafove pravaca

f(x) = 2x− 1, f(x) =1

2x+ 3, f(x) = −2x1

i komentirajte značenje koeficijenata α i β. Koji koeficijent opisuje iznos povečanjazavisne varijable u slučaju jediničnog povećanja nezavisne varijable?

Page 128: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 128

Statistički modelPretpostavljamo da su vrijednosti zavisne varijable Yi povezani s vrijednostima neza-visne varijable na način:

Yi = α + βxi + εi, i = 1, . . . , n

Ovdje su

• x1, x2, . . . , xn vrijednosti nezavisne varijable x koje je analitičar izabrao za studiju

• ε1, . . . , εn predstavljaju nepoznate komponenete greške koja je dodana na lin-earnu vezu. Ovo su menjerljive slučajne varijable za koje pretpostavljamo dasu međusobno nezavisne i da sve imaju normalnu distribuciju s očekivanjem 0 iistom varijancom σ2.

• α i β su nepoznati parametri pretpostavljene veze koje treba procijeniti tj.odrediti u postupku modeliranja.

Metoda najmanjih kvadrata

• Problem procjene nepoznatih parametara α i β možemo identificirati sa proc-jenom nepoznatog nam regresijskog pravca.

• Pretpostavimo da je u sklopu dijagrama raspršenja nacrtan proizvoljan pravacy = α+βx. Iz slike je vidljivo da za vrijednost xi nezavisne varijable x, zavisnavarijabla Yi poprima vrijednost (predicted value) α+ βxi. Istovremeno uočimoda je stvarna Yi-vrijednost (observed value) jednaka yi.

y= + xa b

a b+ x_i

y_i

x_i

1

• Nas će zanimati razlika između tih vrijednosti:

di = yi − (α + βxi).

• Pretpostavimo da su (x1, y1), . . . , (xn, yn) dani eksperimentalni podaci iz mod-ela koji je upravo opisan. Tada regresijske parametre α i β procjenjujemometodom najmanjih kvadrata.

Page 129: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 129

• Ideja metode je da se minimizira suma kvadratnih odstupanja teoretskih odeksperimentalnih vrijednosti, tj. procjene α i β regresijskih parametara α i βtrebamo odrediti tako da vrijedi:

D(α, β) =∑

(eksperimentalne vrijadnosti − teoretske vrijednosti)2 =

=n∑i=1

[yi − (α + βxi)]2 = min

(α,β)∈R2

n∑i=1

[yi − (α + βxi)]2 = min

(α,β)∈R2D(α, β).

• Dakle, α i β biramo tako da za izabrane vrijednosti α i β D(α, β) prima min-imalnu vrijednost koju može postići po svim mogućim vrijednostima (α, β).Takve procjene α i β nazivamo procjenama u smislu metode najmanjih kvadrataili least square estimates regresijskih parametara α i β. Jasno je da je tadanajbolja procjena nepoznatog regresijskog pravca y = α + βx upravo pravacy = α + βx.

• Za analitičko rješenje procjena α i β parametara α i β potrebno nam je sljedeće:

x =1

n

n∑i=1

xi, y =1

n

n∑i=1

yi

S2x =

n∑i=1

(xi − x)2

S2y =

n∑i=1

(yi − y)2

Sxy =n∑i=1

(xi − x)(yi − y)

Rješenje:

β =SxxS2x

, α = y − βx

tj. regresijski pravac:y = α + βx

Uočimo da, koristeći formulu regresijskog pravca, za svaku pojedinu eksperimentalnuvrijednost xi možemo izračunati pripadnu teoretsku vrijednost yi, pa možemo točnoizračunati koliko iznosi svako odstupanje teoretske od eksperimentalne vrijednosti:

ei = yi − yi = yi − (α + βxi).

Ovako dobiven niz vrijednosti (ei, . . . , en) zovemo reziduli. Nadalje, suma kvadratasvih reziduala je upravo minimalna postignuta vrijednost za D, tj. D(α, β) i pred-stavlja jednu mjeru kvalitete modela koju označavamo SSE:

SSE =n∑i=1

e2i .

Page 130: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 130

Primjer 6.26 krv.staKoristeći bazu podataka krv.sta odredite regresijski pravac između varijabli CD4 i CD8.Odredite vrijednosti reziduala. Ponovite postupak za još nekoliko parova varijabli.

Primjer 6.27 regresija.staKoristeći bazu podataka regresija.sta odredite regresijski pravac između varijabli x1i x2. Odredite vrijednosti reziduala i prokomentirajte dobiveni rezultat.

Primjer 6.28 regresija.staKoristeći bazu podataka regresija.sta odredite regresijski pravac između varijabli x2i x2kv. Što uočavate? Možete li na ovoj razini donijeti grubu ocjenu o adekvatnostilinearnog modela za problem? Koji bi model bio prikladniji i zašto?

Statističko zaključivanjeNajvažnija praktična pitanje na koje treba odgovoriti pri ovakvom modeliranju su:

1. Koliki dio promjena u mjerenim vrijednostima zavisne varijable je objašnjendobivenim modelom? (test jakosti modela)

• Odgovor na ovo pitanje daje koeficijent determinacije R2:

R2 =S2xy

S2xS

2y

.

Odavde je očito da je

R =SxySxSy

.

• Koeficijent determinacije R2 nam zapravo daje informaciju o tome kolikorasipanja izlaznih podataka potječe od funkcijske ovisnosti x 7→ α + βx, akoliko otpada na tzv. rezidualno ili neobjašnjeno rasipanje (tu informacijuočitavamo iz 1−R2).

• Drugim riječima daje informaciju o tome koliko je jaka funkcijska vezaizmeđu x i Y . Što je vrijednost koeficijenta R2 bliža 1, zavisnost je jača.

2. Je li ovaj model (Yi = α+βxi+εi) bolji od nul-modela (Yi = α+εi), tj. modelau kojemu je koeficijent regresije β = 0? (test adekvatnosti modela)

• Osnova ovog dijela analize je utvrditi koji od gore navedenih modela boljeopisuje funkcijsku ovisnost slučajne varijable Y (čije realizacije označavamosa yi) i nezavisne (neslučajne) varijable x.

• Ukoliko je β = 0 ne možemo govoriti o funkcijskoj ovisnosti između Y i x.

• Taj problem svodimo na testiranje nulte hipoteze koju formuliramo najedan od sljedeća dva načina:

H0 : Funkcijska veza između Y i x ne postoji.H0 : β = 0.

Page 131: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 131

• Sada je jasno da alternativnu hipotezu postavljamo na sljedeći način:

H1 : Funkcijska veza između Y i x postoji.H1 : β 6= 0.

• Za testiranje ovih hipoteza koristimo T-test, pri čemu je vrijednost teststatistike dana izrazom

t =Sx · βs

√n− 1 ∼ T (n− 2) ,

gdje je

Sx =

√√√√ 1

n− 1

n∑i=1

(xi − x)2, s =

√SSE

n− 2=

√∑ni=1 e

2i

n− 2.

3. Analiza reziduala: utvrđujemo jesu li ispunjene sve početne pretpostavkekoje reziduali trebaju ispunjavati, a te su:

• Varijance grešaka (koje su, kako znamo, slučajnog karaktera) su jednake.Homogenost varijanci reziduala provjeravamo analizom grafičkog prikazaovisnosti reziduala ei o procjenjenim vrijednostima yi = α + βxi (tzv.predicted and resids plot u programskom paketu Statistica). Jednostavnodonošenje zaključaka o varijanci dano je pomoću sljedećih sličica:

1

Slika 6.2: Horizontalno raspoređene točke sugeriraju homogenost varijanci.

1

Slika 6.3: Ovakav raspored točaka sugerira stalan rast varijance, dakle varijance nisu homogene.

Page 132: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 132

1

Slika 6.4: Ovakav raspored točaka sugerira neadekvatnost linearnog modela.

• Reziduali su normalno distribuirani. Normalnost reziduala provjeravamoanalizom histograma reziduala i p-plota reziduala u programskom paketuStatistica.

• Reziduali moraju biti međusobno nezavisni, tj. vrijednost reziduala kojise odnosi na realizaciju yi slučajne varijable Y nema nikakvog utjecaja navrijednost reziduala koji se odnosi na realizaciju yj iste slučajne varijable.Ovu pretpostavku provjeravamo analizom grafičkog prikaza reziduala zasvaki pojedini slučaj (Case numbers and resids plot u programskom paketuStatistica - promatramo položaj pravca i raspored reziduala u odnosu nanjega) i crtanjem dijagrama raspršenja uređenih parova reziduala (ei, ei−1),i = 2, . . . , n.

• Ako reziduali ei zadovoljavaju prethodno navedene pretpostavke, sma-tramo ih dobrim procjenama stvarnih normalnih grešaka εi.

Primjer 6.29 statistika.staMnogi studenti odlučili su ispit iz Matematičke statistike položiti putem kolokvija. Pritome se postignuti bodovi na svim kolokvijima zbrajaju i na temelju zbroja bodova proc-jenjuje ima li student pravo izaći na usmeni dio ispita. U bazi podataka statistka.stanalazi se zbroj bodova sa prva dva kolokvija (varijabla kol-1-2) i ukupan broj bodovanakon svih provedenih kolokvija (varijabla Ukupno). Odredite regresijski pravac izmeđuvarijabli Kol-1-2 i Ukupno. Napravite potpunu regresijsku analizu (test jakosti, testadekvatnosti i analizu reziduala).

Primjer 6.30 požar.staU bazi podataka požar.sta nalaze se podaci o udaljenosti lokacije na kojoj je izbiopožar od najbližeg vatrogasnog centra (varijabla Udaljenost-km) i podaci o iznosu štetenastale tim požarom (varijabla Steta-kn). Napravite potpunu regresijsku analizu (testjakosti, test adekvatnosti i analizu reziduala).

Page 133: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 133

Primjer 6.31 ptsp.staKoristeći bazu podataka ptsp.sta odredite regresijski pravac između varijabli ptspbi ptspb2 (ptspb2 sadrži rezultate testova nakon terapije nekim lijekom, a ptspbodražava stanje prije provedene terapije). Napravite potpunu regresijsku analizu mod-ela (test jakosti, test adekvatnosti i analizu reziduala). Analogno napravite za parovevarijabli ptspc i ptspc2, te ptspd i ptspd2.

6.8 Koeficijent korelacije

Koeficijent korelacije je jedna numerička karakteristika dvodimenzionalnog slučajnogvektora koja može poslužiti za analizu zavisnosti među komponentama tog slučajnogvektora.Neka je (X, Y ) dvodimenzionalan slučajan vektor kojemu svaka kompo-nenta ima varijancu. Koeficijent korelacije je broj definiran izrazom:

ρXY =E(X − µ)(Y − ν)

σXσY,

gdje suµ = EX, ν = EY, σX =

√V arX, σY =

√V ar Y .

O koeficijentu korelacije valja znati sljedeće činjenice:

• ρXY ∈ [−1, 1]

• Ako su X i X nezavisne slučajne varijable tada je ρXY = 0

• Y = aX + b, gdje je a > 0 onda i samo onda ako je ρXY = 1

• Y = aX + b, gdje je a < 0 onda i samo onda ako je ρXY = −1

Procjena korelacije:Za procjenu korelacije kod neprekidnih slučajnih varijabli koristimo tzv. Pearsonovkorelacijski koeficijent definiran izrazom:

r =

n∑i=1

(Xi − X)(Yi − Y )√n∑i=1

(Xi − X)2√

n∑i=1

(Yi − Y )2.

Ovaj izraz u direktnoj je vezi s koeficijentom β u linearnom regresijskom modelu štoupućuje na činjenicu da ovaj procjenitelj daje informacije o linearnoj vezi između Xi Y .Statistički test koji testira hipotezu

H0 : ρXY = 0

na osnovu t-distribucije može se primijeniti pod pretpostavkom normalno distribuira-nog slučajnog vektora (X, Y ).

Page 134: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 134

Primjer 6.32 Koristeći baze podataka krv.xls i regresija1.sta procijenite koeficijentkorelacije za sve parove varijabli. Usporedite s rezultatima regresijske analize za isteparove varijabli.

6.9 Zadaci za vježbu - jedostavna linearna regresija

Primjer 6.33 regresija-1.staKoristeći bazu podataka regresija-1.sta odredite regresijski pravac između varijabliX-1 i X-2. Što uočavate? Možete li na ovoj razini donijeti grubu ocjenu o adekvatnostilinearnog modela za problem? Koji bi model bio prikladniji i zašto?

Primjer 6.34 gorivo.staKoristeći bazu podataka gorivo.sta odredite regresijski pravac između varijabli Udaljenost-posaoi Troskovi-gorivo (Udaljenost-posao sadrži podatke o udaljenosti radnog mjesta odmjesta stanovanja za 100 zaposlenih osoba, a Troskovi-gorivo iznos u kunama kojegispitanici troše na gorivo da bi se dovezli do posla). Napravite potpunu regresijskuanalizu modela (test jakosti, test adekvatnosti i analizu reziduala).

Primjer 6.35 regresija-2.staKoristeći bazu podataka regresija-2.sta odredite regresijski pravac između varijabliY-1 i Y-2. Što uočavate? Možete li na ovoj razini donijeti grubu ocjenu o adekvatnostilinearnog modela za problem? Koji bi model bio prikladniji i zašto?

Primjer 6.36 glukoza.staKoristeći bazu podataka glukoza.sta odredite regresijski pravac između varijabli Dob-osobei Koncentracija-glukoze (Dob-osobe sadrži podatke o starosti za 100 ispitanih os-oba, a Koncentracija-glukoze nivo glukoze u krvi pojedinog ispitanika). Napravitepotpunu regresijsku analizu modela (test jakosti, test adekvatnosti i analizu reziduala).

Primjer 6.37 regresija-3.staKoristeći bazu podataka regresija-3.sta odredite regresijski pravac između varijabliZ-1 i Z-2. Što uočavate? Možete li na ovoj razini donijeti grubu ocjenu o adekvatnostilinearnog modela za problem? Koji bi model bio prikladniji i zašto?

Primjer 6.38 apartmani.staKoristeći bazu podataka apartmani.sta odredite regresijski pravac između varijabliUdaljenost-od-mora i Cijena-apartmana (Udaljenost-od-mora sadrži podatke oudaljenosti apartmana do najbliže plaže, a Cijena-apartmana cijenu apartmana podanu izraženu u kunama). Napravite potpunu regresijsku analizu modela (test jakosti,test adekvatnosti i analizu reziduala).

Primjer 6.39 regresija-4.staKoristeći bazu podataka regresija-4.sta odredite regresijski pravac između varijabli

Page 135: MirtaBenšić NenadŠuvak · Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja

Statističko zaključivanje o dvije slučajne varijable 135

W-1 i W-2. Što uočavate? Možete li na ovoj razini donijeti grubu ocjenu o adekvatnostilinearnog modela za problem? Koji bi model bio prikladniji i zašto?

Primjer 6.40 servis.staKoristeći bazu podataka servis.sta odredite regresijski pravac između varijabli Broj-kmi Servis-kn (Broj-km sadrži podatke o prijeđenom broju kilometara nekog tipa au-tomobila prije obavljenog prvog servisa, a Servis-kn cijenu servisa nakon tog brojakilometara). Napravite potpunu regresijsku analizu modela (test jakosti, test adekvat-nosti i analizu reziduala).