21
Poglavlje 1 Uvod Korištenje riječi statistika u svakodnevnom životu najčešće je povezano s brojčanim vrijednostima kojima pokušavamo opisati bitne karakteristike nekog skupa podataka. Na službenim web stranicama Državnog zavod za statistiku Republike Hrvatske možemo pročitati (http://www.dzs.hr/ dana 6.6.2009): Prosječna mjesečna isplaćena neto plaća po zaposlenome u pravnim osobama Re- publike Hrvatske za srpanj 2009. iznosila je 5 308 kuna. Minimalna plaća za razdoblje od 1. lipnja 2009. do 31. svibnja 2010. u Republici Hrvatskoj iznosi 2 814,00 kuna. Stopa registrirane nezaposlenosti za kolovoz 2009. iznosila je 14,2%. Udio aktivnog stanovništva u radno sposobnom (stopa aktivnosti) iznosi 48%, is- tovremeno 43,7% radno sposobnih osoba je zaposleno (stopa zaposlenosti), a 8,9% radne snage je nezaposleno (stopa nezaposlenosti). Temelj statistike, kao znanstvene discipline, i istraživanja koje se koristi statističkim metodama također čine skupovi podataka. Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku- pljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu donošenja zaključaka na temelju prikupljenih podataka. Statističko istraživanje fokusirano je na skup objekata (ljudi, životinja, biljaka, stvari, država, gradova, poduzeća, itd.) i skup odabranih veličina koje se na njima proma- traju. Elemente skupa u statističkom istraživanju zovemo objektima ili jedinkama, a veličine koje se na jednikama promatraju zovemo varijablama. Sve jedinke koje se žele obuhvatiti istraživanjem, tj. o kojima se želi zaključivati, čine populaciju. Primjer 1.1 Bavimo se istraživanjem uspjeha iz kolegija statistika na Učiteljskom fakultetu u Osijeku, u generaciji 2009./2010. 1

Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Poglavlje 1

Uvod

Korištenje riječi statistika u svakodnevnom životu najčešće je povezano s brojčanimvrijednostima kojima pokušavamo opisati bitne karakteristike nekog skupa podataka.Na službenim web stranicama Državnog zavod za statistiku Republike Hrvatske možemopročitati (http://www.dzs.hr/ dana 6.6.2009):

Prosječna mjesečna isplaćena neto plaća po zaposlenome u pravnim osobama Re-publike Hrvatske za srpanj 2009. iznosila je 5 308 kuna.

Minimalna plaća za razdoblje od 1. lipnja 2009. do 31. svibnja 2010. u RepubliciHrvatskoj iznosi 2 814,00 kuna.

Stopa registrirane nezaposlenosti za kolovoz 2009. iznosila je 14,2%.

Udio aktivnog stanovništva u radno sposobnom (stopa aktivnosti) iznosi 48%, is-tovremeno 43,7% radno sposobnih osoba je zaposleno (stopa zaposlenosti), a8,9% radne snage je nezaposleno (stopa nezaposlenosti).

Temelj statistike, kao znanstvene discipline, i istraživanja koje se koristi statističkimmetodama također čine skupovi podataka.

Statistika, kao znanstvena disciplina, bavi se razvojem metoda priku-pljanja, opisivanja i analiziranja podataka te primjenom tih metoda uprocesu donošenja zaključaka na temelju prikupljenih podataka.

Statističko istraživanje fokusirano je na skup objekata (ljudi, životinja, biljaka, stvari,država, gradova, poduzeća, itd.) i skup odabranih veličina koje se na njima proma-traju. Elemente skupa u statističkom istraživanju zovemo objektima ili jedinkama,a veličine koje se na jednikama promatraju zovemo varijablama. Sve jedinke koje sežele obuhvatiti istraživanjem, tj. o kojima se želi zaključivati, čine populaciju.

Primjer 1.1 Bavimo se istraživanjem uspjeha iz kolegija statistika na Učiteljskomfakultetu u Osijeku, u generaciji 2009./2010.

1

Page 2: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Uvod 2

jedinke: osobe, imenom i prezimenom ili nekom šifromvarijabla: ocjena iz statistike

U ovom primjeru navedena je samo jedna varijabla koja se analizira na jedinkamapopulacije, tj. uspjeh iz statistike. Međutim, često nas zanima nekoliko varijabli i/iliveze među njima. Npr. želimo li ispitati ovisi li uspjeh iz statistike u prethodnomprimjeru o spolu, potrebno je u istraživanju populacije za svaku jedinku zabilježiti ivrijednost varijable spol (M ili Ž); želimo li ispitati ovisi li uspjeh iz statistike o grupivježbi, potrebno je za svaku jedinku zabilježiti koju grupu vježbi je pohađala. Zbogpreglednosti, prikupljene podatke prikazujemo tablično tako da jedan redak odgovaraodređenoj jedinki, a stupac jednoj varijabli.

Primjer 1.2 Bavimo se istraživanjem uspjeha iz kolegija statistika na Učiteljskomfakultetu u Osijeku, u generaciji 2009./2010. u ovisnosti o spolu ispitanika i grupivježbi koju su pohađali. Tablicu za bilježenje prikupljenih podataka treba organiziratina sljedeći način:

matični broj studenta ocjena iz statistike spol grupa vježbi

1206 5 Ž A1326 2 Ž B942 4 Ž C... ... ... ...

U prethodnim primjerima nije problem istražiti cijelu populaciju obzirom da na Učiteljskomfakultetu u Osijeku, u generaciji 2009./2010. ima 81 upisan student. Međutim, is-tražujemo li, prije izbora za predsjednika neke države, preferencije građana premanekom od kandidata, ne možemo ispitati sve osobe populacije (tj. sve državljane kojiimaju pravo glasa) jer bi to bilo ekvivalentno provođenju izbora. Kada nije mogućeistražiti veličine koje nas zanimaju na svim jedinkama populacije potrebno je iz pop-ulacije izdvojiti uzorak na kojemu će biti prikupljeni podaci. Obzirom da se o cijelojpopulaciji želi zaključivati na temelju podataka prikupljenih na uzorku, za istraživanjeje vrlo važno znati kako kreirati kvalitetan uzorak.Primjena statistike u istraživanju podrazumijeva da se u pripremi istraživanja izabra-nog problema poštuju sljedeća pravila:

• Populaciju koja je predmet istraživanja potrebno je detaljno proučiti, zabilježitinjene osnovne karakteristike i ciljeve istraživanja, kreirati kvalitetan uzorak iodabrati metodu za prikupljanje podataka.

• Izabrati prikladne metode za opis skupa prikupljenih podataka (deskriptivnastatistika).

Page 3: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Uvod 3

• Izabrati prikladne statističke metode za zaključivanje o populaciji na temaljuprikupljenih podataka na uzorku.

Sukladno ovim razmatranjima, u ovom kolegiju ćemo se baviti nekim metodamaprikupljanja podataka i kreiranja uzorka, metodama deskriptivne statistike i metodamastatističkog zaključivanja. Obzirom da se metode kojima se kreira uzorak i metodestatističkog zaključivanja temelje na poznavanju osnovnih pojmova teorije vjerojat-nosti, u kolegiju ćemo također navesti temeljne pojmove i zakone teorije vjerojatnostipotrebne za razumijevanje osnovnog statističkog aparata.

Page 4: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Poglavlje 2

Prikupljanje i organizacija podataka

2.1 Populacija i uzorak

Populaciju čine sve jedinke koje su predmet istraživanja

Primjer 2.1 Istražujemo prehrambene navike i razlike u prehrambenim navikamaizmeđu stanovnika Slavonije i Baranje i stanovnika Dalmacije. Populaciju čine svistanovnici Slavonije, Baranje i Dalmacije. Međutim, ako nas zanimaju samo prehram-bene navike studenata iz tih područja, onda populaciju čine samo studenti iz Slavonije,Baranje i Dalmacije.

Uzorak je podskup jedinki iz populacije

Da bi zaključci prilikom istraživanja o populaciji, na temelju podataka iz uzorka, biliispravni, nužno je da uzorak bude REPREZENTATIVAN, tj. u njemu moraju bitizastupljne sve tipične karakteristike populacije bitne za istraživanje.

Primjer 2.2 U prethodnom primjeru, ako populaciju čine svi stanovnici Slavonije,Baranje i Dalmacije, onda ne možemo istraživanje provesti samo na uzorku djecekoja pohađaju srednju školu. To bi nam možda bilo praktično, ali takav uzorak nijereprezentativan za zaključivanje o cijeloj populaciji.

Jedan od načina izbora jedinki iz populacije u uzorak je temeljen na formiranju takoz-vanog slučajnog uzorka.

Slučajan uzorak iz populacije formira se tako da svaka jedinka popu-lacije ima jednaku vjerojatnost (šansu) da uđe u uzorak.

Obzirom da se u gornjoj definiciji pojavljuje pojam vjerojatnost, metodu formi-ranja slučajnog uzorka ostavljamo za sljedeća poglavlja, nakon što pojasnimo pojamvjerojatnosti.

4

Page 5: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Prikupljanje i organizacija podataka 5

2.2 Izvori podataka

• Podaci iz javnih izvora (knjige, časopisi, novine, web).

• Podaci iz dizajniranog eksperimenta (Istraživač raspoređuje eksperimentalnejedinke u skupine nad kojima vrši eksperimente te bilježi podatke za varijablekoje ga zanimaju).

Primjer 2.3 Jedno medicinsko istraživanje proučava snagu nekog lijeka u prevencijimoždanog udara. Skupinu ljudi s kojima će se vršiti istraživanje istraživač dijeli nadvije skupine: tretiranu i kontrolnu. Ljudima u tretiranoj skupini daje se lijek, dok seljudima u kontrolnoj skupini daje nadomjestak koji izgleda isto kao lijek ali zapravonije ništa što može imati bilo kakav utjecaj na organizam.

• Podaci iz ankete.

Istraživač sastavlja anketni upitnik, izabire skupinu ljudi koju anketira i naosnovu njihovih odgovora prikuplja podatke.

• Podaci prikupljeni promatranjem.

Istraživač promatra eksperimentalne jedinke u njihovom prirodnom okruženju ibilježi podatke za varijable od interesa.

Primjer 2.4 (stanovnistvo.xls; stanovnistvo.sta)Pretpostavimo da želite saznati starosnu strukturu (prema godinama starosti) stanovništvau svom gradu/selu te da ste u svrhu tog problema počeli s prikupljanjem podataka (uovom konkretnom primjeru podatke prikupljate usmenom anketom). Doivene podatkeorganiziramo u bazu koja sadrži četiri varijable:

• osnovna škola - varijabla koja sadrži podatke o godinama starosti za pedeset sluča-jno odabranih učenika vama najbliže osnovne škole u gradu,

• fakultet - varijabla koja sadrži podatke o godinama starosti za pedeset slučajnoodabranih studenata fakulteta na kojem i sami studirate,

• gradska knjižnica - varijabla koja sadrži podatke o godinama starosti za pedesetslučajno odabranih posjetitelja gradske knjižnice,

• telefonska anketa - varijabla koja sadrži podatke o godinama starosti za pedesetosoba čiji smo telefonski broj slučajno odabrali u imeniku.

Zadatak 2.1 Nakon kratke analize baze podataka stanovnistvo.sta, s obzirom na načinnjihovog prikupljanja i kategoriju anketiranih ispitanika, komentirajte reprezentativnostovih podataka te pokušajte konstruirati način prikupljanja podataka koji bi obuhvatioreprezentativan uzorak (za starosnu strukturu) iz populacije stanovnika vašeg grada/sela.

Page 6: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Prikupljanje i organizacija podataka 6

2.3 Tipovi varijabli

Kvalitativne varijableVrijednosti varijable svrstavamo u kategorije.

Primjer 2.5 Sljedeće varijable su kvalitativnog tipa.

• Radna mjesta u školi (spremačica, domar, tajnik, nastavnik, pedagog, ravnatelj).

• Opisne ocjene: ništa, malo, srednje, puno.

Numeričke varijableVrijednosti numeričke varijable su elementi skupa realnih brojeva.

Primjer 2.6 Sljedeće varijable su numeričkog tipa.

• Broj ulovljenih komaraca u klopku.

• Postotak prolaznosti na pojedinim ispitima u toku jedne akademske godine.

• Temperatura mora.

• Broj bodova na državnoj maturi iz matematike u jednoj generaciji.

Među numeričkim varijablama razlikujemo diskretne i kontinuirane varijable.Diskretne varijable mogu poprimiti samo konačno ili prebrojivo mnogovrijednosti

Primjer 2.7 Sljedeće varijable su diskretne.

• Broj ulovljenih komaraca u klopku.

• Broj dana u godini s temperaturom zraka većom od 35oC.

Skup vrijednosti kontinuiranih varijabli je cijeli skup realnih brojevaili neki interval.

Primjer 2.8 Sljedeće varijable su kontinuirane.

• Postotak prolaznosti na pojedinim ispitima u toku jedne akademske godine.

• Temperatura mora.

Page 7: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Prikupljanje i organizacija podataka 7

Primjer 2.9 (auti.sta)Baza podataka sastoji se od dvije varijable:

• auti - diskretna numerička varijabla koja sadrži podatke o broju prodanih auto-mobila po danu za sto promatranih dana,

• uspješnost dana - kvalitativna varijabla koja podatke iz varijable auti klasificira upet kategorija (svaka kategorija je jedan konačan skup) na sljedeći način:

Broj prodanih automobila Pridružena kategorija

0 - 4 15 - 8 29 - 12 313 - 16 4

više od 17 5

Primjer 2.10 (glukoza.sta)Baza podataka sastoji se od tri varijable:

• dob osobe - diskretna numerička varijabla koja sadrži podatke o godinama starostiza sto promatranih osoba,

• koncentracija glukoze - kontinuirana numerička varijabla koja sadrži podatke okoncentraciji glukoze u krvi za svaku od sto promatranih osoba,

• kategorija - kvalitativna varijabla koja podatke iz varijable koncentracija glukozeklasificira u dvije kategorije (svaka kategorija je jedan interval pozitivnih realnihbrojeva) na sljedeći način:

Interval koncentracije glukoze Pridružena kategorija

koncentracija < 6 mMol/L N - normalna koncentracijakoncentracija ≥ 6 mMol/L P - povišena koncenracija

Primjer 2.11 (kolegij.sta)Baza podataka sastoji se od sedam varijabli:

• godina upisa - kvalitativna varijabla koja sadrži podatke o akademskoj godiniupisa na studij za sto promatranih studenata,

• kategorija - kvalitativna varijabla koja podatke iz varijable godina upisa klasificirau tri kategorije (svaka kategorija je jedan konačan skup) na sljedeći način:

Akademska godina upisa Pridružena kategorija

student upisan prije 1990. godine 1student upisan 1990., 1991. ili 1992. godine 2student upisan 1993. ili 1994. godine 3

Page 8: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Prikupljanje i organizacija podataka 8

• opća kemija, organska kemija, anorganska kemija, mikrobiologija - četiri diskretnenumeričke varijable koje sadrže podatke o postignutim ocjenama na ispitima izspomenutih kolegija za svakog od sto promatranih studenata,

• prosjek - kontinuirana numerička varijabla koja sadrži prosječne ocjene iz četirispomenuta kolegija za svakog od sto promtranih studenata.

Primjer 2.12 (student.sta, student-grupe.sta)Baza podataka student.sta sastoji se od dvije varijabli:

• klasično studiranje - diskretna numerička varijabla koja sadrži podatke o godi-nama starosti za grupu promatranih studenata koji studiraju na klasičan način(stanuju u gradu u kojem studiraju ili putuju na predavanja),

• e-learning - diskretna numerička varijabla koja sadrži podatke o godinama starostiza grupu promatranih studenata koji studiraju putem Interneta (tzv. e-learning).

Baza podataka student-grupe.sta sastoji se od dvije varijabli:

• dob studenta - diskretna numerička varijabla koja sadrži podatke o godinamastarosti za sto promatranih studenata koji studiraju ili na klasičan način iliputem Interneta,

• način studiranja - kvalitativna varijabla koja podatke iz varijable dob studentaklasificira u dvije kategorije prema sljedećem kriteriju (bez obzira na podatkesadržane u varijabli dob studenta):

Kriterij klasifikacije Pridružena kategorija

student studira na klasičan način 1student studira putem Interneta 0

Primjer 2.13 (anketa.sta)Baza podataka sastoji se od šest varijabli:

• prosjek - kontinuirana numerička varijabla koja sadrži podatke o prosječnoj oc-jeni studiranja za 49 promatranih studenata,

• položeno - kvalitativna varijabla koja promatrane studente klasificira u dvijekategorije s obzirom na to jesu li položili ispit iz promatranog kolegija premasljedećem kriteriju:

Status ispita Pridružena kategorija

student je položio ispit 1student nije položio ispit 0

Page 9: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Prikupljanje i organizacija podataka 9

• prisutnost p, prisutnost v - dvije kvalitativne varijable koje prisutnost studenatana predavanjima/vježbama klasificiraju u tri kategorije na sljedeći način:

Prisutnost studenta na p/v Pridružena kategorija

student sa p/v nije nikada izostao 1student je sa p/v izostao samo jednom 2student je sa p/v izostao barem dva puta 3

• težina kolegija, dostatnost materijala - dvije diskretne numeričke varijable kojasadrže subjektivne ocjene (u standardnoj skali od 1 do 5) promatranih stude-nata za težinu kolegija i dostatnost dostupnih materijala za pripremanje ispitaiz promatranog kolegija.

Zadatak 2.2 Na sličan način proanalizirajte sljedeće baze podataka:

a) baza podataka TV-program.sta sastoji se od sljedećih varijabli:

– varijabla spol sadrži informaciju o spolu ispitanika,

– varijable HRT1, HRT2, NovaTV i RTL sadrže subjektivne ocjene kvaliteteljetne programske sheme navedenih televizijskih programa,

– varijabla prosjek sadrži prosječnu ocjenu kvalitete ljetne programske shemenavedenih televizijskih programa.

b) Baza podataka zdravlje.sta sadrži neke zdravstvene podatke anketiranih ispitanika:

– varijable godine i spol sadrže podatke o starosti u godinama i spolu ispi-tanika;

– vrijednosti varijable zdravlje su subjektivne ocjene vlastitog zdravstvenogstanja ispitanika;

– varijabla broj-pregleda sadrži informacije o ukupnom broju zdravstvenih pre-gleda svakog ispitanika u tekućoj kalendarskoj godini;

– varijabla dodatno-zdravstveno sadrži podatke o dodatnom zdravstvenom os-iguranju svakog ispitanika (1 - ispitanik je dodatno osiguran; 0 - ispitaniknije dodatno osiguran);

– varijabla cijena sadrži cijenu u kunama najskupljeg zdravstvenog pregledasvakog ispitanika (u tekućoj kalendarskoj godini).

Zadatak 2.3 U bazi podataka navike.sta nalaze se rezultati praćenja životnih navikasvakog pojedinca iz uzorka u vremenskom periodu od 300 dana. Bilježeni su podaci obroju različitih dnevnih novina koje je prelistao (varijablaDnevne_novine), broju televizijskih vijesti koje je gledao na raličitim TV kanalima(varijabla TV_vijesti) te broju kava koje je popio (varijabla Kava), a sve to na bazijednog dana. U varijabli Vrijeme nalaze se podaci o vremenskim prilikama svakog odpromatranih dana. Odredite tipove varijabli.

Page 10: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Prikupljanje i organizacija podataka 10

Zadatak 2.4 U bazi podataka gorivo.sta nalaze se podaci o udaljenosti odradnog mjesta (varijabla Udaljenost_posao) i mjesečnim troškovima za gorivo (var-ijabla Troskovi_gorivo) za 100 slučajno odabranih zaposlenih ljudi. Odredite tipovevarijabli.

Page 11: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Poglavlje 3

Deskriptivna statistika

3.1 Metode opisivanja kvalitativnih podataka

Kvalitativne varijable primaju vrijednosti koje su razvrstane u kategorije. Osnovnamjera kojom opisujemo zastupljenost jedne kategorije u uzorku je frekvencija kate-gorije.

Neka varijabla, koju ćemo označiti X, ima k kategorija (recimo k = 5

znači da varijabla ima 5 kategorija) Označimo pojedine kategorije kaox1, x2, . . . , xk, odnosno, u drugom zapisu: {xi : i = 1, . . . , k}. Frekvencijakategorije xi je broj izmjerenih vrijednosti varijable koje pripadajukategoriji xi, i = 1, . . . , k. Frekvenciju kategorije xi označavamo

fi.

Frekvencija pojedine kategorije ovisi o broju izvršenih mjeranja, tj. dimenziji uzorka.Da bismo lakše usporedili i tumačili rezultate raznih istraživanja, u opisu zastu-pljenosti jedne kategorije u uzorku često koristimo i relativnu frekvenciju kate-gorije.

Relativna frekvencija kategorije xi je broj izmjerenih vrijednosti var-ijable koje pripadaju kategoriji xi podijeljen s ukupnim brojem izm-jerenih vrijednosti za ispitivanu varijablu, i = 1, . . . , k. Ako je n dimen-zija uzorka, tj. broj svih izmjerenih vrijednosti ispitivane varijable,relativnu frekvenciju kategorije xi računamo kao

fi

n.

Frekvencije i relativne frekvencije pojedinih kategorija prikazujemo tablično ili grafički.

11

Page 12: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Deskriptivna statistika 12

3.1.1 Tablični prikaz frekvencija i relativnih frekvencija

U tabličnom prikazu frekvencija i relativnih frekvencija trebaju biti zastupljene svekategorije pojedine varijable. Relativne frekvencije najčešće izražavamo u obliku pos-totka.

Primjer 3.1 Pogledati dokument tablica i graf.xls

Zadatak 3.1 (hormon.sta, nalaz.sta)U bazama podataka hormon.sta i nalaz.sta pomoću programskog paketa Statistica odred-ite frekvencije i relativne frekvencije svih kategorija za varijable koje smatrate kvali-tativnima.

Rješenje: Statistics ⇒ Basic Statistics/Tables ⇒ Frequency Tables ⇒ Choose vari-ables ⇒ Summary

3.1.2 Grafički prikazi

Grafički način prikazivanja frekvencija i relativnih frekvencija kategorija kvalitativnihvarijabli je pomoću histograma frekvencija odnosno histograma relativnih frekven-cija. Možemo također koristiti i "pite"

Primjer 3.2 Pogledati dokument tablica i graf.xls

Zadatak 3.2 (hormon.sta)Za podatke iz baze hormon.sta odredite frekvencije i relativne frekvencije svih kate-gorija za varijable koje smatrate kvalitativnima. Rezultate prikažite tablično i grafički(koristeći Statisticu i Excel).

Rješenje:

- Statistica - histogram frekvencija: Statistics ⇒ Basic Statistics/Tables ⇒ Fre-quency Tables ⇒ Choose variables ⇒ Histograms;

- Statistica - histogram relativnih frekvencija: Graphs ⇒ Histograms ⇒ Choosevariables ⇒ Advanced ⇒ Pod "Y axis" uključiti "%" ⇒ OK;

- Statistica - kružni dijagram (pita): Graphs ⇒ 2D Graphs ⇒ Pie Charts (opcijaPie Chart - Counts) ⇒ Choose variables ⇒ Advanced ⇒ Pie Legend - Textand Percent ⇒ OK.

Primjer 3.3 (bebe.sta)U bazi podataka bebe.sta nalazi se dio podataka o nekim ocjenama tek rođene bebe,načinu poroda i majci iz istraživanja koje je provedeno u jednoj bolnici. Odreditefrekvencije i relativne frekvencije svih kategorija za varijable koje smatrate kvalita-tivnima. Rezultate prikažite tablično i grafički (koristeći Statisticu i Excel).

Page 13: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Deskriptivna statistika 13

Primjer 3.4 (navike.sta)U bazi podataka navike.sta odredite frekvencije i relativne frekvencije svih kategorija zavarijable koje smatrate kvalitativnima. Rezultate prikažite tablično i grafički (koristećiStatisticu i Excel).

Zadatak 3.3 (nalaz.sta)Za podatke iz baze nalaz.sta odredite frekvencije i relativne frekvencije svih kategorija zavarijable koje smatrate kvalitativnima. Rezultate prikažite tablično i grafički (koristećiStatisticu i Excel).

Zadatak 3.4 (zdravlje.sta)Za podatke kvalitativnog tipa sadržane u bazi podataka zdravlje.sta napravite sljedećetablične i grafičke prikaze:

a) napravite tablice i nacrtajte histograme frekvencija i relativnih frekvencija zapodatke sadržane u varijablama spol i zdravlje,

b) napravite tablice i nacrtajte histogram frekvencija i relativnih frekvencija za po-datke sadržane u varijabli zdravlje posebno za kategoriju ispitanika ženskog spola,a posebno za kategoriju ispitanika muškog spola,

c) nacrtajte zajednički histogram frekvencija i relativnih frekvencija svih podatakasadržanih u varijabli zdravlje kategoriziran prema spolu ispitanika,

d) napravite tablice i nacrtajte kružni dijagram relativnih frekvencija za podatkesadržane u varijablama spol i zdravlje,

e) napravite tablice i nacrtajte kružni dijagram relativnih frekvencija za podatkesadržane u varijabli zdravlje posebno za kategoriju ispitanika ženskog spola, aposebno za kategoriju ispitanika muškog spola,

f) nacrtajte zajednički kružni dijagram frekvencija i relativnih frekvencija svih po-dataka sadržanih u varijabli zdravlje kategoriziran prema spolu ispitanika.

Zadatak 3.5 (TV-program.sta)Za podatke kvalitativnog tipa sadržane u bazi podataka TV-program.sta napravite sljedećetablične i grafičke prikaze:

a) napravite tablice i nacrtajte histogram frekvencija i relativnih frekvencija za po-datke sadržane u varijablama spol i HRT1,

b) napravite tablice i nacrtajte histogram frekvencija i relativnih frekvencija za po-datke sadržane u varijabli HRT1 posebno za kategoriju ispitanika ženskog spola,a posebno za kategoriju ispitanika muškog spola,

Page 14: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Deskriptivna statistika 14

c) nacrtajte zajednički histogram frekvencija i relativnih frekvencija svih podatakasadržanih u varijabli HRT1 kategoriziran prema spolu ispitanika,

d) napravite tablice i nacrtajte kružni dijagram relativnih frekvencija za podatkesadržane u varijablama spol i NovaTV,

e) napravite tablice i nacrtajte kružni dijagram relativnih frekvencija za podatkesadržane u varijabli NovaTV posebno za kategoriju ispitanika ženskog spola, aposebno za kategoriju ispitanika muškog spola,

f) nacrtajte zajednički kružni dijagram frekvencija i relativnih frekvencija svih po-dataka sadržanih u varijabli NovaTV kategoriziran prema spolu ispitanika.

3.2 Metode opisivanja numeričkih podataka

Numerički podaci mogu biti diskretni i kontinuirani.

Primjer 3.5 (hormon.sta, anketa.sta)Proučite numeričke podatke u bazama hormon.sta i anketa.sta. Koje su numeričkevarijable diskretne a koje neprekidne?

Rješenje:

- hormon.sta - niti jedna numerička varijabla nije diskretna

- anketa.sta - diskretne numeričke varijable su: Br-kol, Položeno, Prisutnost-P,Prisutnost-V, Redovitost-P, Redovitost-V.

Primjer 3.6 Proučite numeričke podatke u bazama cijena.sta i komarci.sta. Kojesu numeričke varijable diskretne a koje neprekidne?

Ako su numeričke vaijable diskretne, možemo u opisu mjerenih vrijednosti za te vari-jable ponovo primijeniti frekvencije (odnosno relativne frekvencije) pojedine kategorijeodnosno grafički prikazati podatke histogramima ili strukturiranim krugovima.

Primjer 3.7 (anketa.sta)Za jednu diskretnu numeričku varijablu iz baze anketa.sta odredite frekvencije i rela-tivne frekvencije svih kategorija. Rezultate prikažite tablično i grafički (koristeći Statis-ticu i Excel).

Rješenje:

- Statistica - tablica frekvencija i relativnih frekvencija: Statistics ⇒ Basic Statis-tics/Tables ⇒ Frequency Tables ⇒ Choose variables ⇒ Summary;

Page 15: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Deskriptivna statistika 15

- Statistica - histogram frekvencija: Statistics ⇒ Basic Statistics/Tables ⇒ Fre-quency Tables ⇒ Choose variables ⇒ Histograms;

- Statistica - histogram relativnih frekvencija: Graphs ⇒ Histograms ⇒ Choosevariables ⇒ Advanced ⇒ Pod "Y axis" uključiti "%" ⇒ OK.

Primjer 3.8 Odredite tablicu frekvencija i histogram za jednu od varijabli iz bazekomarci.sta po izboru. Uočite da je strukturirani krug vrlo nepraktičan za prikazi-vanje varijabli s velikim brojem kategorija.

Ako numeričke varijable nisu dane kategorijalno, za prikazivanje skupa izmjerenihvrijednosti neće nam puno pomoći frekvencije i histogrami napravljeni na osnovusvake pojedine izmjerene vrijednosti.

Primjer 3.9 Zašto? Otvorite bazu podataka komarci.sta i odredite tablicu frekven-cija i histogram tako da za kategorije uzmete sve međusobno različite izmjerene vri-jednosti varijable broj.

Postupak razvrstavanja numeričkih podataka u kategorije

• Najčešće skup svih mjerenih vrijednosti (ili nešto veći skup koji sadrži skupsvih mjerenih vrijednosti ali je jednostavniji za podijeliti na jednake dijelove)podijelimo na disjunktne intervale jednake duljine.

• Nije nužno da su intervali jednake duljine. Nema točno danog pravila po kojemubi trebalo definirati duljine intervala niti nihov broj, ali je jasno da ih ne smijebiti niti previše niti premalo da bi cijeli postupak imao smisla i služio svrsi (ato je u ovom času prikazivanje skupa mjerenih vrijednosti).

Primjer 3.10 (komarci.sta)Iskoristite podatke iz baze komarci.sta. Mijenjajte broj intervala na koji dijelite skupvrijednosti. Proučavajte što se događa i pribilježite vaš zaključak.

Primjer 3.11 (hormon.sta)

a) Odredite tablicu frekvencija i histogram neke od kvantitativnih varijabli iz bazepodataka hormon.sta tako da za kategorije uzmete sve međusobno različite izm-jerene vrijednosti.

b) Iskoristite podatke iz baze hormon.sta. Mijenjajte broj intervala na koji dijeliteskup vrijednosti. Proučavajte što se događa i pribilježite vaš zaključak.

Rješenje:

a) Zbog prevelikog broja različitih izmjerenih vrijednosti broj kategorija je prevelik irezultat analize najčešće ne daje željene informacije. Zato pribjegavamo drugimmetodama kategoriziranja kvantitativnih varijabli.

Page 16: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Deskriptivna statistika 16

b) Ako veliki skup podataka kategoriziramo (podijelimo) u nekoliko disjunktnih in-tervala po kriteriju za koji smatramo da će nam dati željene rezultate, tablični igrafički prikazi frekvencija i relativnih frekvencija postaju pregledniji i informa-tivniji.

Numeričke karakteristike skupa podataka

• Karakteristika kvantitativnih podataka je da među njima postoji uređaj. Na os-novu te činjenice možemo definirati numeričke karakteristike koje imaju logičnuinterpretaciju i mogu se iskoristiti u cilju prikazivanja skupa mjerenih vrijed-nosti.

• Aritmetička sredina

Aritmetička sredina niza izmjerenih vrijednosti x1, x2, . . . , xn za var-ijablu X definirana je izrazom:

x̄ =1

n

n∑i=1

xi

Aritmetička sredina je numerička karakteristika koja spada umjere centralne tendencije, tj. mjeri "srednju vrijednost" po-dataka.

• Median

Da bismo razumjeli i odredili median potrebno je prvo poredati izmjerene vri-jednosti varijable X: x1, x2, . . . , xn po veličini.

Median je također jedna mjera centralne tendencije kao i aritmetička sredina, aima značenje izmjerene vrijednosti koja se nalazi na sredini niza podataka kadaje on uređen po veličini, tj. baram pola podataka je manje ili jednako medianu,a istovremeno je barem pola podataka veće ili jednako od mediana.

Način njegovog izračuna ovisi o tome da li imamo paran ili neparan broj izm-jerenih vrijednosti za varijablu.

Ukoliko imamo neparan broj izmjerenih vrijednosti, onda postoji vrijednost kojaje na srednjoj poziciji u uređenom skupu, pa nju definiramo kao median.

Primjer 3.12 Neka su izmjerene vrijednosti jedne varijable sljedeće:

1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3.

Prvo ove vrijednosti poredamo po veličini:

1, 1, 2, 2, 2, 2, 3, 5, 5, 6, 7.

Obzirom da ih ima sve skupa 11, vrijednost mediana je vrijednost koja je na 6.poziciji u tako dobivenom nizu, tj. broj 2.

Page 17: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Deskriptivna statistika 17

Ukoliko imamo paran broj izmjerenih vrijednosti onda ne postoji podatak kojije na srednjoj poziciji jer srednje pozicije "zauzimaju" dva podatka. Median setada definira kao polovina između ta dva podatka.

Primjer 3.13 Neka su izmjerene vrijednosti jedne varijable sljedeće:

1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3.

Prvo ove vrijednosti poredamo po veličini:

1, 1, 2, 2, 2, 2, 3, 3, 5, 5, 6, 7.

Obzirom da ima 12 podataka, "sredinu" čine 6. i 7. podatak, tj. vrijednosti 2 i 3.Median ovog skupa podataka je sredina ta dva broja, tj. median je (2+3)/2 = 2.5.

• Postotna vrijednost, donji i gornji kvatil

Medijan odgovara pedeset postotnoj vrijednosti obzirom da je barem 50% po-dataka manje od medijana i barem 50% podataka veće od medijana. Postotnavrijednost za neki izabrani broj p ∈ (0, 100), označimo je x′

p, definira se poštujućizahtjev da je p% izmjerenih vrijednosti manje ili jednako x′

p, dok je (100− p)%

vrijednosti veće ili jednako x′p. Dvadesetpet postotna vrijednost zove se donji

kvartil, a sedamdesetpet postotna vrijednost zove se gornji kvartil. Analognokao i kod računanja medijana, ako se na traženoj poziciji za računaje postotnevrijednosti nalaze dva podatka u uređenom skupu izmjerenih vrijednosti, pos-totnu vrijednost određujemo kao njihovu sredinu.

Primjer 3.14 Neka su izmjerene vrijednosti jedne varijable sljedeće:

1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3.

Prvo ove vrijednosti poredamo po veličini:

1, 1, 2, 2, 2, 2, 3, 3, 5, 5, 6, 7.

Želimo li odrediti donji kvartil, potrebno je prvo odrediti četvrtinu podataka(25%). Obzirom da imamo 12 podataka, četvrtinu (25%) čine tri podatka. Trećipodatak u gornjem nizu je broj 2 pa je to ujedno donji kvartil.

Slično, 75% ovog skupa podataka čini 9 podataka. Deveti broj u gornjem nizu jebroj 5, pa je to ujedno gornji kvartil.

• Mod

Mod je vrijednost iz niza izmjerenih vrijednosti kojoj pripada najveća frekven-cija, tj. izmjerena je najviše puta. Mod ne mora biti jedinstven.

Page 18: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Deskriptivna statistika 18

Primjer 3.15 Neka su izmjerene vrijednosti jedne varijable sljedeće:

1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3.

Vidimo da je vrijednost 2 izmjerena najviše puta (4 puta) pa je 2 mod ovog skupapodataka.

• Najmanja i najveća vrijednost, raspon podataka

Raspon podataka je mjera koja pokazuje koliko su podaci raspršeni, tj. to jejedna od mjera raspršenosti podataka. Definiran je kao razlika između najvećei najmanje vrijednosti u skupu mjerenih vrijednosti varijable.

Primjer 3.16 Neka su izmjerene vrijednosti jedne varijable sljedeće:

1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3.

Vidimo da je vrijednost 1 najmanja izmjerena vrijednost, a 7 najveća. Rasponje 7− 2 = 5.

• Varijanca i standardna devijacija

Varijanca i standardna devijacija također spadaju u grupu mjera raspršenostipodataka. One karakteriziraju raspršenost podataka oko aritmetičke sredine.

Varijanca niza izmjerenih vrijednosti x1, x2, . . . , xn varijable X definirana je izra-zom:

s2 =1

n

n∑i=1

(xi − x̄)2,

a standardna devijacija je kvadratni korijen varijance, tj.

s =√

s2 =

√√√√ 1

n

n∑i=1

(xi − x̄)2.

Korištenjem numeričkih karakteristika kvantitativnih varijabli može se skup mjerenihvrijednosti prikazati grafički pomoću kutijastog dijagrama (engleski: box plot iliboxplot ili box-and-whisker plot).

Kutijastm dijagramom prikazujemo odnos 5 numeričkih karakteristikaskupa izmjerenih vrijednosti: minimalnu vrijednost, donji kvartil, medi-jan, gornji kvartil, i maksimalnu vrijednost. Na kutijastom dijagramuse također označavaju takozvane stršeće vrijednosti ako postoje.

Page 19: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Deskriptivna statistika 19

Zadatak 3.6 U razredu koji broji 25 učenika zaključne ocjene iz matematike na krajuškolske godine raspodjenjene su na sljedeći način: tri učenika ima peticu, sedamučenika četvorku, osam učenika trojku, pet učenika dvojku, a dva učenika moraju pris-tupiti popravnom ispitu (imaju jedinicu).

a) Sastavite tablicu frekvencija i relativnih frekvencija za kategoriju Ocjena.

b) Koristeći Statisticu i Excel grafički prikažite frekvencije i relativne frekvencije(histogramima i kružnim dijagramima).

c) Izračunajte aritmetičku sredinu, mod, raspon te varijancu i standardnu devi-jaciju ovog skupa podataka.

d) Izračunajte numeričke karakteristike ovog skupa podataka koje su vam potrebneda biste skicirali kutijasti dijagram te ga skicirajte.

e) Koristeći Statisticu i Excel kreirajte bazu podataka, izračunajte sve spomenutenumeričke karakteristike ovog skupa podataka te nacrtajte pripadni kutijasti di-jagram na bazi mediana.

Zadatak 3.7 Pažljivim proučavanjem kretanja cijena prehrambenih proizvoda anali-tičar tržišta uočio je da isti proizvodi nemaju jednaku cijenu u različitim trgovačkimcentrima. Promatrajući deset trgovačkih centara, zabilježio je cijene proizvoda kodkojeg su razlike bile najizraženije:

Trgovački centar 1 2 3 4 5 6 7 8 9 10Cijena proizvoda 45.52 44.64 39.99 48.95 51.59 46.89 52.02 56.89 50.21 49.99

a) Izračunajte aritmetičku sredinu, mod, raspon te varijancu i standardnu devi-jaciju ovog skupa podataka.

b) Izračunajte numeričke karakteristike ovog skupa podataka koje su vam potrebneda biste skicirali kutijasti dijagram te ga skicirajte.

c) Koristeći Statisticu i Excel kreirajte bazu podataka, izračunajte sve spomenutenumeričke karakteristike ovog skupa podataka te nacrtajte pripadni kutijasti di-jagram na bazi mediana.

Page 20: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Deskriptivna statistika 20

Zadatak 3.8 (ocjena.sta)Iskoristite bazu podataka ocjena.sta i odredite numeričke karakteristike nekoliko vari-jabli po vašem izboru. Također prikažite te vrijednosti kutijastim dijagramom.

Rješenje:

• Deskriptivna statistika: Statistics ⇒ Basic Statistics/Tables ⇒ Descriptive Statis-tics ⇒ Choose variables ⇒ Advanced (uključiti željene numeričke karakteris-tike) ⇒ Summary.

• Kutijasti dijagram: Statistics ⇒ Basic Statistics/Tables ⇒ Descriptive Statis-tics ⇒ Choose variables ⇒ Box & whisker Plot for all variables.

Zadatak 3.9 (anketa.sta)Iskoristite bazu podataka anketa.sta i odredite numeričke karakteristike nekoliko vari-jabli po vašem izboru. Također prikažite te vrijednosti kutijastim dijagramom.

Detekcija stršećih vrijednosti1

Podatak koji je značajno veći ili manji u odnosu na druge podatke vezane uz istoslučajno obilježje (u kontekstu baze podataka govorimo o podatku koji je značajno većiili manji od ostalih podataka u varijabli koja predstavlja slučajno obilježje) nazivamostršeći podatak ili outlier. Pojavljivanje stršećih podataka najčešće je vezano uz jedanod sljedećih razloga:

• podatak je ili netočno izmjeren ili krivo unesen u bazu podataka,

• podatak dolazi iz druge populacije (ne iz populacije koju promatramo u kontek-stu problema kojeg proučavamo),

• podatak je točno izmjeren i unesen u bazu, ali predstavlja rijetku pojavu upopulaciji.

Vrlo korisna grafička metoda za detekciju stršećih podataka je kutijasti dijagramna bazi mediana - u programskom paketu Statistica kutijasti dijagrami osjetljivi nastršeće vrijednosti crtaju se odabirom opcijeMeans with Error Plots iz izbornika Graphs.

Zadatak 3.10 (zdravlje.sta, zdravlje-sv.sta)

a) Nacrtajte i proanalizirajte kutijasti dijagram na bazi mediana za podatke sadržaneu varijabli godine u bazi podataka zdravlje.sta.

Page 21: Poglavlje 1 Uvod - Odjel Za MatematikuPoglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju čine sve jedinke koje su predmet istraživanja Primjer2.1

Deskriptivna statistika 21

b) Među podacima u varijabli godine u bazi podataka zdravlje.sta nalazi se jednastršeća vrijednost. Pokušajte ju identificirati crtanjem kutijastog dijagrama os-jetljivog i neosjetljivog na stršeće vrijednosti. Što se događa s numeričkim karak-teristikama podataka u varijabli godine nakon zanemarivanja identificirane stršećevrijednosti.

Zadatak 3.11 (glukoza-sv.sta)

a) Napravite deskriptivnu statistiku podataka sadržanih u varijabli koncentracijaglukoze. Grafičkom metodom odredite stršeću vrijednost u ovom skupu podataka.Možete li se složiti s tvrdnjom da je identificirani podatak zaista stršeća vrijed-nost ili ipak sumnjate u dobiveni rezultat? Obrazložite svoj odgovor.

b) Grafičkom metodom identificirajte stršeće vrijednosti među podacima u varijablidob osobe. Što se događa s numeričkim karakteristikama podataka nakon zane-marivanja identificirane stršeće vrijednosti.

3.3 Domaća zadaća 1

Koristeći javne izvore podataka ili podatke koje ste prikupljali u drugim kolegijimau eksperimentalnim uvjetima formirajte jednu bazu podataka koja će sadržavati naj-manje dvije kvalitativne varijable, najmanje jednu diskretnu numeričku varijablu kojai jednu kontinuiranu numeričku varijablu. Opišite o kakvom se istraživanju radi i zaštose mjere vrijednosti navedenih varijabli. Vodite računa da baza sadrži što više jedinki.Navedite točan izvor podataka. Iskoristite prethodno opisane postupke i pojmove teprikažite vašu bazu podataka.Domaću zadaću treba predati za 14 dana u printanom obliku. Bazu podataka neprintati u potpunosti nego samo tabelirani izvadak iz baze koji sadrži 5 jedinki injihove vrijednosti za sve varijable.