216
Rajko Macura OSNOVE STATISTIKE Banja Luka, 2019.

OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

Rajko Macura

OSNOVE STATISTIKE

Banja Luka, 2019.

Page 2: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam
Page 3: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

Prof. dr Rajko Macura

OSNOVE STATISTIKE

Banja, Luka, 2019

Page 4: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

Prof. dr Rajko Macura OSNOVE STATISTIKE

Urednik:

Nikola Novaković

Recenzenti: Prof. dr Momčilo Živković

Doc. dr Ranko Mijić

Izdavači:

Banja Luka College

Izdavačko grafičko društvo

Banja Luka Kralja Petra I Karađorđevića 103

[email protected]

Copyright © Besjeda Sva prava zadržava izdavač.

Reprodukcija pojedinih dijelova ili cjeline ove publikacije nije dozvoljena.

Page 5: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

Sadržaj

UVOD ............................................................................................................................ 9

I POJAM STATISTIKE .................................................................................................. 11 1. NASTANAK I RAZVOJ STATISTIKE ............................................................................ 11 2. POJAM , PREDMET I ZADACI STATISTIKE ................................................................ 14

2.1. Pojam statistika ............................................................................................... 14 2.2. Predmet izučavanja statistike .......................................................................... 15 2.3. Zadatak statistike ............................................................................................. 16 2.4. Klasifikacija statistike ....................................................................................... 17

3. POSMATRANJE, PRIKUPLJANJE, SREĐIVANJE I OBRADA PODATAKA ...................... 19 3.1. Statističko posmatranje ili/i prikupljanje podataka ......................................... 19 3.2. Sređivanje, grupisanje i obrada podataka ....................................................... 21 3.3. Obrada sa statističkom analizom ..................................................................... 22

4. OSNOVNI POJMOVI U STATISTICI ........................................................................... 23

II DESKRIPTIVNA STATISTIKA .................................................................................... 37 1. Pojam deskriptivna statistika .............................................................................. 38 2. Metode prikupljanja podataka ............................................................................... 39

2.1.Određivanje granica intervala .......................................................................... 40 2.2.Formiranje grupnih intervala ............................................................................ 40 2.3. Frekvencija kategorije ...................................................................................... 42

2.3.1. Relativna frekvencija kategorije................................................................ 43 2.3.2. Kumulativna frekvencija ........................................................................... 45

2.4. Tabelarno prikazivanje statističkih podataka ...................................... 48 2.5. Graficki prikazi frekvencija i relativnih frekvencija ..................................... 50

2.5.1. Tačkasti dijagrami ............................................................................... 50 2.5.2. Linijski dijagrami ................................................................................. 52 2.5.3. Štapičasti dijagram .............................................................................. 53 2.5.4. Površinski dijagrami ............................................................................ 54 2.5.5. Polarni dijagram ........................................................................................ 61 2.5.6. Stereogrami .............................................................................................. 63

III STATISTIČKI NIZOVI ............................................................................ 65

MJERE CENTRALNE TENDENCIJE,MJERE DISPERZIJE I VARIJABILITETA ......................................................................................... 65

1. Statistički nizovi ...................................................................................................... 66 2. Srednje vrijednosti numerickih nizova (mjere centralne tendencije) ..................... 74

2.1. Potpune srednje vrijednosti ............................................................................ 76 2.1.1. Aritmetička sredina (AS) ........................................................................... 76 Vrste aritmetičkih sredina .................................................................................. 77 Prednosti i nedostaci aritmetičke sredine .......................................................... 88

Page 6: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

Aritmetička sredina aritmetičkih sredina............................................................ 89 2.1.2. Geometrijska sredina ................................................................................ 92

Tabela III/14: Stanje na računu po godinama.................................................. 95 Tabela: Stanje na računu po godinama ............................................................. 95 Tabela III/15: Stanje na računu – postotak i kamatni faktor.......................... 96

2.1.3. Harmonijska sredina ................................................................................. 97 2.2. Položajne srednje vrijednosti ........................................................................... 98

2.2.1. Medijana ................................................................................................... 98 2.2.2. Mod......................................................................................................... 101 2.2.3. Pronalaženje ekstremnih vrijednosti ...................................................... 104

2.3. Kvantili ........................................................................................................... 106 2.3.1. Percentili ................................................................................................. 107 2.3.2. Decili ....................................................................................................... 108 2.3.3. Kvartili ..................................................................................................... 110

3. Mjere disperzije (raspršenosti, varijabiliteta) ................................................... 113 3. 1. Mjere varijabitileta ....................................................................................... 114

3.1.1. Apsolutne mjere varijabiliteta ................................................................ 117 3.1.1.1. Raspon varijacije .............................................................................. 117

3.1.1.2. Interkvartil ........................................................................................... 119 3.1.1.3. Varijanca i standardna devijacija ......................................................... 121 3.1.2. Relativne mjere verijabiliteta .................................................................. 128

3.1.2.1 Koeficijent varijacije .......................................................................... 128 3.1.4. Procjena distribucije, ocekivanja i varijance ........................................... 131

IV ANALITIČKA STATISTIKA ................................................................ 133

1. Statistička analiza ............................................................................................... 133

2. Testiranje statističke hipoteze ......................................................................... 139

3. Greške u zaključivanju ..................................................................................... 149

V VJEROVATNOĆA ................................................................................... 151

1. Nastanak i razvoj vjerovatnoće ....................................................................... 151 Osnovna svojstva vjerovatnoće........................................................................ 155

2. Permutacije, kombinacije i varijacije ............................................................... 158 Varijacije bez ponavljanja ................................................................................. 158 Permutacije bez ponavljanja ............................................................................. 159 Kombinacije ...................................................................................................... 159

VI UZORAK I STATISTIKE UZORKA ................................................... 161

Page 7: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

1. Uzorak i statistike uzorka (osnove reprezentativnog metoda) ........................ 161

2. Izbor uzorka .................................................................................................... 163 2.1. Slučajni ili probabilistički uzorci ..................................................................... 165 2.2. Stratifikovani slučajni uzorak ......................................................................... 167 2.3. Slučajne i neslučajne greške ....................................................................... 172 2.5. Studentov t-test (William Sealy Casset (1876-1937) Student) ...................... 174

2.5.1. Utvrdivanje statisticke znacajnosti razlike dvije aritmeticke sredine t-testom na velikim uzorcima .............................................................................. 175 2.5.2. Utvrdivanje statisticke znacajnosti razlike dve aritmeticke sredine Т-testom (mali uzorci) .......................................................................................... 177

2.6. Hi kvadrat test................................................................................................ 179 2.6.1. Primjena hi kvadrat testa kao testa slaganja .......................................... 181

VII REGRESIJA I KORELACIJA .................................................................................... 184 1. Regresija ............................................................................................................... 186

1.1. Model jednostruke (proste) linearne regresije .............................................. 186 2. Korelacija .............................................................................................................. 194

2.1. Linearna korelacija ......................................................................................... 194 2.2. Višestruka korelacija (multiple korelacija) ..................................................... 197 2.3. Pearsonov koeficijent korelacije .................................................................... 202 2.4. Spearmanov koeficijent korelacije ................................................................. 203

Pregled slika ...................................................................................................... 205 Pregled tabela ................................................................................................... 206 Literatura .......................................................................................................... 211

Page 8: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

7

Page 9: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

9

UVOD

Pojam statistike se mijenjao se kroz istoriju. Negdje do 19. vijeka on je podrazumijevao brojčane i nebrojčane podatke koji su bili od izričite važnosti za jednu državu.

Danas s razvojem medija (radio, TV, Internet) postaju dostupne mnoge informacija, zbog čega vlada potreba za njihovom selekcijom kao i odvajanjem bitnih informacija od onih koje to nisu. Statistika je posebna naučna disciplina koja doprinosi realizaciji postavljenih ciljeva istraživanja, na način da prikuplja, odabire, grupiše, prezentuje i vrši analizu informacija ili podataka, te interpretira rezultate provedene analize. Kako bi se navedeno realizovalo, statistika koristi posebne metode i tehnike. Proces istrživanja se provodi kroz tri etape:

Statističko posmatranje

Sređivanje, grupisanje i obrada podataka

Statistička analiza

Statistika je danas jedna od najprimjenjivanijih matematickih disciplina u gotovo svim sferama čovjekova djelovanja. Sve više se vode aktivnosti prikupljanja podataka, njihove obrade i analize. Razvoj novih tehnologija i informatike doveo je do razvoja računarskih programa namijenjenih potrebama statistike.

Većina autora zastupa stajališta:

1) Statistika je grana matematike. Neki autori pokušavaju statistiku da predstave kao sastavni dio ekonomske nauke. Iako se statistika najviše primjenjuje u ekonomiji, temelji statistike i statističkog načina mišljenja su isključivo matematički. 2) Kompjuteri i specijalizovani kompjuterski program ne mogu zamijeniti istraživača.

3) Ne postoje univerzalni statistički indikatorii koji bi reprezentativno opisivalibilo koji statistički niz podataka. Na primjer, često se aritmetička sredina pokušava prikazati kao univerzalni statistički indikator.

Statistika se bavi podacima. Upotrba riječi statistika u svakodnevnom životu najčešce je povezana sa brojcanim vrijednostima kojima pokušavamo opisati bitne karakteristike nekog skupa podataka.

Podaci su brojevi ili riječi sa odgovarajućim kontekstom. Tako, na primer, broj 170 u statistici (za razliku od matematike) sam po sebi ne

Page 10: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

10

znači ništa. Ali ako se tome doda da je to visina (u cm) ženske osobe, ovo postaje podatak i dobija svoje značenje.

Može se kazati da je statistika, kao naučni metod, grana opšte naučne metodologije koja predstavlja sistematizovani skup znanja o statističkim metodama kvantitativnog istraživanja masovnih pojava.

Page 11: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

11

I POJAM STATISTIKE

1. NASTANAK I RAZVOJ STATISTIKE

"Čovjek budućnosti je onaj koji zna statistiku i istovremeno ima master diplomu ekonomije"

Oliver Wendell Holmes, američki sudija, 1897.

U početku se Statistika odnosila samo na numeričke podatke o stanju posmatrane pojave. Najvažniji zadatak statističkih akcija bio je prikupljanje podataka o brojnom stanju stanovnika, vojnika, poreskih obveznika, imovine i dr.

Prikupljanje statističkih podataka, zabilježeno je još u Vavilonu, gdje je oko 3800. godine prije nove ere vršeno prebrojavanje stočnog fonda.

U Rimskoj Republici izvršen je, do tada najorganizovaniji, popis stanovništva, 550. godine prije nove ere, u vrijeme vladavine rimskog kralja Servija Tulija, u svrhu procjenjivanja radne snage koja je bila potrebna za građenje piramida.. Popis se nije odnosio na sve građanae Rima, već samo na slobodne građane Rimske Republike. Popisivanje stanovništva je vršeno svake pete godine. Prikupljani su podacci o imenu, polu, starosti, prebivalištu i imovnom stanju za popisane osobe i članove njegove porodice.

U srednjem vijeku uglavnom je popisivano zemljište i stoka, iz razloga što se ekonomska snaga države se prevashodno zasnivala na poljoprivredi i stočarstvu. Statistika se odnosila samo na numeričke podatke o stanju posmatrane pojave.

Među najpoznatije popise u srednjem vijeku spada popis izvršen 1085. godine, od strane engleskog kralja Vilijama I Osvajača, koji je proveden nakon osvajanja Engleske. Popis je izvršen u svrhu registrovanja imovina u svrhu oporezivanja. Rezultati popisa su objavljeni u "Knjizi prebrojavanja" (eng. Domesday book).

Začeci statistike kao naučne discipline nastali su skoro istovremeno u Njemačkoj i Engleskoj u XVII vijeku, kada se javljaju i dvije statističke koncepcije.

Page 12: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

12

Osnivač „univerzitetske statistike“ u Njemačkoj, bio je Herman Konring (1606-1881), profesor Univerziteta u Helmštatu, koji se istovremeno bavio istorijom, pravom i medicinom. Njemačka „univerzitetska statistika” imala je zazadatak sistematizaciju podataka o stanovništvu i privredi u cilju vođenja državne politike, bez namjere otkrivanja zakonitosti.Kasnije je ovaj pravac nazvan još i deskriptivna škola ili državopis.

U Engleskoj je, za razliku od Njemačke u kojoj razvoj statistike bio pod snažnim uticajem univerzitetske škole.Osnivač Engleske škole, koja se naziva „Politička aritmetika“, bio je Džon Graunt (1620-1674) dugogodišnji gradonačelnik Londona. Engleska „Politička aritmetika“ je u prvi plan svog interesa stavila ne praktično već naučno saznanje o društvu i društvenim pojavama i njihovim zakonitostima primjenom matematičkih metoda za obradu statističkih podataka.

Od kraja XVIII vijeka naglo se razvijaju statistička teorija i metodologija zahvaljujući prije svega razvoju teorije vjerovatnoća, čemu su posebno doprineli Pjer Simon Laplas (Pierre-Simon Laplace) i Adolf Ketle (Adolphe Quetelet).

Krajem 19. vijeka Karl Pirson (1857-1936), biolog i statističar, razradio je metode statističkih ocjena na osnovu vjerovatnoće, teoriju distribucija i teoriju korelacije.

Značenje sakupljanja i analize podataka statistika je dobila početkom 19. stoljeća, a riječ je u engleski jezik uveo Sir John Sinclair.

Tokom XX vijeka, čitav niz naučnika, među kojima su Karl Gaus (Carl Gauss 1777.-1855.), Frensis Golton (Francis Galton 1822.–1911.) i Karl Pirson (Karl Pearson 1857.–1936.) obogatili su statističku teoriju i omogućili joj snažan napredak. Među njima su i: Ser Ronald Fišer (Ronald Fisher), Viliam Goset (William Gosset), Jerži Nimen (Jerzy Neyman), Egon Pirson (Egon Pearson), Viliam Deming (William Deming), Frenk Vilkokson (Frank Wilcoxon), Džon Tjuki (John Tukey), Bredli Efron (Bradley Efron), C.R. Rao, Aleksandar Čuprov, Ser Dejvid Koks (David Cox), Piter Hol (Peter Hall), Dejvid Hend (David Hand), Džon Nelder (John Nelder) i drugi.Otkrivanjem i razvojem novih tehničkih rješenja i teorijskih saznanja, tokom XIX vijeka došlo je do bržeg razvoja i novih dostignuća statistike.

U drugoj polovini XX vijeka, razvojem računara, dolazi do skoka u primjeni statistike u analizi svih masovnih pojava.

Page 13: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

13

Veliki doprinos bržem razvoju i široj primjeni statistike tokom druge polovine XX vijeka predstavljao je nesumnjivo i nagli razvoj informatičkih sistema.

Statistika se tokom XX vijeka do te mjere razvila da njen sadržaj daleko prevazilazi uski okvir prvobitne definicije koju je dao Ahenval. Pod statistikom se danas podrazumijeva dvostruki sadržaj: teorijska i primjenjena statistika.

Page 14: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

14

2. POJAM , PREDMET I ZADACI STATISTIKE

CILJEVI POGLAVLJA

Nakon čitanja ovoga poglavlja bićete u stanju da:

1. shvatite pojam, predmet i značaj statistike 2. razumijete neke osnovne principe statističkog načina razmišljanja 3. shvatite razliku između statističkog skupa i uzorka 4. klasifikujete statistička obeležja

2.1. Pojam statistika

Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam statistika je prvobitno izveden iz latinskog izraza statisticum collegium (vijeće država) te talijanske riječi statista (državnik ili političar).

Smatra se de je riječ "statistika" prvi upotrijebio njemački profesor Herman Konring (Hermann Conring) 1660. godine1 u svojim predavanjima o uređenju i politici raznih država u svijetu. Prvi koji je koristio riječ statistika (njemački Statistik) na univerzitetskom nivou je Gotfrid Ahenval (Gottfried Achenvall; 1719-1772), profesor Univerziteta u Getingenu sredinom 18. vijeka (1748). Ovaj pojam je upotrijebio kad je sistemu numeričkog opisivanja države, njenih funkcija i elemenata, dao naziv statistika. On je smatrao da naziv statistika dolazi od italijanske riječi statista što znači državnik i da je statistika ima zadatak u sistematizaciji podataka o stanovništvu i privredi u cilju vođenja državne politike.

Definicija statistike

Kada je u pitanju definicija statistike, autori daju različite definicije:

Statistika je dioprimjenjene matematike koji se bavi sakupljanjem i sumiranjem podataka, kao i donošenjem zaključaka.

Statistika jenauka o podacima.

1 V. Džon u članku The Term "Statistics", Journal of the Statistical Society of London, Vol. 46, No. 4. (Dec., 1883), str. 658. navodi da je Konring prvi put koristio reč statistika 20. novembra 1660.

Page 15: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

15

Statistika je nauka koja brojčanim metodama istražuje društvene, ekonomske i prirodne pojave

Statistika je naučna metoda kojom se prikupljanja, uređivanja, analiziranja i tumačenja raznovrsnih brojčanih podataka o pojavama i procesima u prirodi i društvu

Jedna od potpunijih definicija glasi:

Statistika je naučna disciplina koja na organizovan način pristupa planiranju, prikupljanju, selekciji, grupisanju, prezentaciji i analizi informacija ili podataka, te interpretiranju rezultata provedene analize, a u svrhu realizacije postavljenih istraživačkih ciljeva.

Na osnovu pregleda definicija različitih autora, može se smatrati da je teorijska statistika dio primijenjene matematike, dok je primijenjena statistika zasebna naučna oblast koja se bavi analizom podataka.

Statistika je naučni pristup analizi podataka kako bi se obezbijedio maksimum razumijevanja, interpretacije i korisnosti podataka. Pod podacima se najčešće podrazumevaju numerički, kvantitativni podaci, koje je potrebno preraditi i pretvoriti u informacije.

Statistika istražuje pojave koje su po svojoj prirodi varijabilne, koje imaju masovni karakter i čije ponašanje u masi, na našem nivou intelektualnog razvoja, nije unaprijed određeno egzaktnim uzročno-posljedičnim zakonitostima.Ona sadrži postupke za analizu podataka, dobijenih metodama i sredstvima naučnog istraživanja.

Statističke metode i tehnike, temelj su za provođenje statističke analize društvenih (i prirodnih) pojava. Podaci, koji se analiziraju upotrebom statističkih metoda, dobijeni su nekim mjerenjem.

Postoji više razloga zbog kojih je osobama koje se bave stručnim i znaučnim radom potrebno poznavanje statistike:

zbog praćenja literature,

zbog obrade rezultata prikupljenih istraživanjem u svrhu analize tih rezultata,

zbog zaključivanja iz konkretnog slučaja na "opšti zakon",

zbog planiranja istraživanja i eksperimenta.

2.2. Predmet izučavanja statistike

Predmet proučavanja statistike su promenljive pojave koje se ispoljavaju u velikom broju ili masi slučajeva i nazivaju se masovne pojave.

Page 16: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

16

Masovne pojave su grupe istovrsnih elemenata koji imaju jedno ili više zajedničkih svojstava. Takvu grupe nazivamo statističkom masom ili statističkim skupom.

Ako se u statističkom skupu nalaze sve jedinice, onda se takav skup naziva populacijom, a njegov podskup uzorkom. Statistički skup iz kojeg se izabire uzorak još se označuje izrazom osnovni skup. Broj jedinica (elemenata) predstavlja raspon (opseg) skupa.

2.3. Zadatak statistike

Zadatak statistike je da u pojavama koje izučava otkrije bitne karakteristike, povezanost sa drugim pojavama, uzroke i posljedice njihovog stanja i promjena, odnosno, uoči zakonitosti u masovnim i slučajnim pojavama te da ih iskaže brojčano.

Statistika je sastavni dio matematike, iako se najviše primjenjuje u ekonomiji i jedan broj autora uporno pokušava da je svrsta u ekonomske nauke. Temelji statistike i statističkog načina mišljenja su isključivo matematički.

Zanimljive su neke misli koje se odnose na statistiku:

''Statistika je poput bikinija: otkriva ono sugestivno, a skriva ono vitalno.'' (Aaron Levenstein).

''Kad bi neko stao jednom nogom u kipuću vodu, a drugom nogom u hladnjak, statističar bi rekao da se taj covjek nalazi u prosječno ugodnoj temperaturi.'' (Walter Heller)

''Postoje tri vrste laži: laž, prokleta laž i statistika.'' (Mark Twain)

''Statistika je bajka razuma.'' (Martin Kessel)

''Statistika je skup tačnih podataka koji daje pogrešan rezultat.'' (Anonimus)

''Statistika naša dika: štogod hoćeš, ona slika.'' (Vladimir Bulatovic Vib)

''Ja jedem kupus, ti jedeš meso – u prosjeku jedemo sarmu.'' (Anonimus)

Statistika je tačan zbroj netačnih podataka.

Jedna smrt je tragedija; milion smrti je statistika.J. V. Staljin

Statistika o mentalnom zdravlju tvrdi da jedan od četiriAmerikanca pati od nekog oblika mentalnog poremećaja. Zamislite svoja tri najbolja prijatelja. Ako su oni

Page 17: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

17

u redu, onda s vama nešto nije u redu. Rita Mae Brown

Statistika je, kao naučni metod, grana opšte naučne metodologije i predstavlja metod kvantitativnog istraživanja masovnih pojava.

2.4. Klasifikacija statistike

Kao metod naučnih istraživanja statistika se može klasifikovati u više kategorija.

Po osnovnoj klasifikaciji razlikuju se teorijska i primjenjena

statistika. Po drugoj klasifikaciji i jedna i druga statistika mogu biti opšte i specijalne, odnosno, posebne statistike.

Prema prvoj klasifikaciji, statistika predstavlja simbiozu dvije komponente: teorijska i primjenjena statistika (statistička praksa).

1) Teorijska ili matematička statistika (eng. mathematical statistics) istražuje nove statističke metode, objašnjava ih, dokazuje i usavršava. Ona se može smatrati dijelom primijenjene matematike. Statistika kao teorija je naučna disciplina koja objašnjava kako se specifičnim brojčanim metodama istražuju i analiziraju zakonitosti u pojavama.

Opšta teorijska statistika bazira se na teoriji vjerovatnoće, a čine je četiri fundamentalne oblasti:

teorija raspodjela;

teorija statističkih ocjena;

teorija testova;

teorija povezanosti. 2) Primijenjena statistika (eng. applied statistics) podrazumijeva

statističke metode prikupljanja, obrade i analize podataka, kao i donošenje zaključaka i formulisanje zakonitosti ponašanja posmatranih pojava. Primenjena statistika može se podijeliti u dve grupe:

deskriptivna (a), i

inferencijalna statistiku (b).

Page 18: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

18

Slika I/1: Podjela statistike

(a) Deskriptivna statistika (eng. descriptive statistics) koristi numeričke i grafičke metode u cilju opisa i otkrivanja obrazaca nekog seta podataka, sumarizacije podataka i njihovog predstavljanja u prikladnoj formi.

(b) Inferencijalna statistika (eng. inferential statistics) podrazumijeva primjenu statističkih metoda (kreiranih u okviru teorijske statistike) koji nam omogućuju da zaključke o pojavi koja se ispoljava na velikom broju slučajeva (u skupu) donesemo na osnovu samo jednog dijela podataka (dijela skupa). Iz tog razloga, njen domen je znatno širi od deskriptivne statistike. Uvijek je prisutan odgovarajući stepen rizika kada se koriste rezultati iz uzorka, za koji je poželjno da bude izabran na slučajan način i da bude reprezentativan. Ona donosi donosi zaključke o populaciji na temelju izabranog uzorka koristeći – procjene – testiranja hipoteza – određivanja veza između varijabla – predviđanja o populaciji.

Page 19: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

19

3. POSMATRANJE, PRIKUPLJANJE, SREĐIVANJE I OBRADA PODATAKA

Ispitivanja i istraživanja pojava u živoj ili neživoj prirodi zasnovana su na statističkoj metodologiji i podijeljena u tri faze:

statističko posmatranje ili/i prikupljanje podataka;

sređivanje i grupisanje podataka;

obrada sa statističkom analizom. Prva faza statističkog istraživanja započinje preciznim

postavljanjem cilja i zadatka istraživanja, koji su osnova za rješavanje metodoloških, organizacionih i finansijskih pitanja. Navedene aktivnosti utvrđuju se planom statističkog istraživanja. Planom istraživanja definišu se:

predmet istraživanja,

statistički skup i njegovi elementi,

obelježja jedinica skupa, kao i način grupisanja, i

obrade prikupljenih podataka.

Plan istraživanja može se, po potrebi, razrađivati i u operativne planove, kojima se konkretnije definišu aktivnosti prema sadržini i vremenu sprovođenja. Cilj statističkog posmatranja je da se obezbede kvalitetni podaci o varijabilnoj pojavi.

3.1. Statističko posmatranje ili/i prikupljanje

podataka

Posmatranje i prikupljanje podataka vrši se na osnovu prethodno utbrđenog plana. Plan sadrži sljedeće elemente:

definisanje cilja posmatranja,

određivanje statističkog skupa i jedinica posmatranja,

izbor obilježja i definisanje modaliteta obilježja,

sastavljanje upitnika za prikupljanje podataka,

određivanje načina posmatranja i prikupljanja podataka.

Planom statističkog posmatranja definišu se metodi prikupljanja podataka koji će obezbijediti kvalitetne statističke podatke o skupu, odnosno varijabilnoj pojavi. Metodi prikupljanja podataka treba da budu efikasni i racionalni, odnosno da uz najniže troškove i za najkraće vrijeme obezbijede kvalitetne i upotrebljive statističke podatke.

Page 20: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

20

Prema izvoru podataka koji se koriste u statističkom istraživanju, može se govoriti o:

primarnim (1), i

sekundarnim statističkim podacima (2).

(1) Primarni statistički podaci prikupljaju se postupkom statističkog posmatranja i eksperimenata,

(2) Sekundarni statistički podaci obezbjeđuju iz sekundarnih izvora, kao što su zavodi za statistiku, ili institucije ovlašćene za prikupljanje primarnih podataka (centralna banka, carinska služba, matične službe opština, izveštaji o poslovanju preduzeća i sl.).

Statističko istraživanje može se zasnivati na potpunom obuhvatu svih jedinica skupa (potpuno posmatranje), ili samo na jednom dijelu njegovih jedinica (djelimično posmatranje).

Zbog veličine obuhvata jedinica skupa, velikog broja učesnika, velikih troškova sprovođenja statističkih akcija, metodi potpunog obuhvatu prikupljanja podataka nisu opravdani i racionalni u svim statističkim istraživanjima. Zbog toga se, u velikom broju statističkih istraživanja, često koristi djelimično (nepotpuno) posmatranje zasnovano na statističkom uzorku.

Statističko uzorkovanje

Statističko uzorkovanje predstavlja metod po kome se na osnovu posmatranja jednog dijela jedinica skupa zaključuje o karakteristikama i ponašanju cijelog skupa. Prilikom korišćenja statističkog uzorka potrebno je riješiti pitanja vrste uzorka, načina izbora jedinica u uzorak, kao i veličine uzorka. Zavisno od predmeta i cilja statističkog istraživanja, određuje se vrsta uzorka i način njegovog izbora.

Najčešće se koristi slučajan uzorak, ili različite vrste uzorka izabrane na slučajan način. Da bi zaključci na osnovu uzorka bili relevantni za celi skup, potrebno je da uzorak bude reprezentativan. Uzorak je reprezentativan ako svojim osobinama vjerno odslikava osobine statističkog skupa iz kojeg je izabran. Na sliciispod, prikazan je postupak statističkog zaključivanja.

Page 21: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

21

Slika I/2: Postupak statističkog zaključivanja

Izvor: Lovrić. M (2009). Osnovi statistike. Univerizitet u Kragujevcu, Ekonomski fakultet

Primjena metoda uzorkovanja podrazumijeva anketiranje, kao jednoobrazno prikupljanje podataka, koje se obezbjeđuje adekvatnim upitnicima i pripremom anketara i lica koja će ih popunjavati. Primjena metoda uzorka neminovno dovodi do mogućnosti greške u statističkom zaključivanju. Greške mogu da budu slučajne i sistematske.

3.2. Sređivanje, grupisanje i obrada podataka

Sagledavanje karakteristika jedinica posmatranog skupa zasniva se na prikupljenim podacima, koji se prethodno sređuju prema određenim kriterijumima.

U ovoj fazi statističkog istraživanja prikupljeni statistički materijal pretvara se u brojčane informacije o posmatranom skupu formiranjem statističkih serija i tabela. Sređivanje statističkih podataka predstavlja postupak grupisanja, kao raščlanjavanje statističkog skupa na određeni broj podskupova, koji se međusobno ne preklapaju. Jedinice statističkog skupa razvrstavaju se u grupe, odnosno podskupove, prema odabranom obilježju i njegovim modalitetima. Postupak sređivanja i

Page 22: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

22

grupisanja statističkih podataka određuje se planom sređivanja podataka.

3.3. Obrada sa statističkom analizom

Obrada sa statističkom analizom je treća fazaprocesa statističkog istraživanja.Sastoji se od upotrebe raznih računskih operacija kako bi se izvršila analiza dobijenih statističkih serija.

U ovoj fazi, vrše se poređenja pomoću mjera centralne tendencije (srednje vrijednosti i sl.), mjera varijabiliteta (disperzije i sl.), izračunavanja jačine međusobne zavisnosti itd., kakao bi se stekao uvid u strukturu pojave koja se posmatrala i određivanja daljih tendencija stanja i kretanja pojave.

Ova faza obuhvata i komplikovanije statističke metode radi testiranja rezultata pojedinih grupa, vrše se razna ocjenjivanja parametara osnovnog skupa, potvrđuju, odbacuju, proširuju ili uopštavaju postavljene hipoteze i raznim grafičkim prikazima upotpunjavaju i potkrepljuju izvedeni zaključci.

Page 23: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

23

4. OSNOVNI POJMOVI U STATISTICI

Statistika

Statistika je naučni metod koji se primjenjuje sa svrhom opisivanja, procjene i analize karakteristika grupa, bez identifikacije pojedinaca ili organizacije koje sačinjavaju takve grupe. Ona obuhvata postupke i procedure prikupljanja, kompilacije, obrade i analize podataka o svim graupamai razvoj sličnih metoda mjerenja i statističkih klasifikacija u okviru uzorkovanja.2

Statistički skup

Skup svih elemenata na kojima se određena pojava statistički istražuje, ispoljava i statistički posmatra zove se statistički skup ili osnovni skup ili populacija ili jednostavno skup. On predstavlja cjelinu sastavljenu od istovrsnih elemenata sa zajedničkim varijabilnim obilježjem (obilježjima).

Kako bi se neki skup mogao nazvati statističkim skupom, on mora ispunjavati određene uslove:

1) Mora da obuhvati sve elemente koji su predmet posmatranja. 2) Elementi toga skupa moraju imati bar jednu zajedničku

osobinu. 3) Na elementima takvoga skupa se posmatra neka varijabilna pojava. Iz navedenog se može zaključiti da ti elementi moraju imati bar

jednu karakteristiku po kojoj se mogu razlikovati, odnosno koja je varijabilna.

Statistički skup mora biti homogen, što podrazumijeva da je sastavljen od istovrsnih i međusobno uporedivih elemenata. On mora biti varijabilan.

U slučaju da ne postoji nijedna osobina na osnovu koje bi se elementi nekog skupa razlikovali, onda se takav skup ne može nazvati statistički. Tako npr. “skup” od 100 tona soli ili šećera, nije statistički

2Kuebler, C., Mackie, C., (2006). Improving Business Statistics Through Interagency Data Sharing : Summary of a Workshop, National Research Council, USA, pp. 6.

Page 24: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

24

skup, jer se ne može izdvojiti nijedna osobina na osnovu koje bi se elementi toga skupa razlikovali.

Skup se može sastojati od ljudi, bića, predmeta ili događaja, čija su svojstva predmet istraživanja statističkom metodom. Na primjer, statistički skup mogu činiti svi stanovnici jedne zemlje, stočni fond jedne regije, svi radnici jednog preduzeća, sva djeca jednog vrtića, svi studenti i dr.

Statistički skup je potrebno precizno odrediti, odnosno definisati:

Pojmovno(sadržinski) (1),

Prostorno (2), i

Vremenski (3).

Slika I/3: Definisanje statističkog skupa

(1) Pojmovno; definišu se svojstva koja mora imati svaka jedinica da bi pripadala statističkom skupu i bila predmet posmatranja. Tako, na primejr, skup mogu da čine svi studenti u jedne zemlje, ali i uže grupe, kao što su svi studenti javnih visokih škola, svistudenti jednog fakulteta, svi studenti prve godine na jednom fakultetu i sl.

(2) Prostorno odrediti osnovni skup znači odrediti prostor kojem pripadaju sve jedinice skupa, odnosno teritoriju u okviru kojeće se posmatrati data varijabilna pojava. Na primjer opštine, distrikti, republike ili države.

(3) Vremenski odrediti skup, znači odrediti vremenski interval ili vremensku tačku za koju su vezane sve jedinice statističkog skupa.

Page 25: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

25

Statistički skup može biti:

realan, i

hipotetičan. Jedinice realnog skupa postoje u tekućem vremenu.

Jedinice hipotetičnog skupa se definišu određenim pravilom i rezultat su statističkog procesa ili statističkog pokusa. Broj jedinica nekog skupa se naziva opsegom skupa. Prema opsegu, statistički skup može biti konačan i beskonačan.

Statističko istraživanje se može provoditi na cijelom statističkom skupu ili na dijelu statističkog skupa koji se zove uzorak. Uzorak je reprezentativan dio osnovnog skupa u kojem se posmatrana statistička pojava ponaša na približno isti način kao i u cijelom skupu. Rezultati dobijeni istraživanjem na uzorku se uopštavaju i statističkim zaključivanjem se donose zaključci o osnovnom skupu.

Slika I/4: Statistički skup

Jedinica posmatranja

Cjelina masovne pojave fenomena koja se proučava predstavlja statističku masu, a pojedinačni slučajevi date pojave čija su svojstva predmet istraživanja statističkom metodom se nazivaju statističke

jediniceposmatranja ili elementi skupa (preduzeća, zaposleni, radnici, proizvodi i sl.).

Iz navedenog proiuzlazi da je statistički skup skup jedinica

posmatranja.

Jedinice posmatranja su istovrsni ali nikada istovjetni elementi statističkog skupa. One su nosioci karakteristika statističkog skupa.

Page 26: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

26

Sve jedinice osnovnog skupa moraju imati barem jednuzajedničku osobinu. Porastom njihovog broja, osnovni skup postajehomogeniji. Međutim, jedinice među sobom ne smiju biti identične, jer u tom slučaju ne mogu biti predmet statističkog posmatranja. Statističko istraživanje se bavi varijabilnim pojavama, zbog čega je pažnja usmjerena na one karakteristikena osnovu kojih se jedinice skupa razlikuju među sobom.

Obilježja

Statistički skup predstavlja cjelinu sastavljenu od istovrsnih elemenata sa zajedničkim varijabilnim obilježjem (obilježjima).Karakteristike (odlike, osobine) po kojima se jedinice razlikuju se nazivaju obilježja (promjenljive, varijable).

Za statističko istraživanje treba odabrati obilježje koja su u uzročnoj i logičnoj vezi sa ciljem posmatranja i koji se mogu prikupiti. Obilježje posmatranja je karakteristika jedinica posmatranja, bez obzira kakvog su tipa.

Obilježjamogu biti:

atributivna (kvalitativna, kategorijska) (1), i

numerička (kvantitativna) (2).

vremenska (3).

(1) Atributivna (kvalitativna, kategorijska) obilježjase izražavaju opisno (riječima), a ne cifrom, a varijabilitet se ispoljava kroz pripadnost elemenata različitim kategorijama datog obilježja. Ona se mogu prikazati samo opisno (npr. pol, starost, boja očiju, kose, vrsta proizvoda, ishod poslovne analize, tip klime, brzina povrata investicije, oblik promjene, boja proizvoda, konzistencija materijala, intezitet proizvodnje, itd.). Na primjer, ustatističkom skupu svih zaposlenih u Elektroprivredi, atributivna obilježja mogu biti:pol, školska sprema, boja očiju, bračno stanje, i dr. U nekoj ustanovi, možemo računare klasifikovati po vrsti procesora, kapacitetu hard diska, operativnom sistemu itd.

Različiti vidovi u kojima pojavljivanjajednog obilježja nazivaju semodalitetima ili vrijednostima. Treba razlikovati modalitet i obilježje. Na primjer, pol osobe predstavlja obilježje koje ima dva modaliteta: muški i ženski. Modaliteti kvaliteta proizvoda mogu biti ispravan i neispravan. Broj modaliteta zavisi od prirode obilježja. Tako na primjer, obilježje bračno stanje ima četiri modaliteta (neoženjen-neudata, oženjen-udata, razveden-razvedena, udovac-udovica). Neka obilježja,

Page 27: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

27

kao što je nacionalnost, vrsta zanimanja, i dr. mogu imati veliki broj modaliteta.

(2) Numerička (kvantitativna) obilježjaoznačavaju karakteristike skupa koje se mogu iskazatibrojevima. U okviru ove grupe razlikujemo:

prekidna (ili diskretna) numerička obeležja (a), i

neprekidna (ili kontinuirana) numerička obeležja (b).

(a) Prekidna obilježja se iskazuju u cijelim brojevima. Predstavljaju numeričke karakteristike koje mogu uzimati samoizolovane vrijednosti na mjernoj skali. Tako se domaćinstva među sobom razlikuju po broju djece ili broju mobilnih telefona. Opštine se razlikuju po broju škola ili apoteka, škole po broju odjeljenja ili uzčenika. Zajedničko im je, da njihovimodaliteti mogu biti samo cijeli brojevi. Tako na primjer, broj učenika neke škole, nemože biti 451,8, niti broj apoteka11,33 i slično.

(b) Neprekidna obeležja predstavljaju numeričke karakteristike jedinicaskupa koje mogu uzeti bilo koju vrijednost unutar nekog intervala. To mogu biti na primjer težina, visina, starost učenika, težina proizvoda, vrijeme vožnje između dva grada. Težina učenika može biti 55 kg, 58,3 kg, 52,14 kg, itd. Bez obzira na blizinu dvije vrijednosti, uvijek između njih može postajati treća vrijednost. Iz navedenog proizilazi da da svako neprekidno numeričko obilježje teorijski može imati beskonačno mnogo modaliteta.

(3) Vremenska obilježja označavaju vrijeme u kojem se jedinice posmatraju ili vrijeme kao osobinu jedinice posmatranja- datum rođenja, trajanje turističkog boravka i sl.

Na slici ispod, prikazane su vrste statističkih obilježja.

Page 28: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

28

Slika I/ 5: Vrste statističkih obilježja

Izvor: http://www.unidu.hr/datoteke/racic/STATISTIKA1.ppt, 15. januar, 2019.

Slika I/6: Klasifikacija obielježja (varijabli) u statistici

Izvor: Ekonomski fakultet, Uniiverzitet u Kragujevcu. Osnovi statistike

http://www.ekfak.kg.ac.rs/sites/default/files/nastava/Novi%20Studijski%20Programi/I%20godina/Osnovi%20statistike/Materija li/udzbenik/01_uvod_OS_1glava_2009.pdf, 15. januar, 2019.

Varijacija (varijabilitet)

Pod varijacijom(varijabilitetom) podrazumijeva se promjenjivost obilježja posmatranja od jedinice do jedinice posmatranja statističkog skupa. Varijabilnost obilježja je inherentno svojstvo statističkog skupa, odnosno, gubio bi se smisao postojanja statističkog skupa ukoliko bi sve jedninice posmatranja bile jednake.Varijabilitet je stepen u kojem podaci u skupu podataka ili distribuciji odstupaju od prosječne vrijednosti. Kao

Page 29: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

29

mjere varijabiliteta često se koriste: rang, interval, varijansa i standardna devijacija.

Varijabilnost (takođe naziva se širenje ili disperzija) odnosi se na to kako je rasprostranjen skup podataka. Varijabilnost vam daje način da opišete koliko skup podataka varira i omogućava vam da koristite statistiku da biste upoređivali svoje podatke sa drugim skupovima podataka.

Varijable

Varijable ili promjenljive se ponekad nazivaju i atributima, obilježjima, svojstvima, dimenzijama, karakteristikama.

Pod varijablama se smatraju one osobine, karakteristike ili kvalitet koji može imati više od jedne vrijednosti. Za razliku od varijable, konstanta je ona osobina, karakteristika ili kvalitet koji može imati samo jednu vrednost, kao što su na primjer, broj dana u nedelji, broj mjeseci u godini, broj sati u danu i sl.

Broj mogućih varijabli je gotovo beskonačan. Najznačajniji kriterijum podjele varijabli odnosi se na ulogu koju varijable mogu imati u istraživanju, a odnosi se na osnovnnu podjelu varijabli na:

nezavisnevarijable (prediktorska varijabla, prediktor) (a), i

zavisne (kriterijumske varijabla kriterijum) (b).

(a) Nezavisne varijable su one pojave i osobine putem kojih želimo da razumijemo promjene u zavisnoj varijabli. Po pravilu, istraživač polazi od pretpostavke da zavisna varijabla predstavlja ishod (efekat, konsekvent, posljedicu) nezavisne varijable koja joj prethodi vremenski ili konceptualno.

(b) Zavisna varijabla je ona promenljiva čije vrijednosti zavise od druge (nezavisne) varijable.Termin zavisna varijabla treba koristiti samo u eksperimentalnim istraživanjima, dok je u neeksperimentalnim istraživanjima prikladnije govoriti o kriterijumskim varijablama.

Primjeri: broj prometnih nesreća u uskoj je vezi s brojem automobila u prometu (broj prometnih nesreća je zavisna varijabla (y), a broj automobila je nezavisna varijabla (X)).

Odnosi izdataka za prehranu (zavisna varijabla (Y)) i raspoloživog dohotka (nezavisna varijabla (X)). Izdaci za prehranu, zavise o raspoloživom dohotku.

Page 30: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

30

Podatak

Podatak (eu statistici je izmjereno kvalitativno ili kvantitativno svojstvo po kojem su statističke jedinice u skupu slične, a ujedno se međusobno razlikuju. Podatak je osnovni material, koji se u statistici opisuje i analizira.

Statistički podaci su rezultat mjerenja svojstava jedinica statističkog skupa. Generiše se mjerenjima ili prebrojavanjem.Za razliku od evidencije, statistiku u principu, ne interesuju pojedinačni podaci, već globalna slika ponašanja svih podataka.

Od ključnog značaja za statistiku su pouzdanost i kvalitet podataka. U suprotnom može se desiti da izvedemo pogrešne zaključke.

Ekstremni podatak

Ako neki podaci radikalno odstupaju od ostalih, i oni postaju predmet interesa statistike, takve podatke nazivamo ekstremnim podacima (eng. outliers). Ekstremni podatak je onaj koji znatno odstupa od vrijednosti svihostalih podataka, bilo zato što je znatno veći ili znatno manji.

Ekstremna vrijednost može bii posljedica greške u mjerenju ili unosu podataka. Sa druge strane, ona može biti i signal da se nešto neuobičajeno događa sa posmatranom pojavom. Značaj ekstremnih podataka je toliko veliki da se posebna grana statistike bavi njima (Extreme value theory).

Značaj ekstremnih podataka je toliko veliki da se posebna grana statistike bavi njima (Extreme value theory).3

Primjer: kompjuteri na satelitu koji je istraživao ozonske rupe je ignorisao ekstremne podatke. Tek nakon više godina, naučni su otkrili da se radi o ozonskim rupama izmad Antarktika, što govori da treba istražiti uzroke pojavljivanja ekstremnih podataka.

Statističko istraživanje

Pod statističkim istraživanjem podrazumijevamo skup matematičko-statističkih i drugih postupaka koji se primjenjuju u nekoj statističkoj akciji. Predmet statističkog istraživanja su masovne pojave. 3Teorija ekstremne vrijednosti ili analiza ekstremne vrijednosti (Extreme value theory) je grana statistike koja se bavi ekstremnim odstupanjima od sredine raspodjele vjerovatnoc e. Ona pokušava da procijeni, iz datog uređenog uzorka dane slučajne varijable, vjerovatnoc u događaja koji su ekstremniji od onih koji su prethodno primijec eni.

Page 31: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

31

Masovna pojava predstavlja skup elemenata koji se odlikuju nizom zajedničkih, ali varirajućih obeležja (karakteristika) (Savić, 2005., str. 10).4 Prikupljeni statistički podaci i rezultati dobijeni statističkom analizom o posmatranoj masovnoj pojavi mogu se kvantitativno iskazati. Kvantitativno istraživanje možemo definisati kao sistematski napor za prikupljanje podataka o elementima nekog skupa entiteta (najčešće uzorak) sa ciljem konstruisanja kvantitativnih pokazatelja cijele populacije kojoj ti elementi pripadaju (Paskota, 2007, str. 3).5Statističko istraživanje se bazira na podacima koji su prikupljeni u prošlosti, ali na osnovu kojih se može predvidjeti i ponašanje pojave u budućnosti (Savić, 2005., str. 10).6

Statističko istraživanje ima i kvalitativan karakter. To znači da nakon statističkog istraživanja, obrađeni podaci treba da se pretvore u informacije, odnosno da budu od koristi onome ko treba da donese neku odluku (Savić, 2005, str. 11).

Istraživanje se sastoji od sljedećih faza:

1. identifikovanje i određivanje problema; 2. određivanje ciljeva istraživanja; 3. postavljanje hipoteze; 4. definisanje ključnih pojmova; 5. izvođenje logičkih posljedica iz hipoteze; 6. izbor istraživačke strategije i nacrta istraživanja; 7. razvijanje mjernih i drugih sredstava istraživanja; 8. određivanje osnovnog skupa i odabiranje uzorka

istraživanja; 9. sprovodenje istraživanja i prikupljanje značajnih podataka; 10. obradivanje i analizovanje podataka dobivenih

istraživanjem; 11. tumačenje rezultata istraživanja i izvođenje zaključka; 12. pisanje izvještaja o obavljenom istraživanju.

4 Savić, M. (2005), Poslovna statistika, Ekonomski fakultet u Subotici. Subotica 5Paskota M. ( 2007), Osnove kvantitativnih istraživanja, Saobraćajni fakultet, Beograd, 66 Savic, M. (2005.). Poslovna statistika, izdavač, autor, ISBN86-907741-0-6, CIP311.42 (075.8).

Page 32: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

32

Slika I/7: Izbor varijabli

Eksperiment

Eksperiment, ogled, opit, pokus ili proba analitički je postupak za proučavanje uzročno-posljedičnih odnosa. To je metod naučnog istraživanja u kojem se namjerno i sistematski mijenja neka pojava, radi izazivanja, a onda posmatranja i mjerenja neke druge pojave (nezavisno-zavisna promjenljiva), dok se ostali relevantni uslovi (promjenljive) kontrolišu ili izoluju.7

Opservacija ili posmatranje

Opservacija ili posmatranje je prikupljanje podataka o pojavama putem njihovog neposrednog čulnog opažanja.8

Uzorkovanje

Postupak uzimanja uzorka iz skupa naziva se uzorkovanje (eng. sampling).

Mjerenje

Mjerenje je proces upoređivanja mjerene vrijednosti sa etalonom, standardom odnosno tačnom vrijednošću. Ono predstavlja pridruživanje numeričkih i nenumeričkih oznaka jedinicama skupa prema određenom pravilu. Pravila pridruživanja određena su mjernom 7 https://sr.wikipedia.org/sr-el/%D0%95%D0%BA%D1%81%D0%BF%D0%B5%D1%80%D0%B8%D0%BC%D0%B5%D0%BD%D1%82 8 https://bs.wikipedia.org/wiki/Opservacija

Page 33: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

33

skalom koja se koristi kod mjerenja. Svakom mjerenju prethodi definisanje mjerne skale. S obzirom na metrička svojstva razlikuju se nominalna (a), ordinalna (b), intervalna (c) i omjerna skala (d).

a) Nominalna skala

koristi se za klasifikaciju atributivnih (kvalitativnih) obilježja, bez informacije o smjeru i veličini njihove razlike;

sastoji se iz dvije ili više kategorija (klasa) koje se kvalitativno razlikuju jedna od druge.

Primjeri: pol, etničke grupe, krvne grupe, bračno stanje i sl.

RR. br.

Pol Broj slučajeva

1 Muškarci 435

2 Žene 428

Ukupno 963

Tabela I/1: Primjeri nominalne skale

b) Ordinarna skala

Koristi se za atributivna (kvalitativna) obilježja i za označavanje redosljeda.

Kategorije su rangirane, a na skali se vidi pozicija svake. Pokazuju da li je nešto veće ili manje. Ne pokazuju veličinu razlike.

Primjeri:podataka u ordinalnoj skali: školske ocjene; poredak igrača po uspješnosti na nekom takmičenju

Pozitivna skala

Skala u kojoj je prva kategorija slabija od druge, druga slabija od treće, treća slabija od četvrte kategorije itd.

k1 < k2 < k3 < k4 < ...

Negativna skala

Skala gdje je prva kategorija bolja od druge, druga bolja od treće, treća bolja od četvrte itd.

k1 > k2 > k3 > k4 > ...

Page 34: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

34

c) Intervalna skala

Intervalana skala se koristi za mjerenje numeričkih obilježja. Pokazuje ne samo redosljed, već i apsolutne razlike. Kod ove skale, određeni su intervali između kategorija (klasa). Širina intervala je ista (npr.100C). Tipični predstavnici su Celsiusova i Fahrenheitova temperaturna skala. Vrijednost intervalnog obilježja je broj. Jednake razlike u brojevima na intervalnoj skali predstavljaju jednake razlike u posmatranom svojstvu.

Primjeri: Uzrasne kategorije: 0-4, 5-9, 10-14 .... ili 0-14, 15-24, 25-34...

Kod ovih skala mogu se računati:

aritmetičke sredine

standardne devijacije

z-vrijednosti

r-koeficijent korelacije

d) Omjerna skala

Omjerna skala je numerička skala koju karakteriše definisana mjerna jedinica i nula koja označuje nepostojanje svojstva. Nula na omjernoj skali upućuje na nepostojanje svojstva. Obilježje kojem vrijednost dodjeljujemo prema omjernoj skali zove se numeričko obilježje.

Primjeri: koncentracija hemoglobin, mjerena u mg/100ml krvi.

Primjeri omjerne skale:

Broj zaposlenih,

Stanje na tekućem računu;

Socijalne klase: I , II, III, IV, V;

Tjelesna masa, mjerena u kilogramima;

Školska sprema: 1.Bez škole, 2. Osnovna škola 3. Srednja škola, 4. Visoka i viša škola;

Radna sposobnost: 1. Potpuno nesposoban, 2. Delimično sopsoban, 3. Sposoban;

Učestalost glavobolje: 1. Često, 2. Povremeno, 3. Rijetko, 4. Nikad;

Težina i visina čovjeka.

Page 35: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

35

Proces mjerenja

Procesmjerenja definiše prirodu dozvoljenog odnosa između opservacija u istoj kategoriji. Kod diskretnog procesa mjerenja sve opservacije u jednoj kategoriji predstavljene su istim brojem dok su kod neprekidnog procesa mjerenja opservacije u jednoj kategoriji predstavljene definisanim intervalom brojeva.

Uslovljenost mjerenja

Uslovljenost mjerenja definiše odnos između opservacija u skupovima kategorija. Razlikuju se: nezavisni odnosi (sve opservacije su uporedive) i red/kolona zavisni odnosi (mjerenja se obavljena u više vremena).

Nedostajući podaci (mjerenja nisu obavljena, mjerenja su obavljena ali nisu zabilježena).

Instrument mjerenja

Instrument mjerenja je tehnologija koja se koristi za mjerenja. Postoje sljedeći instrumenti mjerenja:

upitnik,

intervju,

opservacija,

objektivne i subjektivne mjere,

standardizovane mjere i testovi.

Zaključak

Statistika je našla široku primjenu u naučnim i empirijskim disciplinama. Tome je najviše doprinio brz razvoj društva, zaoštravanje konkurencije, brze i nepredvidive promjene. Kako bi kompanije odredile svoju poziciju u budućnosti, neophodan je statistički način razmišljanja. Statistiku interesuju isključivo varijabilne pojave. Na osnovu posmatranja velikog broja slučajeva, statistika daje mogućnost otkrivanje određenih pravilnosti u njihovom ponašanju, ukoliko te pravilnosti postoje. Takve pravilnosti se nazivaju statističke zakonitosti.

Skup svih elemenata na kojima se statistički istražuje određena pojava zove se statistički skup. On treba da bude bude sadržinski, vremenski i prostorno precizno definisan.

Obilježja skupa se mogu iskazati opisno ili brojčano, što znači da možemo govoriti o atributivnim, odnosno numeričkim obilježjima. Na osnovu statističkog zakljčivanja, dolazi se do preciznijih informacija o

Page 36: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

36

nekoj posmatranoj numeričkoj karakteristici cijelog skupa. Pri tome je neophodno je da uzorak bude reprezentativan, što podrazumijeva da on što je moguće vjernije odražava strukturu skupa iz kojeg je izabran. Sve uspješne kompanije značajnu pažnju posvećuju sistematskom istraživanju i statističkoj analizi i zaključivanju na osnovu dobijenih podataka. Iz svega navedenog može se zaključiti da kvalitetna statistička analaliza značajno doprinosi smanjenju rizika preduzetničkog neuspjaha.

Page 37: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

37

II DESKRIPTIVNA STATISTIKA

Uvod

Statistika je grana opšte naučne metodologije koja predstavlja sistematizovani skup znanja o statističkim metodama kvantitativnog istraživanja masovnih pojava. Po klasifikaciji većine autora, razlikuju se teorijska i primjenjena statistika. Prema drugoj klasifikaciji i teorijska i primjenjena statistika mogu biti opšte i specijalne, odnosno, posebne statistike. Pored posebnih primjenjenih statistika postoji i opšta primjenjena statistika.

Sva ispitivanja pojava u živoj ili neživoj prirodi zasnovana su na statističkoj metodologiji i podijeljena u tri etape:

statističko posmatranje ili/i prikupljanje podataka,

sređivanje i grupisanje podataka,

obrada sa statističkom analizom.

Statističke metode istraživanja masovnih pojava mogu se podijeliti u dvije osnovne grupe:

Prva grupa obuhvata metode prikupljanja, sređivanja i prikazivanja podataka i metode određivanja parametara skupova podataka. Ova grupa metoda spada u polje deskriptivne statistike.

Drugoj grupi pripadaju metode statističke analize. Statističkom analizom se objašnjava varijabilitet pomoću klasifikacionih, korelacionih i drugih statističkih pokazatelja, kao i statističko zaključivanje na osnovu uzorka. Navedenim metodama bavi se analitička statistika i statistika zaključivanja (inferencijalna statistika). Ona se ne može strogo razgraničiti od deskriptivne statistike.

Page 38: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

38

1. Pojam deskriptivna statistika

Deskriptivna statistika (eng. descriptive statistics) je dio matematičke statistike. Ona u određenoj mjeru uključuje matematičke tehnike. Ona opisuje različite grupe podataka pri čemu koristi prikupljanje, sortiranje, prikazivanje u obliku tabela, grafikona i razne matematičke operacije za računanje opisnih (deskriptivnih) parametara. Deskriptivna statistika se bavi uzorkom. Na osnovu svojstava uzorka, mogu se pretpostaviti svojstva populacije.Njen domen je ograničen samo na raspoložive podatke.

Pojava koja se istražuje može se posmatrati na svim jedinicama statističkog skupa (potpuno posmatranje) ili samo na jednom njegovom dijelu (djelimično posmatranje). Potpuno posmatranje ostvaruje se, uglavnom:

u vidu statističkih popisa, i

u vidu tekuće registracije (statistički izvještaji).

U prvom slučaju radi se o utvrđivanju stanja pojave (popis stanovništva) u jednom momentu a u drugom slučaju radi se o kontinuiranom praćenju pojave.

Page 39: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

39

2. Metode prikupljanja podataka

Prikupljeni podaci se grupišu kako bi se obezbijedila njihova preglednost. Na taj način se obezbjeđuje sprovođenje svih ostalih statističkih metoda. Za identifikaciju karakteristika ranije definisanog statističkog skupa, bira se ona metoda posmatranja (prikupljanja podataka) koja će uz najmanje troškove obezbijediti tražene rezultate.Pri tome je neophodno poštivati osnovna pravila:

sveobuhvatnost,

sistematičnost, i

određenost.

Unutar grupa dobijenih grupisanjem podataka, maksimalno je izražena homogenost. Odnos između grupa je treba da takav da omogućuje kvalitativnu i kvantitativnu diferencijaciju, uz uslov da je grupisanje pravilno izvedeno.

Od metoda (tehnika) koje stoje na raspolaganju za realizaciju statističkog posmatranja razlikuju se:

statistički popis (1),

statistički izvještaj (2), i

statistički uzorak (3).

(1) Statistički popis je takav oblik posmatranja pri kojem se obuhvataju sve jedinice posmatranja jednog statističkog skupa u određenom momentu koji se naziva „kritični momenat”. Vremenski intervali između popisa su relativno veliki (popis stanovništva svakih deset godina).

(2) Statistički izvještaj obezbjeđuje snimanje promjena statističkog skupa u sukcesivnim vremenskim intervalima. Statističke izvještaje sprovode izvještajne jedinice na statističkim upitnicima i u rokovima koji su propisani metodološkim uputstvima statističkih organa koji organizuju određenu statističku izvještajnu službu.

(3) Statistički uzorak se primjenjuje po pravilu kao zamjena ili dopuna popisne metode posmatranja, ali i kao zamjena za izvještajnu metodu. Osnovni problemi koji se moraju riješiti kod statističkog uzorka su: izbor vrste uzorka, način izbora jedinica u uzorak, veličina uzorka.

Page 40: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

40

Kod statističkog posmatranja je potrebno obezbjediti jednoobrazno prikupljanje podataka, bez obzira na metodu koja se primijenjuje. Ona se obezbjeđuje izradom unaprijed pripremljenih odgovarajućih upitnika. Kod upitnika su zastupljana sva pitanja (mjerenja) koja su od važnosti za posmatranu pojavu i istraživanje.

2.1.Određivanje granica intervala

U procesu formiranju grupnih intervala potrebno je držati se osnovnih pravila i redosljeda.

Prvi korak je utvrđivanje minimalne i maksimalne vrijednosti empirijskih podataka.

Naredni korak je utvrđivanje raspona vrijednosti jedinica posmatranja.

Na osnovu izračunatog raspona i prirode ispitivane pojave utvrđuje se širina grupnog intervala. Grupni intervali treba da budu jednake širine kako bi međusobno bili usporedivi. Kada se odrede ekstremne vrijednosti i odredi širina grupnog intervala prelazi se na određivanje granica intervala. Svaki interval ima dvije granice, donju i gornju.

2.2.Formiranje grupnih intervala

Grupni intervali se formiraju u slučaju ako se u skupu nalazi veliki broj podataka. U tom slučaju, oni se moraju prvo grupisati, tj. raspodijeliti u grupne intervale.

a) Određivanje broja grupnih intervala – broj grupnih intervala

(n) na koje se skup dijeli određuje se približno kao N , gdje N predstavlja ukupan broj podataka, dok se kod jako velikog broja podataka broj grupnih intervala može odrediti prema izrazu: n = 1 + 3,22 logN.

b) Utvrđivanje širine grupnog intervala – grupni intervali moraju biti jednake širine kako bi se mogli upoređivati. Širina intervala predstavlja razlika između najveće i najmanje vrijednosti skupa, a zatim se ona podijeli prethodno određenim brojem grupnih intervala. Dobijeni rezultat se zaokruži na najbliži cio broj ili na manji broj decimalnih mjesta.

c) Najefikasniji način kojim se istovremeno podaci mogu grupisati u vidu tablice frekvencija i grafički prikazati u

Page 41: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

41

obliku histograma, dobija se korišćenjem alatke Histogram, u okviru Data Analysis ToolPack-a.

d) Određivanje granica intervala:9 Prilikom određivanja granica intervala istraživanog skupa,

potrebno se držati pravila:

donja granica prvog intervala, koji obavezno mora da sadrži najnižu vrijednost seta podataka, treba da bude broj koji je djeljiv širinom intervala;

donja granica prvog intervala bez obzira na širinu intervala može da počne nulom;

preporuka je da donja granica grupnog intervala bude prva dekadna jedinica manja od najniže vrijednosti seta podataka;

donja granica intervala mora biti za jedinicu mjere veća od gornje granice prethodnog intervala;

najviša vrijednost seta podataka mora biti obuhvaćena posljednjim grupnim intervalom.

Na primjer, ako je širina grupnog intervala tri mjerne jedinice donja granica prvog intervala mora biti djeljiva sa tri, ili ako je širina grupnog intervala 5 mjernih jedinica donja granica prvog intervala biće broj koji se završava sa 5 ili nulom, itd. Opšte pravilo je da donja granica prvog intervala bez obzira na širinu intervala može da počne nulom.

Tabela II/1. Broj živorođenih i umrlih u Srbiji 1951-2014, sa stopama nataliteta i mortaliteta (na osnovu podataka RZS i proračuna autora)

9https://www.chem.bg.ac.rs/.../OOAH.../OOAH_Statistika_Pomocni%20materijal.doc

x, septembar, 2018.

Page 42: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

42

Izvor: http://www.nspm.rs/kuda-ide-srbija/sta-nam-zapravo-

pokazuju-demografske-projekcije-un.html?alphabet=l

2.3. Frekvencija kategorije

Jedno od osnovnih pitanja, koje se postavlja je kako izmjeriti zastupljenost pojedine kategorije u uzorku?

Osnovna mjera kojom se određuje zastupljenost jedne kategorije u uzorku jest frekvencija kategorije.

Određena varijabla, koju možemo oznaciti sa X, ima k kategorija (npr. k = 4 znaci da varijabla ima 4 kategorije. U našem slučaju, to su krvne grupe).

Oznacimo pojedine kategorije sa x1; x2; : : : ; xk, odnosno u drugom zapisu fxi : i = 1; : : : ; kg. Frekvencija kategorije xi je broj izmjerenih vrijednosti varijable koje pripadaju kategoriji xi, i = 1; : : : ; k. Frekvenciju kategorije xi oznacavamo sa

fi

Frekvencija pojedine kategorije zavisi o broju izvršenih mjeranja, tj. veličini uzorka. U tabeli ispod predstavljene su frekvencija pojava.

Tabela II/2: Frekvencija pojava

Page 43: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

43

2.3.1. Relativna frekvencija kategorije

Kako bi se mogle uporediti i tumačiti rezultati različitih istraživanja, često se koristi i relativna frekvencija kategorije.

Relativna frekvencija kategorije xi je broj izmjerenih vrijednosti varijable koje pripadaju kategoriji xi podijeljen ukupnim brojem izmjerenih vrijednosti za ispitivanu varijablu, i = 1; : : : ; k. Ako je n velicina uzorka, tj. broj svih izmjerenih vrijednosti ispitivane varijable, relativnu frekvenciju kategorije xi racunamo kao

Frekvencije i relativne frekvencije pojedinih kategorija prikazujemo tablično i grafički (pomoću histograma ili pomoću strukturiranih krugova)

Relativna frekvencija kategorije je mjera zastupljenosti koja daje informaciju o udjelu kategorije u uzorku poznate velicine i često se izražava kao postotak.

U tabeli ispod, je data tabela relativnih frekvencija prema polu ispitanika.

Tabela II/3: Relativne frekvencije prema polu

Pol Frekvencija Relativna frekvencija

Ž 6 6/10=0,6=60%

M 4 4/10=0,4=40%

U tabeli ispod, date su frekvencije relativne frekvencije svih kategorija varijable krvna grupa.

Tabela II/4: Relativne frekvencije svih kategorija varijable krvna grupa

Page 44: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

44

Primjer 2.10

Trajanje kompletne remisije kod 35 bolesnika od ANL (akutne nelimfoblastne leukemije) iznosilo je 12, 5, 10, 32, 11, 4, 14, 14, 6, 14, 9, 3, 4, 17, 9, 23, 38, 2, 8, 1, 3, 6, 24, 34, 12, 12, 6, 3, 5, 10, 11, 3, 1, 7 i 26 mjeseci. Grupisati date podatke.

Na osnovu datih podataka, formiramo radnu tabelu u kojoj je prva kolona interval (dužina remisije), druga kolona pojedinačan način zapisivanja podataka o svakom slučaju, a treća kolona učestalost podataka u intervalu (frekvencija).

Tabela II/5.: Grupisanje prema dužini remisije – grupisanje sa širinom intervala od 6 mjeseci.

Dužina remisije

Broj bolesnika

(f)

0 – 6 ///// ///// ////

14

7 – 12 ///// /////

10

13 – 18 ///// 5

19 – 24 // 2

25 – 30 / 1

31 – 36 // 2

37 – 42 / 1

Ukupno ------------ 35

Tabela : Grupisanje prema dužini remisije – grupisanje sa širinom intervala od 10 mjeseci

10Tanjga, Rade (2004), Osnove statistike za studente medicine Medicinski fakultet Banja Luka : Informatički savez Republike Srpske ISA Banja Luka

Page 45: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

45

Dužina remisije

Broj bolesnika (f)

0 – 10 ///// ///// ///// /////

20

11 – 20 ///// //// 9

21 – 30 /// 3

31 – 40 /// 3

Ukupno ------------ 35

Tabela II/6: Grupisanje prema dužini remisije – grupisanje sa širinom intervala od 5 mjeseci

Dužina remisije

Broj bolesnika (f)

0 – 5 ///// /////

/ 11

6 – 10 ///// /// 8

11 – 15 ///// /// 8

16 – 20 / 1

21 – 25 // 2

26 – 30 / 1

31 – 35 // 2

36 – 40 / 1

Ukupno ------------ 23

Granice intervala date su cijelim brojevima. Minimalna vrijednost je 1, maksimalna 38, raspon 37 mjeseci, a širina grupnog intervala 6 mjeseci. Donja granica prvog intervala počinje nulom. Kod sva tri slučaja grupisanja postupak je ispravan, ali se postavlja pitanje koju širinu intervala odabrati. Prirodno je odabrati interval koji odgovara dekadskoj mjeri, dok vrijeme treba uzimati sa intervalima vremenskih jedinica itd.

2.3.2. Kumulativna frekvencija

Kumulativna frekvencija predstavlja broj podataka čija je vrijednost manja ili jednaka gornjoj granici razreda. Označava sukcesivni niz parcijalnih frekvencija i dobija se sukcesivnim sabiranjem parcijalnih frekvencija.Kod numeričkih obilježja kumulisanje može početi od grupe ili grupnog intervala sa najnižim ili sa najvišim

Page 46: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

46

vrijednostima obilježja. Kod atributivnog obilježja kumulisanje se vrši po logičkom sistemu progresije tog obilježja. Frekvencija svake sukcesivne grupe ili grupnog intervala dodaje se prethodnim tako da je posljednja kumulativna frekvencija jednaka sumi svih frekvencija.

Statistički podaci se mogu prikazivati:

tabelarno, i

grafički

U TABLICI FREKVENCIJA originalni podaci su sažeti u određeni broj kategorija (razreda) koje su opisane numerički izraženim granicama.

APSOLUTNA FREKVENCIJA jednaka je broju podataka koji pripadaju intervalu tog razreda

KUMULATIVNA FREKVENCIJA jeste broj podataka čija je vrijednost manja ili jednaka gornjoj granici razreda.

RELATIVNA FREKVENCIJA RAZREDA se dobije kad apsolutnu frekvenciju razreda podijelimo s ukupnim brojem podataka.

KUMULATIVNA RELATIVNA FREKVENCIJA RAZREDA jednaka je kumulativnoj frekvenciji razreda podijeljenoj s ukupnim brojem podataka.

Primjeri

Distribucija rezultata varijable auditivno razumijevanje (AR) u razrede,apsolutne, kumulativne i relativne frekvencije, te sredine razreda.

Izvor: http://www.fpmoz.ba/tmarusic/socrad/statistika1.pdf

Page 47: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

47

Tabela II/7: Primjeri frekvencija

http://www.grad.hr/vera/webnastava/vjerojatnostistatistika/html/VISch11.html

Primjer:11. Potrebno je procijeniti prosječnu vrijednost mjesečnih izdataka za kozmetičke preparate ženske populacije uzrasta od 16 do 20 godina. Izvršeno je anketiranje 100 djevojaka tog uzrasta i dobijeni su podaci čije su se vrijednosti kretale od 500 do 20000 100) izvršeno je

intervalno grupisanje podatakadinara. Zbog velikog obima uzorka (N gde se broj intervala određuje po Sturgesovom pravilu:

k=1+3,32,log=1+3,32x2?1+6,64,=7,648

Širina grupnog intervala tada iznosi:

Tabela II/8: Frekvencije

11 http://www.sm-vaspitac.edu.rs/profesori/images/statistika.pdf

Rezultati %

Frekvencije F

Relativne frekvencije Fr

Kumulativne frekvencije Fk

Kumulativne relativne frekvencije (Fk)r

Sredine razreda SR

11-16 3 0,09 3 0.09 13,5

16-21 8 0,25 11 0,34 18,5

21-26 11 0,35 22 0,69 23,5

23-31 6 0,19 28 0,86 28,5

31-36 3 0,09 31 0,97 33,5

36-41 1 0,03 32 1,00 38,5

32 1,00

Page 48: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

48

2.4. Tabelarno prikazivanje statističkih podataka

Kaorezultatstatističkog posmatranja pojavljuju se podaci koje je potrebno predstaviti u određenoj formi kako bi se mogla vršiti dalja obrada. Ako je broj podataka manji, unose se u tabele. Ako raspolažemovelikimbrojem podataka, dijelimo ih u statističke serije. Statističke tabele predstavljaju osnovne i konačne forme prikazivanja podataka, koji mogu biti u apsolutnom ili relativnom odnosu.

Tabele se sastoji od redova (horizontala) i kolona (vertikala). Tabele još imaju zaglavlja i zbirni red.

Prema obliku, statističke tabele mogu biti (slika ispod):

Proste,

Složene, i

Kombinovane. Proste tabele prikazuju samo jednu vremensku seriju. Sa druge

strane, složene tabele prikazuju više prostih tabela.

Kombinovane tabele sadrže podatke koji se dobijaju ukrštanjem dva i višeobilježja. Ona mogu biti numerička ili atributivna.

Slika II/1: Podjela statističkih tabela

STATISTIČKA TABELA

JEDNOSTAVNA

Jedan statistički niz

i jedno obilježje

SLOŽENA

Više statističkih nizova

i jedno obilježje

KOMBINOVANA

Jedan statistički niz

i više obilježja

Page 49: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

49

Tabele II/9: Primjeri tabela

Vrste škole Broj studenata

Gimnazija 50

Ekonomska 60

Turistička 70

Ostalo 20

Ukupno 200

Izvor: http://www.unidu.hr/datoteke/racic/STATISTIKA1.ppt

Prema sadržinistatističketabelese dijele na:

faktografske tabele, i

analitičke tabele.

Faktografske tabele pokazuju kakvo je stvarno stanje podataka.

Analitičke tabele, pored stvarnog stanja podataka, daju i informacije o unutrašnjim odnosima između elemenata posmaranog skupa i njegovim zakonitostima.

Premanamjeni, statističke tabele mogu biti:

obradne, i

publikacione. Obradne tabele se koriste za potrebeobrade i sređivanje

statističkih podataka jerpredstavljaju izvor detaljnih informacija.

Pol Ocjena M Ž

1 20 10

2 50 40

3 30 50

4 10 20

5 10 10

Vrste škole

Broj studenata

Banja Luka

Novi Sad

Gimnazija 50 100

Ekonomska 60 120

Turistička 70 140

Ostalo 20 40

Ukupno 200 400

Page 50: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

50

One služe za internu upotrebu statističkih organa jer se na osnovu njih vrši kontrola podataka.

Publikacione tabele su namijenjene širokom krugu korisnika i prilagođene su za određeni oblik publikacije.

2.5. Graficki prikazi frekvencija i relativnih

frekvencija

Prikazivanje podataka u obliku statističkih tabela zahtijevaju dosta vremena i koncentracije za tumačenje i uočavanje onog što je važno. Iz tog razloga, koristi se prikazivanje numeričkih podataka pomoću grafičkog prikazivanja. Grafičko prikazivanje je metod prikazivanja grupisanih i tabelarnih podataka u vizuelnoj formi.

Potrebno je napomenuti da se crtežom ne može zamijeniti tabela već da crtež ilustruje tabelu. Grafički prikaz predstavlja pomoćno sredstvo kako bi se u cjelini sagledala posmatrana pojava. Međutim, njeni unutrašnji odnosi mogu se vidjeti samo iz statističke tabele u kojoj su sadržani osnovni podaci.

Zavisno od toga, da li se statistički podaci prikazuju oznakama i simbolima ili geometrijskim oblicima, grafičke prikaze dijelimo u dvije velike grupe:

1) kartogrami i simbolički crteži; 2) dijagrami; Dijagrami su grafički prikazi u geometrijskim oblicima.

Statističke veličine se mogu uspoređivati pomoću tački (kota), linija (dužina), površina i tijela. Prema način prikazivanja razlikujemo sljedeće grupe dijagrama:

- tačkaste, - linijske, - površinske i - prostorne.

2.5.1. Tačkasti dijagrami

Tačkasti dijagram se često koristi za prikazivanje odnosa između dvije promjenljive. Osnovne karatkeristikea tačkastog dijagrama je da prikazuju vezu između podataka na osnovu 2 ili više parametara.

Page 51: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

51

Primjer: Jedna prodavnica tehnike ima prodajna mjesta u nekoliko većih gradova. Generalni menadžer prodaje prodavnice tehnike planira da vikendom emituje reklamu za digitalnu kameru na izabranim lokalnim TV stanicama. Prodavnica planira da uzme informacije o vikend prodaji digitalne kamere na raznim prodajnim mestima i upari ih sa brojem emitovanja reklame na lokalnoj TV stanici. Potrebno je utvrditi dali postoji odnos između broja emitovanja reklame i prodaje digitalne kamere. Uparivanja su prikazana u tabeli ispod.12

Tabela II/10: Pregled broja emitovanja reklama i obima prodaje.

Lokacija Broj Vikend prodaja

TV stanice emitovanja

(u hiljadama dinara)

Beograd 4 15

Aranđelovac 2 8

Niš 5 21

Smederevo 6 24

Novi Sad 3 17

Na osnovu podataka iz tabele, potrebno je formirati tačkasti dijagram.

12https://profesorka.wordpress.com/2011/11/13/opisivanje-podataka-prikazivanje-i-

proucavanje-podataka/, 25. septembar 2018.

Page 52: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

52

Rješenje:

Dijagram II/1: Odnos između emitovanja reklama i obima prodaje

Pregledom tačkastog dijagrama može se utvrditi pozitivan odnos između broja emitovanja reklame i prodaje digitalne kamere.

2.5.2. Linijski dijagrami

Linijski dijagram je način grafičkog prikazivanja podataka u kojem suvrijednosti podataka obilježene tačkama povezanim linijama.

Linijski dijagram ima samo jednu dimenziju, zbog čega uspoređivanje pomoću dužina može da obuhvati vrijednosti, odnosno frekvencije samo jednog obilježja. U grupu linijskih dijagrama ubrajamo poligon frekvencija, kriva frekvencija, vremenski linijski dijagram, štapićasti dijagram, kumulativni (integralni) dijagram i polarni dijagram.

U grafikonu ispod je predstavljen linijski dijagram.

Page 53: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

53

Dijagram II/2: Linijski dijagram

Izvor: https://edutorij.e-skole.hr/share/proxy/alfresco-

noauth/edutorij/api/proxy-guest/5b6e84e4-98f0-45e9-8e29-

ddccaa7f5f1f/html/4821_Prikazivanje_podataka.html, 18.9.2018.

2.5.3. Štapičasti dijagram

Štapićasti dijagram je grafikon u kome se na apscisi nalaze kategorije, a na ordinati frekvencije ili relativne frekvencije određenih kategorija.

Štapičasti dijagrami koriste pravouglove (stupce) koji su postavljeni paralelno jedni u odnosu na druge. Visina pokazuje frekvenciju podataka. Štapičasti dijagrami omogućavuju prikaz numeričkog tipa informacija na jasan i uredan način, kako bi se bolje objasnili drugima. Štapičasti dijagrami je koristan za upoređivanje činjenica. Oni omogućavaju vizualni prikaz za poređenje količina u različitim kategorijama. Za izraduštapičastog dijagrama, potrebno je nacrtati okomitu i vodoravnu osu. U slobodnom prostoru nalaze se stupci. Numerički podaci nalaze se na okomitoj osi (određuju visinu stupaca), a kategorije na vodoravnoj osi.

Page 54: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

54

Dijagram II/3: Frekvencija prema vrstama zaposlenja

Štapičasti dijagram II/4: Frekvencija studenata po godinama

2.5.4. Površinski dijagrami

Površinski dijagrami daje veće mogućnosti uspoređivanja od linijskog dijagrama. Koristi se za grafičko prikazivanje, prvenstveno serija strukture i poređenja. Grupisani numerički podaci se mogu grafički prikazati pomoću:

- Histograma (1), i - Poligona (2), i - Strukturnog kruga (pite) (3).

0

100

200

300

400

500

600

I godina II godina III godina IV godina V godina

studenti

ap

so

lutn

a f

rekve

nca

Page 55: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

55

(1) Histogram

Histogram se koristi za grafičko prikazivanje raspodjele frekvencija, raspodele relativnih frekvencija i procentualne raspodjele

Histogram predstavlja dijagram koji se sastoji od niza spojenih pravougaonika čije su baze grupni intervali nanijeti na x-osu. Visine su frekvencije grupnog intervala (ili relativne frekvencije ili procentualnog učešća) koje su nanijete na y-osu. Baza svih pravougaonika je jedinična.

Dijagram II/5: Grafički prikaz grupisanih podataka starosnih intervala

Izvor: www.predmet.singidunum.ac.rs/.../Statistika%20predavanje%202%20Sredivanje%20i%20gr..., avgust, 2018.

Na osnovu izgleda histograma donose se zaključci o statističkoj prirodi populaciji.

Primjer histograma:

Data je distribucija frekvencija 29 zdravih osoba u odnosu na nivo fibrinogena. Prikazati je grafički.

Page 56: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

56

Tabela II/11: Distrubucija frekvencija zdravih osoba u odnosu na fibrinogen

Dijagram II/6: Distrubucija frekvencija zdravih osoba u odnosu

na fibrinogen

(2) Poligon

Poligon frekvencija se izrađuje u pravougaonom koordinatnom sistemu. Poligon je dijagram koji se dobija spajanjem tačaka čije su koordinate sredine grupnih intervala na x-osi i frekvencije intervala na y-osi.

Kada je reč o dugačkoj seriji podataka i sa povećanjem broja grupnih intervala, a smanjenjem njihove širine poligon frekvencija postaje glatka kriva. Ova kriva se naziva kriva raspodele frekvencija.

Fibrinogen (g/l)

Broj ispitanika

(f)

2,00 - 2,49 4

2,50 - 2,99 3

3,00 - 3,49 7

3,50 - 3,99 4

4,00 - 4,49 6

4,50 - 4,99 2

5,00 - 5,49 2

5,50 - 5,99 1

Ukupno 29

4 3

7

4

6

2 2 1

0

2

4

6

8

2,00 -

2,49

2,50 -

2,99

3,00 -

3,49

3,50 -

3,99

4,00 -

4,49

4,50 -

4,99

5,00 -

5,49

5,50 -

5,99

Bro

j oso

ba

(f)

Nivo fibrinogena (g/l)

Distrubucija zdravih osoba u odnosu

na nivo fibrinogerna

Page 57: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

57

Poligon u kojem se na y-osi nalaze relativne frekvencije naziva se poligon relativnih frekvencija, a poligon sa učešćima prikazanim na y-osi naziva se poligon učešća.

Dijagram II/7: Grafičko prikazivanje grupisanih podataka

Primjer 1.13

Ispitivan je nivo antihemofilnog globulina (AHG, VIII faktor koagulacije) kod 9 bolesnika od prave hemofilije (hemofilija A). Dobijenu distribuciju prikazati pomoću poligona frekvencije.

Tabela II/12: Distrubucija bolesnika od hemofilije A u odnosu na nivo antihemofilnog globulina

AHG - A (%) Broj bolesnika

0,5 - 0,9 3 1,0 - 1,4 2 1,5 - 1,9 2 2,0 - 2,4 1 2,5 - 2,9 1

Ukupno 9

13Tanjga, Rade (2004), Osnove statistike za studente medicine Medicinski fakultet Banja Luka : Informatički savez Republike Srpske ISA Banja Luka

Page 58: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

58

Dijagram II/8: Distrubucija bolesnika od ulkusa u odnosu godine starosti

Pri konstrukciji ovog dijagrama ordinate se nanose na vertikale dignute iz sredine intervala jer na taj način moguća greška najmanje dolazi do izražaja.

Poligonalna linija, nikada se ne spaja sa apcisnom osom.

Ukoliko se vrijednosti frekvencija upisuju u poligonalnu liniju to se čini uvijek, radi preglednosti, u prostoru većeg ugla.

Pri konstrukciji poligona frekvencija za numerička kontinuirana obilježja čija je distribucija prikazana sa nejednakim grupnim intervalima važe pravila kao i za konstrukciju histograma frekvencija pod istim uslovima.

Primjer:14Broj odsutnih uµcenika jednog razreda na satu matematike tokom jednog polugodišta (ukupno 40 sati) dan je nizom statistiµckih podataka: 2, 5, 1, 1, 3, 4, 4, 4, 2, 3, 3, 4, 0, 0, 4, 4, 3, 6, 1, 4, 2, 2, 4, 3, 2, 1,3, 2, 2, 5, 4, 0, 3, 2, 1, 2, 4, 1, 3, 3. Odredite tabelu frekvencija i relativnihfrekvencija.

14 http://marjan.fesb.hr/~borka/files/pm-pr5.pdf

3

2 2

1 1

0

1

2

3

4

0,5 - 0,9 1,0 - 1,4 1,5 - 1,9 2,0 - 2,4 2,5 - 2,9

Bro

j oso

ba

(f)

AHG %

Distrubucija bolesnika od hemofilije A u

odnosu na nivo antihemofilnog globulina

Page 59: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

59

Teoretski, ako je u razredu n = 30 učenika, onda je A = f0; 1; 2; 3; 4; 5; ::; 30g :Nadalje, imamo ukupno N = 40 podataka, od µcega r = 7 različitih: Frekvencijei relativne frekvencije su dane tabelom.

Tabela II/13: Prikaz frekvencija

Dijagram II/9: Grafički prikaz frekvencija

Dijagram II/10: Poligon frekvencija

Page 60: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

60

Dijagram II/11: Grafički prikaz relativnih frekvencija

Dijagram II/12: Poligon relativnih frekvencija

(3) Strukturni krug (pite).

Strukturni krug se koristi kada treba grafički prikazati strukturu jedne pojave (odnos dijelova prema cjelini). On pripada grupi površinskih dijagrama. Površina cijelog kruga predstavlja pojavu u cjelini, a površine pojedinih isječaka dijelove te cjeline tj. pojave. Konstuiše se u ugaonom sistemu veličinom ugla alfa, tako što cjelokupnu pojavu (100%) preslikavamo na puni krug (360o), preko odnosa 100 % = 360o tj. 1 % = 3,6o.

Prema tome, prvo se utvrdi struktura serije u procentima, a zatim se u krug unesu segmenti čiji su uglovi odredeni procentualnim učesćem pojedinih struktura u seriji.

Page 61: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

61

Dijagram II/13: Zaposleno osoblje u trgovini prema djelatnostima poslovnih subjekata u RH 1997.

Izvor: http://lumens.fthm.hr/edata/2011/2f9b48d9-9e15-406d-85b9-8fb7da929652.pdf, avgust, 2018.

2.5.5. Polarni dijagram

Polarni dijagram se koristi za predstavljanje jedne ili više pojava u vremenu. Koristi se za prikazivanje cikličkih pojava u dužim ili kraćim ciklusima, odnosno vremenskih serija onih pojava koje imaju izraženo sezonsko kretanje.

Polarni dijagram pripada grupi linijskih dijagrama a predstavlja se u polarnom koordinatnom sistemu. Konstruiše se na taj način da se vrijednosti obilježja nanesu na radijalnu mrežu koja predstavlja zrakasto širenje vektor-radijusa od centra ka periferiji. Spajanjem tačaka koje odgovaraju frekvenciji svakog radijusa dobija se izlomljena linija koja predstavlja polarni dijagram. U tabali i polarnom dijagramu ispod, predstavljena je prodaja piva u 2000. i 2001. godini po mjesecima.

Page 62: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

62

Primjer: Prodaja piva (u hI) u tintervalu dvije godine

Tabela II/13: Prodaja piva (u hI) u toku dvije godine

Mjeseci 1990. 1991.

I 2 1

II 3 2

III 5 4

IV 10 8

V 20 15

VI 30 20

VII 40 35

VIII 50 40

XI 35 30

X 25 20

XI 10 10

XII 5 5

Dijagram II/14: Prodaja piva (u hI) u toku dvije godine

Izvor: www.seadresic.com/resourcesmodule/download.../id/.../@random4d8f6816de3b4/, 20. 9. 2018.

Izlomljena linija na dijagramu pokazuje komparativan razvoj pojave tokom dvije godine. Svako udaljavanje ili približavanje linije centru znači veci ili manji uticaj sezone na pojavu. U dijagram se može

Page 63: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

63

ucrtati i krug čiji je poluprečnik jednak prosječnoj veličini pojave. Upoređivanjern izlomljene linije i ucrtane kružnice dobija se uvid u kolebanje i odstupanje pojave od svog regulamog toka usljed sezonskog faktora. Za sve tačke presjeka, koje pripadaju krugu, pojava je bila ispod prosjeka, dok za one van kruga pojava je bila iznad prosjeka. Za tačke koje se nalaze na kružnici, pojava je jednaka prosjeku.

2.5.6. Stereogrami

Stereogrami, odnosno prostorni dijagrami treba da pruže najšire mogućnosti upoređivanja zato što su izraženi sa tri dimenzije. Pri tome se veličine statističkih podataka se izražavaju prostorno. Ovakav prikaz serija podataka se rjeđe koristi zato što je uočavanje odnosa prikazanih u tri dimenzije komplikovano. U grafikonu ispod, prikazanje prostorni dijagram.

Dijagram II/15: Broj radnika prema odjeljenjima i polu

Zaključak

Sadašnje vrijeme karakterišu brze promjene, zbog čega je neophodno istraživanje okruženja i anticipiranje promjena, kako bi se mogli profilisati u skladu sa zahtjevima okruženja. U tom smislu,

Page 64: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

64

nezaobilazna su istraživanja i korisćenje metoda deskriptivne statistike. Ispitivanja u živoj ili neživoj prirodi zahtijevaju statističku meodologiju. Ona ima tri etape: statističko posmatranje ili/i prikupljanje podataka, sređivanje i grupisanje podataka i obrada sa statističkom analizom. Pri tome se statističke metode mogu se podijeliti u dvije osnovne grupe: prva, koja obuhvata metode prikupljanja, sređivanja i prikazivanja podataka i određivanja parametara skupova podataka, i druga grupa, kojoj pripadaju metode statističke analize.

Istraživanjem dobijene podatke potrebno je izložiti na što jednostavniji i razumljiviji način. Koji način prikaza ćemo izabrati, zavisi od značaja podataka, ali i načinu na koji se podaci iznose. Pri tome, važnu ulogu imaju savremena sredstva, kao što su računari i softveri koji znatno ubrzavaju rad.

Kako bi identofikovali značajne odnose i zakonitosti, podatke možemo prikaziavtai tabelarno i grafički. Kada je u pitanju grafički prikaz, podatke možemo predstavljati u tačkastom, linijskom, površinskom i prostornom obliku. U tom smislu, neophodno je efektivno projektovanje tabela i dijagrama.

Page 65: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

65

III STATISTIČKI NIZOVI

MJERE CENTRALNE TENDENCIJE,MJERE DISPERZIJE I VARIJABILITETA

Uvod

Svrha uređivanja statističkih podataka je da se omogući donošenje osnovnih sudova o danoj pojavi. Njihovim uređenjem nastaju statistički nizovi. Mjere centralne tendencije se koriste kako bi što bolje reprezentovali tendencije ka nekoj vrijednosti u nekoj populaciji, zavisno o pojavi koja se mjeri.Mjere centralne tendencije One su najčešće izračunavane mjere u deskriptivnoj statistici. Ove mere opisuju “središnji”, “najčešći” ili “prosječni” rezultat u nekom skupu rezultata, tj. govore o vrijednosti oko koje se grupišu rezultati uzorka.

Vrijednosti oko kojih se gomilaju rezultatinajbolje reprezentuju ono što je karakteristično i tipično za čitav skup rezultata. Srednja vrijednost razdiobe frekvencija je prosječna vrijednost numeričkog

obilježja jedinica mase.

Mjere centralne tendencije su:

- mod, - medijana, - aritmetička sredina, - harmonijska sredina i - geometrijska sredina.

Page 66: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

66

1. Statistički nizovi

Pod nizom podrazumijevamo grupu objekata uređenih na način da medu njima znamo ko je prvi, drugi, stoti itd. Termin ”niz” i ”red” u matematici znači sumiranje objekata.

Nizovi i redovi u matematici imaju jako dugu istoriju jos iz doba Arhimeda ˇ 1 i njegovog djela ”Method of Exhaustion”.

Vrste statičkih nizova s obzirom na grupisanje:

- Negrupisani: Xi: X1, X2, X3,..., XN - Grupisani: statističke tablice

a) Negrupisani statistički niz - podaci su zapisani redom kojim su i prikupljani Xi: X1, X2, X3,...., XN Studenti prema ocjeni iz statistike: 5, 5, 5, 5, ..., 5

b) Grupisani statistički niz: podaci se prikazuju u tablicama distribucije frekvencija

Sredne vrijednosti možemo računati iz negrupisanih (''sirovih'') i grupisanih podataka. Vrijednosti dobijene računanjem iz grupiranih podataka nepreciznije je od vrijednostidobijenih računanjem iz negrupisanih podataka, naročito ako su podaci grupisani u razrederelativno velikih širina.

S obzirom na obilježje, imamo sljedeće vrste statičkih nizova:

NOMINALNI NIZ - prema veličini frekvencija, abecedno,nomenklaturno

REDOSLJEDNI NIZ – prema intenzitetu

VREMENSKI NIZ – kronološki

NUMERIČKI NIZ – prema vrijednosti numeričkog obilježja

Page 67: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

67

a) Nominalni niz

Slika III/1: Podjela nominalnih nizova

Nominalni statističkiniz nastaje grupisanjem podataka prema modalitetima obilježja nominalne varijable.Nominalni statistički nizovi grafički se prikazuju površinskim grafikonom. Najčešći površinski grafikoni su: jednostavni, dvostruki i višestruki stubovi, strukturni stubovi, strukturni krugovi i polukrugovi.

Slično kao i statistička tabela, grafikon sadrži numeričku oznaku, naslov i izvor podataka. Ukoliko postoji potreba ispod grafikona se navode dodatne napomene i objašnjenja. Nominalni niz, sastoje se od dva stuba: u prvom su dani modaliteti, a u drugom apsolutne frekvencije.

Ako se sa a1, a2, a3,..., ak označe modaliteti nominalne varijable, a sa f(a1), f(a2), f(a3),..., f(ak) njihove frekvencije, tada skup parova: (ai, f(a i)), i=1, 2,..., k predstavlja nominalan statistički niz.

Modaliteti se mogu navoditi:

abecedom,

veličinom frekvencije,

nomenklaturom.

Nominalni niz

Atributivni Geografski

Page 68: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

68

Tabela III/1: Korisnici penzija (prema Zakonu o penzijskom osiguranju)

Vrste penzije Broj penzionera (u hiljadama

Starosna 634,3

Invalidska 252,0

Porodična 239,3

Ukupno 1125,3

a) Redosljedni (oridnalni) niz nastaje grupisanjem podataka prema modalitetima obilježja ordinalne varijable (poznat redoslijedni poredak za modalitete obilježja).

b) Vremenski niz – hronološko nizanje podataka o nekoj pojavi

Zavisno o tome da li je riječ o pojaviposmotrenoj u nekom trenutku vremena ili u nekom vremenskom intervalu, postoje dvije vrste vremenskih nizova:

intervalni – frekvencije se odnose na vremenske intervale i nastaju zbrajanjem, imaju svojstvo kumulativnosti (npr. zbrajanjem dnevnih proizvodnji dobijamo sedmičnu proizvodnju) – prikazuju se linijskim i površinskim grafikonima;

trenutačni– frekvencije se odnose na neki trenutak vremena, frekvencije se ne smiju zbrajati (npr. isti iznos duga na tekućem računu u dva uzastopna dana ne znači dvostruki iznos duga) – prikazuju se samo linijskim grafikonima.

d) Numericki nizovi ˇ

Definicija i osnovni pojmovi

Numerički kontinuirani nizovi se konstruišu uređenjem vrijednosti kvantitativnih varijabli. Mogu se klasifikovati na sljedeći način::

numerički kontinuirani nizovi,

numerički diskontinuirani (diskretni) nizovi.

Page 69: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

69

Grupisanjepodataka podrazumijeva raščlanjivanje statističkog skupa prema modalitetima obilježja. Ono podataka mora biti :

isključivo

iscrpno ili konačno

Priglikom grupisanja vrijednosti numeričkog niza nastaje

distribucija frekvencija (uređivanjem vrijednosti kvantitativne varijable). Najjednostavnije uređivanje numeričkih nizova je nizanje po veličini vrijednosti modaliteta obilježja.

Termin ”numerički”, znači da posmatramo isključivo nizove brojeva i sumiranja brojeva.Pod nizom realnih brojeva podrazumijevamo beskonačnu uređenu listu realnih brojeva, koje nazivamo članovima niza i koji su indeksirani prirodnim brojevima.

Ako su pojedinačne vrijednosti varijable X: X1, X2, ..., Xi,..., XN , uvid u varijacije pružiti će uređeni skup vrijednosti varijable X, tako da vrijedi: Xi< Xi+1 i=1, 2, ..., N-1

• Ako se grupiše N podataka u k grupa, sa vrijednostima varijable (diskontinuirane) X: X1, X2,...,Xi,..., Xk uz pripadajuće frekvencije: f (X1),f (X2),..,f (Xi),...,f (Xk) kraće zapisano fi,

• distribucija frekvencija je skup: (Xi, fi), gdje je:

k

i

i Nf1

i = 1, 2, .., k;

N- broj jedinica statističkog skupa

K - broj modaliteta obilježja

Xi - vrijednosti modaliteta i-tog obilježja

• f(i) apsolutne frekvencije

• p(i) relativne frekvencije; (nastaje podjelom i-te apsolutne frekvencije zbirom apsolutnih frekvencija)

• Pojedinačni par u distribuciji frekvencija predstavlja NUMERIČKU GRUPU, tj. broj jednakih vrijednosti varijable X.

Page 70: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

70

Tabela III/2: Modaliteti obilježja

Primjer nizova:15 Koje sve nizove možemo dobiti koristeći se prvim trima parnim

brojevima i to svakim tačno jednom? Rješenje: Svi članovi svakog traženog niza pripadaju skupu A =

2, 4, 6. Riječ je o nizovima: 2, 4, 6 2, 6, 4 4, 2, 6 4, 6, 2 6, 2, 4 6, 4, 2, kojima je zajednička pripadnost njihovih članova skupu A, a

razlikuju se u poretku tih članova. U prvom je nizu prvi član broj 2, drugi član broj 4, a treći član broj 6, što simbolički možemo pisati ovako: a1 = 2, a2 = 4, a3 = 6, odnosno a(1) = 2, a(2) = 4, a(3) = 6

Dakle, navedeni niz možemo shvatiti kao pridruživanje koje brojevima iz konačnog podskupa 1, 2, 3 skupa prirodnih brojeva pridružuje elemente skupa A.

Budući da je svaki član razmatranog niza funkcija svog rednog broja (indeksa), niz brojeva 2, 4, 6 možemo smatrati vrijednostima

15 http://www.alkascript.hr/index.php/katalog-proizvoda/srednje-skole/trgovacka-skola?format=raw&task=download&fid=200

Obilježje X

i

Broj jedinica modaliteta obilježja f

i

Distribucija frekvencija

X1 f

1 (X

1, f

1)

X2 f

2 (X

2, f

2)

... ... ...

Xk f

k (X

k, f

k)

∑ ∑fi=N

Modaliteti obilježja

Page 71: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

71

funkcije, a kojoj je domena skup 1, 2, 3. U drugom nizu prvi član je broj 2, drugi član je broj 6, a treći član je broj 4, što simbolički pišemo: a1 = 2, a2 = 6, a3 = 4, odnosno a(1) = 2, a(2) = 6, a(3) = 4.

Konačnim nizom u skupu A nazivamo funkciju,

a : 1, 2, …, k A

gdje je A proizvoljan skup. Ako je A R, riječ je o konačnom nizu realnih brojeva od k elemenata:

a1 , a2 , a3 , …, ak

gdje je. an = a(n), n1, 2, …, k. Pritom je anopšti član niza.

R, riječ je o konačnom nizu realnih brojeva gdje je AR proizvoljan skup. Ako je A od k elemenata: a1 , a2 , a3 , …, ak , gdje je an

1, 2, …, k. Pritom je an opšti član niza.= a(n), n

Numeričko kontinuirano obilježje

Obuhvata ona numerička obilježja koja se mogu izraziti i cijelim i decimalnim brojem (kilogrami, centimetri, litre, godine starosti, itd.)

Osnovne karkteristike kontinuirane varijable su:

kontinuirana varijabla poprima vrijednosti iz nekog intervala,

vrijednosti kontinuirane varijable grupiraju se na temelju razreda:

• donja (L1i) granica razreda

• gornja (L2i) granica razreda

Određivanje granica razreda

i-ti razred je dan izrazom:

kiLXL iii ,...,2,121 sa apsolutnom frekvencijom fi

Distribucija frekvencija kontinuirane numeričke varijable je

skup parova razreda i pridruženih frekvencija (L1i Xi< L2i, fi), i

= 1, 2, ..., k alternativno: (L1i< Xi L2i, fi), i = 1, 2 ,..., k

Page 72: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

72

Sturgesovo pravilo

Za određivanje broja razreda koristi se sturgesovo pravilo. Ono služi za određivanje broja razreda k, za grupisanje N podataka u k numeričkih grupa.Sturgesovo pravilo koje glasi:

k – broj razreda

k ≈ 1 + 3.3 log N

N = ∑fi (opseg skupa)

Uobičajeni broj k numeričkih grupa kreće se od 5 do 15 (maximalno 25).

Ako su razredi jednaki, širina im se aproksimativno određuje diobom raspona varijacija i broja razreda.

k

RV

k

XXX

minmax

Numeričko diskontinuirano obilježje

Numerički diskontinuirani niz nastaje uređenjem podataka prema numeričkom diskontinuiranom (diskretnom) obilježju. Numeričko diskontinuirano obilježje je svako ono numeričko obilježje koje se može izraziti samo cijelim brojem (broj članova porodici, broj traktora poljoprivrednog gazdinstva, broj zaposlenih djelatnika jednoga preduzeća, itd.).

Kod diskontinuiranih numeričkih nizova koji su grupisani u razrede (grupisanje se obavlja kao kod kontinuiranih numeričkih nizova) donja granica (i+1) razreda i i-tog razreda su međusobno različite.

Vrste granice razreda i njihova primjena

Nominalne granice su one koje su zadane, odnosno, zabilježene popisom. Koriste se pri analiziranju diskontinuiranih numeričkih nizova za sva potrebna izračunjavanja.

Prave granice se kreiraju samo za potrebe analize kontinuiranog numeričkog niza. Nakon što se jednom konstruiraju, na temelju njih se dalje obavljaju sva izračunavanja i crtanja kontinuiranoga numeričkoga niza. Dakle, prave granice razreda se koriste za:

izračunavanja parametara kontinuiranog numeričkog niza

crtanja kontinuiranog numeričkog niza

Page 73: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

73

precizne granice je potrebno konstruirati samo kada se želi grafički prikazati diskontinuirani numerički niz. One ne služe ni za kakva računanja bilo kojega niza.

Primjer:

Kontinuirano obilježje - prave granice - brojčana vrijednost L1i+1 razreda jednaka je gornjoj granici L2i (prethodnog razreda).

Tabela III/3: Kontinuirano obilježje

cm (X) Prave granice razreda

i Xi

150-159 150-160 10 155

160-169 160-170 10 165

170-179 170-180 10 175

? ?

Primjer :

Precizne granice razreda – diskontinuirano numeričko obilježje

Tabela III/4: Diskontinuirano numeričko obilježje

Broj djece (X)

Precizne granice

i Xi

0 0-0,5 1 0

1 0,5-1,5 1 1

2-3 1,5-3,5 2 2,5

4-8 3,5-8,5 5 6

Page 74: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

74

2. Srednje vrijednosti numerickih nizova (mjere centralne tendencije)

Za kvalitativnaobilježja najbolji rezultat če datitablični ili grafički prikaz podataka. Za kvantitativna obilježja se uvode posebni numericki pokazatelji - tzv. srednje vrijednosti.

Srednja vrijednost16je realna konstanta kojom se predstavlja niz varijabilnih podataka i čiji je cilj na što reprezentativniji način predočiti niz varijabilnih podataka numerickog niza. Središnja vrijednost oko koje se gomilaju podaci predstavlja mjeru centralne tendencije.

U pravilu je riječo vrijednosti oko kojese ''gomila'' većina podataka numeričkog niza, pa se iz tog razloga naziva i mjera središnje (centralne)tendencije. Što je više podataka ''nagomilano'' oko pojedine srednje vrijednosti, njena reprezentativnost će biti bolja.

U svakodnevnom životu se često koriste izrazi, prosječno, tipično ili srednje. Međutim, određivanje prosjeka neke pojave na osnovu utiska koje pojedinac ili grupa stiču o nekoj pojavi, je subjektivno i neprecizno. Objektivnu ocjenu prosjeka pojave dobijamo tek statističkom obradom numeričkih vrijednosti kojima je pojava izražena.

U statističkom smislu prosjek, srednja vrijednost, mjera koncentracije odnosno mjera centralne tendencije je jedan broj, jedna vrijednost koja kao reprezntativna zmjenjuje sve druge vrijednosti obilježja. Srednja vrijednost sintetizuje i predstavlja sve vrijednosti jedinica posmatranja u ispitivanom obilježju. Ona uprošćava i uopštava opis statističkog skupa čime se omogućava lakše uočavanje onog što je tipično i dominantno u varijabilnosti vrijednosti jedinica posmatranja.

Srednja vrijednost se može određivati različitim metodama. Izbor metoda određivanja srednje vrijednosti zavisi od toga koja će metoda pružiti najreprezentativniju srednju vrijednost obilježja, s obzirom na prirodu pojave i svrhu proučavanja.

Sve srednje vrijednosti su apsolutne mjere centralne tendencije, tj. izražene su istim mjernim jedinicama kao i jedinice posmatranja statističkog skupa.

16U svakodnevnom se životu pojam srednje vrijednosti vrlo cesto pogrešno zamjenjuje s pojmom prosjeka, odnosno prosjecne vrijednosti. Pod pojmom prosjek zapravo se podrazumijeva aritmeticka sredina.

Page 75: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

75

Srednje vrijednosti mogu se klasifikovati na sljedeći način:

1) potpune srednje vrijednosti

aritmetička sredina - (A.S.),

aritmetička sredina relativnih brojeva strukture –

aritmetička sredina relativnih brojeva koordinacije –

harmonijska sredina - H

geometrijska sredina - G

aritmetička sredina aritmetičkih sredina

2) položajne srednje vrijednosti

medijan – M (ordinalni niz)

mod – Mo (nominalni niz, ordinalni niz)

3) specifične srednje vrijednosti

momenti distribucije frekvencija

Nepostoji ''univerzalna'' srednja vrijednost koja ce dovoljno reprezentativno opisati bilo kojinumericki niz podataka. U praksi se ovo pravilo često zanemaruje, pa se za''univerzalnu'' srednju vrijednostuzima aritmetička sredina.

U računanju pojedine srednje vrijednosti mogu se pojaviti svi članovi numeričkog niza ilisamo dio tih članova.

Srednja vrednost omogućuje da se iz promjenljivih vrijednosti (varijabilnosti) pojava otkrije u njima ono što je bitno i tipično.

Kako bi srednja vrednost imala značaj reprezentativne i tipične vrijednosti neophodno je da se određuje iz homogenog statističkog

skupa (homogeni skup je se skup istovrsnih jedinica posmatranja).

U slučaju da je skup heterogen, odnosno sastavljen od različitih jedinica, potrebno je prije svega izvršiti podjelu skupa u homogene dijelove, a nakon toga odrediti srednje vrijednosti za svaki od tih dijelova

Srednje vrednosti imaju nekoliko karakteristika:

neophodnost zavisnosti srednje vrednosti od svih vrijednosti obilježja x u ukupnom statističkom skupu;

srednja vrijednost mora biti manja od najveće, a veća od najmanje vrijednosti obilejżja;

srednja vrijednost jednaka je vrijednosti posmatranog obiljeżja u slučaju kada su medusobno jednake sve

Page 76: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

76

vrijednosti obilježja koje se posmatra u okviru jednog skupa.

Analiza distribucije frekvencija započinje izračunavanjem srednjih vrijednosti, odnosno mjera centralne tendencije. Navedeno podrazumijeva izučavanje grupisanja manjih frekvencija oko najveće frekvencije distribucije frekvencija, kao centra distribucije frekvencija.

Dijagram III/1: Distribucija frekvencija

2.1. Potpune srednje vrijednosti

2.1.1. Aritmetička sredina (AS)

Aritmetička sredina predstavlja mjeru srednjih vrijednosti. Predstavlja sumu svih rezultata na nekoj varijabli podijeljena sa brojem tih rezultata. Ona se još naziva i prosječna vrijednost.Kako bi se izračunala aritmetička sredina moraju biti ispunjena dva uslova:17

Rezultati izvršenih mjerenja moraju biti dati u vidu intervalne ili racio skale;

Mora postojati pretpostavka o normalnom rasporedu rezultata izvršenih mjerenja u skupu (uzorku).

Aritmetička sredina se brzo shvata, jednostavno izračunava i lako kontroliše, zbog čega senajčešće primjenjuje u statističkim

istraživanjima. Obilježava se simbolom

x . Dobija se tako što se saberu sve vrijednosti jedinica posmatranja ispitivanog obilježja pa se dobijeni zbir podijeli sa ukupnim brojem jedinica posmatranja. Matematički

17Turjačanin, V., CeNrlija, D., 2006. Osnovne statistićke metode i tehnike u SPSS-u, Centar za kulturni i socijalni popravak, Banja Luka, str. 70.

Page 77: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

77

izrazi za izračunavanje aritmetičke sredine zavise od vrste i forme podataka.

Vrste aritmetičkih sredina

Zavisno o tome, da li je statistički niz grupisan u razrede, ili nije, postoje različite vrste aritmetickih sredina:

jednostavna aritmetička sredina (za negrupisani niz podataka), (1)

ponderirana aritmetička sredina (za distribuciju frekvencija). (2)

(1) Aritmetička sredina za negrupisane vrijednosti jedinica posmatranja(jednostavna aritmetička sredina)

Najpoznatija i najraširenija je jednostavna aritmeticka sredina. Za njezino izračunavanje potrebno je zadati konačan niz negrupisanih numerickih podataka x1, x2, …, xn. Tada se jednostavna aritmeticka sredina racuna pomocu formule:

Aritmetička sredina za individualne, negrupisane vrijednosti jedinica posmatranja izračunava se preko sljedećeg izraza:

N

x

x

Ni

i

i

1

U ovom izrazu:

x (iks bar) označava aritmetičku sredinu;

( sigma) je simbol za zbir odnosno sumu (sumiranje se vrši

od i=1 do i=N jedinica posmatranja);

ix predstavlja pojedinačne vrijednosti (od prve do posljednje)

jedinica posmatranja ispitivanog obilježja;

N ukupan broj jedinica posmatranja.

Page 78: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

78

Primjer 1.

Za 20 zaposlenih poduzeća X prikupljeni su podaci o godinama starosti i uređeni po veličini. Oni su iznosili:

19 19 20 20 20 21 22 24 24 25 25 25 28 30 36 36 41 45 53 60

Total iznosi: 19 + 19 + 20 + 20 + 20 + ... + 60= 593 godine (ukupni broj navršenih godina starosti svih 20 radnika)

Aritmetička sredina (AS), tj. prosječna starost radnika iznosi

x

=

=29.65 godina

Primjer 2. Vrijeme krvarenja 5 bolesnika sa trombocitopenijom esencijalis

iznosi 4' - 8' - 6' - 10' - 4'. Izračunati aritmetičku sredinu vremena krvarenja ovih bolesnika.

Rješenje:

'40,65

32

5

410684

xx

Primjer 3.18 Zadan je numericki niz Smiljkovih mjesečnih neto–plata

(iskazanih u KM) uprošloj godini: 1.810,25; 1.810,25; 1.810.25; 1.850,5; 1.850,5; 1.850,5; 1.862,4;

1.862,4; 1.862,4; 1.875,8; 1.875,8; 1.875,8 Izračunajmo Smiljkovu prosječnu mjesecnu neto-platu u prošloj

godini:

Dakle, Smiljkova prosjecna mjesecna neto–placa u prošloj (2007.)

godini iznosi približno 1.849,74 KM. Upotrebljujavajući ovakvu rečenicu

18Bojan Kovacic.(2007).Poslovna statistika. Elektrotehnicki odjel. Sveiučilište u Zagebu

Page 79: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

79

mi niz od ukupno 12 numeričkih vrijednosti zamjenjujemo jednom jedinom vrijednošcu: 1.849,74 KM. Zbog toga se prirodno postavlja pitanje ''uspješnosti'' takve zamjene, odnosno, preciznije, opisuje li dobijena vrijednost dovoljno dobro niz podataka kojega zamjenjuje. Odgovor ćemo moci djelomično dati nakon iskazivanja opštih svojstava bilo koje aritmetičke sredine, a potpuno nakon definisanja mjera raspršenja (disperzije) u sljedecem poglavlju.

Primjer 4: Izračunavanje aritmetičke sredine na osnovu negrupisanih

podataka Dat je pregled broja stanovnika u Republici Srbiji po godinama:19 1948. godine 6,527.583 stanovnika, 1953. godine 6,978.119

stanovnika, 1961. godine 7,641.962 stanovnika, 1971. godine 8,446.726

stanovnika, 1981. godine 9,313.686 stanovnika, 1991. godine 7,822.795

stanovnika, 2002. godine 7,498.001 stanovnika i 2011. godine 7,186.862

stanovnika. Izračunajte prosječan broj stanovnika

Rješenje:

gde je m – aritmetičNa sredina uzorNa, x – posmatrano obeležje, a n - veličina uzorka.

Rješenje:

Odgovor: Prosječan broj stanovnika u Republici Srbiji za posmatrani period iznosi 7,676.967 stanovnika.

19Uporedni pregled broja stanovnika 1948, 1953, 1961, 1971, 1981, 1991, 2002 i 2011. godine, dostupno na: http://popis2011.stat.rs/?page id=2162, [09.02.2016. u 18:00]

Page 80: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

80

Primjer 5: Na kraju 1. polugodišta Marina je iz prirode imala ocjene 4, 3, 5, 4, 3, 4, 4. a) Koliki je prosjek njezinih ocjena? Zbrojimo sve ocjene: 4 + 3 + 5 + 4 + 3 + 4 + 4 = 27 Podijelimo s brojem koliko tih ocjena ima: 27 : 7 ≈ 3.86 Prosjek Marininih ocjena je 3.86 . b) Kolika je aritmetička sredina njezinih ocjena? 86.3 7 4 3 5 4 3 4 4 ≈ + + + + + + Aritmetička sredina je isto što i prosjek, dakle 3.86 . c) Kolika je srednja vrijednost Marininih ocjena? Također 3.86 .

Aritmetička sredina je isto što i prosjek, dakle 3.86 . c) Kolika je srednja vrijednost Marininih ocjena? Također 3.86 .

c) Kolika je srednja vrijednost Marininih ocjena?

Također 3.86 .

Primjer 6. Neka su izmjerene vrijednosti jedne varijable sljedece:

1:2; 2:1; 3:2; 4:3; 5:4; 6:5; 7:6; 8:7; 9:8:

S obzirom da ih ima ukupno devet, aritmeticka sredina ovog skupa izmjerenih vrijednosti je

Primjer: Blagajnička traka u prodavaonici prehrambenih proizvoda sa slijedećim iznosima

X: 107,86 42,78 25,63 73,21 98,76 152,38 38,96 67,13 109,76 54,33

N=10

08,775

32

10

8,770

xx

Σx=770,8

Tumačenje: Prosječni dnevni račun prodaje iznosi 77,08 KM (najmanji račun iznosi 25,63, najveći 152,38, aritmetička sredina je između tih vrijednosti).

Page 81: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

81

(2) Aritmetička sredina za grupisane vrijednosti jedinica posmatranja

Aritmetička sredina za grupisane vrijednosti jedinica posmatranja izračunava se preko izraza:

ks

s

s

ks

s

ss

f

xf

x

1

1

'

gdje je:

fs -frekvencija grupe ili grupnog intervala vrijednosti obilježja,

'

sx - označena je sredina pojedinog grupnog interval,

Nf s

- suma frekvencija grupnih intervala koja je jednaka je ukupnom broju jedinica posmatranja N.

Sumiranje se vrši po članovima grupnog intervala od s=1 do s=k). Prema tome aritmetička sredina grupisanih podataka dobija se kao količnik sume proizvoda vrijednosti obilježja i odgovarajućih frekvencija i sume frekvencija.

Aritmetička sredina izračunata po svom matičnom izrazu naziva se često uravnotežena tj. ponderisana jer pokazuje da su pojedine vrijednosti obilježja uzete u račun prema njihovoj težini ili ponderu, tj. prema relativnoj važnosti koju određuju njihove frekvencije.

Primjer 7. Zadana je podjela svih studenata 1. godine studija prema broju položenih jednosemestralnih ispita:

Page 82: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

82

Tabela: III/5: Podjela svih studenata 1. godine studija prema broju položenih jednosemestralnih ispita

Izvor: studentska služba Više uzaludne škole u Špickovini

Navedena tabela zapravo zamjenjuje niz od 100 numerickih podataka koji se sastoji od 7 nula, 12 jedinica, 17 dvojki, 25 trojki, 21 četvorke i 18 petica. Budući da nam je bitno lakše umjesto ukupno 99 operacija zbrajanja izvršiti 6 operacija množenja i 4 operacije zbrajanja,

prosjecčan broj položenih jednosemestralnih ispita računamo kao vaganu (ponderisanu) aritmetičku sredinu:

Dobijeni rezultat obično interpretiramo ovako: Prosječan broj položenih jednosemestralnihkolegija po jednom studentu približno iznosi 3.61

Cesto se kaže da u izrazima ovoga oblika apsolutne frekvencije imaju ulogu pondera ili težine pojedinoga modaliteta, pa otuda i naziv odgovarajuce aritmeticke sredine.

Primjer 8:

Promatrano je 100 vozača koji su vozili automobil 5 godina. Proučavanjem učestalosti prometnih nezgoda tih vozača dobivena je sljedeća tabela:

Page 83: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

83

Tabela: III/6: Učestalosti prometnih nezgoda

Broj prometnih nezgoda

Broj vozača

0 1 2 3 4 – (7)

20 40 25 9 6

Izračunajmo prosječan broj prometnih nezgoda po jednom vozaču.

Tabela: III/7: Učestalosti prometnih nezgoda – razredne sredine

Broj prometnih nezgoda

Broj vozača fi

Razredne sredine xi

fi· xi

0 1 2 3 4 – (7)

20 40 25 9 6

0 1 2 3 5.5

0 40 50 27 33

100

150

Prosječan broj prometnih nezgoda po jednom vozaču iznosi 1.5

Učenici srednje ekonomske škole u gradu S, razred d, šk.god.2003/2004.

Page 84: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

84

Tabela: III/8: Učestalost završnih ocjena

Izvor: Podaci su simulirani

Distribucija frekvencije s razredima

Ovdje aritmetičku sredinu računamo kao vaganu aritmetičku sredinu u kojoj su ponderifrekvencije ili relativne frekvencije, a vrijednosti obilježja u razredima dane su razrednimsredinama.

Primjer: distribucija frekvencije s razredima – neprekidno numeričko obilježje ( razredinisu jednakih veličina)

Zaposlene žene u građevinarstvu u RH 31.03.2002.

Page 85: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

85

Tabela: III/9: Distribucija frekvencije s razredima

Izvor: Statistički ljetopis RH, 2003. god., str.142

Kod distribucije frekvencije s razredima gdje veličina razreda je

različita od 1 , izračunataaritmetička sredina je procjena ( za xi uzeta je razredna sredina ).

Tumačenje: Prosječna starost žena zaposlenih u građevinarstvu RH je 39,55 godina.

Ako se umjesto apsolutnih, zadane relativne frekvencije dobit ćemo jednak rezultat.

Page 86: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

86

Svojstva aritmetičke sredine

Tačnost izračunavanja aritmetičke sredine može se kontrolisati na osnovu njenih specifičnih osobina. Ove osobine se odnose na odstupanje individualnih vrijednosti jedinica posmatranja od aritmetičke sredine obilježja.

1. Prvo svojstvo aritmetičke sredine

Algebarski zbroj odstupanja originalnih vrijednosti numeričkog obilježja od aritmetičke sredine jednak je nuli.

Σ (xi - ) = 0; Σ fi(xi - ) = 0;

Zbir pozitivnih odstupanja jednak je zbiru negativnih odstupanja od aritmetičke sredine. Pozitivna i negativna odstupanja javljaju se zbog toga što se aritmetička sredina nalazi u intervalu između minimalne i maksimalne vrijednosti jedinica posmatranja. "Težina" vrijednosti jedinica posmatranja jednog obilježja (koje se ogleda u odstupanju od aritmetičke sredine obilježja) iznad i ispod aritmetičke sredine uvijek ima istu vrijednost.

Primjer: Dokazivanje prvog svojstva aritmetičke sredine

Tabela: III/10: Prvo svojstvo aritmetičke sredine

Prosječan broj djece u porodici je 3 djece.

Page 87: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

87

2. Drugo svojstvo aritmetičke sredine

Zbir kvadrata odstupanja originalnih vrijednosti numeričkog obilježja od aritmetičke sredine jednak je minimumu. Σ( xi -)2 = minimum

Tabela: III/11: Drugo svojstvo aritmetičke sredine

Prosječan broj djece u porodici je 3 djece.

3. Treće svojstvo aritmetičke sredine

Aritmetička sredina uvijek se nalazi između najmanje i najveće vrijednosti numeričkog obilježja varijable Xi

4. Četvrto svojstvo aritmetičke sredine

Ako je vrijednost numeričke varijable Xi jednaka konstanti C, aritmetička sredina te varijable jednaka je konstanti C.

5. Peto svojstvo aritmetičke sredine

Aritmetička sredina je sklona ekstremima

Page 88: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

88

Rezime

Svojstva aritmetičke sredine su:

1. (xi-X) = 0, fi(xi-X) = 0

Zbir odstupanja individualnih vrijednosti obilježja od aritmetičke sredine jednak je nuli.

2. x1=x2=x3=x4=…=xn=X

Aritmetička sredina je jednaka vrijednostima obilježja u slučaju kada su one jednake.

3. xi<X<xn

Aritmetička sredina je veća od najmanje i manja od najveće vrijednosti obilježja

4. (xi-X)2< (xi-xo)2

Zbir kvadrata odstupanja aritmetičke sredine od pojedinih vrijednosti obilježja manji je od zbira kvadrata odstupanja bilo koje vrijednosti obilježja od vrijednosti ostalih obilježja.

5. y=bo-b1x

Xy=bo-b1X

Ako su dva obilježja linearno vezana, onda su i njihove aritmetičke sredine vezane linearnom funkcijom.

Prednosti i nedostaci aritmetičke sredine

Aritmetička sredina ima svoje prednosti I nedostatke:20

Primjena aritmetičke sredine ima sljedeće prednosti:

Postupak obračuna aritmetičke sredine je jednostavan i jedinstven zbog toga što bilo koji skup podataka može imati samo jednu vrijednost aritmetičke sredine.

Aritmetička sredina se računa na osnovu svih vrijednosti obiljeżja, što podrazumijeva da ni jedna vrijednost nije izostavljena.

Veličina uzorka nema uticaja na vrijednost aritmetičke sredine. Ovo podrazumijeva da u slučaju kada imamo viśe uzoraka izvučenih iz jedne populacije podataka varijacije u veličini aritmetičkih sredina različitih uzoraka biće manje.

20Bary, G. C. 2010. Business statistics, 3rd Edition, Tata McGraw-Hill Education, New

Delhi, pp. 91.

Page 89: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

89

Može se izraziti primjenom algebarskog postupka.

Aritmetička sredina se koristi i kod međusobnog uporedivanja nekoliko serija podataka.

Primjena aritmetičke sredine ima sljedeće nedostatke:

U nekim slučajevima, sritmetička sredina se ne može izračunati. U slučaju kada je distribucija frekvencija data sa otvorenim intervalima na početku ili na kraju, ili nejednakim klasama, aritmetička sredina može biti neprecizna.

U slučaju da statistički skup sadrži ekstremne vrijednosti, aritmetička sredina nije više adekvatna mjera centralne tendencije tok skupa.

Ako je potrebno izračunati aritmetičku sredinu veoma velikog skupa podataka, nailazi se na problem obuhvata svake vrijednosti obilježja. Ovaj problem se rješava grupisanjem podataka u manje uzorke, na osnovu čega se aproksimativno određuje aritmetička sredina populacije.

Aritmetićka sredina skupa izračunava se kao količnik zbira svih vrijednosti obilježja i ukupnog broja vrijednosti posmatranog obilježja.

Aritmetička sredina aritmetičkih sredina

Aritmetička sredina aritmetičkih sredina izračunava se preko sljedećeg matematičkog izraza:

ki

i

i

ki

i

ii

a

xa

X

1

1

U ovom izrazu X (iks dva bar) označava aritmetičku sredinu

aritmetičkih sredina, a

ki

i

ia1

ukupan zbir jedinica posmatranja svih

grupa iz kojih su izračunate pojedinačne aritmetičke sredine.

Iz ovog izraza je vidljivo da se aritmetička sredina aritmetičkih sredina dobija tako da se zbir proizvoda pojedinačnih aritmetičkih sredina i broja jedinica posmatranja iz kojih su one izračunate podijele sa ukupnim brojem jedinica posmatranja.

Page 90: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

90

Primjer 1.

U eksperimentu za utvrđivanje najniže frekvencije vibracija zvučnog talasa koje čovjek može da osjeti kao ton učestvovale su tri osobe. Prosječna vrijednost prvog ispitanika dobijena iz četiri pokušaja iznosi 12,5 cikla u sekundi. Prosječna vrijednost drugog ispitanika dobijena iz tri pokušaja iznosi 15,67 cikla u sekundi. Kod trećeg ispitanika prosječna vrijednost dobijena iz dva pokušaja iznosi 11,5 cikla u sekundi. Kolika je prosječna vrijedost frekvencija vibracija zvučnog talasa dobijena u ovom eksperimentu?

1333,139

01,120

234

5,11*267,15*35,12*4

X

Zašto nije dobro računati ovako?

22,133

67,39

3

5,1167,155,12

X

Ovakav način je dozvoljen samo ako u svakoj grupi ima isti broj jedinica posmatranja. Pri izračunavanju ove aritmetičke sredine moramo voditi računa o bazi, tj. o broju jedinica posmatranja na osnovu koga su izračunate elementarne aritmetičke sredine. Ukoliko grupe imaju različit broj podataka izračunavanje se vrši preko datog matematičkog izraza. Međutim, da je broj jedinica posmatranja bio isti u svakoj grupi iz koje se izračunava prosta aritmetička sredina bilo bi dozvoljeno da se aritmetička sredina izračunava kao količnik zbira elementarnih aritmetičkih sredina i njihovog broja.

Aritmetička sredina relativnih brojeva

Ako relativni broj obilježimo sa P (s obzirom da se najčešće izražava u procentima) matematički izraz za izračunavanje aritmetičke sredine relativnih brojeva imaće oblik:

ki

i

i

ki

i

ii

a

Pa

P

1

1

Page 91: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

91

Kao i kod aritmetičke sredine aritmetičkih sredina i pri izračunavanju aritmetičke sredine relativnog broja mora se voditi računa o veličini baze na osnovu koje je on izračunat.

Ovdje samo možemo podvući da se aritmetička sredina relativnih brojeva ne može izračunati ako se ne poznaju apsolutni brojevi iz kojih su oni izračunati.

Primjer 1

Izračunati procenat petogodišnjeg preživljavanja 200 bolesnika sa tumorom bubrežnog parenhima ako je data sljedeća distribucija frekvencija po stadijumu anatomskog razvoja tumora.

Tabela: III/12: Distribucija frekvencija po stadijumu anatomskog razvoja tumora

Stadijum razvoja tumora

Broj oboljelih Procenat

preživjelih

I 18 78%

II 51 61%

III 123 18%

IV 8 0%

ki

i

i

ki

i

ii

a

Pa

P

1

1

%3464,33200

6729

81235118

0*818*12361*5178*18

P

P

Ne smije se računati ovako:

25,394

157

4

0186178

P

Page 92: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

92

Ukupno petogodišnje preživljavanje iznosi 34%, a ne 39% koliko bi se dobilo da je izračunata prosta aritmetička sredina (78+61+18+0)/4=39,25%, tj. da je zanemarena veličina grupe na osnovu koje je izračunat procenat.

2.1.2. Geometrijska sredina

Geometrijska sredina se koristi za izračunavanje serije podataka koja ima ubrzan rast. To je izračunata srednja vrijednost koja uprosjećuje relativne ili proporcionalne promjene između vrijednosti podataka posmatrane pojave

Geometrijska sredina je manja od aritmetičke sredine iste serije, osim u slučaju kada su sve vrijednosti serije međusobno jednake. Ne primjenjuje se ako je bar jedan od elemenata u seriji jednak nuli. Prednost je što se može koristiti za utvrđivanje tempa dinamike, srednjeg tempa razvoja posmatrane pojave.

Primjena: prirodni priraštaj stanovništva, ekonomska ulaganja, kamate, sport…

Ako je x1, x2, …, xn konacan numerički niz takav da za svaki i = 1, 2, …, n vrijedi xi > 0.

Geometrijska sredina (oznaka: G) je srednja vrijednost koja se dobije kao n-ti korijen iz

proizvoda svih clanova niza.

Za negrupisane podatke geometrijsku sredinu racunamo prema formuli:

Primjer 1. Geometrijska sredina niza 1, 2, 3, 4, 5 jednaka je

Ako pretpostavimo da su podaci grupisani, tj. da imamo ukupno n razlicitih modaliteta x1, x2,

…, xn. Za svaki i = 1, 2, …, n oznacimo s fi apsolutnu frekvenciju modaliteta xi. Tada je

ponderirana(vagana) geometrijska sredina izračunata iz grupisanih podataka dana izrazom

Page 93: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

93

Primjer. Zadana je podjela studenata 1. godine stručnog studija računovodstva i financijaprema broju članova domaćinstva u kojem žive.

Tabela: III/13: Geometrijska sredina

Geometrijska sredina zadane podjele jednaka je

U posmatranim primjerima osnovni je problem bio što se dobijeni rezultat nije mogao uobicajeno interpretirati. Drugim rijecima, mogli smo reći da je prosječna vrijednost svihclanova niza u Primjeru 1. približno jednaka 2.6, a prosječan broj članova domaćinstvapojednom studentu iz Primjera 2. približno jednak 3, ali ne bismo interpretacije uobičajeno shvatali kao interpretacije aritmeticke sredine zbog većistaknutoga uobičajenoga poistovjećivanja pojma prosjek sa aritmetickom sredinom. Stoga se namece pitanje u kojimsituacijama geometrijsku sredinu možemo tocno interpretirati kao prosjecnu vrijednost nekepojave. Tipicna takva situacija je racunanje prosjecne promjene cijena u nekom promatranom razdoblju. Tačnije, posmatramo sljedeci opšti problem:21

Problem: Neka se pojava (npr. cijena, mjesečna plata, broj stanovnika) tokom razdoblja odukupno nvremenskih jedinica promijenila ukupno mputa. Označimo te promjene s p1, p2, …,pm i pretpostavimo da su iskazane u procentima. Odredimo prosječnu promjenu pposmatranepojave u jednoj vremenskoj jedinici.

21Kovacic, Bojan.(2007).Poslovna statistika. Elektrotehnicki odjel. Sveiučilište u Zagebu, str. 76.

Page 94: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

94

Odgovor: Neka jeCo početna vrijednost pojave, a Cnnjena vrijednost na kraju razdoblja odnvremenskih jedinica. Koristeci formulu za sukcesivnu promjenu osnovne svote dobijamoda istodobno moraju vrijediti sljedeće jednakosti:

Lijeve strane tih jednakosti su jednake, pa takve moraju biti i desne strane. Njihovimizjednačavanjem i sređivanjem dobijenoga izraza dobija se

U slucaju kad je ukupan broj promjena (m) jednak ukupnom broju razdoblja (n) gornjujednakost možemo zapisati u obliku

pa je u takvim slučajevima prosječna promjena pojave u jedinici vremena jednaka razlici

geometrijske sredine niza 100 + p1, 100 + p2, …, 100 + pn i broja 100.

Primjer22

Osoba A uložila je 1. Januara 2001. godine 1.000,00 KM u XY investicijski fond i stanje na računu 1. januara pojedine godine izgleda kako je prikazano u tabeliispod.

22 https://bib.irb.hr/datoteka/931011.Srednje_vrijednosti_u_svakodnevnom_ivotu_-_strucni_rad.pdf

Page 95: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

95

Tabela III/14: Stanje na računu po godinama

Tabela: Stanje na računu po godinama

Koliki je prosječni prinos fonda izražen u postotcima? Prvo ćemo izračunati prinose izražene u postotcima (stopama) p za svaku pojedinu godinu, kao i pojedine kamatne faktore promjene r. Kako je ulog od 1.000,00 KM nakon 1 godine povećan na 1.075,00 KM iznos prinosa je

1.075,00 KM1.000,00 KM 75,00 KM , a postotak prinosa je

U drugoj godini iznos od 1.075,00 KM narastao je na 1.183,58 kn,

pa je iznos prinosa 1.183,58 KM 1.075,00 KM108,58 KM ili izraženo u procentima

Tako računamo procent za sve navedene godine.

Kamatni faktor prinosa možemo izračunati na dva načina:

ili

Dakle ili

Na takav način možemo izračunati sve preostale kamatne faktore. Dobili smo tablicu 4 s prikazom postotaka i faktora prinosa za sve navedene godine.

Page 96: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

96

Tabela III/15: Stanje na računu – postotak i kamatni faktor

Imamo dva problema:

1. Šta bi predstavljala prosječna stopa prinosa, odnosno šta bi bila njena interpretacija?

2. Kako izračunati prosječnu stopu prinosa?

Odgovora na 1. problem: Prosječna stopa bi trebala imati sljedeće svojstvo: uloženih 1.000,00 KM bi uz takvu konstantnu prosječnu stopu nakon 5 godina trebali narasti na 1.425,35 KM.

Što se tiče drugog problema možemo se upitati sljedeće: Je li prosječni prinos aritmetička sredina svih procenata prinosa ili faktora prinosa? Ili je možda geometrijska sredina procenata, ili pak faktora prinosa? Izračunat ćemo sve 4 prosječne vrijednosti.

Aritmetičku sredinu postotaka izračunat ćemo kao omjer zbroja svih postotaka i njihovog broja

. Iz dobivenje aritmetičke sredine procenta prinosa računamo prosječan kamatni faktor prinosa

.

Analogno računamo aritmetičku sredinu kamatnog faktora prinosa . Dobijemo iznos

, pa je odgovarajući

postotak promjene . Možemo primijetiti da su u oba izračunata slučaja prosječne stope i kamatni faktori prinosa jednaki.

Page 97: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

97

Računamo i geometrijsku sredinu svih postotaka prinosa

, a odgovarajući kamatni faktor

promjene iznosi .

Analogno računamo prosječni kamatni faktor prinosa i dobijemo

te odgovarajući

prosječni postotak

Vrijednosti aritmetičkih i geometrijskih sredina postotaka i faktora prinosa dane su u tabeli ispod:

Tabela III/16: Vrijednosti aritmetičkih i geometrijskih sredina

Provjerit ćemo uz koju od ove 3 različite stope bi vrijednost od 1000 KM nakon 5 godina narasla na 1.425,35 KM.

Tabela III/17: Posječnu stopu promjene

Kako možemo primijetiti, jedino uz prosječnu stopu promjene p=7,34562%, odnosno r=1,0734562 uloženih 1.000,00 KM naraste na 1.425,35 KM, pa možemo zaključiti da se prosječna stopa promjene dobije kao geometrijska sredina faktora promjene.

2.1.3. Harmonijska sredina

Harmonijska sredina (H) je recipročna vrijednost aritmetičke sredine recipročnih vrijednosti obilježja. Obrnute (recipročne) vrijednosti su veličine koje se kreću u obrnutom pravcu od kretanja vrijednosti pojave koju odražavaju (povećavaju se smanjenjem, a smanjuju se

Page 98: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

98

povećanjem vrijednosti pojave). Harmonijska sredina nije najprikladnija mjera srednjih vrijednosti kod ekonomskih serija podataka.

Za prostu seriju podataka harmonijsNa sredina obračunava se na sljedeći način:

Jednostavna (prosta) harmonijska sredina –za pojedinačne vrijednosti

H=

N

xi0

1

xi

H – harmonijska sredina xi– vrijednost numeričkog obilježja ( i= 1…n) fi– frekvencija numeričkog obilježja (i=1…n) N – ukupan broj jedinica u nizu

Ponderisana (vagana) harmonijska sredina - za grupisane podatke

H=

fi

fi

xi

Karakteristike harmonijske sredine:

ne koristi se ako se među obilježjima pojavljuju negativni brojevi ili nula.

manja je od geometrijske i aritmetičke sredine tog niza.

Primjena: koristi se za izračunavanje prosječne proizvodnje u jedinici proizvoda, prosječno vrijeme obrtaja kapitala, prosječan rezultat u sportu, prosječna brzina, prosječne cijene, …

2.2. Položajne srednje vrijednosti

2.2.1. Medijana

MedijanaMe označava vrijednost one jedinice skupa koja se u nizu vrijednosti poredanih po veličini nalazi tačno u sredini i dijeli niz vrijednosti na dva jednaka dijela tako da je pola jedinica skupa iznad, a pola ispod medijana.

Ako se u distribuciji nalazi neparan broj rezultata, medijan je središnji rezultat.

Ako se distribucija sastoji od parnog broja rezultata, medijan je jednak prosječnojvrijednosti dva središnja rezultata.

Page 99: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

99

Kako bismo razumjeli i odredili medijan potrebno je prvo poredati izmjerene vrijednosti x1; x2; : : : ; xn varijable X po veličini (u rastucem poretku, tj. od manjeg prema vecem).

Medijana je jedna od mjera centralne tendencije kao i aritmetička sredina, koju karakteriše činjenica da je barem pola podataka manje ili jednako medijani, a istovremeno je barem pola podataka vece ili jednako od medijana.

Način njegova izračunavanja zavisi o tome imamo li neparan ili paran broj podataka.

Ako imamo neparan broj podataka, onda postoji vrijednost koja je nasrednjoj poziciji u uređenom skupu podataka i nju definišemo kaomedijan.Na primjer, ako je skup S = (3, 7, 9, 12, 45), mediana je 9.

Primjer: Neka su izmjerene vrijednosti jedne varijable sljedeće:

1; 2; 5; 6; 5; 1; 2; 7; 2; 2; 3:

Prvo ove vrijednosti poredamo po veličini. Brojevi u skupu moraju biti sortirani uzlazno

1; 1; 2; 2; 2; 2; 3; 5; 5; 6; 7:

S obzirom da ih ima ukupno jedanaest, medijan je vrijednost koja je na šestoj poziciji u takodobijenom nizu, tj. broj 2.

Ako imamo paran broj podataka, onda ne postoji podatak koji je na srednjoj poziciji jer srednju poziciju "zauzimaju" dva podatka. Kako bismo jedinstveno odredili medijan podataka, u ovom slučaju ga definišemo kao broj na polovini tog intervala, tj. kao aritmetičku sredinu ta dva podataka. Na primjer, ako je skupS = (-2, 5, 6, 18), mediana je 5,5

Primjer: Neka su izmjerene vrijednosti jedne varijable sljedeće:

1; 2; 5; 6; 5; 1; 2; 7; 2; 2; 3; 3:

Prvo ove vrijednosti poredamo po veličini:

1; 1; 2; 2; 2; 2; 3; 3; 5; 5; 6; 7:

S obzirom da ih ima dvanaest, "sredinu" čine šesti i sedmi podatak, tj. brojevi 2 i 3. Medijanovog skupa podataka je aritmetička sredina ta dva broja, tj. medijan je (2 + 3)/2 = 2,5.

N neparan broj – Me je vrijednost varijable središnjeg člana uređenog niza

Page 100: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

100

N paran broj – Me je poluzbroj vrijednosti varijable središnjih dvaju članova uređenog niza

Zadatak:

Djeca sa oštećenjem vida postigla su slijedeće rezultate na varijabli "auditivno razumjevanje" (AR):

15 23 27 35 21 28 18 27 21 18 19 23 11 19 37 23

24 31 21 30 32 19 30 28 21 19 15 24 20 20 23 21

Pronaći medijan u distribuciji rezultata, prikazanoj u zadatku.

Rješenje:

- poredati rezultate, na varijabli "AR", po veličini

11 15 15 18 18 19 19 19 19 20 20 21 21 21 21 21

23 23 23 23 24 24 27 27 28 28 30 30 32 32 35 37

- izračunati medijan

Zadatak:

Pronaći medijan u navedenoj distribuciji rezultata.

21 23 23 31 33 35 35 36 39

Rješenje:

M =33

Primjer:

Medijan niza 4, 5, 6, 7, 8 : Me = 6

Medijan niza 4, 5, 6, 7 : Me = 5.5

Medijana ima karakteristiku da je barem pola (50%) podataka manje ili jednako od medijana, dok je istovremeno i barem 50% podataka veće ili jednako njoj. Prema tome, možemo kazati da je medijana je numerička ili ordinalna varijabla, za koju vrijedi da je 50% podataka manje od ili jednako toj vrijednosti i 50% podataka je veće od ili jednako njoj.

Page 101: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

101

Mediana je manje osjetljiva na ekstremne vrijednosti od aritmetičke sredine, što ju čini posebno pogodnom za nepravilne simetrične distribucije

Za distribuciju frekvencija diskretnog numeričkog obilježja koristi se kumulativni niz “manje od” –obično se za Me uzima vrijednost varijable obilježja koje se nalazi na rednom broju N/2

Tabela III/18: Broj pogrešnih odgovora 80 studenata na testu iz statistike

Broj pogrešnih odgovora

Broj studenata

Kumulativni niz “manje od”

0

1

2

3

4

5

6

5

7

15

19

20

10

4

5

12

27

46

66

76

80

80 -

N = 80, pa je medijan obilježje elemenata s rednim brojevima 40 i 41. Prva kumulativna frekvencija, jednaka ili veća od 40, jest četvrta po redu (46). Toj grupi pripadaju i 40. i 41. student s istim brojem pogrešnim odgovora, tj. Me = 3

2.2.2. Mod

Mod je vrijednost iz niza izmjerenih vrijednosti varijable X kojoj pripada najveća frekvencija, tj. izmjerena je najviše puta. Ujedno prestavlja dominantnu vrijednost u nekoj varijabli.

Page 102: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

102

Jedno od osnovnih svojstava moda je da ne mora nužno biti jedinstven. Može se dogoditi da barem dva modaliteta imaju jednake apsolutne frekvencije, a da su apsolutne frekvencije svih ostalih modaliteta strogo manje od njih. U tom smislu, razlikujemo unimodalne podjele(podjela koja ima tačno jedan mod), bimodalnepodjele(podjele koje imaju tačno dva moda) i multimodalne podjele(podjele koje imaju barem tri moda).

Dijagram III/2: Podjela modova

Primjer: Neka su izmjerene vrijednosti jedne varijable sljedeće:

1; 2; 5; 6; 5; 1; 2; 7; 2; 2; 3; 3:

Vidimo da je vrijednost 2 izmjerena najviše puta (četiri puta) pa je 2 mod ovog skupa podataka.

Primjer: Neka su izmjerene sljedeće vrijednosti jedne varijable:

1; 2; 5; 6; 5; 3; 1; 2; 7; 2; 2; 3; 3:

Vidimo da su najviše puta izmjerene dvije vrijednosi,2 i 3 Obe vrijednosti su izmjerene tačno četiri puta.Dakle, mod ovog skupa podataka nije jedinstven. U programskom paketu Statistica za mod ovogskupa izmjerenih vrijednosti pisalo bi mod = multiple. U tom slučaju bi sve vrijednosti modasaznali analizom pripadne tabele frekvencija.

Primjer 4. a) Uredeni niz 1, 2, 2, 3, 3, 4, 5 ima tačno dva moda: 2 i 3. Stoga je taj nizbimodalan.

Page 103: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

103

b) Uređeni niz 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 5, 5 ima tačno tri moda: 1, 2 i 3. Zato je taj nizmultimodalan.

Može se uočiti da modovi dobro opisuju oba navedena niza jer je u svakom od njih više odpolovineelemenata niza jednako nekom od modova.

Kao i sve ostale srednje vrijednosti, modovi se mogu određivati iz negrupisanih i grupisanih podataka.

Sve navedeno samo potvrduje da problem opisa osnovnoga skupa ili statističkog nizanije nimalo jednostavan i da obaveznozahtijeva dodatnu statisticku analizu.

Primjer : Ocjene studenta iz UPM. Glavni problem je da raspodjela ne mora imati mod, ili da ih može imati višse.

Mod se ne može odrediti ako ne postoje bar dvije jednake vrijednosti varijable

Kod distribucije frekvencija diskretne numeričke varijable Mo

je vrijednost numeričke varijable sa najvećom frekvencijom

Primjer. Zaposleni u trgovini i ugostiteljstvu.

Tabela III/19: Frekvencije zaposlenih

Vrsta djelatnosti Broj zaposlenih

Trgovina na malo Trgovina na veliko Ugostiteljska poduzeća Ugostitelji-obrtnici

58361 22934 38279 16545

136119

Maksimalna frekvencija je 58361, pa je u ovom slučaju mod trgovina na malo

Karakteristike moda

Mod ima sljedeće karakteristike :

Mod se može odrediti za svaku vrstu statističkog niza.

Page 104: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

104

Svaki niz podataka ne mora imati mod.

Jedan statistički niz može imati jedan ili više modova, pa se kaže da se radi ounimodalnoj ili o multimodalnoj distribuciji.

Kod numeričkih nizova mod se nalazi između najveće i najmanje vrijednosti obilježja, s tim što može biti i jednak najvećoj vrijednosti obilježja, odnosno najmanjoj vrijednosti obilježja čak i onda kada nisu sve vrijednosti u nizu jednake.

2.2.3. Pronalaženje ekstremnih vrijednosti

Podatak koji je značajno veći ili manji u odnosu na druge izmjerene vrijednosti jedne varijable nazivamo ekstremna

vrijednost(eng. outlier). Ekstremne vrijednosti najčešće se pojavljuju iz jednog od sljedećih razloga:

podatak je ili netačno izmjeren ili pogrešno unesen u bazu podataka

podatak dolazi iz druge populacije (ne iz populacije koju posmatramo u kontekstu problema koji proučavamo)

podatak je tacno izmjeren i unesen u bazu, ali predstavlja rijetku pojavu u populaciji.

Vrlo korisna grafička metoda za detekciju ekstremnih vrijednosti je boks ili kutijasti dijagram na bazi medijana.

Kutijasti ili boks dijagram (eng. box and whisker plot) je jednostavan graf koji prikazuje karakterističnu petorku (x1, ql , m, qu, xn) (eng. five-number summary). Boks dijagram se sastoji od pravougaonika koji prikazuje podatke od donjeg do gornjeg kvartila. Horizontalna linija po pravougaoniku označava medijanu. Donje i gornje horizontalne linije se nazivaju ”whisker”. Mogu se različito definisati, ali najčešće predstavljaju najmanji i najveći podatak koji se nalazi unutar 1.5 puta interkvartilni raspon gledajući od donjeg, odnosno gornjeg kvartila. Sve tačke izvan te granice se crtaju posebno i smatraju autlajerima. Izgled boks dijagrama ukazuje na stepen raspršenosti i asimetričnosti, te može pokazati autlajere među podacima.

Primjer:

Baza podataka zdravlje.stasadrži neke zdravstvene podatke za 51 ispitanika. Kratkom analizom mjera deskriptivne statistike možemo

Page 105: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

105

uociti da je maksimum skupa izmjerenih vrijednosti 235, što u ovom primjeru znači da naš najstariji ispitanik ima 235 godina (slika ispod).

Tabela III/21: Deskriptivna statistika izmjerenih vrijednosti varijable godine.

Taj je podatak ekstremna vrijednost skupa izmjerenih vrijednosti varijable godine. Međutim, ovaj način analize i detekcije ekstremnih vrijednosti nije prikladan za velike skupove podataka. Zato za detekciju stršecih vrijednosti često koristimo boks dijagrame. Na slici ispod prikazan je box dijagram za varijablu godine sa stršecom vrijednošcu te kutijasti dijagram koji dobivamo kad uklonimo ekstremne vrijednosti.

(a) ukljucena ekstremna vrijednost

Dijagram III/2: Kutijasti ili boks dijagram - ukljucena ekstremna vrijednost

Page 106: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

106

(b) uklonjena stršeca vrijednost

Dijagram III/3: Kutijasti ili boks dijagram - uklonjena stršeca

vrijednost

Izvor: Nenšić, Mirta, Šuvak; Nenad (2013). Primijenjena statistika. Osijek

Uklanjanjem ekstremne vrijednosti mijenjaju se i vrijednosti mjera deskriptivne statistike. Na slici pod b) vidljivo je da su se uklanjanjem ekstremne vrijednosti aritmeticka sredina i gornji kvartil smanjili, dok su mod, medijan i donji kvartil ostali nepromijenjeni. Generalno, uklanjanjem ekstremne vrijednosti mod ce najčešce ostati nepromijenjen.

Tabela III/21: Deskriptivna statistika izmjerenih vrijednosti varijable godine nakon uklanjanja ekstremnih vrijednosti.

2.3. Kvantili

Vrijednosti numeričke varijable ili modaliteti rang varijable koji niz podataka uređen po veličini dijele na određeni broj dijelova, r – dijelova, zovu se kvantili. Broj dijelova r predstavlja red kvantila:

Kvantili četvrtog reda i zovu se kvartili.

Page 107: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

107

Kvantili desetog reda nazivaju se decili.

Kvantili stotog reda ili percentili.

Broj kvartila je za jedan manji od njegovog reda, pa tako imaju tri kvartila, devet decila i devedeset devet percentila.

Načini određivanja kvantila su analogni onima za određivanje medijana. Od kvantila u statističkoj analizi se najviše koriste kvartili. Kvartila imaju tri i to:

prvi kvartil –Q1 ,

drugi kvartil – Q2 (ili medijan), i

treći kvartil – Q3 .

2.3.1. Percentili

Postotnavrijednost (eng. percentile value) za neki izabrani broj p ϵ0,100, označimo je xp’, definiše se poštujući zahtjev da je barem p% izmjerenih vrijednosti manjeili jednako xp’, dok je barem (100 -p)% vrijednosti veće ili jednako xp’.

Dvadesetpet postotna vrijednost zove se donji kvartil (eng. lower quartile), a sedamdeset petpostotna vrijednost zove se gornji kvartil (eng. upper quartile). Donji i gornji kvartilsu mjere koje spadaju u grupu mjera raspršenosti podataka.

Postupak računanja postotne vrijednosti

Računanje postotka od nekog broja može se jednostavno saznati ako se koristi formula za izračunavanje postotka.

Postotak je razlomak sa nazivnikom sto, a zapisuje se znakom %. Formula za izračunavanje postotka je

P = S * p/100; p ϵ0,100.

P= postotni iznos

p= postotak

S= osnovna vrijednost

Ako P nije prirodan broj, onda podatak na poziciji P + 1 odgovara p-toj postotnoj vrijednosti. Ako je j prirodan broj, onda se p-ta postotna vrijednost računa kao aritmetička sredina podataka na pozicijama P i P + 1.

Primjer:Koliko je 6% od 50.

Page 108: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

108

P= ?

S= 50

p= 6

P= 50 * 6/100

P= 3

Prema tome, 6% od 50 je 3.

Primjer:23

Pretpostavimo da želimo da izračunamo 33. percentil na primjeru visine djevojčica u 52 odeljenju osnovne škole "X". Mjerenjem smo dobili sljedeće rezultate izražene u centimetrima: 140, 141, 138, 140, 122, 160, 154, 132, 148, 135, 140.

Prvi korak u izračunavanju percentila je da poređamo rezultate po veličini i tada bi oni izgledali ovako: 122, 132, 135, 138, 140, 140, 140, 141, 148, 154 i 160. Ukupno imamo 11 mjerenja. Kada podatke ubacimo u formulu za izračunavanje pozicije percentila dobijamo

p33=33/100*11, odnosno

p33=3,63.

Pošto dobijeni rezultat nije cio broj, zaokružujemo na prvi veći cio broj, a to je 4. Traženi percentil se nalazi na 4. poziciji ordinalno poređanih rezultata i to je 138.

Odgovor: Skor koji odgovara 33. percentilu je 138, što znači da je 33% djevojčica u 52 odeljenju osnovne škole "X" niže od 138 cm ili iste visine, a 67% više ili iste visine.

U literaturi se često kao sinonim za percentile koristi termin percentilni rang.

2.3.2. Decili

Decili su položajne vrijednosti koje uređeni statistički niz dijele na 10 jednakih dijelova, a svaki dio sadrži 10% rezultata distribucije.. Ima ih ukupno 10 – 1 = 9 i oznacavaju se s D1, D2, …, D9. Rezultat koji odgovara desetom percentilu pada na gornju granicu prvog decila distribucije, itd.

23 http://www.e-statistika.rs/Article/Display/kvantili-kvartili-decili-i-percentili

Page 109: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

109

Za svaki i = 1, 2, …, 8, 9 vrijedi jednakost

Di = P10 * i

koja, zapravo, tvrdi da je i – ti decil identicki jednak (10 * i) – tom percentilu.

Decili su poseban slučaj percentila. Zbog toga se pozicija decila računa prema formuli za poziciju odgovarajućeg percentil. Na primjer:

D1=P10=10/100*n

D2=P20=20/100*n

Primjer:24

Merenjem visine devojčica 52 odeljenja osnovne škole "X" dobili smo sledeće podatke izražene u cm: 140, 141, 138, 140, 122, 160, 154, 132, 148, 135, 140. Pretpostavimo da želimo da saznamo koji rezultat odgovara 9. decilu.

Prvi korak u izračunavanju decila je da poredamo rezultate po veličini i tada bi oni izgledali ovako: 122, 132, 135, 138, 140, 140, 140, 141, 148, 154 i 160. Imamo ukupno 11 rezultata mjerenja visine devojčica.

Da bi izračunali 9. decil, 11 pomnožimo sa 90% ili sa 0,90, 11*0,90=9,9. Kako proizvod nije ceo broj zaokružujemo ga na prvi veći i to je deset. Položaj devetog decila je na desetoj poziciji distribucije rezultata poređanih od većeg ka manjem i to je 154.

Odgovor: Rezultat koji odgovara 9. decilu je 154, što znači da 90% devojčica u odeljenju 52 je visoko 154cm ili manje.

Interdecilni rang je razlika između skora koji pada na 9. decil i skora koji pada na 1. decil. Interdecilni rang obuhvata središnjih 80% rezultata.

Decili za negrupisane statističke nizove računaju se prema sljedećim izrazima: Ako N nije djeljiv s 10

Ako je N djeljiv s 10

24 http://www.e-statistika.rs/Article/Display/kvantili-kvartili-decili-i-percentili

Page 110: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

110

Decili za grupisane statističke nizove računaju se prema sljedećem izrazu:

iN/10 – desetina elemenata niza L1 – donja granica razreda i-tog decila

N – zbroj apsolutnih ili relativnih frekvencija

∑fi – frekvencija kumulativnog niza „manje od“ ispred razreda i-tog decila f

Di– apsolutna ili relativna frekvencija razreda i-tog decila i – veličina razreda i-tog decila

2.3.3. Kvartili

Kvartili su mjere koje dijele sortirane podatke u 4 jednaka dijela. Označavamo ih saQ1,Q2,Q3. Drugi kvartil je medijan, prvi kvartil je medijan onih koji su manji od medijana, treći kvartil je medijan onih koji su veći od medijana. Kvartili su profinjenja medijana.

Razlika trećeg i prvog kvartila je medukvartilni raspon.

ƩQR = Q3 − Q1.

– prvi ili donji kvartil (oznaka: Q1);

– drugi kvartil ili medijan (oznake: Q2, Me);

– treći ili gornji kvartil (oznaka: Q3)

Primjer. Neka su izmjerene vrijednosti jedne varijable sljedece:

Page 111: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

111

1; 2; 5; 6; 6; 1; 3; 7; 3; 3; 3; 3:

Prvo ove vrijednosti poredamo po veličini:

1; 1; 2; 3; 3; 3; 3; 3; 5; 6; 6; 7:

Želimo li odrediti donji kvartil, potrebno je prvo odrediti cetvrtinu podataka (25%). S obzirom daimamo 12 podataka, cetvrtinu (25%) čine tri podatka. Treći podatak u gornjem skupu je broj 2,a četvrti 3. Donji kvartil je 2,5. Deveti broj u gornjem skupu podataka je broj 5, a deseti 6 pa jegornji kvartil 5,5.

Primjer:25

Merenjem visine djevojčica 52 odeljenja osnovne škole "X" dobili smo sledeće podatke izražene u cm: 140, 141, 138, 140, 122, 160, 154, 132, 148, 135, 140.

Prvi korak u izračunavanju kvartila je da poređamo rezultate po veličini i tada bi oni izgledali ovako: 122, 132, 135, 138, 140, 140, 140, 141, 148, 154 i 160. Imamo ukupno 11 rezultata merenja visine devojčica.

Da bi izračunali 1. kvartil, 11 pomnožimo sa ¼ ili sa 0,25, 11*0,25=2,75. Kako proizvod nije ceo broj zaokružujemo ga na prvi veći i to je tri. Položaj prvog kvartila je na trećoj poziciji i to je 135.

Da bi izračunali 3. kvartil 11 pomnožimo sa ¾ ili sa 0,75; 11*0,75=8,25. Kako proizvod nije cio broj zaokružujemo ga na prvi veći i to je devet. Položaj trećeg kvartila je na devetoj poziciji ordinalno poređanih rezultata i to je 148.

Odgovor: Skor koji odgovara 1. kvartilu je 135, što znači da se 25% devojčica u odeljenju 52 je visoko 135 ili manje. Skor koji odgovara 3. kvartila je 148, što znači da se 75% devojčica u odeljenju 52 je visoko 148 ili manje.

Interkvartilni rang je razlika između skora koji pada na 3. kvartil i skora koji pada na 1. kvartil. Navodi se uz medijanu, obuhvata središnjih 50% rezultata i ignoriše vrednosti ispod 1. kvartila i iznad 3. kvartila. Interkvartilni rang je korisna mjera varijabilnosti ukoliko u nizu rezultata postoje ekstremne vrednosti i ako se sumnja da je raspodela asimetrična. Kod takvih distribucija on je bolja mera varijabiliteta od standardne devijacije.

25 http://www.e-statistika.rs/Article/Display/kvantili-kvartili-decili-i-percentili

Page 112: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

112

Semi-interkvartilni rang se dobija kada se interkvartilni rang podijeli sa dva. Na ovaj način se dobija 25% rezultata ispod i iznad medijane tj. ispod i iznad 2. kvartila. Semi-interkvartilni rang je posebno koristan kada se radi sa ordinalnim varijablama ili kada postoje ekstremne vrijednosti sa obe strane medijane. Semi-interkvartilni rang se obično navodi uz medijanu.

Page 113: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

113

3. Mjere disperzije (raspršenosti, varijabiliteta)

Kod mnogih mjerenja se može opaziti da se rezultati grupišu i skupljaju oko jedne srednje vrijednosti. Deskriptivna statistika omogućuje nam da cijeli skup podataka zamijenimo jednom, središnjom vrijednošću. Srednja vrijednost dobro reprezentuje rezultate ako su vrijednosti gusto grupisane (malo se razlikuju) oko srednje vrijednosti. Srednje vrijednosti na određeni način predstavljaju, odnosno zamjenjuju statistički skup. Ukoliko je mala varijabilnost obilježja koji je predmet posmatranja możemo zaključiti da aritmetička sredina vjerodostojno reprezentuje posmatrano obilježje.

Međutim, srednja vrijednost loše predstavlja rezultate ako su vrijednosti minimalno grupisane oko srednje vrijednosti.Srednja vrednost posmatranog obilježja biće loś predstavnik tog obilježja ukoliko je prisutan veliki varijabilitet.26

Tako na primjer, može dogoditi da neki statistički skupovi imaju jednake npr. aritmetičke sredine, a da su njihovi elementi potpuno različiti. U nekim slučajevima jedinice posmatranja ne pokazuju centralnu tendenciju, što znači da srednja vrijednost ništa ne reprezentuje. Navedeno govori da srednja vrijednost suvišnim uproštavanjem može dovesti do pogrešne slike o statističkom skupu. Tako na primjer, dva ili više statističkih skupova mogu imati istu srednju vrijednost, a da značajno razlikuju među sobom, dok izačunavanje pokazuje različite disperzije jedinica posmatranja.

Na primjer27, zamislite tri skupa podataka:

„30 30 40 40 40 40 40 50 50“,

„10 10 20 20 30 40 50 60 60 70 70“ i

„10 10 10 10 70 70 70 70“.

Aritmetička sredina ova tri skupa podataka je jednaka i iznosi 40. To znači da ta vrijednost predstavlja, a na neki način i zamjenjuje 26Vuković, N., Spasić, S., 2011. Statistika za inžinjere, Univerzitet Singidunum, Beograd. str.47. 27http://marul.ffst.hr/~abubic/nastava/statistika/statistika_prirucnik_ucitelji.pdf#page=42&zoom=100,0,90

Page 114: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

114

podatke tih skupova. U slučaju prvog skupa, vrijednost 40 tako zamjenjuje devet različitih podataka čije su vrijednosti jednake ili bliske prosječnoj (30, 40, 50), dok nam u drugom skupu predstavlja i druge, znatno udaljenije vrijednosti kao što su 10 ili 70. U trećem skupu podataka aritmetička sredina 40 zamjenjuje osam vrijednosti koje se svi od nje jako razlikuju.

Navedeni primjer pokazuje da je aritmetička sredina jako slab predstavnik skupa na temelju kojeg je izračunata, te se u ovom slučaju ne bi smjela ni računati. Iz tok razloga, informacije o međusobnom razlikovanju rezultata su jako važne, i u istraživanjima u pravilu moraju uvijek biti dostupne.

Informaciju o rasporedu elemenata daju mjere raspršenosti ili

disperzije elemenata numeričkog statističkog niza.

Mjere disperzije mogu razriješiti dilemu i olakšati donošenje poslovnih odluka u situaciji kada su za dve alternative jednake vrednosti koja se dobija primjenom izračunatih i pozicionih srednjih vrednosti. Na osnovu hipotetičkog primjera koji je dat u nastavku uočava se koja je svrha primjene mjera disperzije.28

Najmanja i najveca vrijednost, raspon podataka

Raspon podataka mjera je koja pokazuje koliko su numerički podaci raspršeni, tj. to je jedna od mjera raspršenosti podataka. Definiše se i kao razlika najveće i najmanje vrijednosti u skupu mjerenih vrijednosti varijable (tj. razlika maksimalne i minimalne izmjerene vrijednosti varijable). Ako su x1, x2, . . . , xn izmjerene vrijednosti varijable, označimo najmanju od njih (minimum) xmin, a najveću (maksimum) xmax.

Primjer. Neka su izmjerene vrijednosti jedne varijable sljedeće: 1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3. Vidimo da je vrijednost 1 najmanja izmjerena vrijednost, a 7 najveća. Prema tome, raspon ovog skupa izmjerenih vrijednosti je 7 − 1 = 6.

3. 1. Mjere varijabitileta

Mjere varijacije (disperzije) predstavljaju pokazatelje odstupanja vrijednosti obilježja od prosječne vrijednosti obiležja.

28Marjanović, M. Mihailović, I. Spasić, K. (2016). STATISTIKA U EKONOMIJI I POSLOVANJU SA ZBIRKOM REŠENIH ZADATAKA, Visoka poslovna škola strukovnih studija, LESKOVAC

Page 115: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

115

Ukoliko pođemo od pretpostavke da smo mi preduzeće „Lea”koje nabavlja proizvode od dva dobavljača iz zemlje: „Miki” i „Sonja”, kao i da je prosječna vrijdnost broja dana neophodnih za popunjavanje narudžbenice jednaka za oba dobavljača, primjenom mjera varijacije donijćemo odluku o tome kom dobavljaču treba dati prednost. U nastavku je dat grafički prikaz rasporeda broja dana neophodnih za popunjavanje narudżbenica za pomenute dobavljače.

Grafikon Grafikon

Dijagram III/4: Grafički prikaz rasporeda broja dana neophodnih za popunjavanje narudżbenica

Na osnovu grafičkih prikaza uočavamo da je manja disperzija kod dobavljača “Miki" u odnosu na dobavljača “sonja". Broj dana potrebnih za obradu narudżbenice za dobavljača “Miki" kreće se od 8 do 11. Kod dobavljača “Sonja” dobro je što imamo i manji broj dana potrebnih za obradu (od 6 do 8 dana), medutim, veliki broj dana obrade kao śto je 12 i 13 dana iziskuju veće angažovanje radne snage što nije dobro. Na osnovu svega navedenog preporučujemo izbor dobavljača “Miki" jer ima manju varijabilnost u odnosu na dobavljača “Sonja".

Karakteristike mjera varijabiliteta

Mjere varijabiliteta obiljeżja imaju neke posebne karakteristike. Načelno se mogu izdvojiti sljedeće:29

- Vrijdnost mjera disperzije zavisi od disperzije podataka na osnovu kojih se ona računa. Kada je veća disperzija podataka, veća je vrijednost mjera disperzije i obrnuto.

29Šekarić, M. 2010. Statistićke metode, Univerzitet Singidunum, Beograd, str. 51.

Page 116: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

116

- Mere disperzije uzimaju vrijednost nula ukoliko su sve vrijednosti obilježja medusobno jednake.

- Nijedna od mjera disperzije ne mogu imati negativnu vrijdnost.

Mere varijacije (disperzije) predstavljaju pokazatelje odstupanja vrednosti obilježja od prosječnog odstupanja obilježja.Ukolikojemalavarijabilnostobeležja koje je vrijednost posmatranja možemo slobodno smatrati da aritmetička verodostojno reprezentuje posmatrano obilježje. Srednja vrednost posmatranog obilježja biće loš predstavnik tog obilježja, ukoliko je prisutan veliki varijabilitet.30

Mjere disperzije mogu biti:

- Apsolutne mjere varijabiliteta,(1) i - Relativne mjere raspršenosti.(2)

Tabela III/22: Mjere disperzije

Apsolutne mjere disperzije

Relativne mjere disperzije

Raspon varijacija

Interkvartil

Kvartilna devijacija

Srednje apsolutno dstupanje

Varijanca

Standardna devijacija

Koeficijent varijacije

Koeficijent kvartilne devijacije

Apsolutni pokazatelji izraženi su u originalnim jedinicama mjere i omogućavaju poređenje nizova prema istom obilježju. Apsolutni pokazatelji raspršenosti su:

- Raspon varijacija

- Interkvartil 30Vuković, N. Spasič, S.,2011.Statistikazainžinjere,UniverzitetSingidunum,Beograd,str.47.

Page 117: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

117

- Kvartilna devijacija

- Srednje apsolutno dstupanje

- Varijanca

- Standardna devijacija

Poređenje raspršenosti elemenata nizova sa različitom mjernomjedinicom omogućuju relativni pokazatelji.Oni su najčešće izraženi upostotcima. Relativni pokazatelji raspršenost su:

- koeficijent kvartilnedevijacije, i - koeficijent varijacije.

3.1.1. Apsolutne mjere varijabiliteta

3.1.1.1. Raspon varijacije

Raspon varijacije predstavlja mjeru disperzije koja se dobija kao razlika izmedu najveće i najmanje vrijednosti obilježja. To je nepotpuna mjera disperzije jer se pri njenom izračunavanju koriste samo dvije krajnje vrijednosti niza. Te vrijednosti mogu biti netipične zbog čega je raspon varijacije vrlo gruba mjera disperzije.

Ako su x1; x2; : : : ; xn izmjerene vrijednosti varijable X, označimo najmanju od njih (minimum) sa xmin, a najvecu sa xmax.

R = xmax − xmin

Krajnje vrijednosti posmatrane serije odreduju razmak varijacije. Bazira se samo na dvije vrijednosti obilježja (ekstremne vrednosti) i ne obuhvata sve podatke posmatrane serije podataka. Kada je serija podataka data sa otvorenim intervalima nije moguće odrediti ovu mjeru disperzije.

Ovaj apsolutni pokazatelj raspršenosti izražen je u originalnim jedinicama mjere numeričkog obilježja. On može poprimiti vrijednost 0. To se događa kada svi elementi niza imaju jednaku vrijednost obilježja.

Raspon varijacije predstavlja pogodnu mjeru disperzije kod malih uzoraka i u situaciji kada je u kratkom roku neophodna informacija o varijabilnosti skupa podataka. Na primjer, meteorolośko odjeljenje koristi ovu mjeru disperzije prilikom ocjene vremenske prognoze, jer daje informacije o kretanju minimalne i maksimalne temperature.

Page 118: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

118

Primjer:31Neka su izmjerene vrijednosti jedne varijable sljedece:

1; 2; 5; 6; 5; 1; 2; 7; 2; 2; 3; 3:

Vidimo da je vrijednost 1 najmanja izmjerena vrijednost, a 7 najveća. Prema tome, raspon ovogskupa izmjerenih vrijednosti je:

7 -1 = 6.

Može se posmatrati imaksimalno odstupanje izmjerenih vrijednosti varijable od "prosjeka", tj. aritmetičke sredine, izmjerenih vrijednosti. Ta je numericka karakteristika definisana kao veći od brojeva:

tj. broj

Primjer 3.16. Neka su 1; 2; 5; 6; 5; 1; 2; 7; 2; 2; 3; 3 izmjerene vrijednosti neke varijable X. Tada je

Maksimalno odstupanje izmjerenih vrijednosti ove varijable od prosjeka izmjerenih vrijednosti je:

Najveća vrijednost Apsolutne mjere disperzije nije ograničena jer ona zavisi okonkretnoj raspršenosti posmatranih vrijednosti obilježja.

Raspon varijacije je nepotpuna mjera disperzije jer se računa samona temelju dvije vrijednosti obilježja, odnosno na temelju najveće i najmanje vrijednosti. Može se reći da to nije precizna mjera raspršenostielemenata niza, pogotovo u slučaju postojanja ekstremno malih i/iliekstremno velikih vrijednosti obilježja. U tom slučaju se dobije

31Benšic, Mirta; Nenad Šuvak (2013. Primijenjena statistika. Sveucilište J.J. Strossmayera,

Odjel za matematiku. Grafika d.o.o., Osijek , str. 26.

Page 119: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

119

veliki rasponvarijacije, a možda je većina elemenata skupa raspršena usko okosrednjih vrijednosti.Taj problem preciznosti rješava interkvartilni raspon iliinterkvartil.

3.1.1.2. Interkvartil

Interkvartil (oznaka: Iq) je apsolutna, nepotpuna, mjera raspršenja, koja pokazuje disperziju, odnosno raspon varijacije, srednjih 50% elemenata uređenoga numeričkog niza (kvantitativnih ili kvalitativnih redosljednih) statistickih podataka.

Interkvartil je, zapravo, jednak razlici trećeg i (gornjeg) i prvog (donjeg) kvartila:

Iq = Q3 – Q1.

Nataj način se eliminiše 25% ekstremno malih i 25% ekstremno velikihvrijednosti obilježja u nizu.

Slika: Simetrična distribucija s označenim gornjim i donjim kvartilom

Izvor: Pivac, Snježana; Rozga, Ante. (2006.) Statistika za sociološka istraživanja, Split: Sveučilište u Splitu, Filozofski fakultet. Str. 134.

Na slici iznad prikazana je simetrična sistribucija, pri kojoj su elementi

skupa ravnomjerno raspoređeni oko srednjih vrijednosti.

Page 120: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

120

Treba se podsjetiti da donji kvartil (Q1) dijeli distribuciju u omjeru 1:3, tj. da 25% elemenataskupa ima vrijednost obilježja manju od donjeg kvartila, a 75% elemenataskupa ima vrijednost obilježja veću od donjeg kvartila.

Takođe, gornjikvartil (Q3) dijeli distribuciju u omjeru 3:1, tj. da 75% elemenata skupaima vrijednost obilježja manju od gornjeg kvartila, a 25% elemenataskupa ima vrijednost obilježja veću od gornjeg kvartila.

Interkvartil pokazuje disperziju srednjih 50% elemenata skupa.

Primjer

Podaci u primjeru odnose se na godišnje stope profita na uložena sredstva 15 poduzetnika. Za niz je potrebno odrediti donji i gornji kvartil. Podaci su:

Podaci uređeni po veličini:

Donji kvartilje četvrta vrijednost u nizu, tj. N=15, Q1=N/4=15/4=3,75. Prvi sljedeći cijeli broj je 4. Q1=x4, odnosno Q1= 4.2

Gornji kvartil:N=15, 3N/4 = 45/4 = 11.25. Prvi sljedeći cijeli broj je 12. Gornji kvartil je jednak vrijednosti 12. podatka u uređenom nizu, tj. Q3=x12, Q3=5.5

Iq = Q3 – Q1 = 11,25 - 4,2= 7,5

Dakle, raspon varijacije središnjih 50% godišnje stope profita iznosi 7,5 godina.

Page 121: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

121

3.1.1.3. Varijanca i standardna devijacija

Varijanca i standardna devijacija spadaju u grupu mjera raspršenosti podataka.

Varijansa i iz nje izvedena standardna devijacija obično se svrstava u red najvažnijih pokazatelja varijabiliteta ili raspršenosti modaliteta kvantitativnih obilježja.

Glavni razlog stoji u činjenici da je zbir odstupanja svih vrijednosti kvantitativnoga obilježja od njihove aritmetičke sredine uvijek jednak nuli, zbog čega se taj pokazatelj ne može koristiti za opisvarijabiliteta statističkog niza.

Drugi je razlog je taj što se u izračunavanju varijanse, a samim tim i standardne devijacije, koriste svi elementi statistićkog niza, pa je možemo klasifikovati kao potpunamjera raspršenja.

Kao mjera varijabiliteta, varijansa nije pogodna za statističku upotrebu zato što se kvadriranjem razlika dobijaju velike vrijednosti. Vađenjem kvadratnog korena iz varijanse dobija se standardna devijacija koja je mnogo pogodnija mjera varijabiliteta u statističkim istraživanjima.

Standardna devijacija najčešće se obilježava sa SD ili (sigma). Ona se dobija na dva načina:

preko razlike empirijskih vrijednosti jedinica posmatranja od aritmetičke sredine, i

direktno iz empirijskih jedinica posmatranja.

Bez obzira na koji način se računa, pri izračunavanju standardne devijacije, kao i drugih statističkih parametara, neophodno je da se poštuje forma prezentovanja podataka. Ako se standardna devijacija izračunava preko razlike vrijednosti jedinica posmatranja od aritmetičke

sredine koristi se izraz 2SDSD , gdje je SD oznaka za standardnu

devijaciju, a 2SD je varijansa.

Prema tome standardna devijacija je pozitivna vrijednost drugog korjena varijanse.

ijansaSD var2

Obračun varijanse zavisi od toga da li su u pitanju:

Page 122: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

122

negrupisani (sirovi, neuređeni) podaci, ili

grupisani podaci. Varijansa za negrupisane apsolutne vrijednosti dobija preko

izraza

N

xx

SD

Ni

i

i

2

12

a za grupisane podatke preko izraza

ki

i

i

ki

i

ii

f

xxf

SD

1

1

2

2

zamjenom u izraz za standardnu devijaciju dobija se da je standardna devijacija za negrupisane podatke

2

1

2

2

1 xN

x

N

xx

SD

Ni

i

i

Ni

i

i

i za grupisane podatke

2

1

1

2

1

2

1 x

f

xf

f

xxf

SDki

i

i

Ni

i

ii

ki

i

i

Ni

i

ii

Da bi se na ovaj način izračunala vrijednost standardne devijacije potrebno je prethodno izračunati aritmetičku sredinu.

Postupak izračunavanja preporučljivo je obavljati u formi radnih tabela jer se time smanjuje mogućnost radne greške pri računskim operacijama.

Primjer32. Posmatramo statisticki skup svih stanova u onim stambenim zgradama (novogradnja i dogradnja) koje su 2006. godine

32 Bojan Kovacic.(2007).Poslovna statistika. Elektrotehnicki odjel. Sveiučilište u Zagebu,

str. 89

Page 123: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

123

dobile gradevinsku dozvolu u Republici Hrvatskoj. Posmatrani skup dijelimo prema broju soba u stanu:

Primjer. Broj soba i broj stanova

Izvor: Statisticki ljetopis Republike Hrvatske za 2006. godinu, Državni zavod za statistiku, 2007.

Odredimo prosječan broj soba po jednom stanu, te varijancu i

standardnu devijaciju broja

Prema tome, prosječan broj soba po jednom stanu iznosi približno 3. Varijansa broja soba je:

Odatle slijedi da je odgovrajuća standardna devijacija broja soba:

Page 124: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

124

Prema navedenom, može se reći da prosječno odstupanje brojeva soba od njihove aritmetičke sredine iznosi približno 1,374.

Varijanca i standardna devijacija mogu se računati i iz ''sirovih'' (negrupisanih ili neuređenih) i iz grupisanih podataka.

Varijansa za negrupisane apsolutne vrijednosti dobija se preko izraza:

N

xx

SD

Ni

i

i

2

12

a za grupisane podatke preko izraza

ki

i

i

ki

i

ii

f

xxf

SD

1

1

2

2

zamjenom u izraz za standardnu devijaciju dobija se da je standardna devijacija za negrupisane podatke

2

1

2

2

1 xN

x

N

xx

SD

Ni

i

i

Ni

i

i

i za grupisane podatke

2

1

1

2

1

2

1 x

f

xf

f

xxf

SDki

i

i

Ni

i

ii

ki

i

i

Ni

i

ii

Prva forma ovih izraza koristi se u slučaju kada je aritmetička sredina decimalan broj što znači da je upotreba matematičkog izraza zavisna od podataka. Upotrebljava se ona forma odgovarajućeg izraza koja olakšava i ubrzava dobijanje rezultata. Da bi se na ovaj način

Page 125: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

125

izračunala vrijednost standardne devijacije potrebno je prethodno izračunati aritmetičku sredinu.

Postupak izračunavanja preporučljivo je obavljati u formi radnih tabela jer se time smanjuje mogućnost radne greške pri računskim operacijama.

Primjer.33

Odrediti varijabilnost sljedećih vrijednosti holesterola u serumu:

4,5 - 4,1 - 5,3 - 4,4 - 4,7 - 4,0 - 5,5 - 5,1 - 6,0 - 6,4 mmol/l.

n xi xxi 2

xxi

1 4,5 -0,5 0,25

2 4,1 -0,9 0,81

3 5,3 0,3 0,09

4 4,4 -0,6 0,36

5 4,7 -0,3 0,09

6 4 -1 1

7 5,5 0,5 0,25

8 5,1 0,1 0,01

9 6 1 1

10 6,4 1,4 1,96

Ukupno 50 0 5,82

lmmolSDx

lmmolN

xxSD

lmmolN

xX

i

i

/76,05

/76,010

82,5

/510

50

2

Empirijski podaci nisu grupisani pa je primijenjen odgovarajući izraz i to u formi koja odgovara cijelom broju aritmetičke sredine.

https://e-statistika.rs/Article/Display/varijansa-i-standardna-devijacija

33

Tanjga, Rade (2004), Osnove statistike za studente medicine Medicinski fakultet Banja Luka : Informatički savez Republike Srpske ISA Banja Luka

Page 126: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

126

Primjer:

U 52 odjeljenju osnovne škole "X" na primjeru visine devojčica , vršeno je (u cm) izračunavanja aritmetičke sredine, medijane, moda i ranga, dobili smo sljedeće podatke:

140, 141, 138, 140, 122, 160, 154, 132, 148, 135, 140.

Izračunali smo da je vrijednost aritmetičke sredine 140.91cm.

Ukoliko bi nas u istraživanju interesovala samo visina devojčica u 52, onda bi se radilo o populaciji. U ovom primjeru navedene podatke smatraćemo uzorkom.

Postupak izračunavanja varijanse i standardne devijacije ćemo pokazati kroz tabelu koja je formirana imajući u vidu sljedeću formulu za varijansu uzorka:

1

2

12

N

xx

SD

Ni

i

i

X Xi-X (Xi-X)2 X2

140 -0.91 0.8281 19600

141 0.09 0.0081 19881

138 -2.91 8,4681 19044

140 -0.91 0.8281 19600

122 -18.91 357.5881 14884

160 19.09 364.4281 25600

154 13.09 171.3481 23716

132 -8.91 79.3881 17424

148 7.09 50.2681 21904

135 -5.91 34.9281 18225

Page 127: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

127

140 -0.91 0.8281 19600

Σ=1550 0 Σ=1068,909 Σ=219478

Suma kvadrata odstupanja rezultata od aritmetičke sredine je 1068.909, (SD)2=1068.909/(11-1)=106.89, a SD=√106.89=10.34

Odgovor: Varijansa visine djevojčica u 52 odeljenju škole „X“ je (SD)2=106.891, a standardna devijacija SD=10.34

Vrijednost standardne devijacije ili varijanse nikada ne može biti negativan broj. Negativna vrijednost standardne devijacije ili varijanse ukazuje na grešku u izračunavanju.

Najmanja moguća vrijednost varijanse i standardne devijacije je 0 i to se dešava kada su svi rezultati u distribuciji jednaki.

Varijansa i standardna devijacija su osjetljive na ekstremne vrijednosti, jer se baziraju na distanci pojedinačnih rezultata od aritmetičke sredine.

Primjer 2.

Ocjene životne sposobnosti 22 novorođenčeta prikazane su distribucijom frekvencija. Odrediti varijabilitet.

n Ocjena (x) Broj

novorođenčadi fx fx2

1 6 3 18 108

2 7 4 28 196

3 8 8 64 512

4 9 5 45 405

5 10 2 20 200

Ukupno / 22 175 1421

151,1954,7

151,1325,1954,722

1421

954,722

175

2

22

SDx

SD

xf

xfSD

f

xfx

i

ii

i

ii

Page 128: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

128

Empirijski podaci sređeni su u distribuciji frekvencija po grupama pa je u skladu sa tim izvršen izbor matematičkog izraza, a njegova forma odgovara decimalnom broju aritmetičke sredine.

Primjer 3.

Odrediti varijabilnost vitalnog kapaciteta pluća 20 osoba. Podaci su prezentovani distribucijom frekvencija.

n Vitalni kapacitet Broj osoba (f) x1 fixi fi(xi)2

1 1000-1999 2 1499 2998 4494002

2 2000-2999 4 2499 9996 24980004

3 3000-3999 5 3499 17495 61215005

4 4000-4999 6 4499 26994 121446006

5 5000-5999 2 5499 10998 60478002

6 6000-6999 1 6499 6499 42237001

Ukupno / 20 / 74980 314850020

mlSDx

xf

xfSD

f

xfx

i

ii

i

ii

12993749

038,1299374920

314850020

374920

74980

222

Empirijski podaci prikazani su distribucijom frekvencija po grupnim intervalima pa se kao i za izračunavanje aritmetičke sredine i ovdje uzima kao vrijednost obilježja sredina intervala.

Standardnom devijacijom može se vršiti upoređivanje varijabiliteta istih obilježja ali pod uslovom da su aritmetičke sredine iste ili se vrlo malo razlikuju.

3.1.2. Relativne mjere verijabiliteta

3.1.2.1 Koeficijent varijacije

Koeficjent varijacije (relativna standardna varijacija) je mjera varijebiliteta koja omogućava poređenje varijabilnosti različitih obilježja kao i istih obilježja sa različitom aritmetičkom sredinom. Koeficijent varijacije predstavlja relativnu mjeru varijabiliteta vrijednosti obilježja koji se dobija dijljenjem standardne devijacije sa aritmetičkom sredinom i mnożenjem količnika sa 100%. Za njegovu primjenu značajno je da sve

Page 129: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

129

vrijednosti obilježja budu pozitivne.34 Ona omogućava poređenje varijabilnosti različitih obilježja kao i istih obilježja sa različitom aritmetičkom sredinom. Koeficijent varijacije je neosjetljiv na promjenu veličine mjerila.

Koeficjent varijacije obilježava se simbolom CV ili samo V. Dobija se kao količnik standardne devijacije i aritmetičke sredine:

x

SDVCV .

Obično se izračunava u procentima pa gornji izraz glasi

100*/

xSDCV .

Može se kazati da je koeficjent varijacije je standardna devijacija izražena u procentima aritmetičke sredine. Iz same formule se vidi da je koeficjent varijacije manji što je standardna devijacija manja u odnosu na aritmetičku sredinu i obrnuto. Prema tome varijabilitet pojave je utoliko manji ukoliko je manji koeficjent varijacije.

S obzirom da je varijabilitet pojave obrnuto proporcionalan sa homogenošću jedinica posmatranja, onda koeficjent varijacije koristimo istovremeno i kao mjeru homogenosti. Homogenost neke pojave je veća ukoliko je koeficjent varijacije manji. Pojava je homogena ako je koeficjent varijacije manji od 30% (CV<30%).

Koeficjent varijacije se upotrebljava u slučaju kada se želi utvrditi:

a) u kojem obilježju neka grupa varira više, a u kojem manje; b) koja od grupa varira više a koja manje u istom obilježju.

Primjer 1.

Rezultati mjerenja tjelesne visine i mase 10 studentica su:

cmX tv 168

, cmSD tv 1,1 , kgX tm 62

, kgSDtm 2,3 ,

dok su 10 studenata imali ove rezultate:

cmX t 180

, cmSD tv 2,1 , kgX tm 78

, kgSDtm 5,2 .

34Siegel, A., 2012. Practical Business Statistics, 6th Edition, Elsevier Inc., USA, pp. 108

Page 130: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

130

Da li studenti više variraju u visini ili masi i da li u masi više variraju studenti ili studentice.

Rješenje:

Koeficijent varijacije visine (studenti)

%67,0100*180

2,1100*

tv

tvm

X

SDCV

Koeficijent varijacije težine (studenti)

%2,3100*78

5,2100*

tm

tmm

X

SDCV

Koeficijent varijacije težine (studentice)

%16,5100*62

2,3100*

tm

tmz

X

SDCV

Koeficijent varijacije visine (studentice)

%65,0100*168

1,1100*

tv

tvz

X

SDCV

Kako je koeficjent varijacije visine studenata (0,67%) manji od koeficjenta varijacije mase studenata (3,2%) može se zaključiti da studenti više variraju u težini nego u visini.

Poređenjem koeficjenta varijacije težine studentica (5,16%) sa koeficjentom varijacije težine studenata (3,2%) dolazi se do zaključka da studentice više variraju u masi od studenata. Isti zaključak vrijedi i u odnosu na polove (ženski, muški).

Homogenost neke pojave je veća ukoliko je koeficjent varijacije manji. Pojava je homogena ako je koeficjent varijacije manji od 30% (CV<30%).

Page 131: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

131

3.1.4. Procjena distribucije, ocekivanja i varijance

Veličine posmatrane na jedinkama obuhvaćenim nekim istraživanjem nazivaju varijablama te ih u statistici modelujemo korišćenjem slučajnih varijabli. Vrijednosti varijable izmjerene na jedinkama iz uzorka (tj. vrijednosti zabilježene u stupac baze podataka) smatramo nezavisnim realizacijama slučajne varijable kojom modelujemo posmatranu veličinu.

Slučajna varijabla u potpunosti je zadana svojom distribucijom - tablicom distribucije ako se radi o diskretnoj slucajnoj varijabli, odnosno funkcijom gustoće vjerojatnosti ako se radi o neprekidnoj slučajnoj varijabli.

Slučajna varijabla (znak X), je varijabla kojoj su vrijednosti slučajne, tj. ne mogu se predvidjeti sa sigurnošću, negosamo s određenom vjerojatnošću. Slučajna varijabla svakomu slučajnom događaju iz skupa mogućih događaja pridružuje neki realni broj. Broj pridružen nekom događaju jest vrijednost slučajne varijable.

Primjer, eksperiment bacanja kocke i bilježenje na koju je stranu pala sadrži šest mogućih događaja, slučajna varijabla ima šest vrijednosti, a broj padova kocke na neku od strana jeste frekvencija događaja.

Slučajna varijabla je numerička funkcija koja svakom ishodu statističkog eksperimenta pridružuje jedan realan broj. Treba napomenuti da elementarni ishodi koji sačinjavaju prostor uzorka ne moraju imati numeričke vrijednosti.

U većini slučajeva kao rezultat se pojavljiva broj. Kao na primjer:

– bacanje simetrične igraće kockice, – bacanje simetričnog numeriranog tetraedra, – prebrojavanje proizvoda s greškom u nekom uzorku istovrsnih

proizvoda, – broj vrabaca u uzorku koji se sastoji od 100 slučajno odabranih

ptica.

Brojevi koji se pojavljuju kao ishodi gore nabrojenih pokusa imaju karakteristike slučajnosti (ishod bacanja kockice ili tetraedra mijenja se od bacanja do bacanja, a broj proizvoda s greškom i broj

Page 132: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

132

vrabaca mijenjaju se u zavisnosti o odabranom uzorku), pa ih nazivamo slučajnim brojevima.

Page 133: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

133

IV ANALITIČKA STATISTIKA

1. Statistička analiza

Statistika analiza predstavlja matematičko-logiki postupak donošenja statističkog zaključka naosnovu adekvatno izabranog i pravilno sprovedenog specifičnog statističkog (analitičkim) metoda. Ono omogućava proširenje statističkog zaključka na osnovni skup. Statistička analiza predstavlja posljednju fazu, kako statističke obrade tako i kompletnog istraživanja.

Do generalnog zaključka se dolazi preko:

statističkog, i

stručnog zaključivanja. Stručni zaključak se donosi u oblasti u kojoj se istražuje, na

primjer, zaključak u oblasti prirodnih, tehničkih, agronomskih, medicinskih, drustvenih, humanističkih nauka.

Statistički zaključak se donosi na osnovu egzaktnih matematičko-statističkih pravila

Broj statističkih zaključaka jednak je broju primjenjenih analitičkih metoda. Za svaki od tih statističkih slijedi po jedan stručni zaključak. Oni se donose na osnovu znanja iz bazične oblasti, istraživačkih procedura i lične sposobnosti istraživača za logično istraživanje.

Na osnovu svih stručnih zaključaka donosi se opšti (generalni) završni zaključak. On treba da odgovara ciljevima rada.

Ukoliko generalizovani zaključak sadrži nove zakonomjernosti o ispitivanom problemu on postaje teorija bazične nauke u kojoj je primjenjeno statističko istraživanje.

Statistički zaključci o problemu istraživanja donose se najčešće na osnovu ispitivanja reprezentativnog dijela osnovnog skupa tj. na osnovu rezultata dobijenih obradom podataka iz uzorka.

Zaključci izvedeni na osnovu ispitivanja uzorka uvijek, manje ili više, odstupaju od zaključaka dobijenih na osnovu ispitivanja osnovnog skupa. Naučnu vrijednost obezbjeđuje im mogućnost utvrđivanja stepena njihove izvjesnosti tj. sigurnosti.

Page 134: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

134

Sigurnost statističkog zaključivanja obezbjeđuje unaprijed izračunata maksimalno dozvoljena greška u zaključivanju. Određivanje nivoa greške, a samim tim i nivoa sigurnosti, statističkog zaključka omogućava teorija vjerovatnoće.

Osnovni pojmovi bitni za razumijevanje statističkog načina zaključivanja su:

vjerovatnoća sigurnosti (1),

vjerovatnoća greške (2), i

nivo značajnosti (3). 1. Vjerovatnoća sigurnosti: Vjerovatnoća sigurnosti (izvjesnosti) je

minimalna vjerovatnoća koja govori u prilog donesenog zaključka. Ona garantuje ispravnost zaključka.

2. Vjerovatnoća greške: Vjerovatnoća greške (rizika) je maksimalna vjerovatnoća dopustive greške u zaključivanju.

Vjerovatnoća sigurnosti i vjerovatnoća greške su parcijalne komplementarne vjerovatnoće pa se dopunjuju do vrijednosti ukupne vjerovatnoće, do jedinice ili do sto procenata.

3. Nivo značajnosti: Komplementarni odnos vjerovatnoće sigurnosti i vjerovatnoće greške tj. rizika definiše nivo značajnosti zaključka.

Statististička značajnost se označava malim slovom p (u SPSS-u je njena vrijednost data u koloni sig.). Kada utvrđujemo da li je naš nalaz (npr. razlika između aritmetičkih sredina) statistički značajan mi u stvari ispitujemo njegovu grešku. Greške su u statistici definisane kao greška I tipa i greška II tipa.

Nivo značajnosti bira istraživač. To može biti bilo koja vrijednost u intervalu 0-100%, ali je uobičajeno da se bira nivo značajnosti od 5% ili 1%, između ostalog i zato što su za njih izračunate vrednosti u statističkim tablicama.

Konvencijom su utvrđena dva granična nivoa značaj:nosti

Minimalni nivo značajnosti u medicinskim istraživanjima, uslovljen je maksimalno dozvoljenom greškom od 5%. Minimalni nivo značajnosti definisan je, prema tome, odnosom vjerovatnoće sigurnosti od 0,95 (95%) i vjerovatnoće greške tj. rizika od 0,05 (5%). Minimalni nivo značajnosti obezbjeđuje značajnost statističkog zaključka.

Page 135: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

135

Maksimalni nivo značajnosti definisan je odnosom vjerovatnoće sigurnosti od 0,99 (99%) i vjerovatnoće greške odnosno rizika od 0,01 (1%). Ovaj granični nivo značajnosti obezbjeđuje visoku značajnost statističkog zaključka.

Statistički zaključak odnosi se na uzorke osnovnog skupa, jednake veličine, ispitivane pod istim uslovima i na isti način. Ako se neki statistički zaključak donese sa vjerovatnoćom sigurnosti od 0,95 to znači da će se ispitivana karakteristika ili pojava sigurno ostvariti u 95 od 100 takvih uzoraka, a da u 5 od 100 uzoraka ovaj zaključak, može ali ne mora važiti.

Stepen slobode

Stepen slobode: Pored navedenih pojmova još se definiše i stepen slobode kao statistički parametar od opšteg značaja.

DF = r - s

gdje je DF - stepen slobode (Degree of Fredom),

r - broj članova posmatranog niza (broj podataka),

s - broj statističkih parametara potrebnih za izvođenje konkretnog analitičkog metoda.

U statistici, broj stepeni slobode je broj vrijednosti u finalnoj računici statistike, koji je slobodan da varira.

Procjene statističkih parametara se mogu bazirati na različitim količinama informacija ili podataka. Broj nezavisnih jedinica informacija koji ulaze u procjenu parametra se naziva brojem stepeni slobode. Uopšteno, stepeni slobode ocjene parametra su jednaki broju nezavisnih vrijednosti koji ulaze u procjenu minus broj parametara koji se koriste kao međukoraci u ocjeni samog parametra (broj stepeni slobode u varijansi uzorka je jedan, jer je uzoračka sredina jedini međukorak).

Page 136: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

136

Dijagram: IV/1: Značajnost sličnosti oblika raspodjela

Izvor: Statistika u društvenim naukama

Na grafikonu iznd se može vidjeti poređenje između dvije verzije t distribucije (Studentov t-test.). Grafikon pokazuje da što je veći broj stepeni slobode (degrees of freedom - df), to se i t distribucija približava ‘normalnoj’ distribuciji. Broj stepena slobode (df) je prema tome važna i konstitutivna karakteristikasame disribucije.

Može se zaključiti da distribucija zavisi od broja stepena slobode i u svakom pojedinom slučaju mimoramo statističku značajnost da računamo u odnosu na distribuciju koja je rezultatodređenog broja stepena slobode.

Broj stepena slobode direktno zavisi od broja opserviranih vrijednosti od kojih zavisi standardna greška mjerenja.

Kada je riječ o standardnoj greški aritmetičke sredine onda:

df = n-1

Prema tome, broj stepeni slobode kada je testirani statistik aritmetička sredina je broj opservacija

minus 1 (napomena: za druge statistike ovaj princip ne važi)

DF je prema tome deskriptivni alat, i on usnovi prikazuje koliko iznosi broj opservacija usetu podataka koji su slobodni da variraju kada kalkulišemo željenu statistiku.

Page 137: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

137

Drugim riječima, kada mjerimo standardnu devijaciju, mi oduzimamo aritmetičku sredinu od svake vrijednosti n.

U ovom postupku, kada oduzmemo pretposljednju vrijednost, automatski znamo vrijednost finalne devijacije budući da suma svih devijacija mora biti jednaka 0

Dakle, posljednja devijacija nema slobodu varijacije, samo n-1 može da varira.

Postoje dva komplementarna ključna koncepta inferencijske statistike:

pouzdanost (npr. kao interval pouzdanosti) i

nivo značajnosti (engl. significance level, α ili alpha).

Statističko zaključivanje obuhvata:

ocjene nepoznatih parametara osnovnog skupa (interval povjerenja i tačkaste ocjene);

testiranje statističkih hipoteza o parametrima i raspodjelama statističkog skupa.

Ocenjivanje parametara osnovnog skupa vrši se na osnovu poznatih parametara uzorka uz odgovarajući rizik greške. Pod ispitivanjem postavljene hipoteze podrazumijeva se postupak provjere njene istinitosti (ispravnosti), odnosno postupak procjene značajnosti ispitivane pojave. Testiranje hipoteze podrazumijeva ispitivanje da li je unaprijed definisana pretpostavka o vrijednosti parametara osnovnog skupa istinita ili ne. Na osnovu rezultata testiranja, a pouzdanost je manja od 100% prihvatamo nultu ili alternativnu hipotezu. Nakon toga utvrđujemo da li smo prihvatili naśu pretpostavku ili ne.

U postupku statističkog zaključivanja koriste se parametarske i neparametarske metode. Od velikog značaje je mjerenje pouzdanosti

Stepeni slobode ocjene parametra su jednaki broju nezavisnih vrijednosti koji ulaze u procjenu minus broj parametara koji se koriste kao međukoraci u ocjeni samog parametra

Broj stepeni slobode u varijansi uzorka je jedan, jer je uzoračka sredina jedini međukorak

Page 138: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

138

statističkog zaključivanja, jer je u suprotnom ono nepotpuno. Posebno je značajno obratiti pażnju Nod odredivanja vrednosti faktora pouzdanosti. Ukoliko se koristi veliki uzorak (n≥30) onda se kritična vrijednost određuje na bazi kormalnog rasporeda i koristi se Z test. Kada je uzorak manji od 30 smatra se da je mali uzorak u pitanju i kritične vrijednosti testa se određuju na bazi studentovog t rasporeda i koristi se T test.

U odnosu na cilj i način odlučivanja (zaključivanja) razlikuju se dvije vrste statističke analize:

- ocjenjivanje karakteristika (parametara) osnovnog skupa, i - ispitivanje statističkih hipoteza. U prvom slučaju procjenjuju (ocjenjuju) se kvantitativne

karakteristike odnosno vrijednosti parametara osnovnog skupa. Nepoznata vrijednost parametara osnovnog skupa procjenjuje se metodom intervala povjerenja (pouzdanosti), a na osnovu ocjene tog parametra izračunatog iz uzorka.

U drugom slučaju ispituje se neka naučna pretpostavka (hipoteza) o uočenoj pojavi.

Postupkom provjere ispravnosti hipoteze može se procjenjivati:

značajnost sličnosti oblika raspodjela,

značajnost razlike, i

značajnost paralelizma (povezanosti, zavisnosti). Značajnost sličnosti oblika raspodjela

Značajnost sličnosti oblika raspodjela izvodi se složenim postupkom od više faza koji u sebe, između ostalog uključuje i testiranje hipoteze.

Analitički statistički metodi dijele se na parametarske, ako se pretpostavlja poznavanje oblika raspodjele i neparametraske koji ne traže da se poznaje oblik raspodjele.

Značajnost razlike

Značajnost razlike procjenjuje se metodima testiranja hipoteza.

Značajnost paralelizma

Značajnost paralelizma ispituje se metodima regresije i korelacije.

Page 139: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

139

2. Testiranje statističke hipoteze

Testiranje statističkih hipoteza je, pored ocjenjivanja nepoznatih parametara osnovnog skupa na bazi uzorka, predstavlja oblast statističkog zaključivanja. Za provjeru ispravnosti unaprijed postavljene pretpostavke o vrijednosti parametara osnovnog skupa primenjuje se naučni metod testiranja statističkih hipoteza.Testirati hipotezu znači donijeti odluku o tome hocemo li je odbaciti ili prihvatiti.

Statistički testovi koji se koriste prilikom testiranja mogu biti parametarski i neparametarski.

Parametarskim statističkim testovima ispituje aritmetička sredina.

Neparametarskim statističkim testovima ispituje se medijana.

Neparametarskitestovi nalaze primjenu u praksi zbog toga što veliki broj pojava nije kvantitativno mjerljiv već se może predstaviti u vidu rangova. Da bi se primijenio neparametarski test osnovni skup iz kojeg uzimamo podatke mora imati neprekidan raspored.

Postupak testiranja postavljene hipoteze podrazumijeva sljedeće faze:

1. formulisanje nulte i alternativne hipoteze; 2. izbor veličine i tipa uzorka; 3. izbor odgovarajuće statistike testa; 4. izbor rizika greśke ɑ, odnosno, vjerovatnoće β; 5. definisanje kriterijuma za prihvatanje/odbacivanje nulte nipoteze; 6. izračunavenje vrijednosti statistike testa; 7. komparacija dobijene vrijednosti sa kritičnim vrijednostima iz statističke tablice; 8. donošenje odluke o prihvatanju ili odbacivanju postavljene hipoteze.

Formulisanje nulte i alternativne hipoteze

Ispitivanje statističkih hipoteza podrazumijeva obavezno postojanje dvije, jasno definisane, po zvom značenju suprotne hipoteze.

Prva tzv. Alternativna ili radna hipoteza, se obilježava sa H1, postavlja se sa ciljem da bude prihvaćena. Ona sadrži pretpostavku koja

Page 140: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

140

je po mišljenju istraživača tačna. Alternativna hipoteza je ona koju prihvatamo u slucaju odbacivanja nul-hipoteze.

Druga tzv. nulta hipoteza, koja se obilježava sa H0, postavlja se sa ciljem da bude odbačena jer sadrži pretpostavku koju treba da osporimo.

Prilikom postavljanja nulte i alternativne hipoteze neophodno je našu pretpostavku koju želimo da potvrdimo prikažemo u okviru alternativne hipoteze. To je neophodno jer za odbacivanje nulte hipoteze moramo imati puno jače razloge od razloga za njeno prihvatanje. U tom slučaju ukoliko odbacimo nultu hipotezu onda je alternativna hipoteza sa velikom sigurnośću tačna. Medutim, tvrdnju da je hipoteza tačna ne treba prihvatiti sa velikom sigurnośću. To znači da nemamo dovoljno jake dokaze da osporimo tu tvrdnju i dok je tako tvrdnja će biti tačna. Dakle, alternativnu hipotezu automatski prihvatamo čim, na osnovu rezultata statistike testa, odbacimo nultu hipotezu i donosimo zaključak uslovljen radnom hipotezom. Sa druge strane, prihvatanjem nulte hipoteze odbacuje se alternativna hipoteza i donosi statistički zaključak koji je uslovljen značenjem nulte hipoteze.

Nul-hipoteza, H0

(engl. null hypothesis) pretpostavka je o

izostanku efekta, tj. da ne postoji razlika među uzorcima u populaciji od interesa (npr. nema razlike u aritmetičkim sredinama). To je hipoteza koja se testira, hipoteza da nema razlike (engl. hypothesis of no difference). Postavlja se najčešće u svrhu odbacivanja. Odbacuje se ili prihvata.

Nul-hipoteza znači pretpostavku da neka nađena razlika između dvije prosječne vrijednosti nije statistički značajna, tj. da razlika ne postoji nego je dobijena slučajno. Drugim riječima, to je svaka hipoteza koja se testira prema nekoj drugoj, alternativnoj hipotezi. Nul hipoteza je potvrđena ako se ne uspije dokazati da se ove hipoteze međusobno razlikuju. (Petz, 1985).

Primjer H0: u muškaraca i žena u populaciji jednak je postotak

pušača.

Alternativna hipoteza, H1

(engl. alternative hypothesis) vrijedi ako

nul-hipoteza nije istinita. Najčešće se direktno odnosi na teorijsku pretpostavku koja se želi istražiti, tj. često je alternativna hipoteza upravo hipoteza istraživača.

Page 141: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

141

Primjer H1: u muškaraca i žena u populaciji različit je postotak

pušača.

Zavisno od ispitivane pojave i cilja istraživanja statističke hipoteze mogu se formulisati na dva načina odnosno mogu imati dvije forme, dva oblika:

jednosmjerni, i

dvosmjerni.

Kada se ne može unaprijed sa sigurnošću odrediti smjer neke razlike, ukoliko ona postoji, primjenjuje se dvosmjerni test (engl. two-tailed test). Ako na primjer, nije specificiran smjer razlike u postotku pušača, tj. da li je postotak pušača u muškaraca veći ili manji u odnosu na žene u populaciji primjenjuje se dvosmjerni test.

Jednosmjerni test (engl. one-tailed test) primjenjuje se kada je smjer efekta specificiran u alternativnoj hipotezi (H

1). Primjenjuje se znatno

rjeđe; na primjer, u istraživanju bolesti od koje svi neliječeni bolesnici umiru pa novi lijek ne može pogoršati situaciju. Ili na primjer, Na primjer: pojava A je češća, veća od pojave B, pojava C je rijeđa, manja od pojave D; pojava A je povezana sa pojavom D u pozitivnom smislu; pojava B povezana je sa pojavom C u negativnom smislu; itd.

Hipoteze se obavezno formulišu prije početka istraživanja. Na taj način, time se izbjegava subjektivnost istraživača.

Izbor nivoa značajnosti

Izbor nivoa značajnosti donošenja statističkih zaključaka vrši se prije početka istraživanja. Nivo značajnosti bira istraživač. Nivoom značajnosti direktno se bira i kontroliše vjerovatnoća odbacivanja istinite (tačne) nulte hipoteze. To može biti bilo koja vrijednost u intervalu 0-100%. Uobičajeno je da se bira nivo značajnosti od 5% ili 1%. Jedan od razloga je i taj što su za njih izračunate vrijednosti u statističkim tablicama.

Kada su u pitanju društvene nauke, uobičajno je da se korisi nivo značajnosti od 0,05. To u suštini znači da postoji vjerovatnoća od 5% da je uočena veza između varijabli nastala delovanjem slučaja. U slučaju da se smatra da je 5% velika vrijednost, može se odabrati nivo značajnosti od 0,01 (1%). Nivo značajnosti se obilježava, grčkim slovom alfa (α).

Ako je vjerovatnoća p>0,05 ne odbacuje se nulta hipoteza, jer je vjerovatnoća da je uočena veza između varijabli nastala delovanjem

Page 142: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

142

slučaja veća od 5%. Ukoliko je verovatnoća p<0,05 odbacuje se nulta hipoteza, jer je verovatnoća da je uočena veza između varijabli nastala delovanjem slučaja manja od 5%.

Obilježavanje p>0,01 znači da vjerovatnoća da je uočena veza između varijabli nastala djelovanjem slučaja veća od 1%, a p<0,01 da je verovatnoća da je uočena veza između varijabli nastala delovanjem slučaja manja od 1%.

Izbor veličine nivoa značajnosti statističkog testa (0,05; 0,01; 0,001) je proizvoljan. Veličina nivoa značajnosti govori o tome u kojem postotku istraživač sebi dopušta da napravi grešku odbacivanja istinite nul-hipoteze.

Izbor analitičkog metoda:

U okviru izbora odgovarajućeg analitičkog metoda vrši se izbor vrste, tipa i konkretne formule metoda. Izbor vrste metoda direktno je uslovljen ciljem ispitivanja hipoteze.

Izbor statisti izbor statističkog testa kog testa ne zavisi u velikoj mjeri o veličini uzorka već:

- prirodi (tipu i raspodjeli) varijabli, - broju uzoraka (1, 2 ili više, - jesu li su uzorci zavisni ili ne

U praksi se za procjenu značajnosti razlike najčešće koristi odgovarajući statistički test a za procjenu povezanosti dviju ili više varijabli odgovarajući metodi regresije i korelacije.

Izračunavanje empirijske vrijednosti metoda

Empirijska vrijednost metoda uslovljena je podacima, odnosno informacijama dobijenim iz uzorka. Zaključak ispitivanja hipoteza zavisi od informacija dobijenih iz uzorka. Podaci dobijeni istraživanjem uvrštavaju se u formulu analitičkog metoda.

Određivanje teorijske vrijednosti metoda

Teorijska vrijednost metoda bazirana je na tzv. nultoj (hipotetičkoj) raspodjeli. Nulta (hipotetička) raspodjela obuhvata one vrijednosti analitičkog metoda koje se mogu izračunati na osnovu svih uzoraka koji potiču iz osnovnog skupa kada je stvarna vrijednost parametara skupa jednaka njegovoj hipotetičkoj vrijednosti.

Vrijednosti analitičkog metoda dijele se na dvije grupa:

Page 143: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

143

- one koje su vjerovatne, i - one koje su malo vjerovatne.

Skup malo vjerovatnih vrijednosti izabranog analitičkog metoda naziva se oblast odbacivanja nulte hipoteze. Skup svih preostalih vrijednosti analitičkog metoda naziva se oblast prihvatanja nulte hipoteze.

Izborom nivoa značajnosti određuje se prihvatljivo mali nivo vjerovatnoće odbacivanja istinite nulte hipoteze. Položaj odbacivanja nulte hipoteze određuje formulacija radne hipoteze. Način donošenja odluke o ishodu testa zavisi o tome je li test dvosmjeran ili jednosmjeran. Ako se ispituje pojava koja varira u oba smjera, odnosno, ako se radi o dvosmjernom načinu ispitivanja hipoteza, oblast odbacivanja simetrično je raspoređena na oba kraja teorijske (hipotetičke distribucije).

Dijagram: IV/2: Standardna normalna raspodjela Izvor:

http://studentski.hr/system/materials/3/121752c14b17153249799e7465e82f201e1b0386.zip?1439380554, dec.2018

Page 144: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

144

Dijagram: IV/3: Distribucija vjerojatnosti statističkog testa s

dvosmjernom vjerojatnošću, P =0,05 Izvor:

http://studentski.hr/system/materials/3/121752c14b17153249799e7465e82f201e1b0386.zip?1439380554, dec.2018

Ako je u pitanju jednosmjerni način ispitivanja hipoteza, oblast odbacivanja nulte hipoteze (vjerovatnoća greške) nalazi se samo na jednoj strani nulte distribucije. Zavisno od toga da li se oblast odbacivanja nulte hipoteze nalazi se na lijevoj ili desnoj strani distribucije, pojava može da varira ulijevo iloi u desno.

+ z- z0

0,45 0,5

0,95

0,05

- Zp + Zp

H1 H0

Oblast odbacivanja H0 i

prihvatanja H1

Oblast

prihvatanja H0

f(z)

Dijagram: IV/4: Koncept jednosmjernog testiranja ulijevo: p=0,05

Page 145: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

145

+ z- z0

0,49 0,495

0,99

0,001

- Zp + Zp

H1 H0

Oblast odbacivanja H0 i

prihvatanja H1

Oblast

prihvatanja H0

f(z)

Dijagram: IV/5: Koncept jednosmjernog testiranja ulijevo: p=0,01

+ z- z0

0,5 0,45

0,95

0,05

+ Zp

H1H0

Oblast odbacivanja H0 i

prihvatanja H1Oblast prihvatanja H0

f(z)

Dijagram: IV/6: Koncept jednosmjernog testiranja udesno: p=0,05

+ z- z0

0,5 0,49

0,99

0,001

+ Zp

H1H0

Oblast odbacivanja H0 i

prihvatanja H1Oblast prihvatanja H0

f(z)

Dijagram: IV/7: Koncept jednosmjernog testiranja udesno: p=0,01

Page 146: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

146

Poređenje empiriske i teorijske vrijednosti metoda - donošenje statističkog zaključka

Statistički zaključak donosi se poređenjem izračunate (empirijske) statistike testa i kritične (teorijske) vrijednosti.

Ukoliko empirijska vrijednot ima veliku vjerovatnoću javljanja kada je nulta hipoteza istinita ona potvrđuje (podržava) istinitost nulte hipoteze. I obrnuto, ako je empirijska vrijednost malo vjerovatna kad je nulta hipoteza istinita ona diskvalifikuje nultu a potvrđuje radnu hipotezu.

Imajući u vidu značenje teorijskih vrijednosti analitičkog metoda razlikuju se dva principa donošenja statističkog zaključka.

Prvi princip – Kada je teorijska vrijednost metoda maksimalna vrijednost analitičkog metoda za koju još uvijek važi nulta hipoteza:

a) za vjerovatnoću rizika od 0,95, prag značajnosti je 0,05 , a to znači da postoji 5% rizika da se napravi greška tj. da posmatrana vrijednosti ne pripada izračunatom intervalu i da nulta hipoteza nije tačna. (To znači da su ostupanja od početne hipoteze značajna.) Ako je empirijska vrijednost metoda manja od teorijske određene za vjerovatnoću rizika od 0,05 prihvata se nulta a odbacuje radna hipoteza i donosi se zaključak da ispitivana pojava nije statistički značajna (p> 0.05);

b) ako je empirijska vrijednost metoda veća od teorijske odbacuje se nulta a prihvata radna hipoteza i zaključuje da je ispitivana pojava statistički značajna (p < 0,05) odnosno visoko značajna (p < 0,01) u zavisnosti od nivoa značajnosti odabranog za procjenu hipoteza.

Drugi princip – Kada je teorijska vrijednost metoda maksimalna vrijednost za koju je pojava (u ovom slučaju razlika) još uvijek značajna:

a) ako je empirijska vrijednost manja od granične odbacuje se nulta a prihvata radna hipoteza i zaključuje se da je razlika još uvijek značajna (p<0,05) odnosno, visoko značajna (p<0,01) u zavisnosti od izabranog nivoa značajnosti;

b) ako je empirijska vrijednost veća od granične prihvata se nulta a odbacuje radna hipoteza i zaključuje da razlika više nije statistički visoko značajna (p > 0,01) odnosno značajna (p > 0,05).

Page 147: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

147

Ovdje ćemo prihvatiti i koristiti prvi princip, odnosno, kada je teorijska vrijednost metoda maksimalna vrijednost analitičkog metoda za koju još uvijek važi nulta hipoteza:

a) ako je empirijska vrijednost metoda manja od teorijske određene za vjerovatnoću rizika od 0,05 prihvata se nulta a odbacuje radna hipoteza i donosi se zaključak da ispitivana pojava nije statistički značajna (p> 0.05);

b) ako je empirijska vrijednost metoda veća od teorijske odbacuje se nulta a prihvata radna hipoteza i zaključuje da je ispitivana pojava statistički značajna (p < 0,05) odnosno visoko značajna (p < 0,01) u zavisnosti od nivoa značajnosti odabranog za procjenu hipoteza.

a) - ako je P < 0,05 odbacuje se nul-hipoteza, tj. rezultati su statistički značajni (signifikantni) na 5% razini značajnosti;

b) - ako je P ≥ 0,05 prihvaća se nul-hipoteza; tj. rezultati nisu statistički značajni (signifikantni) na 5% razini značajnosti, odnosno nema dovoljno dokaza za odbacivanje nul-hipoteze.

Testiranje hipoteza ima istu logiku i kod testiranja povezanosti i kod testiranja razlika. Iz tog razloga, riječ «razlika» u slučaju hipoteza vezanih uz testiranje statističke značajnosti razlika može se zamijeniti riječju «povezanost» u slučaju testiranja statističke značajnosti korelacija.

Razlike ili istovjetnost mogu biti slučajne i organizovane.

Slučajne razlike posljedica su slučajnih variranja i ne mogu se predvidjeti. Uzroci približnosti mjerenja su nesavršene kategorijalne definicije obilježja, prirodne heterogenosti skupa i opšte pojave u prirodi da se jedinke međusobno razlikuju.

Organizovane promjene (razlike) nastaju djelovanjem faktora koji se mogu, ili je poželjno da se identifikuju. Za organizovane razlike se kaže da su statistički značajne.

Prilikom elementarnog poređenja reprezentativnih numeričkih veličina moguće su dvije kombinacije:

1. Obe veličine pripadaju istom osnovnom skupu i razlika među njima, i ako objektivno postoji, statistički nije značajnas.

2. Obe veličine pripadaju različitim osnovnim skupovima i razlika između njih statistički je značajna.

Page 148: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

148

Ako se pri dokazivanju pripadnosti istom skupu upotrebljavaju parametri, kako bi se skupovi rekonstruisali i time dokazalo pripadnost uzoraka, koriste se parametarski statistički testovi.

Najčešće upotrebljavani su z-test i Studentov t-test.

Testiranje razlika numeričkih podataka

Testiranje razlika se provodi po načelu upoređivanja aritmetičkih sredina i standardnih raspršenja izmjerenih distribucija, na osnovu čega je moguće numerički izraziti koliko je odstupanje između njih, tj. da li je veće ili manje od neke kritične vrijednosti (koja govori da je razlika statistički značajna).

Statistički značajna razlika znači da postoji statistički dokaz te razlike, odnosno da postoji mjerljiva vjerojatnoća da pojedinačne vrijednosti iz uzorka dobro predstavljaju parametre populacije (Petz, 1985).

Page 149: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

149

3. Greške u zaključivanju

Zaključak koji je donesen statističkim testom može biti ili pogrešan ili ispravan.

Postupak procjene ispravnosti hipoteze ima, zbog toga, četiri moguća ishoda.

Moguće greške povezane za odbacivanje/prihvaćanje nul-hipoteze prikazane su u tabeli.

Tabela IV/1: Greške vezane uz odbacivanje/prihvatanje nul-hipoteze

Mogu se dogoditi dva tipa pogrešne odluke:

- pogreška I. tipa: odbaciti H0 ako je ona istinita - pogreška II. tipa: ne odbaciti H0ako je H1istinita.

Greška tipa I nastaje kada se odbaci istinita nul-hipotezu. Vjerovatnoća odbacivanja tačne nulte hipoteze tj. vjerovatnoća javljanja greške I vrste obilježava se sa alfa (α). Veličinu nivoa značajnosti valja odrediti prije prikupljanja podataka.

= P (greška I vrste)

= P (H0 odbačena/ H0 je tačna)

Page 150: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

150

Komplementarna greški I vrste je vjerovatnoća nivoa značajnosti, odnosno vjerovatnoća sigurnosti donesenog zaključka koja

iznosi 1 - To znači, ako je zadana greška =0,05 (5%), da će

vjerovatnoća sigurnosti iznositi 0,95 (95%). Smanjenje rizika povećava granične vrijednosti metoda a time proširuje oblast prihvatanja nulte

hipoteze koji iznosi 1 - .

Greška tipa II nastaje kada se ne odbaci neistinita nul-hipotezu te zaključi da nema efekta kada on stvarno postoji. Šansa da se načini greška tipa II naziva se β (beta).

= P (greška II vrste)

= P (H0 prihvaćena / H0 je pogrešna)

Vjerovatnoća koja je komplementarna vjerovatnoći greške

druge vrste (1predstavlja vjerovatnoću da će se primjenom konkretnog metoda odbaciti pogrešna nulta hipoteza.

Dok je vjerovatnoća greške prve vrste (rizikpod direktnom

kontrolom istraživača, vjerovatnoća greške druge vrste (rizik

indirektno je pod njegovom kontrolom.

Nivo vjerovatnoće greške druge vrste uslovljavaju četiri faktora:

stvarna vrijednost parametra ispitivanog problema,

nivo vjerovatnoće greške prve vrste

veličina uzorka, i

smjer procjene ispravnosti hipoteza.

Što je stvarna vrijednost ispitivanog parametra bliža njegovoj hipotetičkoj vrijednosti to je rizik prihvatanja pogrešne nulte hipoteze

veći. Sa druge strane, što je ova razlika veća rizik je manji. Razlika stvarne i hipotetičke vrijednosti nominirana je odgovorajućom standardnom greškom SE (Standard Error). Način da se vjerovatnoća jedne greške smanjije obezbjeđivanje bolje informacione osnove za procjenu ispravnosti hipoteza tj. povećanje veličine uzorka (n). Porast veličine uzorka, takođe, smanjuje vjerovatnoću javljanja greške druge

vrste tako što smanjuje standardnu grešku ocjene n

sdSE od koje

proporcionalno zavisi vjerovatnoća rizika.

Page 151: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

151

V VJEROVATNOĆA

1. Nastanak i razvoj vjerovatnoće

Pitanja vjerojatnosti su praktična pitanja s kojima se susrećemo u svakodnevnom životu, a posebno se često pojavljuju u igrama na sreću. Teorija verovatnoće je matematička disciplina koja izučava zakonitosti slučajnih pojava, tj. takvih empirijskih fenomena i situacija čiji ishodi nisu uvijek definisani, ali za njih postoji neka statistička regularnost.

Slučajni događaj je onaj događaj čija se realizacija ne može pouzdano predvidjeti.

Na primjer:

Vjerovatnoća p da će kod bacanja novčića pasti glava ili pismo jest 0,5+0,5=1, što je razumljivo jer nešto od tog dvoje mora pasti i to je potpuno sigurno. Vjerojatnost da ćemo kod jednog bacanja kocke baciti neparan broj (broj 5 ili broj 3 ili broj 1) jest 1/6+1/6+1/6=3/6=0,5

Klasična definicija verovatnoće je primjenljiva na slučajne eksperimente kod kojih je prostor elementarnih dogadaja konačan, tj. sadrži nelementarnih događaja i pri tome svaki od njih ima jednaku

mogućnost da nastupi. Tipični primjeri su bacanje kocke ili novčića bez ikakvih “trikova” sa ciljem dobijanja željenog rezultata.Pri njegovom padu na tu površinu moguća su dva ishoda: na gornjoj strani je pismo ili glava. Iz iskustva nam je poznato da je mogućnost da novčić ostane uspravan praktično nemoguć događaj. Takođe, ne možemo unaprijed znati da li će pasti pismo ili glava, što znači ishod nije definisan. Ako novčić bacamo mnogo puta, glava će pasti u približno polovini slučajeva i to je statistička regularnost koja odlikuje ovu slučajnu pojavu. U svakodvnevnom govoru opisujemo ovu pojavu rečenicom: "Vjerovatnoća da će pasti glava je 50%" i svima nam je intuitivno jasno šta ta rečenica znači.

Istorijski razvoja teorije vjerovatnoće

Ljudi su se počeli baviti vjerojatnošću prije više hilhjada godina.Godine 1560., talijanski ljekar, profesor geometrije i strastveni kockar Girolamo Cardano izračunao da je vjerovatnost svake strane kocke 1/6 ('Knjiga o igrama kockom').

Page 152: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

152

Za razvoj vjerovatnoće, vezuju se Blez Paskal (1623-1662), francuski matematičar fizičar i filozof. Prije Paskala niko od matematičara nije računao vjerovatnoće događaja na način na koji se to i sada radi. Među mnogim rezultatima koji se vezuju za Paskalovo ime je i poznati “Paskalov trougao”, šema u kojoj su zapisani binomni koeficijenti. U okviru evropske matematike to je bila značajna novost i važan rezultat. Interesantno je međutim da su Kinezi početkom XIV veka već imali takvu šemu. Paskalu je jedan prijatelj kockar postavio sljedeći problem: Dva igrača se dogovore da ulog u igri dobije onaj koji prvi odnese tri pobjede. Poslije dvije pobjede prvog i jedne pobjede drugog igrača, igra je sticajem okolnosti morala biti prekinuta. Na koji način treba pošteno podijeliti ulog a da to odražava realne šanse za pobjedu koje ima svaki od igrača? Paskal je našao da su šanse za pobjedu 3:1 u korist prvog igrača i predložio je podjelu uloga u tom odnosu.

Godine 1620., Galileo Galilei je objavio knjigu "Razmišljanja o igrama kockom" gdje je objašnjavao vjerovatnoću različitih ishoda ako se igra dvjema kockama. U knjizi se navodi da ako zajedno s jednom kockom, koja može pasti na bilo koju od šest strana, a za što je vjerovatnost podjednaka, bacamo još jednu kocku koja također ima šest strana, može se dobiti 36 različitih ishoda jer se svaka strana jedne kocke može javiti u kombinaciji sa svakom stranom druge kocke.

Teorijom brojeva, geometrijom, algebrom i teorijom verovatnoće, bavio se Pjer Ferma (1601-1665), francuski pravnik i matematičar. Njegova prepiska sa Blezom Paskalom je osnov teorije verovatnoće.

Razvoju teorije vjerovatnoće značajno su doprinijeli: Abraham de Moavr (Abraham de Moivre, 1667-1754) i Žak Bernuli (Jacques Bernoulli, 1665-1705). U teoriji vjerovatnoće Jakob Bernuli je dokazao jedan specijalan slučaj zakona velikih brojeva i konstruisao model za opisivanje niza nezavisnih eksperimenata, tzv. Bernulijeva, ili binomna, šema. Tu spadaju i Pjer Laplas (Pierre Laplace, 1749-1827), Simeon Poason (Simeon Poisson, 1781-1840), Karl Fridrih Gaus (Carl Friedrich Gauss, 1777-1855), Pafnutij Ljvovič Čebišjev (1821-1894), Andrej Andrejevič Markov (1856-1922). Poseban doprinos dao je A.N. Kolmogorov, ruski matematičar koji je razvio Sistem aksioma Teorije verovatnoće 1933. godine. Ovo se smatra se početkom modernog razvoja ove matematičke oblasti. Ovakav pristup je omogućio formiranje jedne formalno–logičke teorije u kojoj su istaknute samo bitne osobine pojma vjerovatnoće i pojma događaja kao određenih matematičkih objekata i

Page 153: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

153

koja te pojmove povezuje sa drugim matematičkim pojmovima (brojevima, skupovima, funkcijama) koristeći i dalje razvijajući već poznatu teoriju iz ovih oblasti.

Osnove vjerovatnosti

Statistika je utemeljena na matematičkoj teoriji vjerojatnosti, a ona, u svojoj osnovi, na teoriji skupova.

Elementi teorije vjerovatnoće

Vjerovatnoća se bavi slučajnim događajima. Slučajni događaj je onaj događaj čiji ishod ne može da se predvidi unaprijed. Poznat je samo skup ishoda od kojih jedan sigurno mora da bude, a smatra se da je baš taj ishod rezultat slučajnosti. Nasuprot slučajnim događajima postoje nužni, odnosno sigurni događaji. Primjer nužnog događaja je posljedica bacanja metalnog novčića u vazduh, koji zbog sile teže mora pasti na tlo. Prema tome, padanje novčića na tlo je siguran događaj. S obzirom da će novčić pasti na pismo ili grb, pojava pisma ili grba je slučajna.

Teorija vjerovatnoće proučava i objašnjava zakonitosti koje nastaju pri istovremenom uticaju velikog broja slučajnih faktora. Ova matematička disciplina je osnova matematičke statistike, teorije slučajnih procesa, teorije masovnog opsluživanja, teorije pouzdanosti, itd. Primenjuje se u raznim oblastima, kao što su: statistička fizika, geodezija (račun izravnanja), stohastička hidrologija, biologija (zakoni nasleđivanja), medicina, meteorologija (prognoziranje vremena), astronomija, demografija, ekonomija, itd.

Elementarni događaj je podskup prostora uzorka koji ima samo jedan element.

Složeni događaj je podskup prostora uzorka koji ima više od jednog elementa, tj. sastoji se od više od jednog elementarnog događaja.

Mjera očekivanja događaja, odnosno mjera slučajnosti događaja naziva se vjerovatnoća. Vjerovatnoća događaja može se izračunati na više načina. Osnovna su dva načina odnosno koncepta vjerovatnoće:

objektivna (teorijska i statistička), i

subjektivna vjerovatnoća.

Objektivna vjerovatnoća se temelji na slučajnom uzorku koji se može ponavljati u jednakim uslovima.

Postoje dva pristupa utvrđivanja objektivnih vjerojatnoća:

Page 154: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

154

klasični pristup ili a priori vjerojatnoća, i

statistički ili a posteriori vjerojatnoća.

Iznosi vjerovatnoća a priori i a posteriori često se međusobno razlikuju. Što je veći broj eksperimenata, vjerovatnoća a posteriori sve više se približava vjerovatnoći a priori. Ovaj odnos između vjerovatnoća a priori i a posteriori naziva se zakon velikih brojeva. Definisao ga je Bernuli(Bernoulli). On je pokazao da se, ako je poznata a priori

vjerovatnoća, na duge staze i pod određenim uslovima može očekivati određena, determinisana frekvencija događaja.Drugim riječima, kada broj eksperimenata raste, apsolutna razlika između relativne frekvencije i vjerovatnoće se smanjuje.To znači da ono što pojedinačno moramo smatrati slučajnim, u velikoj masi gubi karakter slučajnosti i ponaša se zakonomjerno. Tako na primjer, vjerovatnoc a da bačeni novčic pokaže pismo ili glavu iznosi ½. Što se više ponavlja ovaj eksperiment, to c e biti verovatnije da će broj ishoda kada „padne glava“ (relativna vjerovatnoća ishoda „glava“), biti blizak vrijednosti ½. Sa druge strane, vrlo je vjerovatno da c e apsolutna razlika između broja ishoda „glava“ i polovine broja bacanja novčic a rasti.

n

DmDP

n

)(lim)(

Postojanje zakona velikih brojeva je od ključne važnosti za induktivno statističko zaključivanje. Na njemu je bazirano i predviđanje budućnosti na osnovu prikupljenih frekvencija. Zato je zakon velikih brojeva jedan od ključnih statističkih koncepata.

Subjektivna vjerojatnoća se temelji na vlastitoj procjeni nastupanja slučajnog događaja.Najčešće se subjektivna vjerovatnoća formira za događaje koji se javljaju samo jedanput, ili se ponavljaju, ali u tako različitim uslovima da se mogu posmatrati kao jedinstveni događaj.

Način računanja vjerovatnoće:

Zamislimo dakle neki eksperiment kod koga je podjednako moguće nastupanje bilokog od ukupno n elementarnih dogadaja. Vjerovatnoća nastupanja nekog dogadaja jednaka je količniku broja

povoljnih ishoda, m, tj. broja elementarnih dogadaja koji povlače ostvarenje dogadaja A, i broja svih mogucih ishoda n .

Bez obzira na definiciju sve vjerovatnoće izračunavaju se kao odnos dijela prema cjelini tj.:

Page 155: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

155

gdje je:

P– vjerovatnoća

A - događaj

m - broj očekivanih (poželjnih) ishoda

n - broj svih mogucih ishoda

Primjer 1:35 Kolika je vjerovatnoća dobijanja parnog broja pri bacanju kocke?

Rješenje

Elementarni dogadaji koji povlači nastupanje posmatranog složenog događaja, Asu dobijanje 2, 4 ili 6 ima ih 3, m = 3.Ukupan broj svih elementarnih dogadaja jeovde 6, n = 6 . Prema formuli:

Primjer: Slučajni eksperiment se sastoji u izvlačenju jedne od kuglica iz kese koja sadrži 64 kuglice, od toga:

8 crvenih,

15 bijelih,

24 crne,

17 narandžastih.

Kolika je vjerovatnoća događaja A - izvlačenje crvene kuglice? Rješenje: Broj povoljnih događaja, izvlačenja bilo koje crvene kuglice, jednak je broju crvenih kuglica, m = 8. Ukupan broj mogućih ishoda je 64:

Osnovna svojstva vjerovatnoće

Najčešća svojstva vjerovatnoće, koja se koriste u praksi:

S1. Vjerovatnoća suprotnog događaja

35http://www.tf.uns.ac.rs/~omorr/radovan_omorjan_003_is/Osnovi%20inzenjerske%20statistike.pdf, decembar, 2018.

Page 156: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

156

Neka je (Ω, F, P) dani vjerovatnosni prostor i A ∈ F događaj. Suprotni događaj događaju A je njegov komplement, tj. događaj Ac . Vrijedi:

P(A c ) = 1 − P(A). Dokaz. Skup Ω možemo prikazati kao uniju disjunktnih skupova A i Ac (slika ispod)

Slika V/1: Skup Ω kao unija disjunktnih skupova A i Ac .

Primjer.36 U šeširu se nalazi dvadeset crvenih i dvije zelene kuglice. Pretpostavimo da svakakuglica, bez obzira na boju, može biti izvučena s jednakom vjerovatnoćom, tj. ako označimo kuglicek1; : : : k22 tada pretpostavljamo da je

Pretpostavimo da n puta, n ϵN, izvlacimo tačno jednu kuglicu iz šešira, ali tako da se nakonsvakog izvlačenja kuglica vraća u šešir i pomiješa sa ostalim kuglicama. Dakle, jedan ishod slučajnogpokusa koji se sastoji od n izvlačenja jedne kuglice shvatamo kao jednu varijaciju s ponavljanjemn-tog razreda skupa od 22 različita elementa, a pripadni je prostor elementarnih događaja skupsvih takvih varijacija s ponavljanjem. Znamo da takvih varijacija ima ukupno 22nte da su, zbogpretpostavke o jednakoj vjerojatnoći izvlačenja bilo koje od 22 kuglice, svi elementi od jednakovjerovatni. Dakle, za računanje je vjerojatnoće zanimljivih podskupova od Ω opravdano koristitiklasičan pristup.

Na primjer, zanima nas kolika je vjerovatnoća da u tih nizvlačenja kuglice iz šešira niti jednom nije izvučena zelena kuglica. U tu svrhu praktično je koristiti svojstvo vjerojatnoće suprotnog događaja. Naime, definišimo događaj A na sljedeci nacin:

36https://www.mathos.unios.hr/uvis/poglavlje1.pdf, decembar, 2018.

Page 157: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

157

A - u nje ponavljanja slučajnog pokusa barem je jednom izvučena zelena kuglica.

Njemu suprotan događaj jest Ac- u nponavljanja slučajnog eksperimenta niti jednom nije

izvučena zelena kuglica = u nje ponavljanja slučajnog eksperimenta svaki put izvučena

crvena kuglica. Događaj Acsastoji se od onih elemenata čiji su svi elementi crvene

kuglice, a takvih ima20n. Slijedi da je

Primjenom svojstva vjerojvatnoće suprotnog događaja vidimo da je

Page 158: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

158

2. Permutacije, kombinacije i varijacije

Kombinatorika se bavi problemom izdvajanja podskupova iz konačnih skupova i rasporedom elemenata u njima.

Varijacije bez ponavljanja

Neka je dat skup A = a1, a2, . . ., an od n elemenata. Varijacija k - te klase bezponavljanja od n elemenata je uredeni podskup, odnosno niz

od k (1 _ k _ n) različitihelemenata skupa A. Dakle, dvije varijacije pošto predstavljaju nizove od k elemenata, semeđusobno razlikuju,

po elementima koje sadrže (ako je k <n) ili

po njihovom redosledu.

Primjer: Od cifara 1, 2, 3 i 4 obrazovati sve trocifrene brojeve sa različitim ciframa.

Rješenje

Skup A je 1,2,3,4. Traženi brojevi, pošto se razlikuju medu sobom ili pociframa ili porasporedu istih cifara, predstavljaju varijacije treće klase od 4elementa:

123 213 312 412

124 214 314 413

132 231 321 421

134 234 324 423

142 241 341 431

143 243 342 432

Imamo 4 različita izbora za prvu cifru (1, 2, 3, 4). Za odabranu prvu cifru imamo3 mogućnosti za izbor druge (nije dozvoljeno ponavljanje cifara), a za svaki odizbora prve i druge cifre, kojih očigledno ukupno ima 4 x3 , preostaju dva izboraza posljednju cifru. Dakle, ukupan broj trocifrenih brojeva je 4 x 3 x2 = 24 .

Page 159: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

159

Uopšte, može se dokazati da je broj varijacija klase kod nelemenata jednak:

Permutacije bez ponavljanja

Svaki mogući raspored od nrazlicitih elemenata nazivamo permutacijom. Dakle, permutacija ustvari predstavlja varijaciju n-te klase. Tako iz (1.2), za n = k, dobijamo broj permutacija bez ponavljanja n elemenata:

Primjer: Obrazovati sve permutacije elemenata 1, 2, 3 .

Rješenje

Tri elementa je moguće poredati na 3! = 6 razlićitih naćina. Tih 6 permutacija su:

123, 132, 213, 231, 312, 321

Kombinacije

Svaki podskup od k (1 k n) razlicitih elemenata skupa A = a1, a2, . . ., annazivamo kombinacija klase k od n elemenata. Dakle, kao podskupovi (a ne nizovi) dvijekombinacije se razlikuju po izboru

elemenata koje sadrže, dok njihov redosljed nijebitan. Pošto od svake kombinacije možemo da obrazujemo, promjenom redosleda,odnosno

permutovanjem elemenata, k! razlicitih varijacija (Jedn. !nPn ), to je u

skladu sa(jedn. = ), broj kombinacija k-te klase od n elemenata:

Page 160: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

160

Primjer: U skupu od 50 proizvoda nalazi se 40 dobrih i 10 neispravnih. Na kolikonačina se može obrazovati uzorak od 5 proizvoda, ali tako da u njemu budu 3 dobra i 2 neispravna (loša) proizvoda?

Rješenje

Pošto za uzorak nije bitan poredak elemenata većsamo njegov sadržaj, u pitanjusu kombinacije. Tri od ukupno 40 dobrih proizvoda,

moguće je odabrati na C

načina.

Dva od 10 loših elemenata moguće je uzeti na C

načina:

Pri obrazovanju uzorka od 5 elemenata (3 dobra i 2 loša), svaki podskup od 3dobra elementamoguće je kombinovati sa svakim od podskupova defektnih, pa jeukupan broj traženih uzoraka:

Page 161: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

161

VI UZORAK I STATISTIKE UZORKA

1. Uzorak i statistike uzorka (osnove reprezentativnog metoda)

Potpune informacije o karakteristikama osnovnog skupa daje samo statistički popis. Popis se ne može sprovesti kada je osnovni skup neograničen (beskonačan). Takođe, sprovođenje popisa iziskuje mnogo vremena i zahtijeva velike troškove a posebno ako je osnovni skup veliki. Zbog toga se popis zamjenjuje jednim drugim metodom za ispitivanje osnovnog skupa – metodom uzorka.

Pojava koja se želi upoznati ili istražiti tom metodom zove se populacija ili osnovni skup, a njezin dio koji se u tu svrhu ispituje zove se uzorak.

Uzorak je dio osnovnog skupa (populacije). Svrha njegovog izbora je da se u što kraćem vremenu i sa što manje troškova dobije valjana informacija o karakteristikama cijelog skupa iz kojih uzorak potiče.

Teorija uzorkovanja proučava odnos između neke populacije i uzorka izvučenog iz nje.

Metod uzorka je efikasniji i ekonomičniji od popisa. Pored toga, metod uzorka može obezbjediti i bolji kvalitet prikupljenih podataka. Prikupljanje podataka podložno je greškama, bez obzira na to da li se vrši popis ili bira uzorak. Za razliku od popisa, pri kojem se angažuje veliki broj priučenih anketara (popisivača), kod izbora uzorka, zbog

Page 162: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

162

manjeg obima posla, angažuju samo stručna lica koja mogu istovremeno izršiti i provjeru prikupljenih podataka.

Page 163: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

163

2. Izbor uzorka

Osnovni motiv i zadatak pri izboru uzorka je donošenje vjerodostojnih i pouzdanih zaključaka o osnovnom skupu. U statističkom smislu populacija ili osnovni skup obuhvata sve statističke jedinice koje ispoljavaju obilježje koje je predmet istraživanja.

Uzorkovanje ili određivanje uzorka se može smatrati tehnikom odabira odgovarajućeg uzorka u svrhu određivanja parametara ili karakteristika cijele populacije. Da bi zaključci koje donosimo o karakteristikama osnovnog skupa na osnovu uzorka bili vjerodostojni, uzorak treba biti reprezentativan. Uzorak je reprezentativan ako po svojim osnovnim karakteristikama nalikuje na populaciju (umanjena slika osnovnog skupa).

Pretpostavimo da nam je cilj da prognoziramo rezultat političkih izbora. Uzorak od, na primjer, 100 birača mogli bi formirati od članova naše porodice, bliskih prijatelja i poslovnih kolega. Malo je vjerovatno da bi na ovaj način formirali uzorak jer se politički stavovi izabranih osoba mogu značajno razlikovati od stavova ostalih birača. Da bi obezbjedili reprezentativnost uzorka neophodno je da izbor jedinica vršimo na odgovarajući način.

Neophodno je sastaviti jasan i precizan plan odabira elemenata u uzorak. Plan sadrži:

ciljeve istraživanja;

određivanje statističkog skupa - utvrditi šta je jedinica skupa, onim skupa, definirati skup pojmovno, prostorno i vremenski;

određivanje okvira izbora: • popis jedinica osnovnog skupa iz kojeg se izabire uzorak,

npr. registri poslovnih subjekata; • popis jedinica izbora uzoraka koje obuhvaćaju više

elemenata osnovnog skupa, npr., istražujemo li pomoću uzorka stavove punoljetnog stanovništva, jedinica izbora može biti osoba, ali i domaćinstvo ili stambena zgrada.

podatke koje treba prikupiti,

model uzorka (nacrt, dizajn): • troškovi,

Page 164: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

164

• specifičnost osnovnih skupova, • način izbora elemenata u uzorak za svaki izbor, • utvrđuju se izrazi za statističko-analitičke veličine iz

uzorka, među kojima su i izrazi za veličine pogrešaka zbog primjene uzorka

• raspoloživa sredstva, • postupke prikupljanja podataka

Uzorkom se dolazi do procjene karakteristika osnovnog skupa, a statističkom metodom određuje se pouzdanost i preciznost te procjene – svi ti postupci čine metodu koja se zove metoda uzoraka.

Metodu uzoraka koristimo za:

(1) procjenu karakteristika populacije,

(2) donošenje odluke da li da se prihvati ili odbaci određena pretpostavka (hipoteza) koja se odnosi na neku karakteristiku populacije.

Postoji više metoda za izbor uzorka iz osnovnog skupa. Prema načinu izbora, uzorke dijelimo u dvije osnovne grupe:

u slučajne (probabilističke), zasnovane na vjerovatnoći, i

namjerne (neprobabilističke).

Ako prilikom izbora elemenata u uzorak, svaki element osnovnog skupa ima unaprijed poznatu vjerovatnoću da bude izabran, i ako je ova vjerovatnoća različita od nule, takav uzorak naziva se slučajnim. Svi ostali metodi izbora uzorka su poznati kao neslučajni, a tako izabrani uzorci kao namjerni uzorci.

Page 165: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

165

Slika VI/1: Vrste uzorka Izvor: Marušić, M., Prebežac, D., Istraživanje turističkih tržišta, Adeco, Zagreb, 2004., str. 171.

2.1. Slučajni ili probabilistički uzorci

Slučajni ili probabilistički uzorcise baziraju na vjerovatnoći odabira jedinice populacije u uzorak. Svaki član skupa ima vjerovatnoču izbora u uzorak veću od nule. Izbor uzorka iz populacije temelji se na principima jednake šanse (vjerovatnoće) ili slučajnog odabira. Ovakvi uzorci omogućavaju objektivnu procjenu populacije do koje se došlo istraživanjem uzorka. Izbor se vrši pomoću tablice slučajnih brojeva ili sistematskim izborom. Glavne vrste slučajnih uzoraka su:

a) jednostavni slučajni uzorak b) sistemski uzorak c) stratificirani uzorci ili klasterski uzorci d) uzorak površina.

Jednostavni slučajni uzorak

Ako iz odnovnog skupa veličine N izvlačimo uzorke od n elemenata tako da svaki mogući uzorak veličine n ima istu vjerovatnoću da bude izabran, takav uzorak nazivamo prostim slučajnim uzorkom.

Iz osnovnog skupa veličine N moguće je izabrati veći broj uzoraka veličine n koji se među sobom razlikuju u bar jednom elementu. Naka je K broj svih različitih uzoraka.

Page 166: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

166

Na osnovu izraza za broj kombinacija n-te klase od N elemenata dobije se broj svih različitih uzoraka veličine n iz osnovnog skupa veličine N elemenata.

)!(!

!

nNn

N

n

NK

Primjer: Ako se osnovni skup sastoji od pet elemenata A, B, C, D, i E, i ako iz skupa biramo uzorak od dva elementa (n=2), onda je

102

4*5

)1*2*3(1*2

1*2*3*4*5

)!25(!2

!5

2

5

K

Prosti slučajni uzorci su slijedeći parovi elemenata:

(A, B) (A, C) (A, D) (A, E)

(B, C) (B, D) (B, E)

(C, D) (C, E)

(D, E)

Sistemski uzorak

Sistematski uzorak je takav slučajan uzorak gde se izbor elemenata vrši po određenom sistematskom redosljedu, polazeći od slučajno izabranog početka. Kako bi se izabrao sistematski uzorak veličine n, iz konačnog osnovnog skupa veličine N, potrebno je da raspolažemo numerisanom listom svih jedinica skupa. Svakom elementu skupa pripisuje se jedan redni broj (od 1 do N).

Potom se svakom elementu skupa pripisuje se jedan redni broj (od 1 do N). Zatim se lista svih jedinica skupa dijeli na n jednakih intervala širine k = N/n, i iz svakog se bira po jedan element. Pri tome samo se iz prvog intervala na slučajan način bira prvi element, označimo njegovredni broj na listi sa d. Svi ostali elementi sistematskog uzorka dobijaju se sukcesivnimnalaženjem svake k-te jedinice sa liste. Dakle ostali elementi uzorka imaće sljedeće redne brojeve sa liste: d+k, d+2k, d+3k, itd.

Ako ako npr. imamo spisak od hiljadu jedinica mase, a želimo sistematski uzorak od 100 jedinica, možemo na bazi slučaja izabrati jedan broj između jedan i deset, na u uzorak uzimati svaki deseti član početnog spiska. U ovom slučaju sistematski primjenjujemo „korak” od deset jedinica.

Page 167: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

167

Primjer: Iz popisa od 100 turističkih agencija, potrebno je izabrati uzorak od 20 agencija. Izračunavanjem količnika 100/20=5 dobijamo “korak”, tj. razmak između izabranih jedinica. U ovom slučaju odabrat ćemo svaku petu agenciju, a prvu birati slučajnim izborom između brojeva 1 i 5. ako je slučajni izbor pao na broj 2, birat ćemo redom 7., 12., 17. itd. agenciju.

Sistematski uzorak ima svoje prednosti, među kojima su najznačajnije lakoća odabira i manji troškovi. Nedostatak sistemskog uzorka je taj što svi uzorci nemaju istu vjerovatnoću odabira, što može dovesti do neodgovarajućeg uzorka. Osim toga, poredak članova populacije mora biti prema nekom kriteriju.

Primjer37: Pretpostavimo da iz osnovnog skupa veličine N=3000 biramo sistematski uzorak od n=100 elemenata. Ako je redoslijed elemenata u osnovnom skupu slučajan, tada biramo samo jedan sistematski uzorak. Prvi element uzorka biramo slučajnim putem između prvih k=3000/100=30 elemenata (naka je d=16), a zatim uključujemo svaki 30-ti element osnovnog skupa u uzorak; tada uzorak čine elementi sa slijedećim rednim brojevima:

16, 46, 76, ..., 1986. Ovako formiran sistematski uzorak možemo posmatrati kao prost slučajan uzorak i da na isti način ocjenjujemo nepoznate parametre osnovnog skupa.

Ako redoslijed elemenata u osnovnom skupu nije slučajan, biramo više sistematskih uzoraka. Pretpostavimo da želimo izabrati 5 sistematskih uzoraka. Budući da veličina uzorka ostaje nepromjenjena, n=100, svaki sistematski uzorak treba da sadrži po 20 elemenata. Iz osnovnog spupa N=3000 može se izabrati ukupno k=3000/20=150 sistematskih uzoraka od po 20 elemenata. Primjenom tablice slučajnih brojeva izabraćemo 5 brojeva od 1 do 150; tako ćemo odrediti prve elemente, a sukcisivnim dodavanjem konstante 150 na svaki od ovih brojeva formiraćemo uzorke od po 20 elemenata.

2.2. Stratifikovani slučajni uzorak

Prost slučajan uzorak u principu daje preciznu ocjenukarakteristike skupa u slučaju ako je varijabilitet u skupu relativno mali.

37 Tanjga, Rade (2004), Osnove statistike za studente medicine Medicinski fakultet Banja Luka : Informatički savez Republike Srpske ISA Banja Luka

Page 168: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

168

U slučajevima kada je skup veoma heterogenzaključci dobijeni na osnovu jednostavnog slučajnog uzorkaneće biti dovoljno precizni. Iz tog rzloga se bira stratifikovani uzorak.

Biranje stratifikovanog uzorka se sprovodi u dvije faze. 1. Faza: Osnovni skup se dijeli u više jasno razgraničenih, što

sličnijih (homogenijih),podskupova koji se nazivaju stratumi, a sam postupak se naziva stratifikacija. Nakon toga. iz svakog stratuma se bira po jedan prost slučajan uzorak. Na taj način se formira stratifikovan uzorak, kao unija jwdnostavnih slučajnih uzoraka od kojih je svaki izabran iz po jednog stratuma. Statifikacija omogućava formiranje podskupova unutar kojih se jedinice među sobom relativno malorazlikuju po posmatranom obilježju, a da se istovremeno jedinice koje pripadaju različitimstratumima među sobom što više razlikuju.

2. Faza: U drugoj fazi, iz svakog stratuma bira se po jedan prost slučajan uzorak. Unija svih tih prostih slučajnihuzoraka naziva se stratifikovani uzorak. Prednost stratifikovanog uzorka u odnosu na prostslučajan uzorak je u tome što jereprezentativniji i samim tim dajepreciznije informacije o parametru skupa.

Treba naglasiti da je, stratifikovano slučajno uzorkovanje je uglavnom skuplje, iz razloga što svaka jedinica osnovnog skupa mora biti dodeljena nekom stratumu prije nego što se pristupi prostom slučajnom uzorkovanju.

Stratifikacija uzorka se može vršiti prema različitim kriterijumima. Na primjer, kriterijum može biti veličina preduzeća, ili pravni oblik organizovanja, ili vlasništvo i sl.

Page 169: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

169

Slika VI/2: Stratifikovan uzorak

Izvor: http://en.wikipedia.org/wiki/Sampling_%28statistics%29 (dostupno

02.01.2018.)

Postoje: 1. Proporcionalni startifikovani uzorak, koji može biti:

Direktno proporcionalni stratifikovani uzorak

Obrnuto proporcionalan stratifikovani uzorak Proporcionalni stratifikovani uzorak je uzorak u kojem je broj izabranih jedinica iz svakog stratuma proporcionalan broju elemenata toga stratuma u osnovom skupu.

2. Neproporcionalni stratifikovani uzorak Neproporcionalni uzorak je onaj koji se formira tako da se iz svakog stratuma odabiru elementi, pri čemu je broj elemenata zavisan od veličine stratuma i stepena njegove homogenosti (heterogenosti).

Stratifikovano slučajno uzorkovanje se najčešće provodi proporcionalnimmetodom alokacije elemenata skupa. To znači da je veličina uzorka uzetog iz svakog stratumaproporcionalan procentu sa kojim svaki stratum učestvuje uosnovnom skupu.

Stratifikacijom se, sa jedne strane, postiže reprezentativnost stratifikovanog uzorka, a sa druge, obezbjeđuju informacije i o pojedinim dijelovima osnovnog skupa.

Namjerni uzorak

Namjerni uzorak se formira od jedinica osnovnog skupa koje istraživač bira prema ličnom uvjerenju kao tipične ili reprezentativne za

Page 170: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

170

dati osnovni skup. Istaživač mora dobro poznavati populaciju posmatranja, kako bi obezbijedio reprezentativnost.

Neki od namjernih uzoraka koje je moguće razlikovati su prigodni uzorak, dobrovoljni uzorak ili kvotni uzorak. Za ilustracijuprigodog uzorka može poslužiti onaj uzorak koji obuhvata one članove populacije do kojih je istraživač najlakše došao u trenutku provođenja istraživanja.

Ako istraživač bira svaku jedinicu uzorka prema ličnom uvjerenju, on formira tzv. uzorak zasnovan na subjektivnom sudu.

Kvotni uzorak

U izboru jedinica zakvotni uzorak prisutna su i neka ograničenja. Struktura uzorka mora odgovarati cilju istraživanja i mora odražavati strukturu osnovnog skupa.

Kvotni uzorak bira se u postupku koji sadrži tri dijela:

1. Određujemo “kontrolne osobine” osnovnog skupa. To su one osobine koje smatramo značajnim za istraživanje sadržaja koji je predmet istraživanja, a mogu biti različite.

Tako na primjer, kontrolne karakteristike mogu biti pol, starost, zanimanje, mjesto stanovanja ispitanika. Važno je da imaju uticaja na pojavu koju istražujemo. Kontrolne karakteristike treba da su svima jasne: istraživaču, anketaru, korisniku, te moraju biti dostupne u postojećim sekundarnim podacima.

2. Osobine osnovnog skupa na osnovu kojih ćemo odrediti sastav uzorka sada su poznate i slijedi odluka o uzorku: njegov sastav može biti proporcionalan osobinama osnovnog skupa, može biti i neproporcionalan.

Proporcionalni kvotni uzorak je vjerna slika struktureosnovnog skupa.

Neproporcionalni kvotni uzorak nije vjerna slika strukture uzorka.

Formiramo ga poznavajući tu strukturu, ali smo odlučili da iz nekih razloga za koje vjerujemo da su korisni za istraživanje, nećemo primijeniti isti odnos između kontrolnih osobina koji vlada u osnovnomskupu.

3. Treći dio postupka biranja kvotnog uzorka sastoji seu određivanju zadatka svakom anketaru.Cijeli uzorak se dijeli na manje

Page 171: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

171

cjeline od oko 20 ispitanika za pojedinog anketara. Zadatak anketara je da pronađe i anketira osobe sa zadanim karakteristikama.

Pogodni uzorci, formirani su od jedinica osnovnog skupa čiji je izbor pogodan. Često se koriste u ispitivanju javnog mnijenja (anketiranje u glavnoj ulici, predgrađu u okolini stadiona i slično) ali su rijetko reprezentativni.

Primjena namjernih uzoraka opravdana je u slučajevima kad biramo uzorak u kratkom vremenu ili kada izbor vršimo iz malog osnovnog skupa (pa je zastupljenost nekih jedinica veoma važna). Prikladan je i u tzv. pilotskim istraživanjima, kada na osnovu informacija o osnovnom skupu biramo vrstu uzorka koju ćemo koristiti u analizi.

Struktura uzorka mora odgovarati cilju istraživanja i neophodno je da odražava strukturu osnovnog skupa. Elemente osnovnog skupa svrstavamo u nekoliko grupa, prema jednoj ili više karakteristika. Izbor jedinica iz svake grupe prepušta se subjektivnom sudu anketara.

Od svih namjernih uzoraka, kvotni uzorak po svojoj logici najviše se približava slučajnim uzorcima. Kvotni uzorak se vrlo često primjenjuje u istraživanju tržišta zbog jednostavnoga formiranja i relativno dobrih rezultata.

Primjer: Iz skupa žena treba izabrati kvotni uzorak, kako bi se analizirala aktivnost žena u slobodnom vremenu. Uzorak treba da obuhvati žene različite starosne dobi, bračnog stanja, obrazovanja i mjesta stanovanja (selo, grad) i to proporcionalno njihovoj zastupljenosti u osnovnom skupu. Zbog subjektivnog izbora elemenata elemenata iz pojedinih grupa, moguća je pristrasnost u izboru, a njena veličina (pristrasnosti) zavisi od stručnosti i savjesnosti anketara.

Kvotni uzorak µcesto nije reprezentativan, jer anketar sam, hodajući gradom ili jednom ulicom, po svojim afinitetima i atrakcijama, odabire ispitanike.

Prednosti kvotnog uzorkovanja su:

ekonomičnost

kvotno uzorkovanje je često i jedini primjenljivi metod uzorkovanja za populacije za koje ne postoji okvir.

Osnovni nedostatak kvotnog uzorkovanja:

Page 172: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

172

ovo uzorkovanje nije bazirano na vjerovatnoći i ne omogućava da se procjene standardne greške povežu sa rezultatom iz uzorka.

Greške uzorka

Niti jedna od tehnika uzorkovanja unaprijed ne garantuje da će se izabratireprezentativan uzorak, iz razloga što uzorak uvijek predstavlja samo dio skupa.Neke greške su uzrokovane strukturom uzorka, a druge potiču od prikupljanja i obrade podataka.

Neke greške mogu bitirelativno male i u tom slučaju neće uticati na validnost zaključka, dok druge mogu biti toliko velike da će uticati na formulisanje pogrešnog zaključka.

Pogreška uzorka je razlika između µ (aritmetička sredina) i x, tj. x − µ. Navedeno vrijedi za slučajne uzorke, pod uslovom da nema ostalih grešaka. Razlozi ostalih grešaka su:

neslučajnost uzorka;

netačni i/ili neiskreni ogovori;

nejasna pitanja;

pogrešan unos/kopiranje podataka.

2.3. Slučajne i neslučajne greške

U realnom životu, ne postoji niti jedan način izbora elemenata u uzorak koji bi garantovao potpunu reprezentativnost uzorka. To se može postići samo u slučaju ako je uzorak jednak osnovnom skupu ili ako je osnovni skup potpuno homogeny, ali u tom slučaju on i nije predmet statističke analize. Greške u zaključivanju mogu biti:

(1) slučajne greške ili greške koje nastaju zbog slučajnog izbora elemenata u uzorak, (2) neslučajne (sistematske) greške koje su mnogo opasnije po zaključivanje.

(1) Slučajna greška se definiše kao razlika između stvarne vrijednosti parametra osnovnog skupa i ocijenjene vrijednosti ovog parametra koju izračunavamo na osnovu uzorka. Slučajne greške su uvijek prisutne. Iako nepredvidive slučajne greške imaju jednu dobru osobinu, a to je da se veoma dobro uklapaju u statistička pravila. Povećanim brojem mjerenja iste veličine ili probe, veličina ovih grešaka se umanjuje.

Page 173: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

173

(2) Neslučajne (sistematske) greške nastaju iz više razloga i teško ih je kontrolisati. U vezi su s neizbježnom nesavršenosti opažača i uređaja, mogu se smanjivati, ali se ne daju potpuno izbjeći.

Sistematske greške proizlaze iz problema u prikupljanju podataka kao:

- ukljuĉivanje ispitanika izvan populacije, - neukljuĉivanje elemenata populacije, - greške pri mjerenju, - problemi prilikom unosa podataka, i - nepotpuno odgovaranje ili odbijanje da se pristupi istraživanju.

Primjer lošeg okvira: Netačna prognoza rezultata političkih izbora u SAD 1948. godine je primjer loše izabranog okvira za izbor uzorka. Naime, prognoza je predviđala pobjedu republikanca Diveja (Dewey), a sa velikom većinom pobivjedio je demokrata Truman (Truman). Iz telefonskih imenika slučajnim putem birani su brojevi i glasači su kontaktirani telefonom. Prognoza zasnovana na ovako formiranom uzorku bila je pogrešna jer su telefon imali samo imućniji građani koji su većinom podrčavali republikance. Drugim riječima, okvir iz kojeg je uzorak stvarno izabran, nije po strukturi odgovarao osnovnom skupu.38

Neslučajna greška može se javiti i prilikom same realizacije slučajnog izbora elemenata u uzorak. Kasnih 1960-tih godina u SAD su mladići regrutovani u vojsku po datumu rođenja. Tehnika je bila takva da se iz bubnja sa 366 žetona (sa datumima od 01.01. do 31.12.) slučajnim putem biraju žetoni. Utvrđeno je da su zbog redoslijeda stavljanja žetona u bubanj kao i brzine centrifuge favorizovani datumi posljednjih mjeseci u odnosu na početne mjesece u godini.

Neslučajna greška može se javiti u slučajevima ako zaključak donosimo na osnovu samo jednog dijela uzorka, a ne na osnovu svih njegovih elemenata. Npr. često se polazi pogrešne pretpostavke da bi i lica koja nisu odgovorila na anketu dala istovjetne odgovore. Ova greška naziva se pristrasnost zbog odsustva odgovora.

Izvor grešaka može biti i primjena nepreciznog upitnika. Kako bi se otklonila greška nastala usljed različitog tumačenja istog pitanja,

38Tanjga, Rade (2004), Osnove statistike za studente medicine Medicinski fakultet Banja Luka : Informatički savez Republike Srpske ISA Banja Luka

Page 174: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

174

sastavljeni upitnik, prije konačne upotrebe, uglavnmom se testira na kontrolnoj grupi.

Mogu se javljati i greške anketara prilikom upisivanja odgovora, tehničke greške prilikom obrade i slično. Najvažnije pri istraživanju je da se izbjegnu one neslučajne greške koje mogu biti pogubne po zaključak.

2.5. Studentov t-test (William Sealy Casset (1876-

1937) Student)

Studentov t-test (student analiza), je analitički parametarski metod za procjenu značajnosti razlike. t-test (uvijek malo latinicno slovo «t») je parametrijski statisticki postupak koji se koristi za testiranje hipoteza, tj. za utvrđivanje statističke značajnosti razlike izmedu dvije istorodne statističke mjere, (dva statistika iste vrste, npr. dvije aritmetičke sredine, dvije standardne devijacije, dva procenta, dvije proporcije, dva koeficijenta korelacije i sl.), dobijene, uglavnom na malim uzorcila istraživanja. Zavisno o tome da li su uzorci zavisni ili nezavisni, služi za utvrđivanje značajnosti razlike između tretmana (uzoraka), najčešće između dva uzorka ili tretmana, ili poređenjem sa nekim standardom (jedan uzorak). Npr. razlika u efektima nekog lijeka kao zavisne varijable, kod dvije različite grupe pacijenata kao nezavisne varijable.

U Excelu, pomoću funkcije TTEST može se izračunati Studentov t-test između dva uzorka ispitanika koji se nalaze u poljima Array1 (npr. A2:A62) i Array2 (npr. B2:B62).

Izračunavanje statističkih parametara neophodnih za primjenu t-testa moguće je samo kod jedinica posmatranja koji su numeričkog tipa.

Međutim, ukoliko nije moguće provjeriti pripadnost skupa normalnoj raspodjeli potrebno je aproksimirati tip raspodjele utvrđivanjem homogenosti vrijednosti obilježja (CV<30%).

Najčešće se, u istraživanjima, pojavljuje potreba za određivanjem odnosa grupe prema populaciji, za ispitivanje promjene stanja grupe i za poređenje dviju grupa.

Studentov t-test primjenjuje se na vrijednosti obilježja koje potiču iz osnovnog skupa koji se distribuira po normalnoj raspodjeli.

S obzirom na ove ciljeve t-test se može koristiti u više eksperimentalnih situacija.

T-testom može se ispitivati:

Page 175: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

175

značajnost razlike uzorka i osnovnog skupa,

značajnost razlike zavisnog uzorka, i

značajnost razlike dva nezavisna uzorka.

Pod pojmom zavisnog, odnosno vezanog uzorka, podrazumijeva se uzorak kod koga jedinice posmatranja same sebi predstavljaju kontrolu.

т-test se upotrebljava i u situacijama kao je potrebno ocijeniti značajnost empirijskih vrijednosti drugih analitičkih metoda.

Testiranja hipoteza ima za svrhu pružanje pomoći u donošenju odluka koje se odnose na izabranu populaciju. Ove odluke se zasnivaju na podacima dobijenim iz ograničenog dijela cjeline - uzorka.

Studentov t-test karakterističan je za ispitivanja, koja omogućavaju izračunavanje različitih parametara osnovnog skupa korištenjem uzorka (parametri su aritmetička sredina, relativni brojevi, mjere varijabiliteta itd.).

Izračunavanje, t-vrijednosti omogućuje se da se pomoću tabela graničnih vrijednosti utvrdi da Ii je ta razlika statistički značajna, na određenom nivou značajnosti, odnosno da Ii je posljedica djelovanja sistemskog faktora, ili je nastala slučajno, odnosno da se prihvati ili odbaci nulta hipoteza. Veličina t-vrijednosti predstavlja odnos razlike dvije statističke mjere (npr. razlika aritmetičkih sredina dva uzorka) i standardne greške te razlike; t-vrijednost pokazuje koliko puta je razlika veća od svoje standardne greske.

2.5.1. Utvrdivanje statisticke znacajnosti razlike dvije aritmeticke sredine t-testom na velikim uzorcima

Primjer.39 Utvrditi da Ii postoji statistički značajna razlika u rezultatima na testu znanja izmedu studenata koji su se za test znanja iz matematike pripremali po klasičnom nastavnom materijalu i onih koji su se pripremali po programiranon nastavnom materijalu (N = 220), ako su dobijeni rezultati testa statisticki obrađeni i prikazani u tabeli.

39

Andevski, M., Kundacina, M. (2008). Praktikum iz metodologije : vezbe iz metodologije istrazivanja u menadzmentu. Cekom. Novi Sad, str.137.

Page 176: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

176

Razlika aritmetickih sredina: DM = M2 –M1= 62,80 -48,20 = 14,6

Standardna greška razlike izmedu dvije aritmetičke sredine:

Stepeni slobode: df = NI+ N2-2 = 60 +160 -2 = 218

Razlika izmedu dvije aritmetičke sredine, grupe učenika koji su radili po klasičnom nastavnom materijalu i grupe učenika koji su radili po programiranom nastavnom materijalu nije slučajna (statistički je značajna). Jer je izračunata vrijednost t (t = 6,01) veća od graničnih t-vrijednosti (1,96 i 2,58) na nivoima 0,05 i 0,01 uz 218 stepeni slobode (Tabela ispod). Dakle, razlika između dvije aritmetičke sredine je sistemska (statistički je značajna), jer je izračunata t vrednost (t = 7,46) veća od graničnih t vrijednosti (1,96 i 2,58) na nivoima 0,05 i 0,01, uz 228 stepeni slobode.

Page 177: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

177

Tabela VI/1: Granične vrijednosti prema nivoima značajnosti

2.5.2. Utvrdivanje statisticke znacajnosti razlike dve aritmeticke sredine Т-testom (mali uzorci)

Praktikum iz metodologije (135) Andevski, M., Kundacina, M. (2008). Praktikum iz metodologije : vezbe iz metodologije istrazivanja u menadzmentu. Cekom. Novi Sad

Page 178: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

178

Primjer:40 Tjelesna razvijenost dece sagledava se kroz tjelesnu visinu i tjelesnu masu. Podatke o tjelesnoj visini za dvije grupe dječaka od 9 godina, iz gradske i seoske sredine prikazuje tabela.

Tabela VI/2: Pregled tjelesnih visina djece

Utvrditi da Ii se djecaci iz gradske i seoske sredine statisticki znacajno razlikuju po tjeIesnoj visini. Stepeni slobode: df= N1+ N2-2 = 17 + 15 -2 = 32 -2 = 30

Standardne greske aritmetičkih sredina:

Standardna greška razlike izmedu dvie aritmetičke sredine:

: standardna greška izmedu dvije aritmeticke sredine

Razlika između dvije aritmetičke sredine po apsolutnoj vrijednosti.

DM= M -M2= 143 -141,26 = 1,74

DM : Razlika izmedu dvije aritmetičke sredine po apsolutnoj vrijednosti (MI-M2).

Izračunata t-vrijednost iznosi 0,66 pa u poređenju sa graničnim t-vrijednostima 2,04 i 2,75 za odgovarajući stepen slobode (df = 30) i na

40

Andevski, M., Kundacina, M. (2008). Praktikum iz metodologije : vezbe iz metodologije istrazivanja u menadzmentu. Cekom. Novi Sad, str. 138.

Page 179: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

179

datim nivoilna znacajnosti 0,05 i 0,01, zakljucuje se da razlika izmedu dvije aritmetičke sredine nije statistički značajna. t-vrijednost je manja od navedenih graničnih vrijednosti. Dakle, dječaci iz gradske i seoske sredine, uzrasta 9 godina, obuhvaćeni slučajniln uzorkom istraživanja statistički značajno se ne razlikuju po tjelesnoj visini. Prihvata se nulta hipoteza. Uzorci pripadaju istom osnovnom skupu.

2.6. Hi kvadrat test

Jedan od prvih statističkih testova je Hi kvadrat–test (χ2 test). Predložio ga je K. Pearson 1900. Godine. Poznat je i pod nazivom Pearsonov test. Hi kvadrat− test je neparametarski test. Pomoću njega testiramo nultu hipotezu da obilježje Hi ima odredenu (teorijsku) raspodjelu protiv alternativne da nema tu raspodjelu. Isto tako pomoćuHi kvadrat-testa ispitujemo nezavisnost dva statistička obilježja, kao i homogenost populacija.

Spektar situacija u kojima se ovaj test može koristiti najčešće se dijeli u dvije velike kategorije.

testovi slaganja, i

tablice kontigencije.

Prvu grupu čine one empirijske situacije u kojima se procjenjuje značajnost razlike frekvencija po gradacijama jednog obilježja posmatranja. Empirijske frekvencije, u ovom slučaju, potiču iz jednog istog uzroka koji je formiran na osnovu obilježja posmatranja. Dihotomna gradacija obilježja posmatranja daje elementarnu empirijsku situaciju ovog tipa. Nju čini jedna serija (niz) od samo dva člana (dvije empirijske frekvencije).

Drugoj grupi pripadaju one empirijske situacije u kojima se procjenjuje značajnost razlike frekvencija po gradacijama dva obilježja posmatranja.

Empirijske frekvencije u ovom slučaju potiču oiz dva ili više nezavisnih uzoraka. Da bi se lakše obradile frekvencije ovog tipa, svrstavaju se u tablice kontingencije.

Hi kvadrat test najčešće se primjenjuje kad treba ispitati razlike između dobijenih (observiranih) i očekivanih (teorijskih) frekvencija. Pri tome Hi kvadrat ne daje informaciju o stepenu asocijacije (povezanosti) između ispitivanih atributivnih obilježja. Dobijene (observirane)

Page 180: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

180

frekvencije su frekvencije dobijene empirijskim istraživanjima ili eksperimentom. Očekivane frekvencije su teorijskog karaktera ili frekvencije koje se očekuju na osnovu hipoteze koja se želi provjeriti. Teorijska distribucija frekvencija se ne poklapa sa dobijenom distribucijom, odnosno, između njih postoji “izvjesna razlika”. Osnovno je pitanje da li je ta razlika slučajnog karaktera ili je statistički signifikantna, odnosno da li je nastala pod djelovanjem sistemskih (eksperimentalnih) faktora. Odgovor na ovo pitanje i mogućnost ocjene razlike između (dobijenih i očekivanih) frekvencija daje Hi kvadrat test definisan izrazom:

it

itiok

i f

ff2

1

2

gdje je:

i - brojač (modaliteta ispitivanog obilježja);

fo - opservirane, posmatrane frekvencije iz ispitivanja;

ft - očekivane (teorijske) frekvencije, tj. one koje se očekuju za

istinitost nulte hipoteze

k - ukupan broj modaliteta .

Simbol Σ (sigma) u formuli znači da Hi kvadrat test ima kumulativni karakter.

Najvažniji uslovi za primjenu Hi kvadrat testa su:

a) Hi kvadrat test izračunava se isključivo iz apsolutnih frekvencija, ili iz podataka ako se oni mogu svesti na apsolutne frekvencije;

b) Niti jedan od apsolutnih frekvencija ne smije imati vrijednost manju od 5 jedinica;

c) Kada su uzorci manji od 200 jedinica (n1+n2<200) primjenjuje se Jatesova (Yates) korekcija:

1. Svaka dobijena frekvencija, ako je veća od očekivane umanjuje se za 0,5;

2. Svaka dobijena frekvencija ako je manja od očekivane uvećava se za 0,5.

Hi-kvadrat test se najčešće upotrebljava u ovim slučajevima:

Page 181: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

181

1) Kad imamo frekvencije jednog uzorka pa želimo ustanoviti odstupaju li te frekvencije od frekvencija koje očekujemo uz neku hipotezu.

2) Kad imamo frekvencije dvaju ili više nezavisnih uzoraka te želimo ustanoviti razlikuju li se uzorci u opaženim svojstvima.

3) Kad imamo frekvenciju dvaju zavisnih uzoraka, koji imaju dihotomna svojstva, te želimo ustanoviti razlikuju li se uzorci u mjernim svojstvima, tj. je li došlo do promjene.

2.6.1. Primjena hi kvadrat testa kao testa slaganja

Testovi slaganja prikladni su u slučajevima kada donosimo odluku o saglasnosti naših podataka sa nekom hipotetičkom raspodjelom.

Primjer41

U okviru ankete, koja je sprovedena među 500 studenata Medicinskog fakulteta, postavljeno je i pitanje:

Da li ste, poslije odslušane prve godine, u bilo kom smislu promijenili mišljenje o studijama na ovom fakultetu?

Na ovo pitanje dobijeni su sljedeći odgovori:

Tabela VI/3: Mišljenje o studiju

nisu promijenili mišljenje 350

imaju bolje mišljenje 50

imaju lošije mišljenje 100

S obzirom da se u prvoj kategoriji odgovora očekivalo 80%, a u druge dvije po 10%, postavlja se pitanje:

Da li odnos ovako dobijenih odgovora značajno odstupa od očekivanog?

41Tanjga, Rade (2004), Osnove statistike za studente medicine Medicinski fakultet Banja Luka : Informatički savez Republike Srpske ISA Banja Luka

Page 182: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

182

Rješenje

Počećemo sa formulisanjem pretpostavki, koje u toku procesa testiranja želimo provjeriti na prikupljenim podacima.

To su nulta i radna hipoteza: Nulta hipoteza, čija se održivost i provjerava, govori da nema značajnih razlika između dobijenih frekvencija u odgovorima od one, koja je prije početka ispitivanja očekivana.

Znači, razlike će sigurno postojati, međutim njihovo porijeklo je u varijabilnosti same pojave koja se ispituje. Nasuprot tome, radna hipoteza tvrdi suprotno. Značajne razlike postoje i one su posljedica djelovanja nekog sistematskog faktora.

Na osnovu prikupljanja podataka izračunava se empirijska vrijednost hi-kvadrat testa pomoću sljedeće formule:

it

itiok

i f

ff2

1

2

Formira se radna tabela:

Tabela VI/4: Hi kbadrat

i fo ft

1 350 400 -50 2500 6,25

2 50 50 0 0 0

3 100 50 50 2500 50

emp 56,25

Teorijska ili granična vrijednost hi-kvadrata za odabrane vjerovatnoće nulte hipoteze u funkciji broja stepena slobode, dobije se iz tablice Hi kvadrata. Broj stepeni slobode je broj uslova koji definiše sve ostale frekvencije pri konstantnim ivičnim zbirovima, znači u konkretnom slučaju broj modaliteta minus jedan, tj. 3-1=2. Iz tablice se određuje teorijska (granična) vrijednost hi kvadrata za DF=2 i p=0,01

koja iznosi 210,92 gr .

Kako je 25,562

. emp veće od 210,92 gr prihvata se

radna a odbacuje nulta hipoteza.

itio ff 2

itio ff

ti

itio

fff

2

Page 183: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

183

Analiza varijance (ANOVA)

Analiza varijance(ANOVA) je praktičnija od t-testa jer omogućuje ispitivanje razlika između većeg broja tretmana jedne nezavisne varijable, što bi tražilo veći broj t-testova. Jednostavnije, služi za usporedbu (nalaženje razlika između) više nezavisnih uzoraka (npr. razlika u efektima nekog lijeka kao zavisne varijable, kod više različitih grupa pacijenata kao nezavisne varijable). Kruskal-Wallisov test neparametrijska je verzija ANOVA-e za više za nezavisnih uzoraka, a Friedmanov test je verzija ANOVA-e za više za zavisnih uzoraka (Petz, 1985).

U Excelu, pomoću izbornika Alati (Tools) pod Analiza podataka, ponuđene različite vrste ANOVA-e, od kojih ćemo mi spomenuti ANOVA Single faktor, pomoću koje zadajemo istovremeno u polje Input Range sve varijable istovremeno, tj. raspon polja podataka, npr. A2:D62. Tako ćemo zapravo usporediti istovremeno čak 4 uzorka, u kolonama A, B, C i D.

Page 184: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

184

VII REGRESIJA I KORELACIJA

Mnogo je slučajeva koji se odnose na istraživanje međusobnog odnosa dviju ili više pojava na način da promjena jedne pojave uslovljena je promjenama druge ili drugih.

U analiziranju podataka često se osjeća potreba za saznavanjem odnosa između dvije (ili više) promjenljive veličine. Na primjer: može nas interesovati veza i odnos krvnog pritiska i tjelesne težine, tjelesne visine i težine, tjelesne težine i šećera u krvi itd. Prirodu i jačinu odnosa između dvije promjenjive veličine (dva obilježja) možemo otkriti pomoću dvije statističke metode. To su metoda regresije i metoda korelacije.

Regresija otkriva tip (oblik) povezanosti između odabranih obilježja, s jedne strane, a istovremeno omogućava predviđanje vrijednosti jedne promjenjive veličine na osnovu datih vrijednosti za drugu promjenjivu veličinu. Regresijska analiza koristi različite metode ispitivanja zavisnosti jedne varijable ili više drugih. Pomoću nje se vrši ocjenjivanje nepoznatih parametara i vrši izračunavanje mjere disperzije i drugih statističko - analitičkih pokazatelja.

Korelacija mjeri jačinu već utvrđene povezanosti između dva obilježja. Korelacijska analiza primjenjuje postupake kojima se utvrđuju pokazatelji jakosti veze među pojavama

U ovoj grupi naša razmatranja su ograničena na utvrđivanje linearnog odnosa između dvije promjenjive veličine.

Povezanost između pojava može biti:

funkcionalna – veze se mogu predstaviti izrazima na temelju kojih se tačno utvrđuje vrijednost jedne za danu vrijednost druge (drugih) vrijednosti: Y = f (X )

statistička – jednoj vrijednosti jedne pojave odgovara više vrijednosti druge (drugih) pojava

Ako je svrha analitički (jednačinom) izraziti odnos između pojava, primjenjuje se regresijski modeli.

Istraživati se može jakoststatističkih veza – stepen statističke povezanosti između pojava mjeri se metodama koje čine područje korelacijske analize

Page 185: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

185

Promjena vrijednosti jedne varijable utiče na promjenu vrijednosti druge varijable. Npr. unošenje više soli u organizam utiče na porast krvnog pritiska, dok porast krvnog tlaka ne utiče na povećanje unošenja soli u organizam.

Model koji sadrži jednu zavisnu i jednu nezavisnu varijablu naziva se modelom jednostavne regresije, a model sa dvije ili više nezavisnih varijabli model višestruke regresije.

Regresijska i korelacijska analiza provode se na osnovi stvarnih vrijednosti pojava (varijabli)

Povezanost znači da je vrijednost jedne varijable moguće sa određenom vjerojatnošću predvidjeti na osnovu saznanja o vrijednosti druge varijable. Primjeri povezanosti su npr. saznanje o uticaju broja sunčanih dana na prinos žitarica.

Page 186: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

186

1. Regresija

U statistici pronalaženjem statističkih veza između pojava bavi se regresiona analiza, regresija. Regresija je od velikog značaja, kako u ekonomiji i privredi, tako i u drugim prirodnim naukama, kao što su: hemija, fizika, biologija, farmakologija, toksikologija, bio hemija i sudska medicina.

Regresija (regresioni model), osim analize jačine i smjera, podrazumijeva analizu oblika povezanosti, kao i analizu u smislu nezavisnih/zavisnih (prediktor/ishod). Regresioni model omogućava predikciju vrijednosti zavisne varijable na osnovu poznavanja vrijednosti nezavisnih varijabli. Kada postoji značajna korelacije između dvije varijable, može se vrijednost jedne varijable iskoristiti za predikciju vrijednosti druge varijable.

Slika VII/1: Podjela regresionih modela

1.1. Model jednostruke (proste) linearne regresije

Obavezno je jedna varijabla nezavisna (eksplanatorna, prediktorska, X) a druga zavisna (odgovor, ishod, Y).

Regresiona analiza se može upotrijebiti kada je nezavisna varijabla povezana sa zavisnom varijablom. Zavisna varijabla mora biti numerička kontinuirana. Nezavisna varijabla može biti numerička ili kategorijalna.

Page 187: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

187

Kategorijalne varijable moraju biti kodirane kao “dummy” varijable42

U slučaju postojanja samo jedne zavisne ili regresand i samo jedne nezavisne ili regresorske varijable, kaže se da je to jednostavni, jednostruki ili jednodimenzionalni regresijski model.43

Regresiona jednačina

Rezultat regresione analize je regresiona jednačina koja daje najbolju predikciju zavisne varijable na osnovu jedne ili više nezavisnih varijabli. Kako su odnosi među pojavama statistički, treba odrediti kriterij prema kojemu će se izabrati jednadžba pravca

=a+bx

koji će ‘najbolje’ opisati odnos pojava na temelju njihovih opaženih vrijednosti.

- očekivana vrijednost zavisne (ishodne) varijable

X – nezavisna varijabla, eksplanator, prediktor

a– odsječak na ordinati (konstanta). Odgovara prosječnoj ocenjenoj vrijednosti zavisne varijable kada je vrijednost nezavisne varijable jednaka nuli.

b– nagib u regresionom modelu. Odgovara prosečnoj promeni očekivane vrednosti zavisne varijable za jediničnu promenu nezavisne varijable.

a, b – regresioni koeficijenti

Jednačina pravca određena je ako su poznati parametri a i b.

Do procjene parametara najčešće se dolazi metodom najmanjih kvadrata – sastoji se u određivanju onih procjena parametara za koje rezidualni zbroj kvadrata postiže minimum

42Binarna varijabla koja se u postupku kodiranja unosi u matricu podataka, a može poprimiti vrijednosti 0 ili 1. 43 1 Rozga, A., Statistika za ekonomiste, Ekonomski fakultet Split, Split, 2006., str. 181.

Y

Y

1

22

1

,

n

i i

i

n

i

i

x y n xy

b

x n x

a y b x

Page 188: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

188

Veličina b je regresijski koeficijent– pokazuje za koliko se u prosjeku mijenja vrijednost zavisne varijable Y za jediničnu promjenu vrijednosti nezavisne varijable X.

Višestruka (multipla) regresija

Često je neophodno pretpostaviti postojanje više od jedne nezavisne varijable

Multipla regresija je regresiona analiza koja uključuje dvije ili više nezavisnih varijabli kao prediktore vrijednosti zavisne (ishodne) varijable.

Zavisna varijabla je kontinuirana, dok nezavisne varijable u modelu mogu biti kontinuirane ili kategorijalne.

Naziv višestruka linearna regresija ima karakteristike:

Višestruka - ima više nezavisnih promenljivih X

Linearna - regresiona funkcija je linearna po koeficijentima β

Regresija - koristi se regresiona funkcija kao najbolje predviĎanje za Y na osnovu Xi, i=1,..,n

Regresiona analiza

Ako se problem koji posmatramo može tretirati kao problem jedne zavisne i više nezavisnih varijabli, radi se o pogodnoj situaciji za analizu podataka metodom višestruke regresije. Ako je veza između njih linearna, slučaj se svodi na višestruki linearni model.

Neka su:

- Y zavisna promjenljiva - X1, X2, ..., Xp nezavisne promenljive

Tada je linearni model:

Y= β0+ β1X1+ ... + βpXp + ε

- β0, β1,..., βp- nepoznati parametri koje treba oceniti,

- Ε - greška mjerenja, tj. reziduali.

- Y - zovemo i promjenljiva odgovora, tj. output promjenljiva,

- X- promjenljive zvane input, tj. objašnjavajuće promjenljive.

Prema načinu uključivanja varijabli u model multiple regresije, one mogu biti:

Page 189: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

189

1. Simultana / standardna regresija (“Enter”) – sve varijable odjednom

2. Hijerarhijska regresija – na osnovu teorijskog modela unaprijed određen redosled unosa varijabli jedna po jedna ili po blokovima

3. “Stepwise” regresija (korak po korak)– redosljed unosa varijabli na osnovu statističkog kriterijuma (F-test)

“Forward” – unos varijabli jedna po jedna

“Backward” – unijete sve varijable u početni model, a zatim se jedna po jedna uklanjaju varijable koje najmanje doprinose modelu

Primjer

http://www.unizd.hr/portals/4/nastavni_mat/2_godina/statistika/10_predavanje.pdf

PRIMJER 1. U tabeli ispod izložen je postupak računanja parametara linearne regresijske jednačinee i dane su regresijske vrijednosti. Uzmimo, npr., da neko preduzeće analizira podatke o ostvarenom prometu i dobiti (oboje u mil. kn) u 8 uzastopnih godina:

Tabela VII/1: Postupak računanja parametara linearne regresijske jednadžbe

Prikažimo prvo 8 parova vrijednosti prometa i dobiti na dijagramu rasipanja:

Promet Dobit Regresijske

vrijednosti

ix

iy

ix

iy 2

ix i

y

20 1 20 400 1.05

30 3 90 900 2.35

40 3.5 140 1600 3.65

50 5 250 2500 4.95

70 7 490 4900 7.55

80 8.5 680 6400 8.85

90 9 810 8100 10.15

100 13 1300 10000 11.45

480 50 3780 34800 50.00

Page 190: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

190

Dijagram: VII/1: Parametri linearne regresijske jednadžbe

Vidimo sa slike da su tačke raspoređene približno pravcu, a veza je pozitivna, tj. porastvrijednosti jedne varijable prati rast druge varijable

Veza je prilične jakosti jer su tačke blizu zamišljenog pravca koji uvijek prolazi kroz tačku

Ocijenimo parametre a i b linearne regresije:

• Regresija sa ocijenjenim parametrima glasi:

Prema dobivenoj jednadžbi, ako promet poraste za 1 mil. kn možemo očekivati povećanje dobiti za 0.13 mil. kn

Slika 1.

0,0

2,0

4,0

6,0

8,0

10,0

12,0

14,0

0 20 40 60 80 100 120

promet u mil. kn

dobit u mil. kn

480 5060 , 6.25

8 8

i ix yx y

n n

8

1

8 222

1

3780 8 60 6.250.13

34800 8 60

i i

i

i

i

x y n xy

x

b

n x

6.25 0.13 60 1.55y b xa

Page 191: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

191

• Za dani niz empirijskih podataka nezavisne varijable X , pripadne se regresijske vrijednosti (5. stupac iz tabele 1) računaju njihovim uvrštavanjem u regresijsku jednadžbu:

• Regresijske su vrijednosti pogodno sredstvo za prognoziranje. Npr., možemo izračunati koliku dobit možemo očekivati ako bi promet porastao na 110 mil. kn:

Korišćenje Microsoft Excel-a za prostu linearnu regresiju

https://www.pmf.ni.ac.rs/download/master/master_radovi_matematika/matematika_master_radovi/2015/2015-09-16-ca.pdf

Otvoriti u Excel-u radni list sa podacima, potrebnim za analizu regresije. Odabrati Tools → Data Analysis ako se radi u Excel-u 97-2003 (nadalje radimo u Excelu 97-2003, a u ostalim verzijama se sli£no radi). Zatim odabrati Regression sa liste Data Analysis i pritisnuti OK. U dijalogu kao na slici 3.6 uneti opseg za Y u Input Y Range i uneti opseg za X u Input X Range. Ozna£iti Labels, Confidence Level i uneti nivo poverenja, zatim pritisnuti OK. Za predviđanje zasebne vrednosti Y u Excel-u koristi se funkcija TREND(opseg ¢elija za Y, opseg ¢elija za X, vrijednost za X). Za analizu reziduala pratiti uptstvo u prvom pasusu do pritiska OK, s tim ²to je prije odabira OK potrebno u dijalogu regresije označiti Residuals i Residual Plots. Za crtanje dijagrama na osnovu unetih podataka, i¢i na Insert → Chart, oda- brati XY (Scatter), zatim odabrati prvi dijagram ponuž en u Chart sub-type.

11

22

88

1.55 0.13 20 1.05

1.55 0.13 30 2.35

1.55 0.13 100 11.45

y a bx

y a bx

y a bx

1( 110)1.55 0.13 110 12.75 mil. kn

xy a bx

Page 192: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

192

Dijagram: VII/2: Dijalog regresije.

Pritisnuti Next. U Data range uneti dužinu promjenljivih i označiti Columns. Pritisnuti Next. Unijti naziv dijagrama u Chart title, nazive osa u Value (X) axis i Value (Y) axis, zatim pritisnuti Finish.

Liniju na dijagramu dobićemo na sljedeći način.

Odabrati Chart ! Add Trendline. U dijalogu kao na slici 3.7 na Type kartici odabrati Linear, a na kartici Options izabrati Automatic. Obeleºiti Display equation on chart i Display R-squared value on chart, pritisnuti OK.

Page 193: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

193

Dijagram: VII/3: Add Trendline dijalog

Page 194: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

194

2. Korelacija

Korelacija je statistički postupak pomoću kojeg upoređujemo promjene unutar dvije (ili više) varijabli, te nam rezultat govori u kojoj mjeri su te promjene slične. Slučajno promjenljive veličine su povezane ako su promjene u jednoj veličini praćene promjenama druge veličine. Vrijednosti variraju u rasponu [-1, +1] i označavaju stepen sličnosti – što je apsolutna vrijednost veća, veća je i sličnost, dok predznak govori u kojem smjeru se povezanost kreće; ako je pozitivna, tada su promjene proporcionalne, a ako je negativna, promjene su obrnuto proporcionalne (Petz, 1985). Npr. negativnu korelaciju možemo pronaći između (veće) dobi i (boljeg) zdravstvenog stanja. Negativna povezanost znači da su stariji u prosjeku manje zdravi. Primjer za pozitivnu korelaciju je povezanost između uspjeha na ispitu i količine učenja: veća količina učenja znači najčešće i bolji uspjeh na ispitu.

Korelacija podrazumijeva analizu jačine i smjera povezanosti.

Koeficijenti korelacije izražavaju mjeru povezanosti između dvije varijable u jedinicama nezavisnima o konkretnim jedinicama mjere u kojima su iskazane vrijednosti varijabli. Postoji više koeficijenata korelacije koji se koriste u različitim slučajevima. U praksi se prilikom rada s linearnim modelima najčešće koristi Pearsonov koeficijent korelacije (produkt moment koeficijent korelacije). Prilikom rada s modelima koji nisu linearni najčešće se koristi Spearmanov koeficijent (produkt rang koeficijent korelacije).

Mjera jačine povezanosti između takvih slučajnih promjenjivih veličina je koeficjent linearne korelacije:

2rr ili alternativna formula:

yx

xy

SDSD

SDr

Pozitivni predznak označava isti smjer ponašanja ispitivanih obilježja, a negativan označava suprotan smjer.

2.1. Linearna korelacija

http://matematika.fkit.hr/novo/statistika_i_vjerojatnost/predavanja/8%20-%20Linearna%20korelacija.pdf

Page 195: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

195

Korelacija je mjera linearne zavisnosti dviju serija podataka x1, x2,..., xn i y1,

y2,..., yn. To znači da, ako su tačke (x1,y1), (x2,y2), ... (xn,yn) grupisane oko

regresijskog pravca, onda govorimo da su podaci korelirani (linearno korelirani). Na

osnovi toga se može reći da su pripadne veličine x,y korelirane. Nivo koreliranosti se

mjeri koeficijentom korelacije

Mjera jačine povezanosti između takvih slučajnih promjenjivih veličina je koeficjent linearne korelacije:

2rr ili alternativna formula:

yx

xy

SDSD

SDr

Pozitivni predznak označava isti smjer ponašanja ispitivanih obilježja, a negativan označava suprotan smjer.

Primjer

Tanjga

Podaci se odnose na vrijednosti krvnog pritiska, čitane pomoću

dvije metode kod ispitanika sa esencijalnom hipertenzijom. U ispitivanju

je učestvovalo 8 ispitanika.

Ispitivač je želio utvrditi jačinu veze između ova dva načina

mjerenja (označeni su sa metoda 1 i metoda 2):

Tabela VII/2: Sistolni krvni pritisak

Sistolni krvni pritisak 8 ispitanika u mmHg čitan pomoću dvije metode

Redni broj ispitanika

Metoda 1. Metoda 2.

1 132 130

2 138 134

3 144 132

4 146 140

5 152 144

6 158 150

7 130 122

8 162 160

Page 196: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

196

Prije svega određuje se jednačina regresije, tj. prava linija koja najbolje odgovara dobijenim podacima:

xy 25,6

Koeficjent determinacije

922,01032

5,9512

2

2

yy

yy

r

i

c

dobijen je iz radne tabele:

Tabela VII/3: Regresija

x Y x2 y2 xy yc 2

1

yy

2

yyc

132 130 17424 16900 17160 125.75 81 175.5625

138 134 19044 17956 18492 131.75 25 52.5625

144 132 20736 17424 19008 137.75 49 1.5625

146 140 21316 19600 20440 139.75 1 0.5625

152 144 23104 20736 21888 145.75 25 45.5625

158 150 24964 22500 23700 151.75 121 162.5625

130 122 16900 14884 15860 123.75 289 232.5625

162 160 26244 25600 25920 155.75 441 280.5625

1162 1112 169726 155600 162468 1032 951.5

Pri tome su:

25,145x ; 139y ; SDx =10,87 SDy = 11,36 ;

SDxy = 118,75 ; a = - 6,25 ; b = 1

Znači, koeficjent linearne korelacije je 96,0922,02 rr .

Alternativnu formulu za izračunavanje koeficjenta linearne korelacije, koristićemo u situacijama kada nije potrebno izračunati liniju regresije.

Potrebno je na kraju protumačiti dobijenu vrijednost koeficjenta linearne korelacije. Ovo tumačenje se obavlja pomoću tablica za granične vrijednosti koeficijenta linearne korelacije. U presjeku određenog broja stepena slobode (broj ispitanika umanjen za dva) i izabrane vjerovatnoće

Page 197: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

197

nulte hipoteze nalazimo teorijsku vrijednost koeficjenta linearne korelacije.

Sve empirijski dobijene vrijednosti, koje su veće od one pročitane u tablici ukazuju na postojanje značajno visoke (jake) povezanosti među ispitivanim obilježjima. Nasuprot tome, izračunata vrijednost koeficjenta linearne korelacije, koja je jednaka ili manja od one iz tablice, ukazuje na nepostojanje jake linearne korelacije među obilježjima.

U našem primjeru broj stepeni slobode je 8-2=6 te u tablici čitamo

vrijednost teorijskog koeficjenta linearne korelacije od 0,834 za 01,0p ,

koja je manja od izračunate. To znači da je kod naših podataka utvrđena jaka povezanost. Drugim riječima, obe metode jednako dobro mjere sistolni krvni pritisak. Izbor metode za mjerenje sistolnog pritiska zavisi sada od drugih faktora. Na primjer, jednostavnosti izvođenja, pristupačnosti, itd.

2.2. Višestruka korelacija (multiple korelacija)

Višestruka korelacija je analitička procedura kojom se utvrđuje na koji način više nezavisnih varijabli utiče na jednu zavisnu varijablu. Koeficijent višestruke korelacije označava se velikim latiničnim slovom R. Za računanje koeficijenta višestruke korelacije potrebno je prvo izračunati koeficijent korelacije između svakog para varijabli koje posmatramo. Odnos koeficijenata korelacije varijabli može se prikazati matricom korelacije. Dobijene koeficijente potrebno je uvrstiti u formulu za izračun višestruke korelacije. Podaci višestruke korelacije kod koje se posmatra međusobni utjecaj tri varijable može se prikazati trodimenzionalnim scatter dijagramom za izračun višestruke korelacije kada posmatramo uticaj dvije nezavisne varijable na treću, zavisnu, je slijedeća:

Nezavisne varijable čije vrijednosti posmatramo označene su sa X1 i X2, a zavisna varijabla označena je sa Y. Koeficijent višestruke korelacije poprima vrijednost od –1 do +1, i u njegovoj interpretaciji primjenjuju se ista pravila kao kod interpretiranja koeficijenta jednostavne korelacije. Kako bi izračun višestruke korelacije bio što precizniji, potrebno je koristiti veći uzorak sa više vrijednosti varijabli nego u slučaju izračuna koeficijenata kod jednostavne korelacije.

Page 198: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

198

Primjena korelacije

Korelacija se ne bi trebala koristiti za donošenje zaključaka o uzročno-posljedičnoj vezi između dvije varijable iz razloga što postoji velika vjerojatnoća da će zaključak biti kriv. Čest slučaj je da između dvije varijable postoji odnos korelacije visokog stepena, a da postoji i skrivena treća varijabla koju bi takođe trebalo staviti u odnos s promatrane dvije, kako bi se ispravno protumačio uzročno-posljedični odnos.

Jedan od klasičnih, u literaturi često spominjanih primjera, je pojava uočena u Kopenhagenu nekoliko godina poslije završetka II svjetskog rata. Primjećena je korelacija između povećanja broja novorođene djece i broja roda koje su se gnijezdile u gradu. Ako bi se korelacija bez razmišljanja protumačila kao uzročno-posljedični odnos, moglo bi se zaključiti da rode donose djecu. Pravi uzrok leži u tome što se po završetku rata velik dio stanovništva sa sela preselio u grad, što je uzrokovalo povećanje broja stanovnika u gradu, a samim tim i povećanje broja novorođene djece. Istovremeno, za nove stanovnike grada izgradile su se nove kuće, tako da su i rode dobile veći broj dimnjaka za svoja gnijezda. Tu je dakle, postojala skrivena varijabla - broj stanovnika, koju je prilikom donošenje zaključka o uzročno-posljedičnoj vezi trebalo uzeti u obzir.

Naravno, ima i suprotnih primjera kada ne postoji skrivena varijabla. Vrlo rano je ustanovljena korelacija između pušenja i vjerojatnosti da će osoba oboljeti od raka. Duvanska industrija branila je svoju tezu da se ne može uspostaviti uzročno-posljedična veza između pušenja i vjerovatnoće dobijanja raka. Oni su tezu obrazlagali time da su pušači vrlo često nervozne osobe, koje zbog toga što su nervozne počinju pušiti. Istovremeno postoji korelacija između toga da je osoba nervozna i vjerojatnosti da će takva osoba dobiti rak. S druge strane, ljekari su tvrdili da postoji direktna uzročno-posljedična veza između pušenja i vjerovatnoće da će osoba dobiti rak, što je kasnije i potvrđeno.

Na osnovi utvrđene korelacije ne možemo sa sigurnošću utvrditi uzročno-posljedičnu vezu između dviju varijable. Ipak nam korelacija daje informaciju o tome da su te dvije varijable na određeni način povezane.. Npr. povećana tjelesna težina je u korelaciji s povećanom smrtnošću i možemo reći da su te dvije varijable u međusobnom odnosu. Korelacija se uglavnom koristi za predviđanje vrijednosti jedne varijable zavisno o promjeni vrijednosti druge varijable, u slučaju ako su te dvije varijable u korelaciji. Npr. utvrđeno je da su količina unešene

Page 199: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

199

soli u organizam i visina krvnog pritiska osoba određenog pola i dobi u korelacijskom odnosu i taj odnos nam je poznat. Na osnovi informacija o korelaciji možemo dozirati unos potrebne količine soli u organizam kako bi krvni krvni pritisak ostao unutar granica normale.

Utvrđivanjem korelacije između vrijednosti dvije varijable dobija se prva informacija o njihovoj međusobnoj povezanosti. Nakon toga se utvrđena povezanost može detaljnije istražiti pom oću drugih statističkih metoda.

Npr. korelacijom se utvrdi da postoji veza između korištćnjea nekog hemijskog sredstva i pojave određene bolesti. Nakon toga se može u eksperimentalnim uslovima, na laboratorijskim životinjama utvrditi da li stvarno postoji uzročno-posljedična veza između tih varijabli. U prvpj fazi,korelacija je pomogla da se iozoluju varijable koje međusobno utiču jedna na drugu. Potom se drugim metodama potvrđuju ili odbacuju odgovarajuće uzročno-posljedične hipoteze. Korelacija se često koristi za provjeru rezultata testiranja. Nakon provednog testiranja utvrđuje se odgovarajuća korelacija između testiranja i dobivenih rezultata. Nakon što se testiranje ponovi, ponovno se utvrđuje korelacija između novih i prethodno dobivenih rezultata. Ako se utvrdi da korelacija ne postoji, uglavnom se zaključuje da je provedeni eksperiment vrlo nestabilan pošto ponovljeni eksperiment ne može ponoviti prethodne rezultate

Karakteristike korelacione povezanosti

Ako se između dviju varijabli pretpostavlja postojanje linearne

statističke veze, tada se jakost i smjer veze mjeri koeficijentom linearne

korelacije r (–1<=r<=1). Promatrane varijable su pozitivno korelirane ako

je porast jedne praćen porastom druge i obratno, a negativno korelirane

ako se varijable ne mijenjaju u istom smjeru. korelacija (pozitivna,

negativna) je to jača Što je r bliži +- 1, korelacija (pozitivna, negativna)

je to jača.

Dakle, između promatranih varijabli postoji negativna, odnosno pozitivna

funkcionalna (egzaktna, deterministička) veza ako je r=-1 ili r=1, a ako je

r=0 posmatranih varijabli nema korelacije.

Oblik povezanosti može biti:

Linearan

Nelinearan

Page 200: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

200

Zavisno od broja varijabli:

Jednostruka (prosta) povezanost

Višestruka (multipla) povezanost

Za sva obilježja, čiji se odnos analizira metodama regresije i korelacije, treba simultano posjedovati podatke sa istih statističkih jedinica.

U najjednostavnijem slučaju, kada imamo jednu nezavisnu i jednu zavisnu varijablu, rezultate možemo prikazati tzv. scatter dijagramom, gdje je svako mjerenje prikazano jednom tačkicom (vidjeti slike dolje).

Ako je povezanost između rezultata nula, tada će graf imati oblik kružnice.

Što je povezanost veća, to će se 'oblak' tačaka više izduljivati u oblik elipse, da bi u ekstremnom slučaju imali oblik pravca (Scatter plots, 2013). Različiti slučajevi korelacija dati su na grafičkim prikazima ispod.

Dijagram: VII/4: Maksimalno pozitivna r= 1 (lijevo) i maksimalno negativna r= -1 korelacija (desno)

Page 201: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

201

Dijagram: VII/5: Niska negativna (lijevo) i visoka negativna korelacija (desno) r<0

Dijagram: VII/6: Nulta korelacija r=0 (nepostojanje povezanosti)

Svaka tačka na dijagramu rasturanja predstavlja par podataka sa jedne statističke jedinice. Dijagram rasturanja sugeriše oblik odnosa dvije varijable. Linearni odnos dvije varijable postoji ako je prava linija provučena kroz sredinu tačaka na dijagramu rasturanja najprihvatljivija za date opservacije. Koeficijent korelacije je mjera bliskosti tačaka i prave linije.

Koeficijent korelacije Izražava veličinu povezanosti među varijablama. Najčešće se koriste:

Pearsonov koeficijent korelacije ili Produkt-moment koeficijent korelacije (r),

Page 202: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

202

Spearmanov koeficijent korelacije ili koeficijent rang korelacije (označava se malim grčkim slovom ro (ρ)),

2.3. Pearsonov koeficijent korelacije

Pearsonov koeficijent korelacije koristi se u slučajevima kada između varijabli promatranog modela postoji linearna povezanost i neprekidna normalna distribucija. Vrijednost Pearsonovog koeficijenta korelacije kreće se od +1 (savršena pozitivna korelacija) do –1 (savršena negativna korelacija) (Ivanković i sur., 1989).

“Stepwise selection” – kombinacija prethodne dvije procedure

Reprezentativnost modela ocjenjena je koeficijentom determinacije (R2 ). Što je koeficijent bliži jedinici, model je reprezentativniji i odnos među posmatranim varijablama se procjenjuje prema Chadockovoj ljestvici (Tabela ispod).

Tabela VII/4: Chadockova ljestvica

R2 Značenje

0 odsutnost veze

0,01-0,25 slaba veza

0,25-0,64 veza srednje jakosti

0,64-1 čvrsta veza

1 potpuna veza

U tabeli ispod prikazano je značenje dobijenih rezultata na osnovu koeficijenata korelacije r.

Tabela: Značenje dobijenih rezultata na osnovu koeficijenata korelacije r

Page 203: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

203

Tabela VII/4: Nivoi korelacije

Vrijednost za r Značenje

0<r<0,2 Niska direktna korelacija

0,2<r<0,5 Neznatna direktna korelacija

0,5<r<0,7 Znatna direktna korelacija

0,7<r<0,9 Visoka direktna korelacija

0,9<r<1 Vrlo visoka direktna korelacija

Napomena: Ukoliko je predznak ispred dobijenog koeficijenta korelacije negativan (-), u pitanju je inverzna korelaciona veza.

U Excelu, pomoću funkcije CORREL može se izračunati Pearsonov koeficijent korelacije između dvije varijable, npr. koje se nalaze u poljima Array1 (npr. A2:A62) i Array2 (npr. B2:B62). Međutim, istu proceduru može se pronaći u Alatima (Tools) pod Analiza podataka, gdje je ponuđena analiza CORRELATION, a zadaju se samo krajnji rasponi polja za varijable, npr. A2:D62. Kao rezultat dobivamo korelacijsku matricu, dok u oba slučaja (pomoću funkcija i pomoću alata) njihovu značajnost trebamo pronaći u tablicama ili na online kalkulatorima.

2.4. Spearmanov koeficijent korelacije

Spearmanov koeficijent korelacije (produkt rang korelacije) računa se ukoliko raspodjela podataka značajno odstupa od normalne raspodjele te ako postoje podaci koji odstupaju od većine izmjerenih podataka, odnosno, u slučajevima kada nije moguće primjeniti Pearsonov koeficijent korelacije. Sa njim se mjeri dosljednost povezanosti između poredanih varijabli, a oblik povezanosti (npr. linearni oblik koji je preduslov za korištenje Pearsonovog koeficijenta) nije bitan. Prilikom korištenja Spearmanovog koeficijenta, vrijednosti

Page 204: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

204

varijabli potrebno je rangirati i na takav način svesti na zajedničku mjeru. Najmanjoj vrijednosti svake varijable dodijeli se rang 1, slijedećoj po veličini rang 2 i tako sve do posljednje kojoj se pridjeljuje maksimalan rang. Izračunavanje koeficijenta radi se korištenjem vrijednosti pridijeljenih rangova. Spearmanov koeficijent se najčešće označava sa rS.

Spearmanov koeficijent može se računati i na manjim uzorcima. Ukoliko je rezultat dobivenog rs = 0 – povezanosti među varijablama nema. Osnov Spearmanovog koeficijenta korelacije ranga čine parovi modaliteta numeričkih varijabli transformiranih u rang-varijable. Parovi su: 𝑟(𝑥𝑖 ), 𝑟(𝑦𝑖 ), 𝑖 = 1,2, … , 𝑛. Koeficijent linearne korelacije, odnosno Paersonova forma, računan upotrebnom parova modaliteta rang-varijabli (Spearmanov koeficijent) dan je izrazom [I.Šošić, Zagreb, 2006.]: 44

gdje je d razlika vrijednosti rangova dvije posmatrane varijable, a n je broj različitih serija.

Spearmanov koeficijent može se računati i ako varijable nisu u linearnom odnosu. On daje približnu vrijednost povezanosti dviju varijabli i neosjetljiv na ekstremne rezultate. Ovo je neparametrijski test (računa sa “rankovima”):

44 Šošić, Ivan: Primijenjena statistika, 2. izmijenjeno izdanje, Zagreb 2006

Page 205: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

205

Pregled slika

Slika I/1: Podjela statistike, str. 16

Slika I/2: Postupak statističkog zaključivanja, str. 19

Slika I/ 3: Definisanje statističkog skupa, str. 22

Slika I/4: Statistički skup, str. 23

Slika I/5: Vrste statističkih obilježja, str. 26

Slika I/ 6: Klasifikacija obielježja (varijabli) u statistici, str. 26

Slika I/7: Izbor varijabli, str. 30

Slika II/1: Podjela statističkih tabela, str. 47

Slika III/1: Podjela nominalnih nizova, str.65

Slika V/1: Skup Ω kao unija disjunktnih skupova A i Ac , str. 154

Slika VI/1: Vrste uzorka, str. 165

Slika VI/2: Stratifikovan uzorak, str. 167

Slika VII/1: Podjela regresionih modela, str. 184

Slika VII/2: Slika VII/2: Dijalog regresije, str. 190

Page 206: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

206

Pregled tabela

Tabela I/1: Primjeri nominalne skale, str. 31

Tabela II/1. Broj živorođenih i umrlih u Srbiji, str. 39

Tabela II/2: Frekvencija pojava, str. 40

Tabela II/3: Relativne frekvencije prema polu, str. 41

Tabela II/4: Relativne frekvencije svih kategorija varijable krvna grupa, , str. 41

Tabela II/5.: Grupisanje prema dužini remisije – grupisanje sa širinom intervala od 6 mjeseci, str. 43

Tabela II/6: Grupisanje prema dužini remisije – grupisanje sa širinom intervala od 5 mjeseci, str. 43

Tabela II/7: Primjeri frekvencija, str. 45

Tabela II/8: Frekvencije, str. 45

Tabele II/9: Primjeri tabela, str. 47

Tabela II/10: Pregled broja emitovanja reklama i obima prodaje , str. 49

Tabela II/11: Distrubucija frekvencija zdravih osoba u odnosu na fibrinogen, str. 54

Tabela II/12: Distrubucija bolesnika od hemofilije A u odnosu na nivo antihemofilnog globulina, str. 55

Tabela II/13: Prodaja piva (u hI) u toku dvije godine, str. 60

Tabela III/1: Korisnici penzija (prema Zakonu o penzijskom osiguranju), str. 66

Tabela III/2: Modaliteti obilježja, str. 68

Tabela III/3: Kontinuirano obilježje, str. 71

Tabela III/4: Diskontinuirano numeričko obilježje, str. 71

Tabela: III/5: Podjela svih studenata 1. godine studija prema broju položenih jednosemestralnih ispita, str. 79

Tabela: III/6: Učestalosti prometnih nezgoda, str. 80

Tabela: III/7: Učestalosti prometnih nezgoda – razredne sredine, str. 81

Page 207: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

207

Tabela: III/8: Učestalost završnih ocjena, str. 81

Tabela: III/9: Distribucija frekvencije s razredima, str. 82

Tabela: III/10: Prvo svojstvo aritmetičke sredine, str. 84

Tabela: III/11: Drugo svojstvo aritmetičke sredine, str. 85

Tabela: III/12: Distribucija frekvencija po stadijumu anatomskog razvoja tumora, str. 89

Tabela: III/13: Geometrijska sredina, str. 91

Tabela III/14: Stanje na računu po godinama, str. 92

Tabela III/15: Stanje na računu – postotak i kamatni factor, str. 93

Tabela III/16: Vrijednosti aritmetičkih i geometrijskih sredina, str. 95

Tabela III/17: Posječnu stopu promjene, str. 95

Tabela III/18: Broj pogrešnih odgovora 80 studenata na testu iz statistike, str. 99

Tabela III/19: Frekvencije zaposlenih, str. 101

Tabela III/20: Deskriptivna statistika izmjerenih vrijednosti varijable godine, str. 102

Tabela III/21: Deskriptivna statistika izmjerenih vrijednosti varijable godine nakon uklanjanja ekstremnih vrijednosti, str. 104

Tabela III/22: Mjere disperzije, str.114

Tabela IV/1: Greške vezane uz odbacivanje/prihvatanje nul-hipoteze, 147

Tabela VI/1: Granične vrijednosti prema nivoima značajnosti, str. 175

Tabela VI/2: Pregled tjelesnih visina djece, str. 176

Tabela VI/3: Mišljenje o studiju, str. 179

Tabela VI/4: Hi kbadrat, str. 180

Tabela VII/1: Postupak računanja parametara linearne regresijske jednadžbe, str. 187.

Tabela VII/2: Sistolni krvni pritisak, str. 193

Tabela VII/3: Regresija, str. 194

Page 208: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

208

Tabela VII/4: Chadockova ljestvica, str. 200

Tabela VII/4: Nivoi korelacije, str. 201

Page 209: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

209

Pregled dijagrama

Dijagram II/1: Odnos između emitovanja reklama i obima prodaje str. 50

Dijagram II/2: Linijski dijagram str. 51

Dijagram II/3: Frekvencija prema vrstama zaposlenja, str. 52

Štapičasti dijagram II/4: Frekvencija studenata po godinama, str. 52

Dijagram II/5: Grafički prikaz grupisanih podataka starosnih intervala, str. 53

Dijagram II/6: Distrubucija frekvencija zdravih osoba u odnosu na fibrinogen, str. 54

Dijagram II/7: Grafičko prikazivanje grupisanih podataka, str. 55

Dijagram II/8: Distrubucija bolesnika od ulkusa u odnosu godine starosti, str. 56

Dijagram II/9: Grafički prikaz frekvencija, str. 57

Dijagram II/10: Poligon frekvencija, str. 57

Dijagram II/11: Grafički prikaz relativnih frekvencija, str. 58

Dijagram II/12: Poligon relativnih frekvencija, str. 58

Dijagram II/13: Zaposleno osoblje u trgovini prema djelatnostima poslovnih subjekata u RH 1997.

Dijagram II/14: Prodaja piva (u hI) u toku dvije godine, str. 60

Dijagram II/15: Broj radnika prema odjeljenjima i polu, str. 61

Dijagram III/1: Distribucija frekvencija, str. 100

Dijagram III/2: Kutijasti ili boks dijagram - ukljucena ekstremna vrijednost, str. 103

Dijagram III/3: Kutijasti ili boks dijagram - uklonjena stršeca vrijednost, str. 104

Dijagram III/4: Grafički prikaz rasporeda broja dana neophodnih za popunjavanje narudżbenica, str. 113

Dijagram: IV/1: Značajnost sličnosti oblika raspodjela, str. 134

Dijagram: IV/2: Standardna normalna raspodjela, str. 141

Page 210: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

210

Dijagram: IV/3: Distribucija vjerojatnosti statističkog testa s dvosmjernom vjerojatnošću, P =0,05, str. 142

Dijagram: IV/3: Koncept jednosmjernog testiranja ulijevo: p=0,05, str. 142

Dijagram: IV/4: Koncept jednosmjernog testiranja ulijevo: p=0,05, str. 142

Dijagram: IV/5: Koncept jednosmjernog testiranja ulijevo: p=0,01, str. 143

Dijagram: IV/6: Koncept jednosmjernog testiranja udesno: p=0,05, str. 143

Dijagram: IV/7: Koncept jednosmjernog testiranja udesno: p=0,01, str. 143

Dijagram: VII/1: Parametri linearne regresijske jednadžbe, str. 185

Dijagram: VII/2: Dijalog regresije, str. 190.

Dijagram: VII/3: Add Trendline dijalog str. 191

Dijagram: VII/4: Maksimalno pozitivna r= 1 (lijevo) i maksimalno negativna r= -1 korelacija (desno)

Dijagram: VII/5: Niska negativna (lijevo) i visoka negativna korelacija (desno) r<0, str- 199

Dijagram: VII/6: Nulta korelacija r=0 (nepostojanje povezanosti), str. 199

Page 211: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

211

Literatura

[1] Andevski, M., Kundacina, M. (2008). Praktikum iz metodologije : vezbe iz metodologije istrazivanja u menadzmentu. Cekom. Novi Sad. COBISS.SR-ID 235290119

[2] Bary, G. C. 2010. Business statistics, 3rd Edition, Tata

McGraw-Hill Education, New Delhi, pp. 91.

[3] Benšic, Mirta; Nenad Šuvak (2013). Primijenjena statistika. Sveucilište J.J. Strossmayera, Odjel za matematiku. Grafika d.o.o., Osijek , str. 26.

[4] Benšic, Mirta; Nenad Šuvak (2013. Primijenjena statistika.

Sveucilište J.J. Strossmayera, Odjel za matematiku. Grafika d.o.o.,

Osijek

[5] Blejec Chambers, John, William Cleveland, Beat Kleiner, and Paul Tukey, (1983), Graphical Methods for Data Analysis, Wadsworth.

[6] Blejec, M. (1976). Statističke metode za ekonomiste.

Ljubljana: Ekonomska fakulteta.

[7] Džon, V. u članku The Term "Statistics", Journal of the Statistical Society of London, Vol. 46, No. 4. (Dec., 1883), str. 658. navodi da je Konring prvi put koristio reč statistika 20. novembra 1660. [8] Ekonomski fakultet, Sveučilište u Kragujevcu, Osnove statistike, (2009). Pristup: april 2018

[9] Freund, J., Williams, F., Perles B. (1988), Elementary Business

Statistics - The Modern Approach, Englewood Cliffs

[10] Ivanković, D. i sur. (1989). Osnove statističke analize za medicinare. Zagreb: Medicinski fakultet Sveučilišta u Zagrebu.

[11] Jazbec, A. (2008). Osnove statistike, Šumarski fakultet, Zagreb

[12] Kovacić, Bojan (2007). Poslovna statistika. Elektrotehnicki

odjel. Sveiučilište u Zagebu .Zagreb, str. 97.

[13] Kuebler, C., Mackie, C., (2006). Improving Business Statistics

Through Interagency Data

Page 212: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

212

[14] Lovrić. M. (2009). Osnovi statistike. Univerizitet u

Kragujevcu, Ekonomski fakultet, Kragujevac

[15] Maruši ć, M., Prebežac, D., Istraživanje turističkih tržišta, Adeco, Zagreb, 2004., str. 167-178

[16] Marjanović, M. Mihailović, I. Spasić, K. (2016). STATISTIKA

U EKONOMIJI I POSLOVANJU SA ZBIRKOM REŠENIH

ZADATAKA, Visoka poslovna škola strukovnih studija,

LESKOVAC

[17] Marušić, M., Prebežac, D., Istraživanje turističkih tržišta,

Adeco, Zagreb, 2004., str. 171.

[18] Nenšić, Mirta, Šuvak; Nenad (2013). Primijenjena statistika.

Osijek

[19] Njegrić R., Žižić M., 1985, Osnovi statističke analize, Beograd [20] Tanjga, Rade (2004), Osnove statistike za studente medicine Medicinski fakultet Banja Luka : Informatički savez Republike Srpske ISA Banja Luka

[21] Paskota M. ( 2007), Osnove kvantitativnih

istraživanja, Saobraćajni fakultet, Beograd,

[22] Petz, B. (1985). Osnovne statističke metode za nematematičare. Zagreb: Sveučilišna naklada Liber. [23] Petz, B. (1992). Psihologijski rječnik. Zagreb: Prosvjeta.

[24] Papić, M.: PRIMIJENJENA STATISTIKA U MS EXCELU; Naklada Zoro, Zagreb, 2008. [25] Pivac, Snježana; Rozga, Ante. (2006.) Statistika za sociološka

istraživanja, Split: Sveučilište u Splitu, Filozofski fakultet. Str.

134.

[26] Rozga, A., Statistika za ekonomiste, Ekonomski fakultet

Split, Split, 2006., str. 181.

[27] Savić, M. (2005), Poslovna statistika, ISBN86-907741-0-6, CIP311.42 (075.8). Ekonomski fakultet u Subotici. Subotica

[28] Savic, M. (2005.). Poslovna statistika, izdavač, autor, ISBN86-

907741-0-6, CIP311.42 (075.8). Sharing : Summary of a Workshop,

National Research Council, USA, pp. 6.

Page 213: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

213

[29] Tanjga, Rade (2004), Osnove statistike za studente medicine Medicinski fakultet Banja Luka : Informatički savez Republike Srpske ISA Banja Luka

[30] Schnidejans, M., Schniderjans, D., Starkej, C., (2015), Business

Analytics Principles, Concept and Applications with SAS,

Pearson Education, Inc.

[31] Sharda, R., Delen, D., Turban, E., (2014), Business

Intelligence and Analytics, Pearson Education Limited.

[32] Statisticki ljetopis Republike Hrvatske za 2006. godinu,

[33] Šekarić, M. 2010. Statistićke metode, Univerzitet

Singidunum, Beograd, str. 51.

[34] Siegel, A., 2012. Practical Business Statistics, 6th Edition,

Elsevier Inc., USA, pp. 108

[35] Šošić, Ivan: Primijenjena statistika, 2. izmijenjeno izdanje,

Zagreb 2006

[36] Turjačanin, V., CeNrlija, D., 2006. Osnovne statistićke

metode i tehnike u SPSS-u, Centar za kulturni i socijalni

popravak, Banja Luka, str. 70. 26

[37] Vraneševi ć, T., Upravljanje zadovoljstvom gosta, Golden marketing, 1999., Zagreb, str. 265-279 [38] Vuković, N. Spasič,

S.,2011.Statistikazainžinjere,UniverzitetSingidunum,Beograd,str.4

7.

Internet izvori

[1] https://bs.wikipedia.org/wiki/Opservacija, mart, 2018, [2] https://www.pravos.unios.hr/pfo/sites/default/files/KatMetInfZnanosti/rijeseni_zadaci_statistika.pdf [3] http://mste.illinois.edu/courses/ci330ms/youtsey/scatterinfo.html [4] http://www.ekfak.kg.ac.rs/sites/default/files/nastava/Novi%20Studijski%20Programi/I%20godina/Osnovi%20statistike/Materijai/udzbenik/01_uvod_OS_1glava_2009.pdf

Page 214: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

214

[5] Ekonomski fakultet, Uniiverzitet u Kragujevcu. Osnovi statistike [6] http://www.ekfak.kg.ac.rs/sites/default/files/nastava/Novi%20Studijski%20Programi/I%20godina/Osnovi%20statistike/Materija li/udzbenik/01_uvod_OS_1glava_2009.pdf, 15. januar, 2019. [7] http://www.unidu.hr/datoteke/racic/STATISTIKA1.ppt, 15. januar, 2019.

[8] https://sr.wikipedia.org/sr-el/%D0%95%D0%BA%D1%81%D0%BF%D0%B5%D1%80%D0%B8%D0%BC%D0%B5%D0%BD%D1%82 [9] 1https://bs.wikipedia.org/wiki/Opservacija [10] https://www.chem.bg.ac.rs/.../OOAH.../OOAH_Statistika_Pomocni%20materijal.docx, septembar, 2018. [11] https://profesorka.wordpress.com/2011/11/13/opisivanje-podataka-prikazivanje-i-proucavanje-podataka/, 25. septembar 2018.

[12] https://edutorij.e-skole.hr/share/proxy/alfresco-

noauth/edutorij/api/proxy-guest/5b6e84e4-98f0-45e9-8e29-

ddccaa7f5f1f/html/4821_Prikazivanje_podataka.html, 18.9.2018.

[13] http://marjan.fesb.hr/~borka/files/pm-pr5.pdf [14] http://lumens.fthm.hr/edata/2011/2f9b48d9-9e15-406d-85b9-8fb7da929652.pdf, avgust, 2018. [15] www.seadresic.com/resourcesmodule/download.../id/.../@random4d8f6816de3b4/, 20. 9. 2018.

[16] https://bs.wikipedia.org/wiki/Opservacija, mart, 2018,

[17] https://profesorka.wordpress.com/2011/11/13/opisivanje-

podataka-prikazivanje-i-proucavanje-podataka/, 25. septembar

2018.

[18] https://edutorij.e-skole.hr/share/proxy/alfresco-

noauth/edutorij/api/proxy-guest/5b6e84e4-98f0-45e9-8e29-

ddccaa7f5f1f/html/4821_Prikazivanje_podataka.html, 18.9.2018.

[19] www.predmet.singidunum.ac.rs/.../Statistika%20predavanje%202%20Sredivanje%20i%20gr..., avgust, 2018.

[20] http://lumens.fthm.hr/edata/2011/2f9b48d9-9e15-406d-

85b9-8fb7da929652.pdf, avgust, 2018.

Page 215: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

215

[21] www.seadresic.com/resourcesmodule/download.../id/.../

@random4d8f6816de3b4/, 20. 9. 2018.

[22] https://www.chem.bg.ac.rs/.../OOAH.../OOAH_Statistika

_Pomocni%20materijal.docx, septembar, 2018.

[23] http://www.alkascript.hr/index.php/katalog-

proizvoda/srednje-skole/trgovacka-

skola?format=raw&task=download&fid=200

[24] http://www.unizd.hr/portals/4/nastavni_mat/2_godina/s

tatistika/statistika_03.ppt

[25] https://www.grad.unizg.hr/_download/repository/Doslic

_T.%2C_Vrgoc_D.%3B_Vjerojatnost_i_statistika.pdf

[26] http://www.e-statistika.rs/Article/Display/kvantili-

kvartili-decili-i-percentili

[27] http://www.e-statistika.rs/Article/Display/kvantili-

kvartili-decili-i-percentili

[28] http://www.e-statistika.rs/Article/Display/kvantili-

kvartili-decili-i-percentili [29] http://www.e-statistika.rs/Article/Display/kvantili-kvartili-

decili-i-percentili

[30] http://marul.ffst.hr/~abubic/nastava/statistika/statistika_prirucnik_ucitelji.pdf#page=42&zoom=100,0,90 [31] 1Vuković, N., Spasić, S., 2011. Statistika za inžinjere, Univerzitet Singidunum, Beograd. str.47.

[32] 1http://marul.ffst.hr/~abubic/nastava/statistika/statistika_

prirucnik_ucitelji.pdf#page=42&zoom=100,0,90 [33] https://vpsle.edu.rs/wp-content/uploads/2019/02/Knjiga-Statistika-

nova-2016-17.pdf

[34] http://studentski.hr/system/materials/3/121752c14b17153

249799e7465e82f201e1b0386.zip?1439380554, dec.2018

[35] http://www.unidu.hr/datoteke/172izb/OSNOVE_ISTRAZ

IVACKOG_RADA_U_SESTRINSTVU_2014_JS_FINAL_9_3.pdf

Page 216: OSNOVE STATISTIKEvssp.edu.rs/wp-content/uploads/2019/10/R.-Macura-Osnovi-statistike... · Riječ „statistika“ vodi porijeklo od latinske rijeći status, u prevodu stanje.Pojam

216

[36] http://www.tf.uns.ac.rs/~omorr/radovan_omorjan_003_is

/Osnovi%20inzenjerske%20statistike.pdf, decembar, 2018.

[37] https://www.mathos.unios.hr/uvis/poglavlje1.pdf,

decembar, 2018.

[38] http://www.mathos.unios.hr/ptfstatistika/deskriptivna_sta

tistika.pdf

[39] http://en.wikipedia.org/wiki/Sampling_%28statistics%29

(dostupno 02.01.2018.)

[40] http://lumens.fthm.hr/edata/2011/11e0fa5d-6e66-4424-

9e1a-7ac9cf5e747b.pdf

[41] www.pmf.ni.ac.rs/download/master/master_radovi_mate

matika/matematika_master_radovi/2015/2015-09-16-ca.pdf

[42] www.matematika.fkit.hr/novo/statistika_i_vjerojatnost/pre

davanja/8%20-%20Linearna%20korelacija.pdf

[43] hr.wikipedia.org/wiki/Korelacija