26
STATISTIKA 2

STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

  • Upload
    others

  • View
    29

  • Download
    0

Embed Size (px)

Citation preview

Page 1: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

POWERED BY:

STATISTIKA 2

Page 2: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Bok,

Drago nam je što si odabrao/la upravo Referadu za pronalazak materijala koji će ti

pomoći u učenju!

Materijali koje si skinuo/la s naše stranice nisu naše autorsko djelo,

već samo sažeti prikazi obvezne literature koji služe za ponavljanje

gradiva.

P.S. Pomozite svojim kolegama ocjenjivanjem predmeta prema kategorijama,

ocjenjivanjem skripti i korisnim savjetima u komentarima.

Također, kako bismo što prije napravili dobru bazu skripti za ponavljanje,

pošaljite nam na mail svaku skriptu koju niste vidjeli na stranici

([email protected]).

Želimo ti puno sreće s učenjem!

Page 3: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Statistika je znanstvena disciplina koja proučava metode prikupljanja, sređivanja, analize i tumačenja podataka.

Populacija ili statistički skup je skup osoba, stvari, pojava ili drugih objekata, čije osobine istražujemo

statističkom metodom. Članovi populacije zovu se statističke jedinice, a njihov broj zove se veličina

populacije.

Populacija ima pojmovno, prostorno i vremensko određenje.

Pojmovno određenje opisuje kategoriju objekata koji čine populaciju, tj. koje smatramo statističkim jedinicama.

Prostorno određenje kazuje mjesto ili instituciju kojoj pripadaju statističke jedinice.

Vremensko određenje opisuje vremensko razdoblje ili trenutak u vremenu u kojemu se statističke jedinice

promatraju.

Pojmovno, prostorno i vremensko određenje redom odgovaraju na pitanja što, gdje i kada se promatra.

Promatranje čitave populacije zove se cenzus.

Zbog veličine populacije, njezine nedostupnosti ili visokih troškova prikupljanja podataka, cenzus je cesto teško

ili cak nemoguće provesti.

Dio ili podskup populacije zove se uzorak, postupak formiranja uzorka zove se uzorkovanje, a broj jedinica u

uzorku zove se veličina uzorka.

Uzorak koristimo da bismo saznali nešto o populaciji, pa se uzorak mora pažljivo odabrati, kako bi valjano

predstavljao populaciju.

Ako se uzorak bira nekim slučajnim mehanizmom (npr. slučajnim izvlačenjem listića iz kutije) onda kažemo da

imamo slučajni uzorak. Slučajnost uzorka je garancija da se uzorak neće sistematično razlikovati od populacije.

Bez obzira kako je uzorak odabran, slučajno ili neslučajno, u poopćavanju osobina uzorka na čitavu populaciju

nužno činimo pogrešku, koja se zove pogreška uzorkovanja.

Što je uzorak veći, to se on manje razlikuje od populacije, pa je i pogreška uzorkovanja manja.

Numerička osobina populacije zove parametar, a numerička osobina uzorka zove se statistika.

U slučaju kada su parametri nepoznati, statistike koristimo za procjenjivanje parametara i za testiranje hipoteza o

parametrima.

Podjela statistike:

Deskriptivna statistika - obuhvaća postupke sređivanja, tabličnog i grafičkog prikazivanja podataka, te

izračunavanja raznih statističkih pokazatelja, kao sto je npr. aritmetička sredina. Dobiveni rezultati

odnose se isključivo na dane podatke i ne uopćavaju se.

Inferencijalna statistika - proučava metode kojima se pomoću dijela informacija (uzorka), donosi

zaključak o cjelini (populaciji). Procjenjivanje parametara i testiranje hipoteza su tipični postupci

koji spadaju u inferencijalnu statistiku. Za inferencijalnu statistiku koriste se još nazivi induktivna

statistika, statističko zaključivanje ili metoda uzoraka.

Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda deskriptivne

statistike.

Obično raspolažemo uzorkom, a htjeli bismo nešto saznati o populaciji, pri čemu se koristimo inferencijalnom

statistikom.

Važno je napomenuti da se postupci inferencijalne statistike zasnivaju na pretpostavci da je uzorak slučajan.

Ako imamo neslučajan uzorak, metode inferencijalne statistike se ne mogu primijeniti.

Svojstvo koje posjeduju sve statističke jedinice i koje za različite statističke jedinice može poprimiti različite

vrijednosti ili modalitete zove se statistička varijabla ili statističko obilježje.

Svojstvo koje za sve statističke jedinice ima istu vrijednost, nije varijabla, nego je konstanta.

Vrijednosti statističkih varijabli utvrđuju se mjerenjem, a mjerenje se vrši prema određenoj mjernoj skali.

Mjerenje nekog svojstva je postupak kojim statističkim jedinicama dodjeljujemo brojeve ili druge simbole, tako

da odnosi među brojevima ili simbolima odgovaraju odnosima medu statističkim jedinicama s obzirom na

svojstvo koje se mjeri.

Pravilo prema kojemu provodimo mjerenje zove se mjerna skala.

Page 4: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Mjerenje i mjerne skale, te njihov utjecaj na analizu podataka proučava grana primijenjene matematike koja se

zove teorija mjerenja.

Statistika povezuje podatke i zaključke, a teorija mjerenja povezuje podatke i stvarnost.

Poznavanje mjernih skala uvjet je za ispravni izbor statističkih metoda za analizu promatrane pojave.

Najvažnije mjerne skale (nominalna, ordinalna, intervalna, omjerna i apsolutna) tvore hijerarhiju, u kojoj

svaka sljedeća skala uključuje osobine prethodne.

Varijable kojima vrijednost dodjeljujemo na nominalnoj ili ordinalnoj mjernoj skali zovu se kvalitativne ili

kategoričke, a varijable kojima vrijednost dodjeljujemo na ostalim mjernim skalama zovu se kvantitativne ili

numeričke.

Nominalna mjerna skala

Vrijednost na nominalnoj mjernoj skali može biti broj ili bilo koji drugi simbol ili riječ.

Vrijednost na nominalnoj skali predstavlja samo identifikator, naziv ili kategoriju.

Varijabla kojoj vrijednost dodjeljujemo prema nominalnoj mjernoj skali zove se nominalna varijabla.

Primjeri nominalnih varijabli: ime, prezime, mjesto rođenja (osobe), broj indeksa, odjel (studenta), model,

boja (automobila), broj dresa (igrača sportske ekipe) itd.

Za vrijednosti nominalne varijable možemo samo utvrditi da li su jednake ili različite, npr. moguće je utvrditi da

li dvije osobe imaju jednako ili različito ime.

Odnosi koji možda vrijede za vrijednosti na nominalnoj mjernoj skali ne prenose se prirodno na statističke

jedinice, npr. činjenica da jedan igrač ima manji broj dresa od drugog igrača ne govori ništa o odnosu ili ulozi tih

igrača.

Ordinalna mjerna skala

Vrijednost na ordinalnoj mjernoj skali može biti broj ili neki drugi simbol ili riječ.

Vrijednost na ordinalnoj skali izražava redoslijed ili intenzitet.

Varijabla kojoj vrijednost dodjeljujemo prema ordinalnoj mjernoj skali zove se ordinalna varijabla.

Koriste se još nazivi redoslijedna ili rang varijabla.

Primjeri ordinalnih varijabli: ocjena (studenta na ispitu), čin (u vojsci ili policiji), ekonomska razvijenost

(zemlje ili regije).

Vrijednosti ordinalne varijable mogu se poredati po veličini ili intenzitetu.

Premda računske operacije s vrijednostima ordinalne varijable nisu moguće, one se ponekad ipak izvode, pa tako

računamo npr. prosječnu ocjenu položenih ispita.

Intervalna mjerna skala

Pomoću intervalne mjerne skale, statističkim jedinicama se dodjeljuju brojevi tako da razlike među brojevima

odgovaraju razlikama u mjerenom svojstvu.

Primjeri intervalnih varijabli: temperatura u stupnjevima Celsiusa ili Fahrenheita, kalendarska godina.

Položaj nule i mjerna jedinica na intervalnoj skali određeni su dogovorno.

Štoviše, vrijednost nula ne označava nepostojanje promatranog svojstva.

Intervalnoj mjernoj skali pripadaju i tzv. dihotomne ili binarne varijable. To su varijable koje mogu poprimiti

samo dvije različite vrijednosti, kao npr. spol (muško/žensko), pušač/nepušač, punoljetan/maloljetan,

oženjen/neoženjen itd.

Vrijednosti dihotomnih varijabli obično označavamo s 0 i 1.

Zapravo, ako dihotomna varijabla označava prisutnost ili odsutnost nekog svojstva, onda možemo smatrati da ta

varijabla pripada omjernoj ili cak apsolutnoj mjernoj skali.

Slična intervalnoj je log-intervalna mjerna skala koja ima svojstvo da razlikama među brojevima odgovaraju

omjeri u mjerenom svojstvu.

Primjeri: Richterova skala za snagu potresa, pH vrijednost, magnituda (sjaj) nebeskih tijela.

Omjerna mjerna skala

Kod omjerne mjerne skale, statističkim jedinicama se dodjeljuju brojevi tako da razlike i omjeri brojeva

odgovaraju razlikama i omjerima mjerenog svojstva.

Nula na omjernoj skali znači nepostojanje svojstva, ali se mjerna jedinica može proizvoljno birati.

Primjeri omjernih varijabli: duljina, visina, težina, tlak (zraka), trajanje (nekog događaja) itd.

Apsolutna mjerna skala

Jedinicama su dodijeljeni brojevi tako da se sva svojstva brojeva prenose na mjerenu osobinu.

Page 5: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Primjeri: proporcija, razne varijable čija se vrijednost dobije brojanjem (broj djece u obitelji, broj zaposlenih u

poduzeću).

Kod apsolutne mjerne skale nije dozvoljena ni promjena mjerne jedinice.

Podjela numeričkih statističkih varijabli:

Diskretne ili prekidne - Vrijednost diskretne ili prekidne varijable obično dobijemo brojanjem.

Primjeri diskretnih varijabli: broj zaposlenih, broj članova obitelji, broj studenata na nastavi, broj zastoja u radu

stroja.

Diskretne varijable imaju osobinu da im se vrijednost iskazuje određenom najmanjom i nedjeljivom mjernom

jedinicom.

Skup vrijednosti te varijable sastoji se od nenegativnih cijelih brojeva, tj. od brojeva 0; 1; 2; 3; ..

S druge strane, neprekidna ili kontinuirana varijabla može poprimiti bilo koju vrijednost unutar nekog

neprekidnog intervala brojeva.

Kontinuirane ili neprekidne - Vrijednost neprekidne varijable dobije se mjerenjem nekim mjernim

instrumentom (npr. metar,

vaga, sat, tlakomjer, termometar itd.), i može se iskazati u po volji malenoj mjernoj jedinici (npr. km, m, cm,

mm, m itd.).

Primjeri neprekidnih varijabli: duljina, visina, težina, tlak, količina padalina, temperatura.

Premda u teoriji postoji jasna razlika između diskretnih i neprekidnih varijabli, u praksi se obično radi o

aproksimaciji. Svaki mjerni instrument ima ograničenu preciznost (npr. najmanja mjerna jedinica koja je označena na metru

kojim mjerimo visinu osobe je milimetar) tako da, premda je promatrana varijabla (visina osobe) neprekidna,

izmjerene vrijednosti neće nikada činiti kontinuum, odnosno bit ce diskretne. Slično tome, ponekad je praktičnije

da se prema diskretnoj varijabli ponašamo kao da je neprekidna.

Statistički podaci mogu se prikupiti direktnim opažanjem. Poseban oblik direktnog opažanja je statistički

eksperiment. Ako direktno opažanje nije moguće, podatke možemo od ispitanika prikupiti pomoću ankete.

Anketa se sastoji od pitanja na koja ispitanici odgovaraju, te se kao takva koristi za prikupljanje činjenica ili

ispitivanje mišljenja i stavova. Anketa se može provesti kao strukturirani intervju.

Statistički podaci i rezultati statističke analize mogu se prikazati u tri oblika (tekstovno, tablično i grafički).

Tekst se koristi kada treba prikazati svega nekoliko vrijednosti.

Tablice i grafikoni prikazuju podatke koje bi bilo teško ili nemoguće opisati riječima. Tablice se koriste kada

treba precizno prikazati veći skup podataka, ali tablice nisu prikladne za uočavanje pravilnosti, veza ili

uspoređivanje. Za takve potrebe koriste se grafički prikazi.

Svaka tablica i grafikon moraju imati primjeren, informativan opis.

Opis se obično stavlja iznad tablice i ispod grafikona zato sto se tablice čitaju odozgo prema dolje, a grafički

prikazi obrnutim putem. Stupci i redovi u tablici, te koordinatne osi na grafikonima moraju imati jasan naslov, s

naznačenim mjernim jedinicama.

Ako koordinatna os prikazuje kategoričku varijablu, onda vrijednosti (kategorije) varijable trebaju biti upisane

ispod ili pored osi, dok ako os prikazuje numeričku varijablu onda na njoj treba biti odgovarajuće numeričko

mjerilo.

U tekstu treba rezimirati kljucne činjenice koje su prikazane tablicom ili grafikonom.

Ako se takvo rezimiranje čini nepotrebnim, onda se može dovesti u pitanje i potreba da se tablica ili grafikon

uopće nalaze u radu. Kako bi se u tekstu mogli lako pozvati na tablicu ili grafikon, potrebno je da isti budu

označeni jedinstvenim brojem.

Svi opisi koji se tiču tablice ili grafičkog prikaza trebaju biti sto je moguće jednostavniji, ali istovremeno

potpuni, jasni i informativni.

Ako tablica prikazuje originalne podatke onda je potrebno navesti što se mjerilo, gdje su podaci prikupljeni i

kada, dok ako su podaci odnekud preuzeti, npr. iz neke publikacije ili drugog rada, onda treba navesti izvor.

Page 6: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

INSTRUKCIJE MATEMATIKA

AKO NISI SKUŽIO/LA FORU… …molim te javi se na [email protected]

VIŠE INFO NA: referada.hr/instrukcije/matematika

Page 7: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Statistički podaci ne sastoje se od međusobno jednakih vrijednosti, nego od vrijednosti koje su različite, te koje

imaju određeni raspored, raspodjelu ili distribuciju.

Glavne osobine te distribucije jesu:

(a) lokacija ili centralna tendencija,

(b) disperzija ili raspršenje,

(c) oblik, gdje spadaju asimetrija i zaobljenost.

U ispitivanju osobina distribucije koristimo se grafičkim prikazima, kao i numeričkim pokazateljima, koji se

zovu mjere. Tako govorimo o mjerama lokacije, mjerama disperzije i mjerama oblika. Mjere lokacije zovu

se još srednje ili prosječne vrijednosti.

Aritmetička sredina je najvažnija i najpopularnija mjera lokacije i kratko je zovemo sredina ili prosjek. Može

koristiti samo za numeričke podatke, tj. za podatke koji su barem na intervalnoj skali.

Dva važna svojstva aritmetičke sredine:

1. Govori o tome koliko aritmetička sredina može biti velika ili malena.

2. govori da je aritmetička sredina težište ili točka ravnoteže podataka.

Aritmetička sredina ne govori ništa o disperziji.

Aritmetička sredina se ne može upotrijebiti s kategoričkim podacima.

Pored aritmetičke, postoje još dvije „sredine" koje se mogu primijeniti na numeričke podatke - geometrijska i

harmonijska sredina.

Harmonijska sredina vrijednosti Xi definira se kao omjer broja vrijednosti i zbroja njihovih recipročnih

vrijednosti.

Aritmetička, geometrijska i harmonijska sredina jednake su samo ako su svi podaci međusobno jednaki.

U protivnom, geometrijska sredina je manja od aritmetičke, a harmonijska sredina je manja od geometrijske.

Disperzija podataka može se mjeriti udaljenošću podataka od aritmetičke sredine. Udaljenost dva broja obično

se definira kao apsolutna vrijednost njihove razlike.

Apsolutne devijacije mogu se koristiti za mjerenje disperzije.

Jedina namjena apsolutne vrijednosti je uklanjanje predznaka devijacije, koji je za udaljenost i disperziju

nevažan.

Varijanca je prosječno kvadratno odstupanje vrijednosti numeričkog obilježja od aritmetičke sredine, to je

aritmetička sredina kvadrata razlike.

Varijanca nema istu mjernu jedinicu kao podaci, već je mjerna jedinica varijance jednaka kvadratnoj mjernoj

jedinici podataka.

Varijanca ce biti jednaka nuli samo u slučaju kada sve devijacije iznose nula, odnosno kada su sve podatkovne

vrijednosti međusobno jednake. Tada uopće nema disperzije. U svakom drugom slučaju, tj. kadgod se medu

podacima nalaze barem dvije različite vrijednosti, varijanca ce biti pozitivna. Po konstrukciji, što je disperzija

veća, to će i vrijednost varijance, odnosno standardne devijacije biti veća.

Devijacija je odstupanje između pojedinog člana niza i srednje vrijednosti.

Standardna devijacija mjeri disperziju podataka oko aritmetičke sredine.

Disperzija je niz devijacija.

Koeficijent varijacije je relativna mjera disperzije, koja nema mjernu jedinicu, jer se kod dijeljenja aritmetičke

sredine sa standardnom devijacijom mjerne jedinice krate.

Koeficijent varijacije je relativan broj koji pokazuje udio standardne devijacije u aritmetičkoj sredini.

Page 8: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Teorem Čebiševa tvrdi da za svaki pozitivan broj k, proporcija podataka udaljenih od aritmetičke sredine manje

od k standardnih

devijacija iznosi barem 1 1/k2

Teorem Čebiševa zapravo koristan samo za udaljenosti veće od jedne standardne devijacije.

Linearna transformacija koristi se kada podacima želimo promijeniti mjernu jedinicu.

Linearna transformacija se može s jednakom namjenom koristiti i za grupirane podatke.

Standardizacija je postupak u kojemu se razlika vrijednosti varijable od njene aritmetičke sredine dijeli sa

standardnom devijacijom. Drugim riječima, standardizacijom se devijacije iskazuju u jedinicama standardne

devijacije.

Nastala varijabla zove se standardizirana varijabla, a njene vrijednosti zovu se standardizirane ili z

vrijednosti.

Standardizirane vrijednosti nemaju mjernu jedinicu, jer se dijeljenjem devijacije i standardne devijacije, koje

imaju istu mjernu jedinicu (npr. metar u slučaju puta kočenja), mjerne jedinice krate.

Mod je vrijednost koja se javlja najveći broj puta.

Medijan je vrijednost koja se nalazi u središtu niza podataka poredanih po veličini, to je oblik ili vrijednost

statističke varijable koja uređeni niz podataka dijeli na dva jednako brojna dijela.

Kod medijana se podaci moraju prethodno urediti i to od najmanjeg prema najvećem.

Kvantili su vrijednosti numeričke varijable koji niz uređen po veličini dijele na q jednakih dijelova.

Kvantili koji dijele statistički niz na 4 jednaka dijela nazivaju se kvartilima.

Postoje tri kvartila: prvi ili donji, drugi ili medijan i treći ili gornji.

Kvintili = 0.2, 0.4, 0.6, 0.8

Decili = 0.1, 0.2, 0.3, ..., 0.9

Percentili = 0.01, 0.02, ..., 0.99

Kvantil razine p ili p-kvantil podataka Xi je vrijednost Xp takva da:

(1) proporcija podataka koji su manji ili jednaki od Xp iznosi barem p

(2) proporcija podataka koji su veci ili jednaki od Xp iznosi barem 1 p.

Raspon nekog skupa podataka je razlika između najveće i najmanje vrijednosti u tom skupu podataka.

Kao takav, raspon se ubraja u mjere disperzije.

Interkvartil je razlika između gornjeg i donjeg kvartila. Zovemo ga još i interkvartilni raspon.

Dijagram stabljika može se koristiti za prikaz umjereno velikih skupova numeričkih podataka (od 15 do 150)

vrijednosti.

Zove se i dijagram stablo-list, tj. SL dijagram.

Konstrukciji dijagrama stabljika ponekad prethodi zaokruživanje podataka na određen broj znamenki.

Posljednja značajna znamenka u nekoj podatkovnoj vrijednosti čini list, a sve ostale znamenke, uključujući

predznak, ako je potrebno, čine stabljiku.

Dijagram pravokutnika koristi se za veće skupove numeričkih podataka, isto kao i histogram.

Za izradu dijagram pravokutnika potrebni su: medijan, kvartili, interkvartil, ograda i granične vrijednosti.

Dijagram točaka koristi se za prikaz relativno malih skupova numeričkih podataka (do 30 vrijednosti).

Simetrična distribucija - kada su podaci simetrični na medijan.

Asimetrična distribucija - razlikuje se po:

Page 9: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

smjeru - ako su podaci razvučeni na desnu stranu, kaže se da je distribucija desnostrano ili pozitivno

asimetrična, dok ako su podaci razvučeni na lijevu stranu, kažemo da je distribucija ljevostrano ili

negativno asimetrična.

jakosti - kod simetrično raspoređenih podataka, donji i gornji kvartil su jednako udaljeni od medijana,

dok je kod pozitivne asimetrije gornji, a kod negativne asimetrije donji kvartil udaljeniji od medijana.

Simetrija i asimetrija utječu na međusoban položaj aritmetičke sredine i medijana. Kod simetrične

distribucije, aritmetička sredina i medijan bit ce (približno) jednaki.

Kod pozitivno asimetrične distribucije, aritmetička sredina bit ce veća od medijana, dok je kod negativno

asimetrične distribucije aritmetička sredina manja od medijana.

Distribucija frekvencija je popis grupa i njihovih frekvencija koji se obično daje u tabličnom obliku, ali se

mogu i u grafičkom.

Distribucije frekvencija nastaju grupiranjem podataka.

Grupiranje je postupak sažimanja podataka, u kojemu se podaci svrstavaju u skupine ili grupe.

Pritom, svaku podatkovnu vrijednost treba svrstati u točno jednu grupu.

Broj, odnosno proporciju podataka u nekoj grupi nazivamo njezinom apsolutnom, odnosno relativnom

frekvencijom.

Ako želimo naglasiti o kojim je frekvencijama riječ, onda koristimo naziv distribucija apsolutnih, odnosno

distribucija relativnih frekvencija. Osim tablično, distribucije frekvencija prikazuju se i grafički.

Apsolutne frekvencije nastaju brojanjem podatkovnih vrijednosti, pa su ni nenegativni cijeli brojevi.

Ako broj podataka nije poznat ne mogu se odrediti apsolutne frekvencije.

Relativna frekvencija je po definiciji jednaka omjeru apsolutne frekvencije i broja podataka.

Relativne frekvencije su nenegativni racionalni brojevi, čiji zbroj iznosi jedan.

Često se relativne frekvencije iskazuju u obliku postotka.

Podaci u obliku distribucije frekvencija zovu se još grupirani podaci, a za podatke iz kojih je distribucija

frekvencija nastala kažemo da su negrupirani.

Kategorički podaci se obično grupiraju tako da se grupe sastoje od međusobno jednakih podatkovnih

vrijednosti.

Ako se pritom pojavi veći broj grupa niske frekvencije, onda takve grupe možemo spojiti u jednu grupu.

Ako raspolažemo ordinalnim podacima, onda u prikazu distribucije frekvencija treba vrijednosti varijable

poredati po njihovom intenzitetu, od manjih prema većima ili obrnuto.

Ako imamo nominalne podatke, onda vrijednosti varijable možemo poredati na razne načine, npr. abecednim

redom ili po frekvencijama.

Dijagram stupaca može se koristiti za prikaz apsolutnih (sl. 4.1a) i relativnih frekvencija (sl. 4.1b), a s obzirom

da su apsolutne i relativne frekvencije međusobno proporcionalne, izgled stupaca ne zavisi o vrsti prikazanih

frekvencija.

Sličnu osobinu imaju i drugi grafički prikazi distribucije frekvencija, poput linijskog grafikona, histograma i

poligona frekvencija.

Strukturni krug se sastoji od kružnih isječaka čiji je kut proporcionalan frekvenciji i koristi se obično za prikaz

relativnih frekvencija.

Diskretni numerički podaci grupiraju se gotovo jednako kategoričkim podacima, tj. grupe se sastoje od

međusobno jednakih

vrijednosti.

Postupak prilagođavamo činjenici da radimo s numeričkim podacima, pa tako različite vrijednosti numeričke

varijable uvijek navodimo njihovim prirodnim redom, od manjih prema većima, bez preskakanja onih koje se

u podacima možda ne javljaju.

Page 10: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Ako se diskretni numerički podaci sastoje od velikog broja različitih vrijednosti, koje se vrlo malo ponavljaju

ili se uopće ne ponavljaju, poput podataka o placi, onda se grupiranje provodi kao da je riječ o neprekidnoj

varijabli, tj. koristeći razrede.

Kumulativna apsolutna, odnosno kumulativna relativna frekvencija vrijednosti xi denira se kao zbroj prvih i

apsolutnih, odnosno relativnih frekvencija.

Kumulativne apsolutne frekvencije možemo računati rekurzivno.

Posljednja kumulativna frekvencija jednaka je zbroju svih frekvencija.

Diskretne distribucije uobičajeno grafički prikazujemo linijskim grafikonom ili poligonom frekvencija koji

se mogu koristiti za prikaz apsolutnih i relativnih frekvencija. Oba grafikona sadrže dvije brojevne osi, pri čemu

horizontalna os prikazuje vrijednost numeričke varijable, a vertikalna os frekvenciju.

Linijski grafikon sastoji se od vertikalnih linija koje se protezu od točke (xi; 0) do točke (xi; ni) u slucaju

apsolutnih, odnosno (xi; pi) u slučaju relativnih frekvencija. Do poligona frekvencija dolazimo tako da točke (xi;

ni), odnosno (xi; pi) spojimo ravnim crtama.

Distribucija frekvencija diskretne numeričke varijable je sažeti zapis podataka, koji se od polaznog niza

negrupiranih podataka razlikuje samo u poretku i koji se može koristiti za brze i jednostavnije izračunavanje

mjera lokacije i disperzije.

Za razliku od negrupiranih podataka, varijancu grupiranih podataka možemo relativno jednostavno

izračunati i koristeći devijacije.

Kod neprekidnih numeričkih podataka gotovo da nema ponavljanja vrijednosti, pa se ti podaci ne mogu

grupirati kao što smo činili dosad, nego se neprekidni numerički podaci grupiraju u razrede.

Grupiranje u razrede provodi se tako da se brojevni interval koji sadrži podatkovne vrijednosti „izreže" na

određen broj podintervala, koje zovemo razredima, a grupe se pritom sastoje od podatkovnih vrijednosti koje

pripadaju istom razredu.

Broj razreda k treba prikladno odabrati. Pritom, čvrstih pravila nema, osim da k ne smije biti prevelik, jer je

grupiranje postupak sažimanja podataka, niti premalen, jer bi se tako izgubili važni detalji. Obično uzimamo k

između 5 i 15, tj. 5 k 15.

Osnovno pravilo grupiranja je da se svaki podatak treba svrstati u točno jednu grupu.

Kod distribucije s razredima, kumulativna apsolutna frekvencija Ni kazuje broj, a kumulativna relativna

frekvencija Pi proporciju podataka manjih ili jednakih gornjoj granici i-tog razreda bi.

Da bismo distribuciju s razredima ipak mogli koristiti za određivanje mjera lokacije i disperzije, podatkovne

vrijednosti koje pripadaju istom razredu nadomjestit ćemo razrednom sredinom, tj. aritmetičkom sredinom

granica razreda.

Veličina razreda definira se kao udaljenost između granica razreda.

Frekvencija razreda zavisi o njegovoj veličini, pa je zato korisno frekvenciju staviti u odnos s veličinom

razreda, čime dolazimo do gustoće frekvencije.

Histogram nastaje tako da se nad svakim razredom podigne pravokutnik čija je površina jednaka frekvenciji

razreda.

Iz toga neposredno slijedi da je visina pravokutnika jednaka gustoći frekvencije, te da površina cijelog

histograma, tj. svih njegovih pravokutnika zajedno, iznosi n ili 1, ovisno o tome prikazuje li histogram

distribuciju apsolutnih ili relativnih frekvencija.

Poligon frekvencija distribucije neprekidne numeričke varijable dobije se tako da se polovišta gornjih stranica

pravokutnika histograma spoje ravnim crtama.

Površina svakog pravokutnika histograma jednaka frekvenciji odgovarajućeg razreda.

Page 11: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Medijan se definira kao vrijednost s čije se lijeve i desne strane nalazi polovica podatkovnih vrijednosti, što

znači da ce medijan biti vrijednost koja površinu histograma dijeli na pola.

Razredi ne moraju uvijek biti jednake veličine, pa se koriste razredi različitih veličina (onda se manji razredi

koriste u području gdje su podaci gusti, a veći razredi tamo gdje su podaci rijetki).

Kod distribucije s razredima, medijalni razred je onaj gdje je frekvencija najveća.

Vrijednosti koje imaju veliku težinu jace utječu na iznos vagane aritmetičke sredine od vrijednosti koje imaju

malu težinu, pa se vagana aritmetička sredina koristi za prosjek vrijednosti koje imaju različitu važnost.

Ona se koristi kada broj podataka nije poznat, tj kada ne možemo odrediti apsolutne frekvencije.

Dva važna svojstva vagane aritmetičke sredine.

1. ako su težine međusobno jednake i iznose 1, vagana aritmetička sredina prelazi u nevaganu.

2. ako se težine zamijene njima proporcionalnim težinama, onda se vrijednost vagane aritmetičke sredine ne

mijenja.

Sredina distribucije računa se kao vagana sredina vrijednosti xi i apsolutnih frekvencija ni.

Prave ili precizne granice - kada, u distribuciji s razredima, susjedni razredi imaju zajedničku granicu (to se

postiže smanjivanjem donjih i povećanjem gornjih nominalnih granica razreda, ali ponekad je dovoljno i samo

jedno od toga.

Nominalne granice - ako susjedni razredi nemaju zajedničku granicu.

Otvoren razred - ako razredu nedostaje jedna od granica.

Prije obrade distribucije s razredima, potrebno je približno procijeniti granice otvorenih razreda.

Univarijatni podaci - podaci koji se odnose samo na jednu statističku varijablu.

Bivarijatni podaci - podaci koji se odnose na promatranje dviju statističkih varijabli.

Bivarijatne podatke obično prikupljamo jer nas zanima veza (asocijacija, korelacija, kovarijacija, zavisnost)

između varijabli.

Multuvarijatni podaci - podaci do kojih dolazimo promatranjem dviju ili više statističkih varijabli.

Multivarijatne podatke prikazujemo u tablici sličnoj onoj za bivarijatne podatke, s tim da stupaca u toj tablici

ima koliko i varijabli.

Veze između varijabli:

deterministička (funkcijska) - ako se na osnovu vrijednosti jedne varijable može precizno odrediti

vrijednost druge varijable (npr. količina - plaćeni iznos)

stohastička (slučajna, statistička) - ako na osnovu vrijednosti jedne varijable nije moguće sasvim

precizno odrediti vrijednosti druge varijable. (npr. vrijeme učenja - ocjena na ispitu).

Dijagram raspršenja - koristi se ako su obje varijable numeričke

Podatkovne vrijednosti prikazuju se kao točke u pravokutnom koordinatnom sustavu.

Veza između varijabli može biti i:

linearna - ako su točke u dijagramu raspršenja raspoređene oko pravca

nelinearna - ako su točke raspoređene oko krivulje

rastuća - porast jedne varijable uglavnom povlači porast (pozitivna)

padajuća - pad vrijednosti povlači pad (negativna)

Jakost veze govori o tome koliko precizno vrijednost jedne varijable određuje vrijednost druge varijable

Page 12: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Potpuna ili savršena korelacija moguća je samo kod funkcijske veze.

Korelacija se može numerički iskazati raznim koeficijentima, a medu najpoznatijima je Pearsonov koeficijent

linearne korelacije. Pearsonov koeficijent mjeri isključivo linearnu korelaciju.

Vrijednost Pearsonov koeficijenta kreće se od +1 (savršena pozitivna korelacija) do -1 (savršena negativna

korelacija).

Osnovna mjera linearne korelacije je zapravo kovarijanca, a kovarijanca Sxy numeričkih varijabli X i Y

definira se kao aritmetička sredina produkata njihovih devijacija.

Što je korelacija jača, to ce pozitivni kvadranti sadržavati vise točaka od negativnih, pa će se i vrijednost

kovarijance povećati.

Analogno razmišljanje možemo provesti za negativnu linearnu korelaciju, kod koje ce kovarijanca biti negativna.

U slučaju kad varijable nisu korelirane, broj točaka u svim kvadrantima bit ce približno jednak, što znaci da ce

kovarijanca

biti približno nula.

Kovarijanca može poslužiti za mjerenje (isključivo) linearne korelacije.

Mjernih jedinica se naravno možemo riješiti standardizacijom.

Koecijent linearne korelacije r definira se kao kovarijanca standardiziranih varijabli, on je jednak je omjeru

kovarijance i produkta standardnih devijacija.

Dok predznak koeficijenta linearne korelacije pokazuje smjer, dotle njegova apsolutna vrijednost pokazuje

jakost korelacije.

Ako varijable zamijene uloge, kovarijanca i koeficijent linearne korelacije neće promijeniti vrijednost.

Bivarijatni podaci mogu se grupirati tako da se grupe sastoje od međusobno jednakih parova vrijednosti

promatranih varijabli.

Tablica kontingencije - bivarijatna distribucija frekvencija, služi razvrstavanju statističkih jedinica prema

vrijednostima dvije ili više statističkih varijabli.

Posljednji stupac u tablici zove se marginalni stupac i on sadrži zbroj frekvencija u istom retku, dok se

posljednji redak zove se marginalni redak i u njemu se nalaze zbrojevi frekvencija u istom stupcu.

Zbroj apsolutnih frekvencija svake marginalne distribucije iznosi n.

Univarijatne distribucije u marginalnom retku i stupcu zovemo marginalnim distribucijama.

Tablice kontingencije imaju najveću primjenu upravo kod kategoričkih podataka, jer je tablica kontingencije

osnovno sredstvo za istraživanje veza između kategoričkih varijabli.

Uvjetne distribucije - npr. treći stupac sadrži distribuciju studenata prema smjeru uz uvjet da je ocjena jednaka

3 i sl.

Zbroj frekvencija uvjetne distribucije jednak je marginalnoj frekvenciji.

Relativne frekvencije se i ovdje dobivaju tako da se apsolutne frekvencije podijele sa svojim zbrojem.

Zajedničke i marginalne relativne frekvencije dobivaju iz apsolutnih dijeljenjem s n, a uvjetne relativne

frekvencije dobivaju se tako da se apsolutne frekvencije podijele s pripadnom marginalnom frekvencijom.

Distribuciju bivarijatnih numeričkih podataka također prikazujemo tablicom kontingencije, uz prilagodbe

slične onima koje smo primijetili kod univarijatnih podataka{ npr. ako je jedna od varijabli neprekidna, onda se

njene vrijednosti trebaju grupirati u razrede).

Frekvencije nij i pij zovu se opažene ili empirijske, dok se izrazi ni+n+j=n i pi+p+j zovu očekivane ili teorijske

frekvencije.

Varijable su nezavisne samo ako su opažene frekvencije jednake očekivanima.

Svojstvo nezavisnosti je simetrično.

Zbroj očekivanih frekvencija u istom retku ili stupcu je jednak marginalnoj frekvenciji, a zbroj svih

očekivanih frekvencija iznosi n, odnosno 1.

Page 13: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Svake dvije statističke varijable su manje ili više zavisne, a stupanj njihove zavisnosti mjerimo kao odstupanje

opaženih frekvencija od

očekivanih, upravo tome služi mjera koju zovemo hi-kvadrat, označavamo ju sa X2. X2≥0

Cramér je pokazao da je uvijek X2 ≤ n (min{k,l}-1) pri čemu jednakost vrijedi ako i samo su varijable u

funkcijskoj vezi.

Vjerojatnost - realan broj između 0 i 1 koji predstavlja mogućnost da događaj nastupi.

Teorija vjerojatnosti snažno se oslanja na matematički pojam skupa.

Skup se definira kao kolekcija objekata.

Objekti koji pripadaju skupu nazivaju se njegovim članovima ili elementima.

Svaki skup je u potpunosti određen elementima koji mu pripadaju, tj. dva skupa s jednakim elementima

međusobno su jednaka.

Skupove obično zadajemo vitičastim zagradama između kojih nabrajamo elemente skupa ili navodimo uvjet

koji mora biti ispunjen da

bi neki objekt pripadao skupu.

Skup koji nema elemenata zove se prazan skup.

Ako je svaki element skupa A sadržan u skupu B onda kažemo da je A podskup od B ili da je B nadskup od A.

Prazan skup je podskup svakog skupa i svaki skup je podskup samog sebe.

Osnovne operacije sa skupovima jesu komplement, unija, presjek i razlika.

Vjerojatnost proučava slučajne pokuse.

Slučajni pokus je bilo koji proces ili postupak čiji rezultat ne možemo sigurno predvidjeti, kao npr. bacanje

novčića.

Vjerojatnosti prostor je teorijski model slučajnog pokusa, a on se sastoji od ishoda, događaja i vjerojatnosne

mjere.

Ishod ili elementarni događaj je rezultat slučajnog pokusa koji se ne može rastaviti na manje dijelove.

Skup svih ishoda zove se prostor ishoda ili prostor elementarnih događaja.

Događaj je skup nekih (dakle, ne nužno svih) ishoda. Događaj je podskup od prostora ishoda.

Npr. kod bacanja igraće kocke možemo promatrati događaj „pojavio se paran broj".

Za događaj kažemo da se dogodio ili da je nastupio ako je slučajni pokus rezultirao ishodom koji pripada tom

događaju.

Npr. ako kod bacanje igraće kocke dobijemo broj 6, onda možemo reci da je nastupio događaj „pojavio se paran

broj", ali ne i događaj „pojavio se neparan broj".

Kod svakog slučajnog pokusa vrlo je lako doći do događaja koji sadrže sve ishode ili ne sadrže niti jedan ishod.

Prostor ishoda i prazan skup uvijek smatramo događajima. Također, kako su događaji skupovi, na događaje

možemo primjenjivati sve skupovne operacije.

Skup svih događaja zove se prostor događaja.

Kad je prostor ishoda prebrojiv, tj. kad se njegovi elementi mogu napisati u obliku konačnog ili beskonačnog

niza, svaki podskup od možemo smatrati događajem.

Skup realnih brojeva i svaki njegov neprekinut dio su neprebrojivi, pa već neki jednostavni slučajni pokusi, kao

npr. čekanje gradskog autobusa, imaju neprebrojiv prostor ishoda.

Ako je neprebrojiv, onda moramo postaviti ograničenja na to koje podskupove od smatramo događajima.

U svakom slučaju, od prostora događaja F uvijek zahtijevamo da sadrži prazan skup i prostor ishoda , kao

„najmanji" i „najveći" događaj, te da se primjenom osnovnih skupovnih operacija (komplementa, unije, presjeka

i razlike), na konačne i beskonačne nizove događaja ponovno dobiju događaji.

Osnovne operacije sa skupovima:

Page 14: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

komplement - predstavlja negaciju događaja i sastoji se od ishoda koji ne pripadaju tom događaju.

Komplement je involutivna operacija što znači da se komplemetiranjem komplementa ponovno dobiva

polazni događaj.

unija - sastoji se od ishoda koji pripadaju barem jednom od tih događaja. Unija događaja odgovara

spajanju događaja veznikom „ili". Unija je komutativna operacija.

presjek - sastoji se od ishoda koji pripadaju svakome od tih događaja. Presjek odgovara spajanju

događaja veznikom „i". Presjek je komutativna operacija.

razlika - sastoji se od ishoda koji pripadaju događaju A i koji ne pripadaju događaju B. Razlika nije

komutativna operacija. Razlika odgovara spajanju događaja riječi „i nije“.

Operacije i odnosi među skupovima grafički se prikazuju Vennovim dijagramima.

Za događaje čija je unija jednaka kažemo da pokrivaju prostor ishoda.

Dakle, događaji pokrivaju prostor ishoda ako se pri izvođenju slučajnog pokusa mora dogoditi barem jedan od

tih događaja.

Za dva događaja A i B kažemo da su isključivi ili disjunktni ako im je presjek prazan,.

Prema tome, isključivi su oni događaji koji se ne mogu istovremeno dogoditi.

Vjerojatnosna mjera - posljednja sastavnica vjerojatnosnog prostora.

U vjerojatnosnom prostoru, svakom događaju pridružujemo vjerojatnost - realan broj između 0 i 1 koji

predstavlja mogućnost da događaj nastupi. Što je vjerojatnost nekog događaja veća, to smo sigurniji da ce se

događaj dogoditi kod izvođenja slučajnog pokusa.

Događaj čija je vjerojatnost 1 smatramo sigurnim, a događaj čija je vjerojatnost 0 nemogućim.

Vrste vjerojatnosti:

TEORIJSKA VJEROJATNOST - izračunavamo je na osnovu poznavanja osobina slučajnog pokusa

(npr. kod bacanja igraće kocke mora se dogoditi točno jedna od dvije stvari - „pojavio se paran broj“ ili

„pojavio se neparan broj“. Kako parnih i neparnih brojeva na kocki ima jednako mnogo, ta dva

događaja imaju jednaku mogućnost nastupanja, pa prema tome i jednaku vjerojatnost zbog toga,

vjerojatnost događaja iznosi ½ = 0.5).

EMPIRIJSKA VJEROJATNOST - možemo je koristiti samo ako je slučajno pokus ponovljiv i ako

raspolažemo rezultatima većeg broja pokusa. Npr. kolika je vjerojatnost da će slučajno odabran student

koji će pristupiti sljedećem ispitu iz statistike dobiti ocjenu izvrstan? To bismo mogli aproksimirat

dugoročnom relativnom frekvencijom studenata. Npr. ako je u posljednjih godinu dana na ispit iz

statistike izašlo 500 studenata među kojima je njih 30 dobilo ocjenu izvrstan onda je tražena

vjerojatnost 30/500 = 0.6).

SUBJEKTIVNA VJEROJATNOST - možemo ju odrediti samo kao stupanj osobnog uvjerenja u

nastupanje tog događaja. Npr. kolika je vjerojatnost da će nogometni klub Istra pobijediti na sljedećoj

utakmici? Rezultat nogometne utakmice može se djelomično predvidjeti na osnovu prethodnih rezultata

i sl. Ishod sljedeće utakmice je najvećim dijelom određen trenutnim stanjem u klubovima - spremnošću

ekipa, brojem ozlijeđenih igrača i sl).

Unatoč različitim definicijama, svaka vjerojatnost ima iste važne osobine. Tako, svaka vjerojatnost ima svojstvo

koje zovemo aditivnost, koje kaže da je vjerojatnost unije dva isključiva događaja jednaka zbroju vjerojatnosti

tih događaja.

Vrste aditivnosti:

konačna aditivnost

prebrojiva aditivnost

Vjerojatnosna mjera treba biti prebrojivo aditivna, što znači da je vjerojatnost unije svakog niza, konačnog ili

beskonačnog, isključivih događaja jednaka zbroju vjerojatnosti tih događaja.

Ishodi koji pripadaju nekom događaju nazivaju se povoljnima za taj događaj.

Za neki podskup pravca, ravnine ili prostora kažemo da je izmjeriv ako mu možemo odrediti mjeru, što znaci

duljinu, površinu, ili volumen, koja ne mora nužno biti konačna. Naime, postoje podskupovi pravca, ravnine i

prostora koji nisu izmjerivi, tj. nije moguće dodijeliti im duljinu, površinu ili volumen. Međutim, većina skupova

s kojima se obično susrećemo (intervali, trokuti, pravokutnici, krugovi, poluravnine, kocke, kugle itd.) jesu

izmjerivi skupovi. Prebrojivi skupovi su također izmjerivi, ali njihova mjera iznosi nula.

Page 15: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Ako tražimo vjerojatnost složenog događaja, koju ne možemo tako neposredno odrediti, onda trebamo

promatrani događaj prikazati kao komplement, uniju, presjek ili razliku jednostavnijih događaja.

Pritom, važno je poznavati svojstva vjerojatnosti koja se odnose na skupovne operacije.

Primjerice, vjerojatnost je prebrojivo aditivna, što znači da je vjerojatnost unije svakog niza isključivih događaja

jednaka zbroju vjerojatnosti tih događaja.

Formula suprotne vjerojatnosti potvrđuje intuitivno jasno činjenicu da je P(Ǿ) = 0.

Vjerojatnost je uvijek nenegativna.

Vjerojatnost unije svaka dva događaja jednaka je zbroju vjerojatnosti tih događaja umanjenom za vjerojatnost

njihovog presjeka.

Da bismo izračunali vjerojatnost potrebno je odrediti da li su događaju isključivi ili neisključivi i da li su

zavisni ili nezavisni. Isključivi znači da nemaju presjeka, neisključivi da postoji presjek, zavisni su ako postoji uvjet, a nezavisni su

ako uvjeta nema.

Dva događaja smatramo nezavisnima ako je uvjetna vjerojatnost jednaka bezuvjetnoj, odnosno ako nastupanje

jednog ne mijenja vjerojatnost drugog događaja.

Premda je takva definicija nezavisnosti intuitivno jasna, o uvjetnoj vjerojatnost možemo govoriti samo kada

događaj po kojemu uvjetujemo ima vjerojatnost različitu od nula, pa nezavisnost definiramo na drugačiji, ali

logički ekvivalentan način.

Za događaje A i B kažemo da su nezavisni ako je vjerojatnost presjeka tih događaja jednaka produktu njihovih

vjerojatnosti.

Događaje koje nisu nezavisni zovemo naravno zavisnima.

Zavisnost, odnosno nezavisnost događaja A i B ponekad je jasna iz osobina slučajnog pokusa.

Vjerojatnosno stablo je metoda izračunavanja vjerojatnosti.

Kraj svakog brida vjerojatnosnog stabla upisali smo uvjetnu vjerojatnost događaja na desnom vrhu brida, pod

pretpostavkom da se dogodio događaj na lijevom vrhu brida. Zahvaljujući tome, sada možemo lako izračunati

vjerojatnost prethodno navedenih presjeka.

Svaka dva izabrana događaja u nizu od tri nezavisna događaja trebala također biti nezavisna. Slično tome, može

se pokazati da nezavisnost u parovima događaja A, B, C nije uvijek dovoljna da vjerojatnost presjeka sva tri

događaja bude jednaka produktu vjerojatnosti tih događaja.

Formulu potpune vjerojatnosti primjenjujemo kada se događaj A može realizirati samo zajedno s jednim od

događaja H1;H2; ...;Hn, koji su međusobno disjunkni i u uniji čine čitav prostor elementarnih događaja .

Bayesov teorem je način izračunavanja kako nova informacija o događaju mijenja naša prethodna očekivanja o

vjerojatnosti događaja.

Slučajna varijabla - pravilo koje svakom ishodu slučajnog pokusa pridružuje realan broj.

Primijetimo da unatoč nazivu „varijabla", svaka slučajna varijabla je ustvari funkcija iz prostora ishoda u skup

realnih brojeva R.

Slučajnom varijablom se vjerojatnosna mjera prirodno prenosi na podskupove skupa realnih brojeva.

Zanimljivo je da je distribucija svake slučajne varijable X potpuno određena svojim vrijednostima na intervalima

oblika (-∞,x], pri čemu je x proizvoljan realan broj.

Distribucija (funkcija) vjerojatnosti varijable X je skup uređenih parova vrijednosti varijable X i

vjerojatnosti: (xi, P(xi)), i=1,2,3,...,k

Kumulativna funkcija distribucije predstavlja vjerojatnost da slučajna varijabla X u eksperimentu postigne

vrijednost manju od neke zadane vrijednosti x.

FX ima limes 1 u +∞ i 0 u -∞.

Page 16: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Skup svih vrijednosti slučajne varijable X označit ćemo s RX.

Pri određivanju vjerojatnosti da X pripada skupu B dovoljno je promatrati vrijednosti varijable X u tom skupu.

Podjela slučajnih varijabli:

diskretne ili diskontinuirane (skup vrijednosti RX je prebrojiv, njegovi elementi mogu napisati u

obliku konačnog ili beskonačnog niza.. Teorijske diskretne distribucije:

o binomna distribucija

o poissonova distribucija

o uniformna (jednolika) diskretna distribucija

o hipergeometrijska

kontinuirane (prebrojive unutar nekog intervala). Teorijske kontinuirane distribucije:

o normalna (Gaussova)distribucija

o hi - kvadrat distribucija

o uniformna (jednolika) kontinuirana distribucija

o eksponencionalna distribucija

o studentova t-distribucija

o F-distribucija

Uvjeti diskretne varijable:

normativnost

nenegativnost

Binomna distribucija (najjednostavnija) teorijska distribucija za alternativna obilježja.

pokazuje vjerojatnost događanja međusobno isključivih događaja za svaki broj slučajeva posebno.

u statistici se model binomne distribucije koristi za rezultate u dihotomnim varijablama u kojima su

podaci tipa točno – netočno, muškarci – žene i sl.

u svezi je sa Bernoullijevim pokusima

Bernoullijev pokus*

pokus ima dva ishoda (uspjeh, neuspjeh)

u svakom ponavljanju pokusa vjerojatnost ishoda ˝uspjeh˝ = p i ne mijenja se od pokušaja do pokušaja.

vjerojatnost ishoda ˝neuspjeh˝ q= 1 – p

pokušaji su neovisni.

Poissonova distribucija

raspodjela vrlo rijetkih slučajnih događaja (kod kojih je vrlo mala vjerojatnost)

izražava vjerojatnost broja događaja ako se ti događaji pojavljuju u fiksnom vremenskom periodu s

poznatom prosječnom brzinom pojavljivanja i vremenski su nezavisne od prošlog događaja.

Poissonova distribucija je potpuno definirana aritmetičkom sredinom, jer je njena varijanca jednaka

aritmetičkoj sredini. To znači da je ta distribucija šira što joj je aritmetička sredina veća.

kada je N vrlo velik, Poissonova distribucija se približava binomnoj, ali je razlika u tome što kod

binomne raspodjele znamo koliko se puta neki događaj pojavio, ali i koliko se puta nije pojavio, a kod

Poissonove raspodjele znamo samo koliko se puta neki događaj

pojavio.

Normalna (Gaussova) distribucija

u potpunosti ju opisuju dva parametra: aritmetička sredina i varijanca

zvonolikog je oblika i unimodalna

simetrična oko aritmetičke sredine

ukoliko se povećava vrijednost aritmetičke sredine krivulja se pomiče udesno, a ukoliko se vrijednost

aritmetičke sredine smanjuje krivlja se pomiče ulijevo (uz pretpostavku jednake varijance)

ukoliko se vrijednost varijance povećava krivulja se snižava se i širi, a ukoliko se vrijednost varijance

smanjuje krivlja se povisuje i suzuje (uz nepromijenjenu aritmetičku sredinu)

aritmetička sredina i medijan poprimaju istu vrijednost.

Page 17: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Normalna ili Gaussova distribucija smatra se najvažnijom distribucijom vjerojatnosti u statistici.

FX strogo rastuća funkcija koja R preslikava na otvoreni interval (0, 1).

Prvi parametar normalne slučajne varijable je njeno očekivanje, a drugi parametar je varijanca.

Dva važna svojstva normalne distribucije:

1. linearna transformacija čuva normalnost

2. zbroj nezavisnih normalnih slučajnih varijabli je ponovno normalna slučajna varijabla.

Standardizacijom normalne slučajne varijable ponovno dobiva normalna slučajna varijabla.

Jedan od najvažnijih rezultata teorije vjerojatnosti zove se centralni granični teorem i govori o distribuciji

zbroja slučajnih varijabli.

U načelu, centralni granični teorem tvrdi da zbroj dovoljno velikog broja nezavisnih jednako distribuiranih

slučajnih varijabli ima približno normalnu distribuciju.

Budući da se mnogi praktični problemi svode na izračunavanje zbroja, jasno je da centralni granični teorem i s

njim normalna distribucija imaju veliku primjenu.

Ako je n dovoljno velik, onda slučajna varijabla Zn ima približno standardnu normalnu distribuciju, a kako su Yn

i Zn povezane linearnom transformacijom, slijedi da Yn također ima približno normalnu distribuciju,

Što je n veći, to je aproksimacija bolja.

Ako je n dovoljno velik, onda se binomna distribucija može aproksimirati normalnom.

Studentova ili t-distribucija

karakteriziraju je stupnjevi slobode

ima sličan oblik kao normalna distribucija samo što je šira i položenija

kako raste broj stupnjeva slobode oblikom je sve sličnija normalnoj raspodjeli

primjenjuje se u računanju intervala pouzdanosti i testiranju hipoteza o razlici između dva uzorka.

Hi - kvadrat distribucija

distribucija je pozitivnih vrijednosti, zakrivljena u desno

karakteriziraju je stupnjevi slobode

oblik distribucije ovisi o broju stupnjeva slobode: kako raste broj stupnjeva slobode distribucija postaje

sve više simetrična i sličnija normalnoj distribuciji

primjenjuje se u analizi kategorijskih podataka.

za razliku od normalne distribucije, 2 distribucija je asimetrična, ali asimetrija opada s porastom

stupnjeva slobode.

F - distribucija

zakrivljena prema desno

asimetrična je

distribucija je omjera dvaju varijanci izračunatih iz normalno distribuiranih podataka

karakteriziraju je stupnjevi slobode brojnika i nazivnika omjera varijanci

upotrebljava se za usporedbu dvije varijance, kao i za usporedbu više od dvije aritmetičke sredine

analizom varijance.

Funkcija distribucije slučajne varijable X je funkcija koja daje vjerojatnost da će slučajna varijabla X

poprimiti vrijednost jednaku ili manju od nekog realnog broja xk .

FX je nenegativna funkcija.

Funkcija distribucije vjerojatnosti je kumulativna funkcija.

Da bismo odredili FX(x), trebamo znati koje su vrijednosti slučajne varijable X manje ili jednake x,a to naravno

zavisi o tome kakav je broj x. Iz funkcije distribucije može se dobiti funkcija vjerojatnosti diskretne slučajne

varijable.

Distribucije slučajnih varijabli imaju iste osobine kao distribucije numeričkih statističkih varijabli, tj. lokaciju,

disperziju i oblik, koje možemo kvantitativno izraziti.

Tako, mjera lokacije koja za slučajne varijable ima istu namjenu kao aritmetička sredina za numeričke statističke

varijable, zove se očekivanje ili očekivana vrijednost.

Page 18: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Kao što vjerojatnost možemo smatrati dugoročnom relativnom frekvencijom nekog događaja, tako očekivanje

možemo smatrati dugoročnom aritmetičkom sredinom neke slučajne varijable, do koje dolazimo ponavljanjem

slučajnog pokusa velik broj puta.

Slučajne varijable često transformiramo primjenom raznih funkcija.

Očekivanje od Y nazivamo varijancom od X.

Varijanca diskretne slučajne varijable je matematičko očekivanje kvadrata odstupanja slučajne varijable od

očekivanja.

Korijen iz varijance nazivamo standardnom devijacijom.

Standardna devijacija je mjera rasipanja rezultata.

Varijanca i standardna devijacija su mjere disperzije distribucije slučajne varijable.

Najjednostavnija slučajna varijabla je ona koja poprima samo jednu vrijednost.

*Među slučajnim varijabla s dvije vrijednosti, često koristimo one čiji se skup vrijednosti sastoji od brojeva 0 i 1.

Ako je X slučajna varijabla i RX = {0,1} onda se X zove Bernoullijeva slučajna varijabla.

Bernoullijeva distribucija javlja se kod slučajnih pokusa čije ishode dijelimo u dvije skupine.

Ishode u jednoj skupini smatramo uspjehom, a one u drugoj skupini neuspjehom.

Takve slučajne pokuse nazivamo Bernoullijevim pokusima.

Ako vjerojatnost uspjeha u Bernoullijevom pokusu iznosi π, onda vjerojatnost neuspjeha iznosi 1 - π, pa ako

slučajna varijabla X uspjehu dodjeljuje vrijednost 1, a neuspjehu vrijednost 0, onda X ima Bernoullijevu

distribuciju s parametrom π.

Članovi statističkih populacija često se dijele u dvije skupine, prema tome posjeduju li ili ne posjeduju određenu

osobinu.

Slučajno biranje jedne statističke jedinice iz takve populacije može se promatrati kao Bernoullijev pokus, a

formiranje slučajnog uzorka, tj. slučajno biranje nekoliko statističkih jedinica, kao niz Bernoullijevih pokusa.

U načelu, neprekidne su one slučajne varijable čiji skup vrijednosti čini interval.

Funkcija gustoće vjerojatnosti jednaka je nuli za realne brojeve koje slučajna varijabla ne poprima.

Kao što smo vidjeli, neprekidne statističke varijable opisuju se gustoćom frekvencije, koju grafički prikazujemo

histogramom, a frekvencija bilo kojeg intervala jednaka je dijelu površine ispod histograma koja odgovara tom

intervalu.

Ono što je frekvencija za statističku varijablu, to je vjerojatnost za slučajnu varijablu.

Stoga, neprekidne slučajne varijable zadavat ćemo putem njihove gustoće vjerojatnosti, a vjerojatnost ćemo

određivati kao površinu ispod grafa gustoće vjerojatnosti. Navedenu ćemo površinu općenito nalaziti

integriranjem.

Zanimljiva osobina neprekidnih slučajnih varijabli je da vjerojatnost da X poprimi točno vrijednost a iznosi 0.

Zbog aditivnosti vjerojatnosti, slijedi da će za svaki prebrojivi skup A biti 0.

Kod neprekidnih slučajnih varijabli, integriranjem funkcije gustoće vjerojatnosti dobiva se funkcija

distribucije, a deriviranjem funkcije distribucije dobiva se funkcija gustoće vjerojatnosti.

Deriviranjem funkcije distribucije dobit ćemo funkciju gustoće vjerojatnosti.

Slučajno biranje realnog broja u intervalu od 0 do 12 možemo predstaviti neprekidnom slučajnom varijablom

čija funkcija gustoće vjerojatnosti ima vrijednost 0 svugdje osim na intervalu od 0 do 12, gdje je ta funkcija

konstantna i ima vrijednost 1=12, koja je jednaka recipročnoj vrijednosti duljine promatranog intervala.

Kod diskretnih slučajnih varijabli koristi zbrajanje, a kod neprekidnih integriranje.

Ne treba zaboraviti da se kod diskretne slučajne varijable X svi zbrojevi vrše po vrijednostima od X koje

zadovoljavaju napisane uvjete.

Medu svim transformacijama koje možemo primijeniti na slučajne varijable, linearna transformacija je

posebno važna.

Page 19: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Slučajne varijable možemo također standardizirati.

Nazivi medijan, kvartili i slični, zadržavaju svoje značenje i kog slučajnih varijabli.

Ako ishodima nekog slučajnog pokusa istovremeno pridružujemo vrijednost dvije slučajne varijable X i Y , onda

zapravo imamo funkciju koja svakom ishodu e pridružuje uređen par realnih brojeva (X(e), Y (e)), koju

nazivamo bivarijatnim slučajnim vektorom, a slučajne varijable X i Y nazivamo njegovim koordinatama ili

komponentama.

Skup vrijednosti slučajnog vektora je skup svih uređenih parova realnih brojeva.

Ako su C i D skupovi, onda skup svih uređenih parova (c, d) takvih da je c element od C i d element od D

nazivamo direktnim ili Kartezijevim produktom skupova C i D.

Distribuciju PX i PY slučajnog vektora (X, Y ) također nazivamo zajedničkom distribucijom slučajnih

varijabli X i Y , a distribucije PX i PY nazivamo njihovim marginalnim distribucijama. Iz zajedničke

distribucije možemo lako dobiti marginalne.

Za slučajni vektor kažemo da je diskretan ako je skup njegovih vrijednosti prebrojiv.

Nije teško zaključiti da je (X,Y) diskretan slučajni vektor ako i samo ako su X i Y diskretne slučajne varijable.

Funkciju FX,Y koja svakom uređenom paru (x, y) realnih brojeva pridružuje vjerojatnost nazivamo funkcijom

distribucije slučajnog vektora (X,Y ).

FX,Y je nenegativna funkcija.

FX,Y nazivamo zajedničkom, a fX i fY marginalnim funkcijama vjerojatnosti slučajnih varijabli X i Y .

Marginalne funkcije distribucije mogli bismo odrediti i iz marginalnih funkcija vjerojatnosti.

Zbrajanjem vjerojatnosti u istom retku, odnosno stupcu tablice kontingencije dobiti ćemo vrijednost marginalne

funkcije vjerojatnosti slučajne varijable X, odnosno Y.

Neprekidni slučajni vektori imaju funkciju gustoće vjerojatnosti.

Funkcija gustoće vjerojatnosti neprekidnog bivarijatnog slučajnog vektora je realna funkcija dvije realne

varijable, čiji je graf ploha u prostoru, a vjerojatnost se određuje kao volumen ispod te plohe, koji općenito

nalazimo dvostrukim integralom.

Funkciju gustoće vjerojatnosti možemo dobiti deriviranjem funkcije distribucije.

Jedna od najvažnijih funkcija koje možemo primijeniti na dvije slučajne varijable X i Y , definirane na istom

prostoru ishoda, je upravo zbroj.

Budući da vrijednost zbroja ne zavisi o poretku pribrojnika, svejedno je zbrajamo li po retcima ili stupcima te

tablice.

Aditivnost očekivanja - očekivanje zbroja svake dvije slučajne varijable X i Y , definirane na istom prostoru

ishoda, jednako je zbroju njihovih očekivanja.

Sjetimo se da očekivanje ima i svojstvo homogenosti, a za operaciju koja je istovremeno aditivna i homogena,

kažemo da je linearna.

Pored očekivanja, mnoge važne matematičke operacije imaju svojstvo linearnosti (zbrojevi, limesi, derivacije,

integrali i druge).

Varijanca je po definiciji jednaka očekivanju kvadratne devijacije.

Varijanca zbroja općenito nije jednaka zbroju varijanci.

Kovarijancu možemo shvatiti kao funkciju koja svakom paru slučajnih varijabli (X,Y) pridružuje broj.

Dakle, kovarijanca je funkcija od dvije varijable ili dva argumenta.

Kovarijanca je linearna, tj. aditivna i homogena, u svakom svojem argumentu, pa se kaže da je kovarijanca

bilinearna.

Page 20: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Zbog simetričnosti, linearnost je dovoljno provjeriti u npr.drugom argumentu.

Kovarijanca je simetrična.

Kovarijanca neke varijable sa samom sobom je varijanca te varijable.

Kovarijancu možemo dobiti tako da od očekivanja produkta oduzmemo produkt očekivanja.

Kovarijacijska matrica je simetrična na njenoj se glavnoj dijagonali nalaze varijance slučajnih varijabli X i Y .

Varijanca zbroja PXi jednaka je naravno zbroju svih elemenata kovarijacijske matrice.

Za slučajne varijable X1,X2,..,Xn kažemo da su nekorelirane ako su svi elementi izvan glavne dijagonale

kovarijacijske matrice tih slučajnig varijabli jednaki 0. Drugim riječima, kovarijacijska matrica je dijagonalna.

Varijanca zbroja nekoreliranih slučajnih varijabli jednaka je zbroju njihovih varijanci..

Korelacijska matrica je simetrična matrica reda n, na čijoj su glavnoj dijagonali jedinice.

Nekorelirane slučajne varijable ne moraju biti nezavisne.

Koeficijent linearne korelacije je simetričan i koeficijent linearne korelacije slučajne varijable sa samom sobom

iznosi 1.

Za dvije slučajne varijable kažemo da su nezavisne ako su njihove uvjetne distribucije jednake marginalnima.

Zajednička funkcija vjerojatnosti nezavisnih diskretnih slučajnih varijabli jednaka je produktu njihovih

marginalnih funkcija vjerojatnosti.

Vjerojatnosna mjera jednoznačno određena funkcijom distribucije.

Nezavisne slučajne varijable su nekorelirane.

Funkcije nezavisnih slučajnih varijabli su nezavisne i očekivanje produkta konačno mnogo nezavisnih slučajnih

varijabli jednako je produktu očekivanja tih varijabli.

Kod neprekidnih slučajnih varijabli, deriviranjem funkcije distribucije dobiva se funkcija gustoće

vjerojatnosti, a integriranjem funkcije gustoće vjerojatnosti dobiva se funkcija distribucije, pa će dvije

neprekidne slučajne varijable biti nezavisne samo ako im

je zajednička funkcija gustoće vjerojatnosti jednaka produktu marginalnih funkcija gustoće vjerojatnosti.

Dvije važne osobine nezavisnih slučajnih varijabli:

Funkcije nezavisnih slučajnih varijabli su također nezavisne

ako su X i Y nezavisne slučajne varijable, onda je očekivanje produkta nezavisnih slučajnih varijabli

jednako je produktu njihovih očekivanja.

Inferencijalna statistika ili statističko zaključivanje bavi se donošenjem zaključaka o populaciji na osnovu

uzorka.

Da bismo u tom postupku mogli koristiti teoriju vjerojatnosti, uzorak treba biti slučajan, što znači da odluku o

tome koje ce statističke jedinice biti uključene u uzorak donosimo na slučajan način, npr. nasumičnim

izvlačenjem listića iz kutije ili generiranjem slučajnih brojeva na računalu.

Prema tome, slučajnih uzorak veličine n možemo smatrati ishodom slučajnog pokusa u kojemu smo na slučajan

način odabrali n statističkih jedinica iz zadane populacije.

Ako nije drugačije naznačeno, pod uzorkom ćemo ovdje uvijek smatrati slučajnih uzorak, a pod uzorkovanjem

smatrat ćemo proces formiranja slučajnog uzorka.

Uzorkovanje se u načelu možemo provesti na dva načina - s ponavljanjem i bez ponavljanja.

Kod oba oblika uzorkovanja, statističke jedinice biramo jednu po jednu.

Međutim, dok kod uzorkovanja s ponavljanjem jedna te ista statistička jedinica može biti uključena u uzorak više

puta, dotle kod uzorkovanja bez ponavljanja svaka statistička jedinica može biti uključena u uzorak najviše

jednom.

Ako uzorkovanje vršimo npr. izvlačenjem listića iz kutije, onda uzorkovanje s ponavljanjem odgovara izvlačenju

listića s vraćanjem, a uzorkovanje bez ponavljanja odgovara izvlačenju listića bez vraćanja.

U praksi se uzorkovanje redovito provodi bez ponavljanja.

Page 21: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

STATISTIKA

POLOŽI BEZ

MUKE!

Instrukcije

Kod nas se sve uči s razumijevanjem. Svoje materijale radimo sami

i uvijek pazimo da su što zabavniji. Yup, dobro si čuo, učenje može

biti zabavno! Ne vjeruješ? Očito nisi pročitao neku od naših skripti

ili probao riješiti online kviz.

20+ sati

1200 kn

(GARANTIRAMO PROLAZ

ILI VRAĆAMO NOVAC!)

(

NAJBOLJI

MATERIJALI!

ONLINE

KVIZOVI

ODLIČNA

PROLAZNOST

ŠTREBERAJ

HARAMBAŠIĆEVA 31

VIŠE INFO NA:

REFERADA.hr/instrukcije/statistika

Page 22: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Premda je matematička teorija uzorkovanja s ponavljanjem jednostavnija, uzorkovanje bez ponavljanja je bolje

od uzorkovanja s ponavljanjem, jer je uzorak bez ponavljanja sličniji populaciji od uzorka s ponavljanjem iste

veličine.

Ako uzorkovanje vršimo bez ponavljanja, onda će uzorak biti doslovce jednak populaciji, što se ne mora

dogoditi ako se uzorkovanje vršimo s ponavljanjem.

Statističke jedinice promatramo zato što nas zanima jedna ili vise njihovih osobina.

Primjerice, ako promatramo ljude, onda nas može zanimati spol, visina, težina, političko usmjerenje i tome

slično.

Vrijednosti takvih osobina imaju distribuciju, a numeričke karakteristike te distribucije zovu se parametri

populacije.

Tako, ako smo za čitavu populaciju osoba odredili proporciju žena ili prosječnu visinu, onda ta proporcija i

prosjek jesu parametri populacije. Parametre populacije označavat ćemo grčkim slovima.

Za potrebe uzorkovanja, populaciju identificiramo s nekom distribucijom vjerojatnosti, i to onom koju bismo

dobili kada bismo iz populacije slučajnog odabrali jednu statističku jedinicu.

Ako o populaciji možemo razmišljati kao o distribuciji vjerojatnosti, kako da razmišljamo o slučajnom uzorku?

Općenito, o slučajnom uzorku trebamo razmišljati kao o multivarijatnom slučajnom vektoru.

Naime, ako imamo prethodno opisanu populaciju osoba, u kojoj promatramo spol, onda će slučajnih uzorak

veličine n biti ishod slučajnog pokusa u kojemu smo na slučajan način odabrali n osoba.

Prostor ishoda tog slučajnog pokusa je skup svih slučajnih uzoraka veličine n koje možemo formirati iz te

populacije.

Distribucija slučajnih varijabli jednaka je distribuciji populacije.

Kod uzorkovanja s ponavljanjem, slučajnih uzorak veličine n je niz od n nezavisnih slučajnih varijabli čija je

distribucija jednaka distribuciji populacije.

Ako se uzorkovanje vrši bez ponavljanja, onda svaku sljedeću osobu u uzorku biramo iz skupa koji broji sve

manje osoba.

Zbog toga su slučajne varijable X1;X2; : : : ;Xn sada zavisne.

Marginalna distribucija tih slučajnih varijabli i dalje je jednaka distribuciji populacije.

Razlika između uzorkovanja s ponavljanjem i bez ponavljanja nije u marginalnoj distribuciji slučajnih

varijabli X1;X2; : : : ;Xn, nego u tome da su kod uzorkovanja s ponavljanjem te slučajne varijable nezavisne, a

kod uzorkovanja bez ponavljanja zavisne.

Uzorak se u tom smislu smatra malenim ako njegova veličina ne prelazi 5% veličine populacije.

Primjerice, ako iz populaciji od N = 1000 osoba biramo uzorak bez ponavljanja od najviše n = 50 osoba, onda

promatranja u uzorku možemo smatrati nezavisnima.

Osim što su populacije obično velike u odnosu na uzorak, neke oblike prikupljanja podataka možemo promatrati

kao uzorkovanje iz zamišljene beskonačne populacije.

To se događa ako podatke prikupljamo provođenjem eksperimenta, kojega više puta ponavljamo pod istim

uvjetima, a zamišljena populacija se pritom sastoji od svih mogućih rezultata tog eksperimenta.

Primjerice, uzmimo da želimo ispitati ispravnost igraće kocke, tj. osobinu kocke da se prilikom bacanja svaki

broj na kocki javlja s jednakom vjerojatnošću. Ispitivanje možemo provesti tako da kocku bacimo n puta, pri

čemu je n dovoljno velik broj i pritom promatramo relativne frekvencije pojedinih brojeva na kocki.

Ako su te relativne frekvencije približno jednake, onda nemamo razloga sumnjati u ispravnost kocke, dok ako su

one izrazito različite, onda kocka vjerojatno nije ispravna.

Populacija se ovdje sastoji od svih mogućih bacanja igraće kocke, što naravno nije realna, nego zamišljena

populacija, a možemo je predočiti diskretnom distribucijom vjerojatnosti koja se dobije jednim bacanjem igraće

kocke.

Rezultati ispitivanja, tj. N bacanja igraće kocke bit će slučajne varijable X1;X2; : : : ;Xn koje su nezavisne i

distribuirane su jednako kao populacija.

Prema tome, različiti oblici uzorkovanja i prikupljanja podataka vode do istog matematičkog modela, pa ćemo

pod slučajnim uzorkom veličine n podrazumijevati niz od n nezavisnih jednako distribuiranih slučajnih varijabli

X1;X2; : : : ;Xn, čija je distribucija jednaka distribuciji populacije.

Svaka transformacija slučajnog uzorka bit će također slučajna varijabla, čiju distribuciju vjerojatnosti nazivamo

distribucijom uzorkovanja. Ako Y ne zavisi o nepoznatim parametrima populacije, onda takvu slučajnu

varijablu nazivamo statistikom.

Dvije najvažnije statistike jesu aritmetička sredina uzorka i varijanca uzorka.

Page 23: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Osim aritmetičke sredine i varijance, često se koristi i proporcija uzorka.

Očekivanje aritmetičke sredine uzorka jednako je očekivanju populacije, a varijanca aritmetičke sredine uzorka

je n puta manja od varijance populacije.

Dijeljenje zbroja kvadratnih devijacija s n - 1, odnosno množenje varijance uzorka s n=(n - 1) poznato je pod

nazivom Besselova korekcija, a s2 nazivamo korigiranom varijancom uzorka.

Ako populacija ima normalnu distribuciju, onda varijanca uzorka ima dva važna svojstva:

1. ako populacija ima normalnu distribuciju, onda su statistike X i S2 nezavisne, a slučajna varijabla ima 2

distribuciju s n - 1 stupnjeva slobode.

2. Z ima standardnu normalnu distribuciju

Ako populacija nema normalnu distribuciju, onda prema centralnom graničnom teoremu, P Xi i X imaju

približno normalnu distribuciju kada je n dovoljno velik.

Proporcija uzorka je ustvari aritmetička sredina uzorka iz Bernoullijeve populacije.

Uzorak i njegove statistike koristimo da bismo saznali nešto o populaciji.

Tako sredinu i varijancu uzorka možemo upotrijebiti da bismo procijenili, tj. približno odredili sredinu i

varijancu populacije (nakon što odaberemo slučajni uzorak, izračunavamo sredinu i varijancu uzorka i dobivene

rezultate smatramo približnim vrijednostima sredine i varijance populacije).

Statistiku koju koristimo s ciljem približnog određivanja parametra populacije nazivamo procjeniteljem.

Dakle, aritmetičku sredinu uzorka možemo koristiti kao procjenitelj sredine populacije, a varijancu uzorka kao

procjenitelj varijance populacije.

Nakon što odaberemo uzorak, izračunavamo vrijednost procjenitelja, koju nazivamo procjenom.

Ako parametar procijenimo jednim brojem ili jednom točkom na brojevnom pravcu, takve procjenitelje i

procjene nazivamo točkovnima.

Za procjenitelj kažemo da je konzistentan ako vjerojatnost da je procjenitelj dovoljno blizu parametra teži k 1

kada veličina uzorka n teži k+∞. Drugim riječima, ako je procjenitelj konzistentan, onda smo praktički sigurni da

je vrijednost procjenitelja dovoljno blizu parametra populacije kada je uzorak dovoljno velik.

Aritmetička sredina je konzistentan procjenitelj sredine populacije, a varijanca uzorka je konzistentan

procjenitelj varijance populacije. Procjenitelji koji nisu konzistentni su nepoželjni, jer čak za veliki uzorak, vrijednost takvog procjenitelja može

biti jako udaljena od parametra.

Kako prepoznati konzistentan procjenitelj? Jedan način da utvrdimo da je neki procjenitelj konzistentan je

koristeći srednju kvadratnu pogrešku.

Osim ispitivanja konzistentnosti, srednja kvadratna pogreška nam služi i kao mjera kvalitete procjenitelja.

Ako možemo birati između više procjenitelja istog parametra, onda biramo onaj s najmanjom srednjom

kvadratnom pogreškom.

Srednja kvadratna pogreška procjenitelja jednaka je zbroju njegove varijance i kvadrata pristranosti.

Ako pristranost procjenitelja iznosi 0 onda za procjenitelj T kažemo da je nepristran.

Procjenitelj koji nije nepristran zove se pristran.

Da bismo dobili potpuniju sliku o pravoj vrijednosti parametra, umjesto točkovne procjene možemo koristiti

intervalnu procjenu, pri čemu određujemo interval brojeva koji bi trebao sadržavati nepoznati parametar.

Prije svega, uočimo da svaki parametar populacije ima određen skup mogućih vrijednosti koji se zove prostor

parametra.

Primjerice, prostor parametra Bernoullijeve distribucije je otvoreni interval (0, 1), dok normalna distribucija ima

dva parametra, očekivanje i varijancu.

Intervalni procjenitelj ili interval povjerenja parametra θ je interval čije granice V i W mogu zavisiti o

slučajnom uzorku, ali ne i o nepoznatim parametrima.

Ako su obje granice intervala C slučajne, onda za C kažemo da je dvosmjerni ili dvostrani interval

povjerenja.

Page 24: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Ako se gornja granica intervala povjerenja podudara s gornjom granicom prostora parametra, onda za V kažemo

da je donja granica povjerenja za θ, a interval C nazivamo gornjim intervalom povjerenja.

Gornji i donji interval povjerenja zovu se jednosmjerni ili jednostrani intervali povjerenja.

Prema tome, interval povjerenja C za parametar treba imati osobinu da je 2 C s velikom vjerojatnošću, tj. P( 2

C) treba biti blizu 1. Navedena vjerojatnost može zavisiti o stvarnoj vrijednosti parametra, a najmanja takva

vjerojatnost zove se razina povjerenja od C.

Druga osobina intervala povjerenja koja nas zanima je njegova duljina. Što je interval kraći, to je procjena

preciznija. Dakle, dobar interval povjerenja treba biti malen i treba imati visoku razinu povjerenja.

Razina povjerenja i veličina intervala su u rastućoj vezi, tj. povećanjem razine povjerenja povećava se i interval

povjerenja i obratno.

Način izrade intervala povjerenja zasniva se na korištenju pivota ili uporišta.

Pivot je slučajna varijabla koja zavisi o slučajnom uzorku X1;X2; : : : ;Xn i parametru θ, ali čija distribucija

vjerojatnosti ne zavisi o θ.

Za interval povjerenja kažemo da je jednakorepan, jer kvantili u1 i u2 omeđuju jednaku površinu α/2 ispod

lijevog i desnog „repa" funkcije gustoće vjerojatnosti od U.

Jednakorepni interval povjerenja nije uvijek najkraći, ali ga svejedno koristimo zbog njegove jednostavnosti.

Sredina uzorka X ima normalnu distribuciju s očekivanjem i varijancom.

Margina pogreške zavisi o razini povjerenja, standardnoj devijaciji populacije i o veličini uzorka.

Što je razina povjerenja veća, to ce kvantil biti veći, pa će margina pogreške također biti veća.

Slično je sa standardnom devijacijom, odnosno disperzijom populacije.

Što populacija ima veću disperziju, to je margina pogreške veća.

S druge strane, Što je uzorak veći, to je margina pogreške manja.

Međutim, valja primijetiti da margina pogreške pada s korijenom veličine uzorka.

Granice jednostranih intervala povjerenja imaju isti oblik kao granice dvostranog intervala povjerenja.

U primjeni se najčešće javljaju upravo dvostrani intervali povjerenja.

Korjenovanjem granica intervala povjerenja za varijancu dobiti ćemo granice intervala povjerenja za standardnu

devijaciju.

Slučajna varijabla ima približnu standardnu normalnu distribuciju kad je n velik.

Statistička hipoteza je tvrdnja o distribuciji populacije, a testiranje hipoteza je postupak u kojemu pomoću

uzorka provjeravamo je li takva tvrdnja istinita ili lažna.

Testiranje hipoteza razvili su J. Neyman i E. Pearson.

Statističke hipoteze često imaju oblik tvrdnje o jednom ili više parametara populacije.

Hipoteza u kojoj parametar poprima samo jednu vrijednost zove se jednostavna, a hipoteza koja nije

jednostavna zove se složena.

Svaki postupak testiranja hipoteza ima dvije hipoteze, jednu od kojih nazivamo nul hipotezom, a drugu

alternativnom hipotezom.

Nul hipotezu označavamo s H0, a alternativnu s H1.

Kao nul hipotezu uglavnom biramo tvrdnju za koju želimo pokazati da je lažna, dok tvrdnju za koju bismo htjeli

pokazati da je istinita stavljamo u alternativnu hipotezu.

Također, nul hipoteza obično označava početno stanje, izostanak učinka ili nepotrebnost poduzimanja neke

aktivnosti, a alternativna hipoteza tvrdi da je došlo do promjene, da postoji učinak ili da je potrebno nešto

poduzeti.

Test u kojemu alternativna hipoteza ima oblik θ ≠ θ0 zove se dvostrani ili dvosmjerni, a test u kojemu

alternativna hipoteza ima oblik θ > θ0 ili θ < θ0 zove se jednostrani ili jednosmjerni.

Page 25: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Nul hipoteza u jednostranom testu može se izraziti u obliku nejednakosti.

Međutim, to ne mijenja način kako se test provodi, pa ćemo nul hipotezu uglavnom pisati kao jednostavnu

hipotezu.

U testiranju hipoteza, nul hipotezu suočavamo s dokazima koje pruža uzorak.

Ako su opažanja iz uzorka u skladu s nul hipotezom, onda nul hipotezu ne možemo proglasiti neistinitom.

Međutim, ako su opažanja iz uzorka u očiglednom neskladu s nul hipotezom, onda nul hipotezu odbacujemo kao

neistinitu u korist alternativne hipoteze.

Odluka o odbacivanju ili neodbacivanju nul hipoteze donosi se na temelju unaprijed zadanog kriterija odluke,

kojega formiramo prije uzimanja uzorka.

Kriterij odluke sastoji se od neke prikladno odabrane statistike i skupa vrijednosti te statistike koje dovode do

odbacivanja nul hipoteze.

Statistika koju koristimo u kriteriju odluke zove se test statistika ili test veličina, a skup vrijednosti test

statistike koje vode do odbacivanja nul hipoteze zove se područje odbacivanja ili kritično područje.

Prema tome, ako nakon uzimanja uzorka vrijednost test statistike ude u kritično područje, onda odbacujemo nul

hipotezu, te kažemo da je vrijednost test statistike značajna ili signikantna.

Kritično područje je obično omeđeno jednim ili dvjema brojevima, koje nazivamo kritičnim granicama.

Test statistika može uči u kritično područje premda je nul hipoteza istinita, što znači da ćemo odbaciti istinitu nul

hipotezu i to nazivamo pogreškom tipa I ili pogreškom odbacivanja.

S druge strane, ako je nul hipoteza neistinita, test statistika ne mora nužno učinak u kritično područje i ako se to

ne dogodi, neistinita nul hipoteza se neće odbaciti, sto zovemo pogreškom tipa II ili pogreškom

neodbacivanja.

Kriterij odluke u svakom testiranju hipoteza trebamo formirati tako da vjerojatnost pogreške bilo kojeg tipa bude

što je moguće manja. Jasno je da vjerojatnost pogreške odbacivanja zavisi o veličini kritičnog područja,

odnosno vjerojatnost pogreške odbacivanja možemo smanjiti tako da smanjimo kritično područje.

Međutim, time očiglednom povećavamo vjerojatnost da se nul hipoteza ne odbaci, neovisno o njenoj istinitosti.

Dakle, smanjivanjem vjerojatnosti pogreške jednog tipa povećavamo se vjerojatnost pogreške drugog tipa.

Vjerojatnost pogreški oba tipa možemo istovremeno smanjiti samo uzimanjem većeg uzorka.

Vjerojatnost pogreške u testiranju hipoteza zavisi o stvarnoj vrijednosti parametra kojega testiramo, a najveća

vjerojatnost pogreške odbacivanja zove se razina značajnosti ili signikantnosti testa i označavamo se s α.

Razina značajnosti treba biti malen pozitivan broj.

Koraci u testiranju hipoteza:

1. Postaviti nul i alternativnu hipotezu.

2. Odabrati razinu značajnosti.

3. Odabrati test veličinu.

4. Odrediti kritično područje prema alternativnoj hipotezi.

5. Provesti uzorkovanje i izračunati vrijednost test veličine.

6. Donijeti odluku o odbacivanju ili neodbacivanju nul hipoteze.

Povećanjem razine značajnosti povećavamo i kritično područje, pa time i mogućnost da nul hipoteza bude

odbačena.

Korisno je stoga znati najmanju razinu značajnosti potrebnu za odbacivanje nul hipoteze, koju zovemo p-

vrijednost i koju ćemo označiti s p.

Budući da se p-vrijednost definira kao najmanja razina značajnosti pri kojoj dolazi do odbacivanja nul

hipoteze, slijedi da se nul hipoteza odbacuje ako je α ≥ p, dok ako je α < p onda se nul hipoteza ne odbacuje.

Prema tome, poznavajući p-vrijednost nekog testa, odluku o odbacivanju ili neodbacivanju možemo donijeti za

bilo koju razinu značajnosti. Također, p-vrijednost možemo shvatiti kao mjeru usklađenosti nul hipoteze i

opažanja iz uzorka. Ako je p-vrijednost velika, onda su opažanja iz uzorka konzistentna s nul hipotezom, dok ako je p-vrijednost

malena, onda opažanja iz uzorka ne idu u prilog nul hipotezi.

Ako je populacija normalna, onda se testiranje hipoteza o varijanci i standardnoj devijaciji može provesti

koristeći X2 distribuciju.

Ako populacija nema normalnu distribuciju, onda se testiranje hipoteze o sredini populacije može provesti

koristeći centralni granični teorem, ali pritom uzorak treba biti velik.

Najmanja razina značajnosti potrebna za odbacivanje nul hipoteze dobit će se kad je kritična granica jednaka

vrijednosti test statistike.

Page 26: STATISTIKA - TEORIJA · statistika, statističko zaključivanje ili metoda uzoraka. Ako se u istraživanju koristimo cenzusom, onda zadnji korak u istraživanju je primjena metoda

www.referada.hr

Ako je uzorak velik, onda se centralni granični teorem može koristiti i kod testova o parametru Bernoullijeve

populacije.