63
Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr 1 STATISTIKA Doc.dr.sc.Draženka Čizmić - predavanja 2009.g -

STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

1

STATISTIKA

Doc.dr.sc.Draženka Čizmić

- predavanja 2009.g -

Page 2: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

2

SADRŢAJ:

1. UVOD

Statistiĉki skup................................................................................... 4

Vrste i izvori statistiĉkih podataka.................................................... 4

2. UREĐIVANJE PODATAKA

Statistiĉki nizovi i tabele ................................................................... 5

Numeriĉki nizovi ................................................................................ 7

3. OSNOVNA ANALIZA VREMENSKIH NIZOVA

Grafiĉko prikazivanje vremenskih nizova ........................................ 10

Individualni indeksi ........................................................................... 10

4. SREDNJE VRIJEDNOSTI STATISTIĈKOG NIZA

Mod.................................................................................................... 12

Medijan............................................................................................. . 13

Aritmetiĉka sredina........................................................................... 15

Geometrijska sredina....................................................................... 17

Skupni indeksi.................................................................................. . 18

5. MJERE DISPERZIJE

Raspon varijacije, Interkvartil, Koeficijent kvartilne devijacije....... 19

Srednje apsolutno odstupanje (MAD).............................................. 22

Varijanca, Standardna devijacija, Koeficijent varijacije.................. 23

Standardizirana varijabla.................................................................. 25

6. MJERE ASIMETRIJE

Koeficijent asimetrije, Pearsonova mjera, Bowleyjeva mjera........ 26

7. MJERE ZAOBLJENOSTI

Koeficijent zaobljenosti.................................................................... 29

8. MJERE KONCENTRACIJE

Koncentracijski omjer, Ginijev koeficijent....................................... 31

9. OSNOVNI POJMOVI VJEROJATNOSTI

Definicije i svojstva vjerojatnosti...................................................... 32

Modeli distribucija vjerojatnosti....................................................... 34

10. OSNOVNI POJMOVI INFERENCIJALNE STATISTIKE

Plan uzorka....................................................................................... . 37

Sampling distribucija........................................................................ 38

11. PROCJENE PARAMETRA

Procjena aritmetiĉke sredine........................................................... 39

Procjena totala osnovnog skupa..................................................... . 42

Procjena proporcije osnovnog skupa............................................. . 44

Page 3: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

3

12. TESTIRANJE HIPOTEZA O PARAMETRU

Testiranje hipoteza o pretpostavljenoj vrijednosti aritmetiĉke

sredine osnovnog skupa................................................................ .. 44

Testiranje hipoteza o razlici aritmetiĉkih sredina dvaju

osnovnih skupova nezavisnim uzorcima.......................................... 49

13. REGRESIJSKA ANALIZA

Model jednostavne linearne regresije............................................... 52

- deskriptivno statistiĉka analiza modela............................... 52

- inferencijalno statistiĉka analiza modela............................ 57

- testiranje hipoteza o modelu................................................ 58

14. MODEL VIŠESTRUKE REGRESIJE

Analiza modela višestruke regresije................................................ 58

Testiranje hipoteza o modelu višestruke regresije......................... 59

15. MODELI VREMENSKIH SERIJA

Komponente vremenskih serija....................................................... 60

Modeli trenda.................................................................................... 61

Page 4: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

4

PREDAVANJE #1

STATISTIKA – znanstvena metoda koja se bavi prikupljanjem, uređivanjem, analizom i tumaĉenjem

podataka.

DESKRIPTIVNA – u okviru deskriptivne statistike zakljuĉci se donose na temelju svih

podataka. Ona obuhvaća postupke uređivanja, grupiranja, tabeliranja, grafiĉkog prikazivanja

te izraĉunavanja razliĉitih statistiĉko-analitiĉkih veliĉina

INFERENCIJALNA – u sklopu inferencijalne statistike zakljuĉci se dodose na temelju dijela

podataka (uzoraka). Temelji se na teoriji vjerojatnosti

STATISTIĈKI SKUP – ĉine jedinice koje su predmetom promatranja statistiĉkom metodom. Moţemo

promatrati osobe, poduzeća, zemlje, proizvode itd.

OPSEG SKUPA – broj jedinica. S obzirom na opseg statistiĉki skupovi se dijele na:

KONAĈNI STATISTIĈKI SKUP – studenti upisani na efzg

BESKONAĈNI STATISTIĈKI SKUP – bacanje novĉića ili proizvodnja

Statistiĉki skupovi definiraju se pojmovno, prostorno i vremenski.

OSNOVNI SKUP (POPULACIJA) – skup podataka o promatranom svojstvu za svaku jedinicu statistiĉkog

skupa.

UZORAK – podskup, dio osnovnog skupa. Dio podataka izdvojen iz cjelovite evidencije.

STATISTIĈKO OBILJEŢJE (VARIJABLA) – svojstvo koje stupnjem ili oblikom varira od jedinice do jedinice

statistiĉkog skupa.

VRSTE STATISTIĈKOG OBILJEŢJA:

1. NUMERIĈKO (KVANTITATIVNO) – izraţava se brojevima

DISKRETNO (diskontinuirano) – poprima iskljuĉivo cjelobrojne vrijednosti. npr. broj uĉenika u

razredu, broj djece u obitelji

KONTINUIRANO – moţe poprimiti bilo koju vrijednost iz nekog intervala. npr. visina, teţina,

cijena...

2. KVALITATIVNO

NOMINALNO (atributivno i geografsko) – izraţava se opisno ili rijeĉima. npr. atributivno –

spol, zanimanje ; geografsko – mjesto rođenja

REDOSLIJEDNO (obiljeţje ranga) – npr. ocijena, stupanj kvalitete

MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih skupova na

temelju određenog pravila. Temelji se na primjeni mjerih skala.

MJERNE SKALE:

1. NOMINALNA – sastoji se od liste naziva

2. ORDINALNA – ovom skalom jedinicama statistiĉkih skupova pridruţuju se slovne oznake, simboli ili

brojevi sukladno intenzitetu mjernog svojstva

3. INTERVALNA - ovom skalom jedinicama statistiĉkih skupova pridruţuju se brojevi sukladno

intenzitetu mjernog svojstva. Za ovu skalu karakteristiĉno je da ima definiranu mjernu jedinicu i

dogovorno utvrđenu nulu. npr. temperaturna ljestvica.

4. OMJERNA - ovom skalom jedinicama statistiĉkih skupova pridruţuju se brojevi sukladno intenzitetu

mjernog svojstva. Za ovu skalu karakteristiĉno je da ima definiranu mjernu jedinicu i nulu koja

oznaĉava nepostojanje svojstva. npr. plaća, broj zastoja rada stroja.

Page 5: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

5

IZVORI PODATAKA:

PRIMARNI – prikupljaju se u skladu s ciljem istraţivanja.

SEKUNDARNI – prikupljaju ih razne institucije (drţavni zavod za statistiku, banke, agencije

za istraţivanje trţišta, osiguravajući zavodi...)

PREDAVANJE #2

UREĐIVANJE PODATAKA – uređivanjem podataka nastaju statistiĉki nizovi

STATISTIĈKI NIZOVI:

1. NOMINALNI NIZ – nastaje uređivanjem podataka o nominalnom obiljeţju

2. REDOSLIJEDNI NIZ – nastaje uređivanjem podataka o rang varijabli

3. NUMERIĈKI NIZ – nastaje uređenjem podataka koji predstavljaju vrijednosti numeriĉke varijable

4. VREMENSKI NIZ – nastaje kronološkim nizanjem podataka o nekoj pojavi (proizvodnja,uvoz,izvoz)

STATISTIĈKE TABELE:

JEDNOSTAVNA

SKUPNA – sadrţi barem dva niza koji su grupirani prema modalitetima istog obiljeţja

KOMBINIRANA (TABELA KONTIGENCE, TABELA S DVA ULAZA) – podaci su grupirani prema

modalitetima dvaju ili više varijabli

Stanovništvo prema spolu i starosti u tisućama u RH, popis iz 2001.g.

STAROST SPOL

M Ţ

0 – 14 388 370

15 – 64 1482 1501

65 - 266 430

izvor: SLJRH, 2004.g., str.95

Poljoprivredna površina po kategorijama u tisućama

hektara u RH, 2003.g

KATEGORIJE POVRŠINA

oranice i vrtovi 1460

voćnjaci 68

vinogradi 57

livade 396

pašnjaci 1156

izvor: SLJRH, 2004.g., str.250

Izvoz i uvoz prema preteţnoj ekonomskoj namjeni u

milijunima am. $ u RH, 2003.g.

EKONOMSKA NAMJENA IZVOZ UVOZ

proizvodi za reprodukciju 2959 6583

proizvodi za investicije 1341 3316

proizvodi za široku potrošnju 1886 4311

izvor: SLJRH, 2004.g., str.386

Page 6: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

6

RELATIVNI BROJEVI – omogućavaju elementarnu analizu podataka u sklopu deskriptivne statistike

proporcije (dio/cjelina), postoci (dio/cjelina*100) odnosno relativne frekvencije

indeksi

relativni brojevi koordinacije – omjerni brojevi koji nastaju diobom dvaju koordinirajućih

veliĉina (npr.gustoća stanovništva, dohodak po stanovniku, BDP per capita)

NIZOVI KVALITATIVNIH PODATAKA

Kvalitativni podaci su oblici nominalne ili redoslijedne varijable.

ako ih je mali broj navode se nekim redom odabranim po volji ili prema intenzitetu mjernog

obiljeţja kod redoslijednih podataka (npr.ocjene od najmanje prema najvećoj)

ako se radi o većem broju podataka pristupa se grupiranju. Grupiranjem se skup podataka

rašĉlanjuje na podskupove koji se međusobno ne preklapaju.

FREKVENCIJA – broj podataka istog ili sliĉnog modaliteta varijable

NOMINALNI ILI REDOSLIJEDNI NIZ ĉine parovi razliĉitog oblika kvalitativne varijable oi i pripadajućih

frekvencija fi (oi, fi), i=1,2,....,k

Uĉenici i studenti koji su završili osnovnu ili

srednju školu odnosno diplomirai na visokim

uĉilištima u RH, 2003.g.

STUPANJ OBRAZOVANJA BROJ OSOBA

oi fi

osnovno 51211

srednje 47092

struĉni studij 6489

sveuĉ.studij 9243

ukupno 114035

izvor: SLJRH, 2004.g., str.487

OPSEG SKUPA – zbroj frekvencija

RELATIVNA FREKVENCIJA – omjer frekvencije i opsega skupa

k

i

i

i

i

f

fp

1

POSTOTNA RELATIVNA FREKVENCIJA – relativna frekvencija pomonoţena sa 100 100

1

k

i

i

ii

f

fP

nizovi sa relativnim frekvencijama (oi, pi) ili (oi, Pi)

Kvalitativni nizovi grafički se prikazuju površinskim grafikonima:

STUPCI (poloţeni, uspravni)

STRUKTURNI KRUGOVI I POLUKRUGOVI

RAZDIJELNI STUPCI

VIŠESTRUKI STUPCI

Page 7: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

7

NUMERIĈKI NIZOVI – nastaju uređenjem numeriĉkih podataka. Naĉin njihova uređivanja ovisi o tome

da li su podaci diskretni ili kontinuirani.

NAĈINI UREĐIVANJA:

1. mali broj podataka - uređuje se nizanjem po veliĉini. Pojedinaĉni numeriĉki podaci grafiĉki se

prikazuju dijagramom s toĉkama i dijagramom stablo-list (S-L dijagram)

Primjer 1.

Podaci o prodaji proizvoda A za 15 dana jednog razdoblja:

Xi: 8, 15, 9, 17, 20, 14, 34, 27, 30, 18, 10, 18, 24, 25, 29

Podaci uređeni po veliĉini:

Xi: 8, 9, 10, 14, 15, 17, 18, 18, 20, 24, 25, 27, 29, 30, 34

dijagram s točkama:

dijagram stablo-list:

0 8 9

1 0 4 5 7 8 8

2 0 4 5 7 9

3 0 4

O|8 predstavlja 8

2. diskretno obiljeţje - velik broj podataka i manji broj oblika – pristupa se grupiranju. Numeriĉki niz

odnosno distribucija frekvencija se sastoji od parova (xi, fi), i=1,2,....,k

xi – modaliteti numeriĉkog obiljeţja

fi – pripadajuće frekvencije

Primjer 2.

Dnevna prodaja garnitura sobnog namještaja

BROJ GARNITURA BROJ DANA

xi fi

1 1

2 5

3 8

4 26

5 19

6 12

ukupno 71

3. kontinuirano obiljeţje/ diskretno obiljeţje s većim brojem oblika – grupiranje se provodi na temelju

razreda. Svaki razred ima donju i gornju granicu.

frekvencija razreda – broj podataka omeđen donjom i gornjom granicom razreda

Numeriĉki niz odnosno distribucija frekvencija sastoji se od parova razreda i pripadajućih

frekvencija (Li1 ≤ xi ≤ Li2, fi), i= 1,2,....,k

Li1 – donja granica i-tog razreda; Li2 – gornja granica i-tog razreda; fi – frekvencija i-tog razreda

Page 8: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

8

Primjer 3.

Radnici poduzeća A prema

starosti

STAROST BROJ RADNIKA

18 – 26 5

26 – 34 6

34 – 42 10

42 – 50 5

50 – 58 4

ukupno 30

Formiranju distribucije frekvencija prethodi određivanje broja razreda i njihove veliĉine. Za

određivanje broja razreda koristi se Sturgesovo pravilo: k ≈ 1 + 3,3 logN

k-broj razreda; N-zbroj frekvencija

Ako su razredi jednakih veliĉina, veliĉina im se aproksimira tako da se raspon varijacije podijeli sa

brojem razreda: k

xxi i

minmax

Razredi jednakih veličina primjenjuju se kada su podaci simetriĉno raspoređeni.

Razredi različitih veličina primjenjuju se kada su podaci asimetriĉno raspoređeni.

Pri brojĉanoj analizi numeriĉkog niza potrebno je utvrditi da li su granice prave, a nakon toga

odrediti veliĉinu razreda i rezredne sredine.

GRANICE RAZREDA:

PRAVE – donja granica tekućeg razreda je jednaka gornjoj granici prethodnog razreda

NOMINALNE – pretvaraju se u prave tako da se svaka donja granica umanji za

polovicu jedinice, a svaka gornja se uveća za polovicu jedinice. To vrijedi za sve

sluĉajeve osim za navršene godine ţivota. Kod navršenih godina ţivota svaka se

gornja granica poveća za jedinicu.

VELIĈINA RAZREDA – određuje se kao razlika gornje i donje prave granice razreda

REZREDNA SREDINA i-tog razreda – određuje se kao poluzbroj gornje i donje prave granice razreda

Distribucija frekvencija grafiĉki se prikazuje histogramom i poligonom frekvencija.

Page 9: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

9

Primjer 4.

Prvi i posljednji razred mogu biti otvoreni razredi. Njihove se veliĉine procjenjuju i procjena se

stavlja u zagradu.

Kada su razredi razliĉitih veliĉina potrebno je korigirati frekvencije:

i

i

cii

ff - ova se formula koristi kada su svi razredi razliĉitih veliĉina, a moţe se

koristiti i generalno

b

i

i

ci

i

i

ff

- bazna veliĉina razreda (najĉešće se pojavljuje)

IZVEDENI NIZOVI:

KUMULATIVNI NIZ – nastaje postupnim zbrajanjem apsolutnih ili relativnih frekvencija.

On se grafiĉki prikazuje kumulantom.

Primjer 5.

Nepismeno stanovništvo staro 10.g. i više prema starosti u RH prema popisu iz 2001.g.

STAROST BROJ

OSOBA

PRAVE

GRANICE

RAZREDNA

SREDINA

VELIĈINA

REZREDA

KORIGIRANE

FREKVENCIJE

fi xi ii

1 2 3 4 5 6

10-19 1845 9.5-19.5 14.5 10 2768

20-34 3160 19.5-34.5 27 15 3160

35-49 4457 34.5-49.5 42 15 4457

50-64 11108 49.5-64.5 57 15 11108

65-(99) 49207 64.5-(99.5) 82 35 21089

UKUPNO 69777 - - - -

Stanovništvo prema starosti u RH u tisućama prema popisu iz 2001.g.

STAROST BROJ OSOBA PRAVE GRANICE KUMULATIVNI NIZ

0-14 758 -0.5 – 14.5 758

15-64 2983 14.5 – 64.5 3741

65-(99) 696 64.5 – (99.5) 4437

Page 10: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

10

PREDAVANJE #3

VREMENSKI NIZ – skup kronološki uređenih vrijednosti koje predstavljaju neku pojavu (proizvodnja,

uvoz, izvoz).

ĈLANOVI NIZA – vrijednosti koje tvore niz

Vremenski niz noţe biti:

INTERVALNI – nastaje trajanjem vrijednosti pojave po intervalima vremena (godina,

kvartal, mjesec) npr. proizvodnja, uvoz, izvoz...

TRENUTAĈNI – sastoji se od kronološki uređenih vrijednosti koje predstavljaju stanja

pojave u odabranim vremenskim toĉkama (poĉetak, sredina, kraj) npr. stanje na

raĉunima, zakljuĉne cijene dionica..

GRAFIĈKO PRIKAZIVANJE VREMENSKIH NIZOVA: INTERVALNI NIZOVI prikazuju se površinskim i linijskim grafikonima.

TRENUTNI NIZOVI prikazuju se samo linijskim grafikonima

Radi lakšeg praćenja u grafikon se ucrtava mreţa. Prikaz je u pravokutnom koordinatnom sustavu s

aritmetiĉkim mjerilima na osima. Na osi apscisa je mjerilo za varijablu vrijeme, a na osi ordinata za

ĉlanove vremenskog niza.

OKOMITI PREKID GRAFIKONA – ako se ne raspolaţe podacima za dio razdoblja moguće je izostaviti dio

mjerila na osi apscisa.

VODORAVNI PREKID GRAFIKONA – ako neka pojava varira na velikim razinama moguće je izostaviti dio

mjerila osi ordinata.

Prekidaju se samo linijski grafikoni.

POLULOGARITAMSKI GRAFIKON – koristi se ako se na istom grafikonu uspoređuju raznorodni podaci

(nizovi izraţeni u razliĉitim mjernim jedinicama). To je grafikon sa aritmetiĉkim mjerilom na osi apscisa, a

logaritamskim na osi ordinata.

INDIVIDUALNI INDEKSI – njima se prati razvoj jedne pojave u vremenu

verižni indeksi – njima se prati razvoj pojave u uzastopnim vremenskim razdobljima. Veriţni

indeks Vt razdoblja t dobije se tako da se vrijednost toga razdoblja podijeli s vrijednošću

prethodnog razdoblja te se pomnoţi sa sto 1001

t

t

ty

yV

Veriţni indeksi se grafički prikazuju specifičnim linijskim grafikonom i grafikonom

jednostavnih stupaca.

KOEFICIJENT DINAMIKE – vrijednost tekućeg razdoblja podijeljena sa vrijednošću

prethodnog razdoblja ne pomnoţena sa sto 1

t

t

ty

yV

STOPA PROMJENE – od veriţnog indeksa se odbije sto 100 tt VS

Page 11: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

11

Primjer 1.

Izvoz RH u milijunima US$ u razdoblju od 1999. do 2003.g.

GODINA IZVOZ VERIŢNI INDEKSI STOPA PROMJENE

yt Vt St

1999 4302 - -

2000 4432 103,2 3,02

2001 4665 105,26 5,26

2002 4904 105,12 5,12

2003 6197 126,36 26,36

izvor: SLJRH 2004., str.384

Indeks se interpretira kao postotna promjena u odnosu na 100. Ako je veći od 100

predstavlja postotno povećanje, a ako je manji od 100 predstavlja postotno smanjenje.

npr. Izvoz u RH u 2003.g. povećao se za 26.36% u odnosu na 2002.g.

indeksi na stalnoj bazi – njima se mjere promjene u odnosu na neko odabrano bazno

razdoblje. Izraĉunavaju se tako da se svaki ĉlan niza podijeli s vrijednošću baznog razdoblja

te pomnoţi sa 100 100b

t

ty

yI

BAZNO RAZDOBLJE – razdoblje u kojemu pojava nije bila izloţena nekim neuobiĉajenim

utjecajima (prirodne katastrofe, rat). Ponekad se uzima neka vrijednost izvan niza ili

nekakav prosjek.

STOPA PROMJENE – kad od indeksa odbijemo sto 100*

tt IS

Bazni indeksi se grafički prikazuju linijskim grafikonom jednostavnih stupaca.

Primjer 2.

GODINA IZVOZ BAZNI INDEKSI

1999 = 100

STOPA PROMJENE

1999 4302 100,00 0,00

2000 4432 103,02 3,02

2001 4665 108,44 8,44

2002 4904 113,99 13,99

2003 6197 144,05 44,05

U 2003.g. izvoz se povećao za 44.05% u odnosu na baznu 1999.g.

SREDNJE VRIJEDNOSTI STATISTIĈKOG NIZA – konstante kojima se predstavljaju nizovi varijabilnih

podataka.

POTPUNE – raĉunaju se na temelju svih podataka. U njih se ubrajaju aritmetiĉka,

geometrijska i harmonijska sredina.

POLOŢAJNE – u pravilu su jednake jednom modalitetu statistiĉke varijable. U njih se ubrajaju

MOD i MEDIJAN.

Page 12: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

12

MOD – najĉešći modalitet varijable, odnosno to je modalitet varijable s najvećom frekvencijom

1. pojedinačni podaci – kod pojedinaĉnih podataka MOD je vrijednost koja se najĉešće pojavljuje

Primjer 3.

Slijedeći niz predstavlja cijene jednog proizvoda evidentirane na 10 prodajnih mjesta u kn:

25 24 25 23 25 22 21 25 20 25 Najĉešća prodajna cijena (MOD) je 25 kn.

2. distribucija frekvencija formirana na temelju pojedinačnih vrijednosti – tu je MOD modalitet

varijable s najvećom frekvencijom

Primjer 4.

MOD distribucije dnevne prodaje garnitura

namještaja iznosi 4, tj. najĉešća dnevna prodaja

iznosila je 4 garniture

3. distribucija frekvencija sa razredima – MOD se aproksimira pomoću izraza:

icbab

abLMo

)()(

)(1

b – najveća korigirana frekvencija

a – frekvencija ispred nje

c – frekvencija iza nje

L1 – donja prava granica modalnoga razreda

i – njegova veliĉina

MODALNI RAZRED – razred s najvećom korigiranom frekvencijom

Primjer 5.

Mo = 24.5 + (460.8-216.0)/(460.8-216.0)+(460.8-246.7) * 25 = 37.84 god

Najĉešća starost aktivnog stanovništva u RH u 2003.g. iznosi 37.84 godine.

Dnevna prodaja garnitura sobnog namještaja

BROJ GARNITURA BROJ DANA

xi fi

1 1

2 5

3 8

4 26

5 19

6 12

UKUPNO 71

Aktivno stanovništvo u RH u 2003.g. (2.polugodište) u tisućama

STAROST BROJ

OSOBA

PRAVE

GRANICE

VELIĈINE

RAZREDA

KORIGIRANE

FREKVENCIJE

fi ii fci

15-24 216 14,5-24,5 10 216,0

25-49 1152 24,5-49,5 25 460,8

50-64 370 49,5-64,5 15 246,7

65-(74) 55 64,5-(74.5) 10 55,0

Page 13: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

13

MEDIJAN – srednja vrijednost koja numeriĉki niz uređen po veliĉini dijeli na dva jednakobrojna dijela

1. pojedinačni podaci (neparan broj) – MEDIJAN je jednak vrijednosti varijable središnjeg ĉlana u nizu

INTN

2

re xM 12

NINTr

Primjer 6.

Podaci moraju biti uređeni po veliĉini

1 3 5 8 10 12 14 7/2 = 3.5 ; r =4 ; Me = x4 = 8

2. pojedinačni podaci (paran broj) – MEDIJAN je jednak poluzbroju vrijednosti varijable središnjih

dvaju ĉlanova niza uređenog po veliĉini N/2 = INT ; Me = (xr+Xr+1)/2 ; r = N/2

Primjer 7.

11 24 29 37 40 53 65 72 N=8 ; r=4 ; Me = (37+40)/2 = 38.5

3. distribucija frekvencija formirana na temelju pojedinačnih vrijednosti – određivanje MEDIJANA se

pojednostavljuje uporabom kumulativnog niza manje od. MEDIJAN je jednak vrijednosti varijable

ĉija kumulativna frekvencija prva ukljuĉuje N/2.

Primjer 8.

N/2 = 35.5

Me = 4

4. distribucija frekvencija s razredima – MEDIJAN se aproksimira pomoću izraza:

if

fN

LMmed

i

e

21

L1 – donja prava granica medijalnog razreda

N – zbroj apsolutnih ili relativnih frekvencija

∑fi – zbroj frekvencija do medijalnog razreda

fmed – frekvencija medijalnog razreda

i – veliĉina medijalnog razreda

MEDIJALNI RAZRED – onaj ĉija kumulativna frekvencija prvi put ukljuĉuje N/2.

Primjer 9.

STAROST BROJ OSOBA PRAVE

GRANICE

VELIĈINE

RAZREDA

KUMULATIVNE

FREKVENCIJE

fi ii S(xi)

15-24 216 14,5-24,5 10 216

25-49 1152 24,5-49,5 25 1368

50-64 370 49,5-64,5 15 1738

65-(74) 55 64,5-(74,5) 10 1793

Dnevna prodaja

BROJ GARNITURA BROJ DANA KUMULATIVNI NIZ

xi fi S(xi)

1 1 1

2 5 6

3 8 14

4 26 40

5 19 59

6 12 71

UKUPNO 71 -

Page 14: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

14

N/2 = 896.5

Me = 24.5 + (896.5-216)/1152 * 25 = 39.27 god

Prvih 50% osoba imalo je 39 godina i manje, a preostalih 50% osoba bilo je starije od 39 godina

KVANTILI – numeriĉki niz uređen po veliĉini dijele na jednakobrojne dijelove. Medijan spada među kvantile

KVARTILI – niz uređen po veliĉini dijele na 4 jednakobrojna dijela

DECILI – niz uređen po veliĉini dijele na 10 jednakobrojnih dijelova

PERCENTILI – niz uređen po veliĉini dijele na 100 jednakobrojnih dijelova

Broj kvartila je za jedan manji od njihova reda, tj. 3 su kvartila, 9 decila i 99 percentila

PREDAVANJE #4

ARITMETIĈKA SREDINA – dobije se tako da se zbroje vrijednosti numeriĉke varijable i podijele sa

njihovim brojem.

TOTAL – zbroj vrijednosti numeriĉke varijable; aritmetiĉka sredina je jednaki dio totala po jedinici

Svojstva aritmetiĉke sredine:

1. zbroj vrijednosti odstupanja numeriĉke varijable od njezine aritmetiĉke sredine jednak je nuli

2. zbroj kvadrata odstupanja vrijednosti numeriĉke varijable od njezine aritmetiĉke sredine minimalan

je

3. aritmetiĉka sredina nalazi se između najmanje i najveće vrijednosti niza za koji je izraĉunata

JEDNOSTAVNA ARITMETIĈKA SREDINA – raĉuna se kod pojedinaĉnih kvantitavnih podataka N

x

x

N

i

i 1

Primjer 1.

Slijedeći niz predstavlja cijene jednog proizvoda evidentirane na 10 prodajnih mjesta u kn:

25 24 25 23 25 22 21 25 20 25 235/10=23.5 prosjeĉna prodaja iznosila je 23.5 kn

Aritmetiĉka sredina izraţena je u istim mjernim jedinicama kao i obiljeţje.

VAGANA (PONDERIRANA) ARITMETIĈKA SREDINA – primjenjuje se za grupirane podatke, tj. za distribuciju

frekvencija

1. ponderi: APSOLUTNE FREKVENCIJE (fi)

fi

fixi

x

k

i 1

2. ponderi: RELATIVNE FREKVENCIJE U VIDU POSTOTAKA (Pi) 100

1

k

i

pixi

x

3. ponderi: RELATIVNE FREKVENCIJE U VIDU PROPORCIJA (pi)

k

i

pixix1

Page 15: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

15

Primjer 2. Distribucija frekvencija formirana na temelju pojedinaĉnih vrijednosti

PRAVI TOTAL – ukupan broj

prodanih garnitura

431,471

306x garniture dnevno

Primjer 3. Distribucija frekvencija formirana na temelju razreda

PROCIJENJENI

PODTOTALI

PROCIJENJENI TOTAL-

ukupna starost

promatranih osoba

godinax 02,401793

5,71748

Prosjeĉna starost aktivnog stanovništva iznosila je ≈ 40.02 godina.

ARITMETIĈKA SREDINA ARITMETIĈKIH SREDINA – određuje se kao vagana sredina u kojoj se za pondere

uzima broj podataka za koje su pojedine sredine raĉunate ili tom broju proporcionalne veliĉine.

k

i

k

i

Ni

ixNi

X

1

1

Dnevna prodaja garnitura sobnog namještaja

BROJ GARNITURA BROJ DANA kol. 1*2

xi fi fixi

1 1 1

2 5 10

3 8 24

4 26 104

5 19 95

6 12 72

UKUPNO 71 306

Aktivno stanovništvo u RH u 2003.g. (drugo polugodište) u tisućama

STAROST BROJ

OSOBA

PRAVE

GRANICE

RAZREDNE

SREDINE

kol.2*4

fi xi fixi

15-24 216 14.5-24.5 19.5 4212.0

25-49 1152 24.5-49.5 37.0 42624.0

50-64 370 49.5-64.5 57.0 21090.0

65-(74) 55 64.5-(74.5) 69.5 3822.5

UKUPNO 1793 - - 71746.5

Page 16: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

16

Primjer 4.

Prosjeĉna plaća za sve kompanije:

39,33131120

3711000X

Ako se svaka individualna vrijednost numeriĉkog obiljeţja zamijeni aritmetiĉkom sredinom dobiva se

polazna veliĉina tj. total ili zbroj vrijednosti numeriĉkog obiljeţja.

ARITMETIĈKA SREDINA RELATIVNIH BROJEVA KOORDINACIJE – određuje se kao vagana sredina u kojoj su

ponderi baze tih brojeva

k

i

k

i

Bi

BiRi

R

1

1

RELATIVNI BROJEVI KOORDINACIJE – omjerni su brojevi koji nastaju diobom dviju koordinirajućih veliĉina

Bi

ViRi

Grafiĉki se prikazuju na 2 naĉina:

1. jednostavnim stupcima

2. pravokutnicima ĉije su osnovice proporcionalne bazama tih brojeva, a visine samim relativnim

brojevima koordinacije

Primjer 5.

Prosjeĉan broj stanovnika

na km2 za sve navedene

drţave:

2/.3522.3554786277

1929776010kmstR

Odabrane kompanije zaposlenih i prosjeĉne mjeseĉne plaće u kn

KOMPANIJA BROJ

ZAPOSLENIH

PROSJEĈNA

PLAĆA

UKUPNA

PLAĆA

Ni x Ni ix

ALFA 550 3500 1925000

GAMA 320 2300 736000

TRADE 250 4200 1050000

UKUPNO 1120 - 3711000

Najveće drţave svijeta, površina u km2 i broj stanovnika na km2

DRŢAVA POVRŠINA U km2 STANOVNIŠTVO/ km2 UKUPAN BROJ

STANOVNIKA

Bi Ri Vi= Ri*Bi

RUSIJA 17075400 8 136603200

KANADA 9970610 3 29911830

SAD 9629091 30 288872730

KINA 9596961 135 1295589735

BRAZIL 8514215 21 178798515

UKUPNO 54786277 - 1929776010

Page 17: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

17

GEOMETRIJSKA SREDINA – jednaka je N-tom korijenu produkta N pojedinaĉnih vrijednosti

N

Ni xxxxG ........21

Za grupirane podatke geometrijska sredina dana je izrazom: N f

k

f

i

ff ki xxxxG ........21

21

Primjer 6. zadani su koeficijenti dinamike

GODINA 2000 2001 2002 2003 2004

Vt - 1,06 1,05 1,03 1,02

prosjeĉna stopa raĉunata pomoću geometrijske sredine:

Promatrana pojava prosjeĉno se godišnje

povećavala

za 3.99%.

Geometrijska i harmonijska sredina relativno se rijetko primjenjuju. Geometrijska sredina se primjenjuje u

analizi vremenskih nizova. Pomoću nje se računa prosječna stopa promjene pojave. Geometrijska sredina

poprima nižu vrijednost od aritmetičke sredine.

HARMONIJSKA SREDINA – reciproĉna vrijednost aritmetiĉke sredine reciproĉnih vrijednosti varijable x

negrupirani pojedinaĉni podaci

N

i ix

NH

1

1

grupirani podaci

k

i i

i

k

i

i

x

f

f

H

1

1

Harmonijska sredina manja je od aritmetiĉke i geometrijske sredine

Primjer 7.

Ugostiteljska poduzeća, ukupan promet (u tisućama kn) i promet po zaposlenom (u tisućama kn)

UGOSTITELJSKA

PODUZEĆA

PROMET PROMET PO

ZAPOSLENOM

ZAPOSLENI

Vi Ri Vi/Ri = Bi

HOTELI 6272146 199 31518

KAMPOVI 272070 158 1722

RESTORANI 814160 178 4574

BAROVI 716065 131 5466

KANTINE 331094 137 2417

%99.3100)103988.1(

03988.102.103.105.106.1

.....

100)1(

4

132

S

G

VVVG

GS

nn

Page 18: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

18

UKUPNO 8405535 - 45697

Prosjeĉan promet po zaposlenom za sva ugostiteljska poduzeća: kntisR .18445697

8405535

Ako nazivnici relativnih brojeva koordinacije nisu poznati, a brojnici jesu ili se lakše procjenjuju do sredine

će se doći pomoću izraza za vaganu ponderiranu harmonijsku sredinu:

k

i i

i

k

i

i

R

V

V

R

1

1

Ako imamo zadano Bi koristimo formulu za aritmetiĉku, a ako su nam zadane Vi koristimo harmonijsku

vaganu sredinu.

SKUPNI INDEKSI – njima se prati dinamika skupine pojava u vremenu npr.proizvodnja, uvoz, izvoz....

SKUPNI INDEKSI CIJENA

SKUPNI INDEKSI KOLIĈINA

SKUPNI INDEKS VRIJEDNOSTI

U pravilu se raĉunaju kao vagana aritmetiĉka sredina individualnih indeksa. Ponderi su obiĉno vrijednosti.

Uglavnom se izraĉunavaju:

LASPEYRESOV INDEKS CIJENA I KOLIĈINA

PAASCHEOV INDEKS CIJENA I KOLIĈINA

FISHEROV INDEKS CIJENA I KOLIĈINA

INDEKS VRIJEDNOSTI

Skupne indekse izraĉunavaju i objavljuju statistiĉki uredi. Obiĉno su Laspeyresova tipa: INDEKS

POTROŠAĈKIH CIJENA – mjera inflacije; INDEKS INDUSTRIJSKE PROIZVODNJE

Skupni indeksi cijena koriste se u postupku deflacioniranja tj. uklanjanja utjecaja promjena cijena na

vrijednosno izraţene pojave.

PREDAVANJE #5

MJERE DISPERZIJE Reprezentativnost srednje vrijednosti ovisi o stupnju varijabilnosti podataka.Varijabilnost numeriĉkog

obiljeţja predoĉava se i pomoću grafiĉkih prikaza: dijagram s toĉkama i dijagram s pravokutnikom

Mjere za varijabilnost podataka su:

1. raspon varijacije

2. interkvartil

3. koeficijent kvartilne devijacije

4. varijanca

5. standardna devijacija

6. koeficijent varijacije

7. srednje apsolutno odstupanje (MAD)

Page 19: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

19

1. RASPON VARIJACIJE

pojedinaĉni podaci – određuje se kao razlika između najveće i najmanje vrijednosti

minmax xxRx

distribucija frekvencija formirana na temelju pojedinaĉnih podataka – određuje se kao

razlika između posljednje i prve vrijednosti

1xxR kx

distribucija frekvencija s razredima – aproksimira se kao razlika između gornje granice

posljednjeg i donje granice prvog razreda ili kao razlika razrednih sredina posljednjeg i prvog

razreda.

Raspon varijacije je apsolutna (izraţena je u istim mjernim jedinicama kao i obiljeţje) i nepotpuna (dobiva

se iz samo dvije vrijednosti) mjera disperzije.

2. INTERKVARTIL

KVARTILI:

PRVI ILI DONJI KVARTIL (Q1) – vrijednost numeriĉke varijable koja ĉlanove niza dijeli u dvije

skupine. U prvoj je skupini 25% elemenata s vrijednostima varijable koja je jednaka ili manja od

donjeg kvartila, a u drugoj je skupini 75% elemenata s vrijednostima većim od donjeg kvartila.

DRUGI ILI MEDIJAN (Q2)

TREĆI ILI GORNJI KVARTIL (Q3) - vrijednost numeriĉke varijable koja ĉlanove niza dijeli u dvije

skupine. U prvoj je skupini 75% elemenata s vrijednostima varijable koja je jednaka ili manja od

gornjeg kvartila, a u drugoj je skupini 25% elemenata s vrijednostima većim od gornjeg kvartila.

Interkvartil se određuje kao razlika kvartila 13 QQIQ 50%

Interpretira se kao raspon varijacije središnjih 50% podataka:

Interkvartil je također apsolutna i nepotpuna mjera disperzije.

3. KOEFICIJENT KVARTILNE DEVIJACIJE – njime se uspoređuje stupanj disperzije raznorodnih nizova.

Određuje se kao omjer interkvartila i zbroja kvartila:

13

13

QQ

QQVQ

0 ≤ VQ < 1

Ovo je relativna i nepotpuna mjera disperzije.

GRAFIĈKI PRIKAZ VARIJABILNOSTI PODATAKA – dijagram s pravokutnikom box-plot (B-P) dijagram

Za njegovu konstrukciju koristi se 5 pokazatelja numeriĉkog niza – 5's (five summary numbers)

najmanja vrijednost

najveća vrijednost

medijan

donji kvartil

gornji kvartil

Na ovom grafiĉkom prikazu ouĉava se raspon varijacije i interkvartilni raspon te se prosuđuje o mogućoj

asimetriji kao i o pojavi netipiĉnih vrijednosti ( out lier)

Page 20: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

20

Primjer 1. Negrupirani tj. pojedinaĉni podaci

Mjereno je vrijeme u minutama potrebno za rješavanje jednog zadatka iz statistike za 10 studenata.

Dobiveni su ovi rezultati : 20 22 25 27 28 28 30 30 33 35

Podaci moraju biti uređeni po veliĉini.

raspon varijacije: 30–15 = 15 min

Vrijeme potrebno za rješavanje zadatka bilo je između 20 i 35 min. Odnosno u raponu od 15

min.

interkvartil:

donji kvartil: N/4 = 10/4 = 2.5 ≠ INT

r = INT (N/4) + 1 = 2+1 = 3, Q1=x3=25

Prva ĉetvrtina studenata imala je vrijeme 25 min i manje, a preostale 3

ĉetvrtine imale su vrijeme veće od 25 min.

gornji kvartil: 3N/4 = 30/4 = 7.5 ≠ INT

r = INT (3N/4) + 1 =7+1=8, Q3=xr=x8=30

Prve tri ĉetvrtine studenata imale su vrijeme 30 min i manje, a preostala

ĉetvrtina imala je vrijeme veće od 30 min.

IQ = Q3 – Q1 = 30 - 25=5 min

Raspon varijacije središnjih 50% studenata iznosio je 5 min, tj. njihova vremena bila su

između 25 i 30 min.

koeficijent kvartilne devijacije

VQ= (Q3-Q1)/(Q3+Q1) = (30-25)/(30+25) = 0.09

Raspon varijacije središnjih 50% studenata u relativnom iznosu je 0.09.

B-P dijagram

N/2 = 10/2 = 5 = INT , r=5

Me = (xr+Xr+1)/2 = (x5+x6)/2 = (28+28)/2 = 28

Page 21: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

21

Primjer 2. Distribucija frekvencija formirana na temelju pojedinaĉnih vrijednosti

Pismeni ispit iz statistike sadrţi 5 zadataka. Distribucija frekvencija prema broju rješenih zadataka dana je

u tabeli:

BROJ

ZADATAKA

BROJ

STUDENATA

KUMULATIVNI NIZ

„manje od“

xi fi S(xi)

0 10 10

1 25 35

2 55 90

3 125 215

4 50 265

5 15 280

UKUPNO 280 -

raspon varijacije: Rx = xk – x1 = 5-0 = 5 zadataka

Broj rješenih zadataka bio je između 0 i 5 odnosno u rasponu od 5 zadataka.

interkvartil:

donji kvartil: N/4 = 70 ; Za Q1 se uzima vrijednosti varijable s prvom kumulativnom frekvencijom

koja sadrţi vrijednost N/4 Q1= 2

gornji kvartil: 3N/4 = 210 Q3=3

IQ = Q3 – Q1= 3 – 2= 1

Raspon varijacije središnjih 50% studenata iznosio je 1 zadatak, tj. broj rješenih zadataka bio je

između 2 i 3.

koeficijent kvartilne devijacije

VQ= (Q3-Q1)/(Q3+Q1) = (3-2)/(3+2) = 0.2

Raspon varijacije središnjih 50% studenata u relativnom iznosu je 0.2

Primjer 3. Distribucija frekvencija s razredima

Distribucija studenata prema vremenu potrebnom za rješavanje jednog zadatka iz statistike u min.

raspon varijacije

Rx = 30 – 10 = 20 min

Rx = 27.5 – 12.5 = 15 min

interkvartil

N/4 = 75/4 = 18.75

Kvartilni razred je razred ĉija kumulativna frekvencija prva ukljuĉuje vrijednost N/4

UTROŠENO

VRIJEME

BROJ

STUDENATA

KUMULATIVNI NIZ

„manje od“

VELIĈINA

RAZREDA

fi S(xi) ii

10-15 15 15 5

15-20 20 35 5

20-25 30 65 5

25-30 10 75 5

UKUPNO 75 - -

Page 22: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

22

if

fN

LQk

var

1

114

min9.15520

1575.18151

Q

if

fN

lQk

var

1

134

3

min5.23530

3525.56203

Q

IQ = 23.5 – 15.9 = 7.6 min

Raspon varijacije središnjih 50% studenata iznosio je 7.6 min.

VQ= (Q3-Q1)/(Q3+Q1) = (23.5 – 15.9)/(23.5 – 15.9) = 0.19

Raspon varijacije središnjih 50% studenata u relativnom iznosu je 0.19.

4. SREDNJE APSOLUTNO ODSTUPANJE (MAD) – za mjerenje disperzije moţe se koristiti i prosjeĉno

apsolutno odstupanje vrijednosti varijable od njezine aritmetiĉke sredine ili medijana:

pojedinaĉni podaci: N

xx

MAD

N

i

i

1

N

Mx

MAD

N

i

ei

Me

1

za distiribuciju frekvencija apsolutne razlike ponderiraju se apsloutnim ili relativnim

frekvencijama

Primjer 4.

Dnevna prodaja hladnjaka u 10 prodavaonica iznosila je: 2 5 3 3 7 3 4 6 4 3

410

40

N

xx

MAD = 12/10 = 1,2

2 3 3 3 3 4 4 5 6 7

N/2 = 5 = INT, r = 5

Me = (x5+x6)/2 = (3+4)/2 = 3.5

PREDAVANJE #6

5. VARIJANCA – aritmetiĉka sredina kvadrata odstupanja vrijednosti numeriĉke varijable od njezine

aritmetiĉke sredine. Varijanca je mjera disperzije u drugom stupnju koju je potrebno vratiti u prvi stupanj.

PRODAJA

xi xx i

2 2

5 1

3 1

3 1

7 3

3 1

4 0

6 2

4 0

3 1

40 12

PRODAJA

xi ei Mx

2 1,5

5 1,5

3 0,5

3 0,5

7 3,5

3 0,5

4 0,5

6 2,5

4 0,5

3 0,5

40 12,0

Page 23: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

23

negrupirani podaci N

xxN

i

i

1

2

2

grupirani podaci

k

i

i

k

i

ii

f

xxf

1

1

2

2

)(

6. STANDARDNA DEVIJACIJA – pozitivni drugi korijen iz varijance. Potpuna i apsolutna mjera disperzije.

negrupirani podaci N

xxN

i

i

1

2)(

grupirani podaci

k

i

i

k

i

ii

f

xxf

1

1

2)(

7. KOEFICIJENT VARIJACIJE – realtivna mjera disperzije. Određuje se kao omjer srtandardne devijacije i

aritmetiĉke sredine pomnoţen sa sto.

100x

V

Standardna devijacija se interpretira kao prosječno odstupanje od prosjeka izraženo apsolutno, a

koeficijent varijacije kao to isto odstupanje izraženo relativno i to u vidu postotka.

Primjer 1. Negrupirani tj. pojedinaĉni podaci

Mjereno je vrijeme (u minutama) potrebno za rješavanje jednog zadatka iz statistike za 10 stuudenata.

Dobiveni su ovi rezultati:

%76.151008.27

38.4100

min38.416.19

16.1910

60.191)(

min8.2710

278

2

1

2

2

1

xV

N

xx

N

x

x

N

i

i

N

i

i

VRIJEME

xi 2)( xxi

20 60.84

22 33.64

25 .

27 .

28 .

28 .

30 .

30 .

33 .

35 .

UKUPNO 191.60

Page 24: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

24

Interpretacija:

Prosjeĉno vrijeme rješavanja zadataka iznosilo je 27.8 minuta s prosjeĉnim odstupanjem od 4.38 minute

odnosno 15.76%.

Primjer 2. Distribucija frekvencija formirana na temelju pojedinaĉnih podataka

Pismeni ispit iz statistike sadrţi 5 zadataka. Distribucija studenata prema broju rješenih zadataka dana je

u tabeli:

%64.3910080.2

11.1100

11.123.1

23.1280

2.344)(

80.2280

785

2

1

1

2

2

1

1

xV

zadataka

f

xxf

zadataka

f

xf

x

k

i

i

k

i

ii

k

i

i

k

i

ii

Prosjeĉni broj rješenih zadataka iznosio je 2.80 zadatka. S prosjeĉnim odstupanjem od 1.11 zadataka

odnosno 39.64%.

Primjer 3. Distribucija frekvencija s razredima

Struktura aktivnog stanovništva u drugom polugodištu 2003.g. u RH

STAROST STAROST% PRAVE

GRANICE

RAZREDNE

SREDINE

kol. 2x4 VELIĈINA

RAZREDA

KORIGIRANE

FREKVENCIJE

Pi xi Pixi 2)( xxP ii Pci

15-24 12 14.5-24.5 19.5 234.0 5043.00 10 12

25-49 64 24.5-49.5 37.0 2368.0 . 25 25.6

50-64 21 49.5-64.5 57.0 1197.0 . 15 14.0

65-(74) 3 64.5-(74.5) 69.5 208.5 . 10 3.0

UKUPNO 100 - - 4007.5 14298.75 - -

Interpretacija:

Prosjeĉna starost aktivnog stanovništva iznosila je 40

godina. S prosjeĉnim odstupanjem od 11.96 godina

odnosno 30%.

BROJ

ZADATAKA

BROJ

STUDENATA

kol. 1x2

xi fi fixi 2)( xxf ii

0 10 0 78.4

1 25 25 81.0

2 55 110 .

3 125 375 .

4 50 200 .

5 15 75 .

UKUPNO 280 785 344.2

%3010000.40

96.11100

96.1199.142

99.142100

75.14298)(

40100

5.4007

100

2

1

1

2

2

1

xV

godina

P

xxP

godina

xP

x

k

i

i

k

i

ii

k

i

ii

Page 25: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

25

STANDARDIZIRANA VARIJABLA – linearna transformacija numeriĉke varijable x. Određuje se tako da

se odstupanja numeriĉke varijable od njezine aritmetiĉke sredine podijele sa standardnom devijacijom, tj.

da se izraze u jedinicama standardnih devijacija. Aritmetiĉka sredina standardizirane varijable jednaka je

nuli, a standardna devijacija jednaka je jedan.

xxz

1;0 zz

PRAVILO ĈEBIŠEVA – govori da je najmanja proporcija ĉlanova bilo kojeg niza obuhvaćenih bilo kojim

intervalom2

11,1,

kjednakakkx .

U pojasu 2x nalazi se najmanje 0.75 tj. 75% svih podataka.

U pojasu 3x nalazi se najmanje 0.889 tj. 88.89% svih podataka.

Ako su podaci raspoređeni po normalnoj distribuciji onda:

pojas 1x obuhvaća oko 68% podataka

pojas 2x obuhvaća oko 95% podataka

pojas 3x obuhvaća oko 99.73% podataka

321123 x

Primjer 4.

Prosjeĉan broj bodova na 1. kolokviju iz statistike iznosi 15, a prosjeĉno odstupanje od prosjeka iznosi 5.

Na drugom kolokviju postignut je prosjeĉan broj bodova 17 s prosjeĉnim odstupanjem od prosjeka 4.

Student je na prvom kolokviju postigao 20, a na drugome 22 boda. Što se moţe zakljuĉiti o uspjehu

studenta na kolokvijima?

2220

45

1715

21

21

21

xx

xx

Vrijednost standardiziranog obiljeţja na prvom kolokviju:

00.15

1520

1

11

xxz

Vrijednost standardiziranog obiljeţja na drugom kolkviju:

25.14

1722

2

22

xxz

Student je na oba kolokvija postigao iznad prosjeĉan rezultat. Bolji je na drugom kolokviju jer je

odstupanje od prosjeka na više 1.25 σ, a na prvome 1 σ.

Primjer 5.

Mjereno je vrijeme u minutama potrebno za rješavanje jednog zadatka iz statistike za 10 studenata.

Dobiveni su ovi rezultati: 20 22 25 27 28 28 30 30 33 35

Je li vrijeme rješavanja od 35 minuta netipiĉno?

Netipičan je podatak koji se nalazi izvan pojasa 2x tj. ako od prosjeka odstupa za više od 2σ.

Ako se podaci raspoređuju po normalnoj distribuciji netipičan je podatak koji se nalazi izvan pojasa

3x tj. ako od prosjeka odstupa za više od 3σ.

Page 26: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

26

Budući da se vrijeme od 35 minuta nalazi u pojasu 2x ne moţe se

smatrati netipiĉnim.

PREDAVANJE #7

MJERE ASIMETRIJE – njima se mjeri naĉin rasporeda podataka prema aritmetiĉkoj sredini ili nekoj

drugoj vrijednosti.Najvaţnije su:

1. Koeficijent asimetrije α3 - potpuna mjera

2. Pearsonova mjera nepotpune

3. Bowleyeva mjera mjere

1. KOEFICIJENT ASIMETRIJE α3

MOMENTI OKO SREDINE – aritmetiĉke sredine odstupanja vrijednosti numeriĉke varijable od

njezine aritmetiĉke sredine podignuti na neku potenciju

pojedinaĉni podaci N

xxN

i

i

r

1

)(

grupirani podaci

k

i

i

k

i

r

ii

r

f

xxf

1

1

)(

- s obzirom na veliĉinu r govori se o nultom, prvom, drugom, trećem ili ĉetvrtom momentu oko

sredine

- koeficijent asimetrije α3 je omjeru trećeg momenta oko sredine i standardne devijacije podignute

na treću potenciju 3

3

3

M

obiĉno se kreće u intervalu ±z, a u određenim sluĉajevima moţe

biti izvan toga intervala:

α3 = 0 simetriĉna distribucija

α3 < 0 negativno asimetriĉna distribucija

α3 > 0 pozitivno asimetriĉna distribucija

2. PEARSONOVA MJERA – temelji se na odnosu srednjih vrijednosti u distribucijama frekvencija

simetriĉna distribucija

64.138.4

8.2735

min38.4

min8.27

xxz

x

Page 27: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

27

pozitivno asimetriĉna distribucija

negativno asimetriĉna distibucija

- Pearsonova mjera definira se kao standardizirano odstupanje vrijednosti medijana ili moda od

aritmetiĉke sredine:

)(3 MexS t

)( MoxS t

kreće se u intervalu ±

St = 0 simetriĉna distribucija

St > 0 pozitivno asimetriĉna distribucija

St < 0 negativno asimetriĉna distribucija

3. BOWLEYJEVA MJERA – temelji se na odnosu medijana i kvartila

simetriĉna distribucija

0231

31

MeQQ

MeQQMe

pozitivno asimetriĉna distribucija

0231

31

MeQQ

MeQQMe

Page 28: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

28

negativno asimetriĉna distibucija

0231

31

MeQQ

MeQQMe

13

31 2

QQ

MeQQS ka

kreće se u intervalu ±1

Ska = 0 simetriĉna distribucija

Ska > 0 pozitivno asimetriĉna distribucija

Ska < 0 negativno asimetriĉna distribucija

Primjer 1. pojedinaĉni podaci

Radi kontrole deklarirane teţine izabran je uzorak od 10 proizvoda pakiranih u vrećice. Mjerenjem su

dobiveni ovi rezultati u gramima: 10 12 15 13 10 11 12 11 11 15

155.74

3

115.24

5.112

1211

25

2

11

1210

120

83

31

65

xQN

xQN

gxx

INTN

Me

gMo

gN

xx

i

1.koeficijent asimetrije

- α3 je pozitivan, distibucija je umjereno pozitivno asimetriĉna

2. Pearsonova mjera 3. Bowleyjeva mjera

5.01113

5.11213112

13

31

QQ

MeQQSka

ix )( xxi 2)( xxi 3

)( xxi

10 -2 4 -8

12 0 0 0

15 . . .

13 . . .

10 . . .

11 . . .

12 . . .

11 . . .

11 . . .

15 . . .

120 0 30 36

69.073.1

6.3

73.13

33

33

2

M

g

310

30)(

6.310

36)(

1

2

2

2

1

3

3

N

xx

N

xx

N

i

i

N

i

i

53.0173

1112

MoxSk

Page 29: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

29

Primjer 2. distribucija frekvencija s razredima

Distribucija studenata prema vremenu potrebnom za rješavanje jednog zadatka iz

statistike

UTROŠENO

VRIJEME

BROJ

STUDENATA

RAZREDNE

SREDINE

if ix ii xf 2

)( xxf ii 3)( xxf ii

10-15 15 12.5 187.5 187.5 -5907.49

15-20 20 17.5 350 - -

20-25 30 2.5 675 - -

25-30 10 17.5 275 - -

UKUPNO 75 - 1487.5 1716.67 -1076.29

Distribucija je blago negativno asimetriĉna.

Pearsonova mjera: 38.078.4

67.2183.19

MoxSk

Bowleyjeva mjera: 18.094.1554.23

42.80254.2394.152

13

31

QQ

MeQQSka

MJERA ZAOBLJENOSTI

KOEFICIJENT ZAOBLJENOSTI α4 – njime se mjeri zaobljenost modalnog vrha distribucije. Izraĉunava se kao

omjer ĉetvrtog momenta oko sredine i standardne devijacije podignute na 4. potenciju 4

4

4

M

negrupirani podaci N

xx

M

N

i

i

1

4

4

)(

grupirani podaci

k

i

i

k

i

ii

f

xxf

M

1

1

4

4

)(

13.078.4

35.14

min78.489.22

87.2275

67.1716)(

35.1475

29.1076)(

min83.1975

5.14875

33

33

2

2

2

2

3

3

M

f

xxfM

f

xxfM

f

xfx

i

ii

i

ii

i

ii

min54.23

min94.15

min42.20

min67.21

3

1

Q

Q

Me

Mo

Page 30: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

30

- α4 = 3 NORMALNA DISTRIBUCIJA – najvaţnija teorijska

distribucija

- α4 > 3 šiljatija distribucija od normalne

- α4 < 3 plosnatija distribucija od normalne

- α4 ≈ 1.8 pravokutna distribucija

- α4 < 1.8 U-distibucija

EKSCES – alternativna mjera zaobljenosti 31 K

K = 0 ---- normalna distribucija

K > 0 ---- šiljatija distribucija

K < 0 ---- plosnatija distribucija

Primjer 3. pojedinaĉni podaci

Distribucija je plosnatija od normalne.

Primjer 4. distribucija frekvencija s razredima

96.0304.23

04.278.4

99.1066

99.106675

41.80024)(

min78.4

min83.19

4

44

44

4

4

K

M

f

xxfM

x

i

ii

ix 4)( xxi

10 16

12 0

15 .

13 .

10 .

11 .

12 .

11 .

11 .

15 .

120 198

UTROŠENO

VRIJEME

BROJ

STUDENATA

RAZREDNE

SREDINE

if ix 4

)( xxf ii

10-15 15 12.5 13 301.92

15-20 20 17.5 .

20-25 30 22.5 .

25-30 10 27.5 .

UKUPNO 75 - 80 024.41

79.0321.23

21.273.1

8.19

8.1910

198)(

73.1

12

3

44

44

4

4

K

M

N

xxM

g

gx

i

Page 31: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

31

Distribucija je plosnatija od normalne.

MJERE KONCENTRACIJE – njima se mjeri naĉin rasporeda totala po jedinicama niza

apsolutne – najĉešće se koriste koncentracijski omjeri

relativne – najĉešće se koristi Ginijev koeficijent koncentracije

1. KONCENTRACIJSKI OMJER reda r se određuje tako da se zbroj r vrijednosti (od njih N) podijeli sa

zbrojem N vrijednosti. Pri tome se pretpostavlja da su podaci poredani od najvećeg prema

najmanjem.

11

1

1

rN

i

i

r

i

i

r CN

x

x

C

Ako se radi o ravnomjernoj raspodjeli, koncentracijski omjer poprima vrijednost od 1 do N.

A ako se radi o maksimalnoj raspodijeli, koncentracijski omjer poprima vrijednost 1. - u analizi koncentracije koristi se grafiĉki prikaz – LORENZOVA KRIVULJA

1) na osi apscisa nalazi se aritmetiĉko mjerilo za kumulativni niz relativnih frekvencija

2) na osi ordinata nalazi se aritmetiĉko mjerilo za kumulativni niz proporcija podtotala

3) prva toĉka ima koordinate (0,0); posljednja toĉka ima koordinate (1,1); koordinate ostalih

toĉaka određene su vrijednostima ĉlanova kumulativnih nizova

4) u grafiĉki prikaz ucrtava se pravac jednolike raspodjele, on prolazi toĉkama (0,0) i (1,1)

2. GINIJEV KOEFICIJENT – temelj za njegovo utvrđivanje je površina između pravca jednolike

raspodjele i Lorenzove krivulje. Što je koncentacija veće to se Lorenzova krivulja više udaljuje od

toga pravca

xi - pojedinaĉne vrijednosti varijable

negrupirani podaci

i - redni broj podatka

- podaci moraju biti uređeni od najmanjeg prema najvećem

- kreće se u intervalu od 0 do 1

- G = 0 ravnomjerna raspodjela

- G = 1 maksimalna koncentracija

- NORMIRANI KOEFICIJENT GINIJA 1

N

NGG

N

i

i

N

i

N

i

ii

xN

xNix

G

1

1 1

)1(2

Page 32: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

32

PREDAVANJE #8

OSNOVNI POJMOVI VJEROJATNOSTI

VJEROJATNOST – brojĉana mjera nastanka neizvjesnih, tj. sluĉajnih događaja. Vjerojatnost nastanka

događaja A jednaka je P(A) pri ĉemu je 0 ≤ P(A) ≤ 1. Nekada se izraţava i u obliku postotka.

DEFINICIJE VJEROJATNOSTI

SLUĈAJNI POKUS – pokus je sluĉajan ako se u definiranim uvjetima moţe ponavljati, ako postoje barem 2

razliĉita ishoda te ako se ishodi ne mogu predvidjeti sa sigurnošću.

PROSTOR UZORKA S – skup svih mogućih ishoda sluĉajnog pokusa

SLUĈAJNI DOGAĐAJ – jednoĉlani ili višeĉlani podskup skupa S te su sa događajima dopuštene skupovne

operacije.

1. KLASIĈNA DEFINICIJA (vjerojatnost a priori) – pretpostavlja se da se pokus ponavlja konaĉan broj puta,

pri ĉemu se vjerojatnost određuje kao omjer povoljnog broja ishoda m i ukupnog broja ishoda n

n

mAP )(

2. STATISTIĈKA VJEROJATNOST (vjerojatnost a posteriori) – broj ponavljanja pokusa je beskonaĉan, a

vjerojatnost se aproksimira relativnom frekvencijom, tj.omjerom apsolutne frekvencije opsega i opsega

statistiĉkog skupa.

3. SUBJEKTIVNA VJEROJATNOST – to je broj iz intervala [0,1] određen na temelju prosudbe okolnosti

relevantnih za nastup sluĉajnog događaja.

SVOJSTVA VJEROJATNOSTI:

1) vjerojatnost da događaj A neće nastupiti jednaka je P(Ā)=1-P(A)

2) vjerojatnost istodobnog nastupa događaja A1 i A2 jednaka je P(A1∩A2)

3) ako su događaji međusobno iskljuĉivi, vjerojatnost da će nastupiti događaj A1 ili A2 jednaka je

P(A1UA2)=P(A1)+P(A2)

4) ako događaji nisu međusobno iskljuĉivi, vjerojatnost nastupa barem jednog od njih jednaka je

P(A1UA2)=P(A1)+P(A2)-P(A1∩A2)

5) ponekad je potrebno odrediti vjerojatnost nastupa događaja A uz uvjet da se dogodio događaj B.

Takva se vjerojatnost naziva uvjetnom vjerojatnošću )(

)()|(

BP

BAPBAP

6) ako su događaji neovisni tada vrijedi da je P(A∩B)=P(A)P(B)

SLUĈAJNA VARIJABLA X – numeriĉka funkcija koja svakom ishodu sluĉajnog pokusa pridruţuje realan broj.

diskretna- ako poprima konaĉan broj vrijednosti

kontinuirana – moţe poprimiti bilo koju vrijednost iz nekog intervala

DISTRIBUCIJA VJEROJATNOSTI

diskretne sluĉajne varijable – skup uređenih parova razliĉitih vrijednosti sluĉajne varijable xi i

pripadajućih vjerojatnosti p(xi). Ima slijedeća svojstva:

- p(xi) ≥ 0

- ∑p(xi) = 1

Kumulativna funkcija ili funkcija distribucije F(xi) – pokazuje kolika je vjerojatnost da sluĉajna

varijabla x poprimi vrijednost xi ili manju.

Page 33: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

33

kontinuirane sluĉajne varijable – opisuje razdiobu vjerojatnosti na intervalu vrijednosti varijable.

Njena svojstva:

- f(x) ≥ 0

-

1)( dxxf

Primjer 1.

KVALITETA PROIZVODA

(KLASA)

BROJ PROIZVODA UKUPNO

DOB A DOB B

I 20 10 30

II 10 10 20

III 30 20 50

UKUPNO 60 40 100

marginalne vjerojatnosti

a) Kolika je vjerojatnost odabira proizvoda I. klase? P(A1)=0.3

b) Kolika je vjerojatnost odabira proizvoda dobavljaĉa B? P(B2) = 0.4

c) Kolika je vjerojatnost izbora proizvoda III. klase dobavljaĉa A? P(A3∩B1) = 0.3

d) Kolika je vjerojatnost izbora proizvoda I. ili III. klase? P(A1UA3) = P(A1)+P(A3) = 0.3+0.5 = 0.8

e) Kolika je vjerojatnost da se izabere proizvod III. klase ili proizvod dobavljaĉa B?

P(A3UB2) = P(A3)+P(B2)-P(A3∩B2)= 0.5 + 0.4 – 0.2 =0.7

f) Kolika je vjerojatnost izbora proizvoda dobavljaĉa A ako je poznato da je III. klase?

6.05.0

3.0

)(

)()|(

3

1331

AP

BAPABP

g) Jesu li varijable kvaliteta i dobavljaĉ neovisne?

Ako bi varijable kvaliteta i dobavljaĉ bile neovisne, vjerojatnosti bi u polju tabele bile jednake umnošku

marginalnih vjerojatnosti 18.06.03.0)()()(

)()()(

1111

BPAPBAP

BPAPBAP jiji

Budući da je 0.2≠0.18, između kvalitete proizvoda i dobavljaĉa postoji zavisnost.

Primjer 2.

a) Pokaţite da je navedena distribucija, distribucija vjerojatnosti!

1)()2

0)()1

i

i

xp

xp DA

b) Odredite oĉekivanu vrijednost! 00.2)( ii xpxxF

c) Odredite vrijednosti funkcije distribucije! (tablica)

d) Odredite vjerojatnost p(x≤2)! 7.04.02.01.0)2( xp

KVALITETA PROIZVODA

(KLASA)

BROJ PROIZVODA UKUPNO

DOB A (B1) DOB B (B2)

I (A1) 0.2 0.1 0.3

II (A2) 0.1 0.1 0.2

III (A3) 0.3 0.2 0.5

UKUPNO 0.6 0.4 1

xi p(xi) xi p(xi) F(xi)

0 0.1 0 0.1

1 0.2 0.2 0.3

2 0.4 0.8 0.7

3 0.2 0.6 0.9

4 0.1 0.4 1.0

UKUPNO 1.0 2.0 -

Page 34: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

34

MODELI DISTRIBUCIJA VJEROJATNOSTI – temelj inferencijalne statistike

Distribucije vjerojatnosti diskretne sluĉajne varijable: (najĉešće se koriste binomna i poissonova)

1. BINOMNA

2. POISSONOVA

3. HIPERGEOMETRIJSKA

4. UNIFORMNA

1. BINOMNA DISTRIBUCIJA – njena je definicija povezana sa Bernaulijevim pokusom. Bernaulijev pokus je

sluĉajni pokus slijedećih svojstava: - ima dva ishoda (uspjeh i neuspjeh)

- vjerojatnost ishoda uspjeh je p, a neuspjeh q=1-p

- pokusi su neovisni

xnx

qpx

nxP

)(

)!(!

!

xnx

n

x

n

n-broj ponavljanja Bernaulijevih pokusa

p-vjerojatnst ishoda uspjeh

x-sluĉajni broj ishoda uspjeha

Oĉekivana vrijednost pnxE

Varijanca qpn 2

2. POISSONOVA DISTRIBUCIJA – graniĉni sluĉaj binomne distribucije. Prikladna je za opis rijetkih

događaja, tj. događaja koji se javljaju s malom vjerojatnošću.

!

)(x

exp

xn

x-broj povoljnih ishoda

Oĉekivana vrijednost xE

Varijanca 2

Primjer 3.

Prema raspoloţivim podaciima banke u prosjeku 5 stranaka po satu zahtijeva usluge oroĉavanja depozita.

Pretpostavi li se da stranke prispjevaju u banku neovisno, po satima u random vremenu s itom

vjerojatnosti, kolika je vjerojatnost da se pred šelterom za oroĉavanje nađu: (broj stranaka koje u jednom

satu za radnog vremena dolaze neovisno i s istom vjerojatnosti diskretna je sluĉajna varijabla koja se

ravna prema Poissonovoj distribuciji s parametrom = 5.)

a) 3 stranke? 14037.0!3

)3(5

e

P

b) više od 1 stranke?

03369.0!1

5)1(

00674.0!0

5)0(

95957.0)1()0(1)1(

15

05

ep

ep

ppxP

Page 35: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

35

PREDAVANJE #9

Distribucije vjerojatnosti kontinuirane sluĉajne varijable:

1. NORMALNA (GAUSSOVA)

2. STUDENTOVA (T-DISTRIBUCIJA)

3. 2 (HI-KVADRAT)

4. F-DISTRIBUCIJA

5. UNIFORMNA KONTINUIRANA

6. EKSPONENCIJALNA

1. NORMALNA (GAUSSOVA) DISTRIBUCIJA – najvaţnija distribucija vjerojatnosti.

- dvoparametarska funkcija (određena s 2 parametra) : oĉekivana vrijednost i varijanca ),( 2N

- zvonolika je i simtriĉna

- budući da aritmetiĉka sredina i standardna devijacija ovise o mjernim jedinicama varijable uvodi se

jediniĉna (standardizirana) normalna distribucija

xz

2

22 ;0);1,0( N

Jediniĉna normalna distribucija je tabelirana. U poljima tabele nalaze se površine koje predstavljaju

vjerojatnosti. U pred-stupcu tabele su sve vrijednosti izraţene kao brojevi s jednom decimalom. Druga

decimala nalazi se u zaglavlju.Budući da je distribucija simetriĉna u tabeli su dane samo vrijednosti z.

oznaĉena površina oznaĉava vjerojatnost da

sluĉajna varijabla poprimi vrijednost iz intervala od 0

do z.

Primjer 1.

Sluĉajna varijabla x distribuirana je po normalnoj distribuciji N ( μ,σ2 ). Odredite vjerojatnost da varijabla

poprimi vrijednost:

a) μ-σ < x < μ+σ

6826.03413.02)00.1(2

)11()(

zP

zpxp

Kaţemo da je 68.26% vjerojatno da će sluĉajna varijabla z zauzeti vrijednosti između -1 i 1 ili da će

sluĉajna varijabla x zauzeti vrijednost između μ-σ i μ+σ.

1)(

1)(

0

zz

zz

xz

Page 36: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

36

b) μ-2σ < x < μ+2σ

Kaţemo da je 95,44% vjerojatno da će sluĉajna varijabla z zauzeti vrijednost između -2 i 2 ili da će

sluĉajna varijabla x zauzeti vrijednost između μ-2σ i μ+2σ.

2. STUDENTOVA DISTRIBUCIJA

- njen oblik je određen veliĉinom n

- za n>30 (veliki uzorak) distribucija se po obliku pribliţava normalnoj distribuciji

- za n<30 (mali uzorak) distribucija je više razvuĉena na obje strane uzduţ apscise

- i ona je zvonolika i simetriĉna te tabelirana

- u pred-stupcu tablice nalaze se stupnjevi slobode, u zaglavlju su vjerojatnosti. U poljima tabele su

kritiĉne vrijednosti.

Vjerojatnost da će sluĉajna varijabla koja se ravna po Studentovoj

distribuciji poprimiti vrijednost veću od tα iznosi α.

Primjer 2.

Sluĉajna varijabla t distibuirana je po Studentovoj distribuciji s 8 stupnjeva slobode. Odredite slijedeće

vjerojatnosti:

a) P (t ≤ 1.397)

b) P (t ≤ -1.397)

9544.04772.02

)00.2(2)22(

)22(

zPzp

xp

900.0100.01397.11397.1 tptp

100.0397.1397.1 tPtP

Page 37: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

37

OSNOVNI POJMOVI INFERENCIJALNE STATISTIKE

INFERENCIJALNA STATISTIKA – skup analitiĉkih metoda koje polaze od uzorka.. Budući da se zakljuĉci

donose na temelju dijela podataka oni sadrţe pogrešku nastalu zbog primjene uzorka (Sampling error).

Faktori koji uvjetuju primjenu uzorka su slijedeći:

1. pojedini konaĉni skupovi sadrţe veliki broj ĉlanova pa bi njihovo istraţivanje zahtijevalo velika

financijska sredstva

2. do rezultata se dolazi u kraćem vremenu

3. uzorak se primjenjuje kada bi se istraţivanjem uništio ĉitav statistiĉki skup (npr.istraţivanje

trajnosti elektriĉnih ţarulja)

4. beskonaĉni skupovi istraţuju se iskljuĉivo metodom uzorka (pr.beskonaĉnog skupa:proizvodnja)

Dvije su osnovne zadaće metode uzorka:

1. procjenjivanje parametra

2. testiranje hipoteza

PLAN UZORKA – plan izbora jedinica u uzorak. Osnovna svrha plana je izbor reprezentativnog uzorka, tj.

uzorak mora biti umanjena slika osnovnog skupa.

S obzirom na naĉin izbora jedinica uzorka razlikuju se namjerni i slučajni uzorci.

1. namjerni uzorci – jedinice uzorka izabiru se prema odluci istraţivaĉa

prigodni uzorak – ispituju se dostupne jedinice (npr.javno mišljenje)

uzorak izabran na temelju prosudbe istraživača – istraţivaĉ izabire reprezentativne

jedinice pri ĉemu je potrebno da dobro poznaje osnovni skup

kvotni uzorak – anketari se slobodno odluĉuju za jedinice u sklopu kvota

Namjerni uzorci jednostavni su za primjenu te se ĉesto koriste. Analiziraju se metodama

deskriptivne statistike.

Nedostatak: nije moguće izraĉunati grešku nastalu zbog primjene uzorka.

2. sluĉajni uzorci – svaki elemnt ima vjerojatnost izbora veću od nule. Kod ovih uzoraka moguće je

izraĉunati grešku. Analiziraju se metodama inferencijalne statistike.

jednostavni slučajni uzorak – svaki element ima jednaku vjerojatnost izbora.

primjenjuje se kod homogenih skupova.

stratificirani uzorak – prikladniji je kod skupova koji pokazuju veći stupanj

varijabilnosti. Jedinice se izabiru iz homogenih dijelova osnovnog skupa koji se nazivaju

STRATUMI.

uzorak skupina – u uzorak se ne izabiru pojedini elementi nego njihove skupine.

Ponekad se primjenjuje sistematski izbor (npr.ako iz skupa od 10 000 ĉlanova biramo uzorak

veliĉine 1000 birat ćemo svaki 10. ĉlan). Budući da se radi o sluĉajnom uzorku potrebno je

odrediti sluĉajni poĉetak.

OKVIR IZBORA – popis ĉlanova statistiĉkog skupa (npr.biraĉki popis)

Page 38: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

38

PREDAVANJE #10

SAMPLING DISTRIBUCIJA – teorijska distribucija vjerojatnosti procjenitelja parametra. Zasniva se na

konceptu ponovljenih izbora sluĉajnih uzoraka iz danog osnovnog skupa pri ĉemu razliĉiti uzorci dovode do

razliĉitih vrijednosti procjena.

Primjer 1.

Vrijednosti numeriĉke varijable x koje tvore osnovni skup su 1, 3 i 5. Iz skupa se izabiru uzorci veliĉine

n=2. Izbor je s jednakom vjerojatnošću svakog elementa skupa odnosno svakog uzorka.

aritmetiĉka sredina osnovnog skupa (μ) 33

91

N

xN

i

i

standardna devijacija osnovnog skupa 3

8)( 2

N

xi

vrijednosti varijabla

elemenata u uzorku

1 ; 1 1 ; 3 1 ; 5 3 ; 3 3 ; 1 3 ; 5 5 ; 1 5 ; 3 5 ; 5

aritmetiĉka sredina

uzorka ix

1 2 3 3 2 4 3 4 5

Provest ćemo izbor s ponavljanjem – izbor u kojem se svaki izabrani element za uzorak nakon izbora vraća

u osnovni skup i tako sudjeluje u izboru sljedećeg elementa za uzorak.

Budući da je vjerojatnost izbora svakog sluĉajnog uzorka veliĉine n=2 jednaka, iznosi 1/9, distribucija je

sredina:

3)( ii xpxxE

sampling distribucija

Oĉekivana vrijednost sampling distribucije aritmetiĉkih sredina uzoraka jednaka je aritmetiĉkoj sredini

osnovnog skupa. Standardna devijacija sampling distribucije sredina prosjeĉno je odstupanje aritmetiĉkih

sredina od aritmetiĉke sredine osnovnog skupa. Ona izraţava pogrešku koja nastaje zbog primjene uzorka,

stoga se naziva standardnom pogreškom aritmetiĉke sredine.

aritmetiĉka

sredina uzorka ix

)( ixP )( ii xPx

1 1/9 1/9

2 2/9 4/9

3 3/9 9/9

4 2/9 8/9

5 1/9 5/9

ukupno 1 27/9=3

Page 39: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

39

PROCJENE PARAMETARA – parametar se procjenjuje brojem i intervalom.

Intervalna procjena sastoji se od određivanja granica u kojima će se naći nepoznati parametar.

).ˆ.....ˆ( procjenegreškaprocjenegreška

- karakteristika uzorka, a ujedno i procjena broja

- karakteristika osnovnog skupa koja se procjenjuje (npr. aritmetiĉka sredina, total i proporcija)

Procjenitelj :

nepristran – ako je njegova oĉekivana vrijednost jednaka parametru koji se procjenjuje ˆE

konzistentan – ako njegova standardna devijacija s porastom uzorka teţi nuli

PROCJENA ARITMETIĈKE SREDINE – moţe biti brojem i intervalom

procjena brojem – jednaka je aritmetiĉkoj sredini uzorka

intervalna procjena za veliki uzorak (n>30) – koristi se normalna distribucija (Gaussova)

x aritmetiĉka sredina uzorka

2

z koeficijent pouzdanosti koji se određuje na temelju

površina ispod normalne krivulje

x standardna pogreška procjene aritm.sredine

aritmetĉka sredina osnovnog skupa,a ujedno i

parametar koji se procjenjuje

1 razina signifikantnosti

intervalna promjena za mali uzorak (n≤30) – koristi se Studentova T – distribucija

1

22xx txtxP

2t -koeficijent pouzdanosti koji se određuje na temelju

studentove distribucije

Primjer 2.

Odredite vrijednost standardne pogreške procjene aritmetiĉke sredine osnovnog skupa za ove

sluĉajeve:

a) Procjenjuje se sredina konaĉnog skupa od 125 768 ĉlanova pomoću sluĉajnog uzorka veliĉine 1250

ĉlanova. Standardna devijacija osnovnog skupa iznosi 64.

N-broj elemenata osnovnog skupa

n-broj elemanata uzorka

Frakcija izbora (f) pokazuje da je u uzorak izabrano

pribliţno 1% osnovnog skupa.

1

22xx zxzxP

05000990125768

1250

1250

125768

.f;.N

nf

n

N

05.0,

05.0,1

fn

fN

nN

n

x

81019.1

1250

64

nx

Page 40: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

40

b) Sredina se procjenjuje pomoću sluĉajnog uzorka veliĉine 600 formiranog izborom svakog desetog ĉlana

konaĉnog osnovnog skupa, a varijanca skupa iznosi 100.

10100

60001010

600

2

nNn

N

n

38733.016000

6006000

600

10

1

05.0,1.06000

600

N

nN

n

fN

nf

x

c) Uzorak veliĉine 36 izabran je iz beskonaĉnog osnovnog skupa N(μ, 52)

beskonaĉni skup f<0.05 (kad u zadatku nemamo N pretpostavljamo da je skup beskonaĉan i f<0.05)

83333.06

5

36

5

nx

d)

10ˆ

2500

35679

n

N

- nepristrani procjenitelj standardne devijacije populacije (osnovnog skupa)

e) Veliĉina je uzorka 256 i ĉini 2% osnovnog skupa, a standardna devijacija uzorka je 32.

s – standardna devijacija uzorka

00392.2ˆ

06268.32ˆ

05.0,02.0

n

ff

x

n

ns

faktor korekcije

Primjer 3.

Tvrtka isporuĉuje vijke pakovanih po 100 komada. Kupac je primio pošiljku od 10000 pakovanja. Radi

kontrole izabran je sluĉajni uzorak od 60 pakovanja. Kontrolom je ustanovljen slijedeći broj neispravnih

vijaka po pakovanju: 4, 3, 3, 1, 3,…. Njihov zbroj je 117. 293,11760

1

260

1

i

i

i

i xx

Procjenite brojem i intervalom prosjeĉan broj neispravnih vijaka po pakovanju za cijelu pošiljku. Razina

povjerenja je 95%.

05.0,ˆ

05.0,1

ˆ

fn

fN

nN

n

x

05.0,07.035679

2500 f

N

nf

19287.0135679

250035679

2500

10

1

ˆ

N

nN

nx

12800100256

2

256

32

NN

n

s

Page 41: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

41

05.0,006.010000

60

60

fN

nf

uzorakvelikin

procjena brojem – procjenitelj aritmetiĉke sredine je aritmetiĉka sredina uzorka

295.160

117

N

xx

i procjena prosjeĉnog broja neispravnih vijaka po pakovanju

intervalni procjenitelj

1

22xx zxzxP

0.95:2 = 0.4750

z(P=0.4750) = 1.96

Kako nije poznata standardna devijacija osnovnog skupa potrebno je izraĉunati njezinu procjenu pomoću

podataka iz uzorka.

1

1

ˆ

22

n

xn

x ii

95.021529.268471.0

95.013535.096.195.113535.096.195.1

P

P

Interpretacija: S vjerojatnošću od 0.95 odnosno 95% oĉekuje se da će se prosjeĉan broj neispravnih

vijaka po pakovanju kretati između 0.68471 i 2.21529.

Primjer 4.

Ispituje se prosjeĉno trajanje pozivnih telefonskih razgovora preko telefonske centrale poduzeća Market.

Trajanje u minutama 10 sluĉajno odabranih razgovora iz evidencije 8967 razgovora bilo je slijedeće:

xi : 2 1 1 2 3 4 2 1 1 3

Pretpostavlja se da je trajanje pozivnih razgovora na centrali normalno distribuirano s nepoznatom

aritmetiĉkom sredinom i nepoznatom standardnom devijacijom.

Odredite granice za koje se moţe oĉekivati da obuhvaćaju prosjeĉno trajanje razgovora za osnovni skup.

Pouzdanost procjene je 90%.

13535.060

04840.1ˆ

04840.159

11760

1293

ˆ

2

nx

Page 42: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

42

min210

20

1

10

22

n

xx

txtxP

uzorakmalin

i

xx

koeficijent pouzdanosti t određuje se pomoću tablice studentove T-distribucije.

S vjerojatnošću od 90% oĉekuje se da će se prosjeĉno trajanje razgovora za osnovni skup kretati između

1.38901 i 2.61099.

PREDAVANJE #11

PROCJENA TOTALA OSNOVNOG SKUPA

TOTAL – zbroj vrijednosti numeriĉkog obiljeţja. Taj je parametar povezan s aritmetiĉkom sredinom.

N

T

N

xi

NT

Zbog toga se postupak procjenjivanja totala svodi na postupak procjenjivanja aritmetiĉke sredine.

procjena totala brojem - xNT ˆ

- xTN ˆ

intervalna procjena za veliki uzorak -

1ˆˆˆ

2TT

zTTzTP

91..

05.02

90.01

nss

90.061099.238901.1

90.033333.0833.1233333.0833.12

P

P

05.00011152.08967

10

33333.010

05409.1ˆ

05409.19

10

2050

1

1

ˆ

833.1

222

)9(

05.0

fN

nf

n

n

xn

x

t

x

ii

Page 43: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

43

2z - koeficijent pouzdanosti

T - standardna pogreška procjene totala

1 - razina pouzdanosti (povjerenja)

intervalna procjena za mali uzorak – kao koeficijent korisnosti koristi se 2

t .

ODREĐIVANJE VELIĈINE UZORKA ZA PROCJENU ARITMETIĈKE SREDINE OSNOVNOGA SKUPA

Veliĉina uzorka ovisi o slijedećim elementima:

1. vrsti osnovnog skupa (konaĉan ili beskonaĉan)

2. razini pouzdanosti procjene

3. ţeljenoj pouzdanosti procjene

4. stupnju varijabilnosti podataka

PRETHODNA VELIĈINA UZORKA n0 :

ako su pogreška (d) i stupanj varijabilnosti izraţeni apsolutno:

2

20

d

z

n

ako su pogreška (dr) i stupanj varijabilnosti izraţeni relativno:

rd

Vz

n

.2

0

KONAĈNA VELIĈINA UZORKA:

frakcija:

Primjer 1.

U grafiĉkoj djelatnosti zaposlena su 9 754 zaposlenika. Koliko zaposlenika treba izabrati u uzorak pomoću

kojega se procjenjuje prosjeĉni radni staţ svih zaposlenika. Procjenjuje se s 95% pouzdanosti. Tolerira se

pogreška od najviše ±0.5 godine. Pretpostavlja se da je σ osnovnog skupa 6 godina.

6

5.0

95.0)1(

9754

d

N

96.14750.0

4750.02

95.0

Pz

553

5.0

696.1

0

2

0

2

20

n

n

d

z

n

52305669.01

553

1

05.005669.09754

553

0

0

0

0

0

f

nn

fN

nf

Prema navedenim uvjetima u uzorak treba izabrati 523 zaposlenika.

05.0,1

05.0,

0

0

00

off

n

fn

nN

nf 0

0

Page 44: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

44

PROCJENA PROPORCIJE OSNOVNOG SKUPA

PROPORCIJA OSNOVNOG SKUPA – parametar koji predstavlja omjer broja ĉlanova osnovnog skupa s

određenim modalitetom obiljeţja i opsega statistiĉkog skupa

procjenitelj procjene brojem: n

mP ˆ m - broj elemenata s određenim modalitetom obiljeţja u uzorku

n - broj elemenata uzorka

Sampling distribucija proporcija uzoraka ima oblik binomne ili hipergeometrijske distribucije. Za dovoljno

veliki uzorak aproksimira se normalnom distribucijom.

intervalna procjena za veliki uzorak:

1ˆˆ

ˆ2

ˆ2

pp zppzpP

p-proporcija osnovnog skupa

TESTIRANJE HIPOTEZA O PARAMETRU

STATISTIĈKA HIPOTEZA – tvrdnja o veliĉini parametra ili o obliku distribucije osnovnog skupa ĉija se

istinitost ispituje pomoću sluĉajnog uzorka.

TESTIRANJE STATISTIĈKIH HIPOTEZA – postupak kojim se donosi odluka o prihvaćanju ili ne prihvaćanju

tvrdnje.

STATISTIĈKI TESTOVI:

parametarski – polazi se od danog oblika numeriĉke varijable u osnovnom skupu

neparametarski

Svaki postupak testiranja polazi od nulte (H0) i alternativne hipoteze (H1)

U postupku donošenja odluka mogu se pojaviti dvije vrste pogrešaka:

POGREŠKA TIPA I – nastaje ako se odbaci istinita nulta hipoteza

POGREŠKA TIPA II – nastaje ako se prihvati laţna nulta hipoteza

RAZINA ZNAĈAJNOSTI (RAZINA SIGNIFIKANTNOSTI) α – vjerojatnost odbacivanja istinite nulte hipoteze

β – vjerojatnost prihvaćanja laţne nulte hipoteze

SNAGA TESTA (1-β)– vjerojatnost odbacivanja laţne nulte hipoteze

TESTIRANJE HIPOTEZA O PRETPOSTVLJENOJ VRIJEDNOSTI ARITMETIĈKE SREDINE

OSNOVNOG SKUPA – ovo se testiranje provodi na temelju sluĉajnog uzorka od N ĉlanova

N > 30 veliki uzorak – TEST VELIKIM UZORKOM

N ≤ 30 mali uzorak – TEST MALIM UZORKOM

Testiranje se provodi u slijedećim koracima:

1. postavljanje hipoteza

2. identificiranje izraza za testnu veliĉinu i određivanje njene vrijednosti

3. odabir razine signifikantnosti i određivanje kritiĉnih granica

4. donošenje odluke

Page 45: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

45

Test moţe biti:

dvosmjeran

jednosmjeran (na donju ili na gornju granicu)

Odluka se moţe donijeti na iduće naĉine:

pomoću kritiĉnih granica

Z-test ; T-test

pomoću empirijske razine signifikantnosti tj. p-vrijednosti

DVOSMJERNI TEST – nije ograniĉen smjer odstupanja. Pretpostavka je da je aritmetiĉka sredina jednaka

pretpostavljenoj. Pretpostavka se formulira kao nulta hipoteza.

01

00

...........

...........

H

H

Primjer 2.

Prema standardu prosjeĉna trajnost elektriĉnih ţarulja od 75W iznosi 2000 h s prosjeĉnim odstupanjem

250 h. Iz serije ţarulja izabran je, uz frakciju izbora manju od 5%, sluĉajni uzorak 64 ţarulje. Ispitivanjem

je ustanovljeno da je prosjeĉna trajnost ţarulja u uzorku 1935 h. Moţe li se prihvatiti pretpostavka da je

uzorak izabran iz osnovnog skupa kojemu je aritmetiĉka sredina prema standardu tj.2000 h. testirati na

razini znaĉajnosti 5%.

2000........

2000........

1

0

H

H veliki uzorak normalna distribucija

%5

1935

64

05.0

250

x

n

f

25.3164

250

nx

Koeficijent znaĉajnosti za danu razinu znaĉajnosti određuje se pomoću površina ispod normalne krivulje.

Postupak određivanja toga koeficijenta jednak je postupku određivanja koeficijenta povjerenja pri procjeni

parametra. Međutim koeficijent znaĉajnosti odraţava razinu znaĉajnosti tj. vjerojatnost pogreške tipa I., a

koeficijent povjerenja razinu povjerenja procjene.

96.1)4750.0025.05.0 PzPz

1.

Ove kritiĉne granice izraţene su u mjernim jedinicama varijable.

ODLUKA:

12

11

021

HCx

HCx

HCxC

175.19381935 H

25.206125.3196.12000

75.193825.3196.1200

202

201

x

x

zC

zC

Page 46: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

46

Na danoj razini znaĉajnosti odbacuje se nulta hipoteza tj. ne prihvaća se pretpostavka da je uzorak

izabran iz skupa ţarulja s prosjeĉnom trajnošću 2000 h.

2. Z-test

test veliĉina ( empirijski z-omjer)

08.225.31

200019350

x

xz

ODLUKA:

1

2

02

Hzz

Hzz

196.108.2 H

3. Pomoću empirijske razine signifikantnosti tj. p-vrijednosti

Teorijska razina signifikantnosti sastavni je element. Ona predstavlja odabranu vjerojatnost

odbacivanja istinite nulte hipoteze.

Empirijska razina signifikantnosti ili opaţena razina signifikantnosti (p-vrijednost) vjerojatnost je

odbacivanja istinite nulte hipoteze izraĉunata pomoću podataka iz uzorka odnosno test veliĉina

(empirijskog z odnosno t omjera)

0376.04812.05.0208.222

08.2

zPzzPvrijednostp

z

ODLUKA:

1

0

Hp

Hp

105.00376.0 H

JEDNOSMJERNI TEST NA GORNJU GRANICU - od interesa je promatrati odstupanje na više. Pretpostavlja

se da je aritmetiĉka sredina osnovnog skupa veća od pretpostavljene. Pretpostavka se formulira kao

alternativna hipoteza. (“više od”, “najmanje”, “barem”)

01

00

...........

...........

H

H

Primjer 3.

Radi povećanja produktivnosti strojeva predloţena je njihova preinaka. Prema proraĉunima preinaka je

poslovno opravdana ako se postigne povećan broj operacija po satu i ako u prosjeku iznosi više od 120.

Na jednom stroju provedena je preinaka i evidentiran je broj operacija po satu 144 mjerenja. Prosjeĉan

broj operacija po satu iznosi je 125. Zbroj kvadrata vrijednosti mjerenja iznosi 2 307 600. Do kojeg se

zakljuĉka dolazi na temelju provedenog ispitivanja? Vjerojatnost odbacivanja istinite nulte hipoteze iznosi

5%.

120.......

120.......

1

0

H

H

Page 47: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

47

65.14500.005.05.0

67248.1144

06981.20ˆ

.05.0

06981.20143

12521442307600

2307600

125

144

2

2

PzPz

n

skupbeskf

n

xnx

x

x

uzorakvelikin

x

i

i

1. pomoću kritiĉnih granica

76.12267248.165.112002 xzC

ODLUKA:

12

02

HCx

HCx

176.122125 H

Odstupanje aritmetiĉke sredine uzorka na više znaĉajno je pa se prihvaća pretpostavka da je preinaka

strojeva opravdana.

2. Z-test

99.267248.1

1201250

x

xz

ODLUKA:

1

0

Hzz

Hzz

165.199.2 H

3. pomoću empirijske razine signifikantnosti tj. p-vrijednost

0014.04986.05.099.2

99.2

zPzzPvrijednostp

z

ODLUKA:

1

0

HP

HP

105.00014.0 H

Page 48: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

48

PREDAVANJE#12

JEDNOSMJERNI TEST NA DONJU GRANICU – od interesa je promatrati odstupanje na niţe. Pretpostavlja se

da je aritmetiĉka sredina osnovnog skupa manja od pretpostavljene. Pretpostavka se formulira kao

alternativna hipoteza. (“manje od”, “najviše”, “ne više od”)

01

0

.........

.........

H

Ho

Primjer 1.

Poslovodstvo banke odluĉilo je promijeniti programsku potporu šalterskog poslovanja kako bi se smanjio

prosjeĉni utrošak vremena obrade naloga stranaka i time skratilo vrijeme ĉekanja stranaka. Analizom je

utvrđeno da se promjena potpore isplati ako prosjeĉno vrijeme obrade iznosi najviše 30 sekundi po

nalogu. Razvojna sluţba banke izradila je programsku potporu koja se testira u odabranom broju

poslovnica. Na temelju podataka o trajanju obrade pomoću nove programske potpore za 453 sluĉajno

odabrana naloga izraĉunano je prosjeĉno utrošeno vrijeme po nalogu koje iznosi 28 sekundi s prosjeĉnim

odstupanjem 4 sekunde. Do kojeg se zakljuĉka dolazi na temelju provjere rada s novim programom?

Testirati na razini znaĉajnosti 2%.

30........

30........

1

0

H

H Uzorak je velik pa koristimo normalnu distribuciju.

02.0%2

4

28

453

s

x

n

18814.0453

0042.4

0042.4452

4534

x

n

ns

05.24800.002.05.0

05.0.

PzPz

fskupbesk

1. pomoću kritiĉne granice

61430.2918814.005.2302 xzC

ODLUKA:

11

01

HCx

HCx

161430.2928 H

Odstupanje aritmetiĉke sredine uzorka naniţe je znaĉajno na danoj razini signifikantnosti pa se

zakljuĉuje da nova programska potpora skraćuje vrijeme obrade naloga.

2. Z-test

test veliĉina (empirijski z-omjer) je:

630.1018814.0

30280

x

xz

ODLUKA:

1

0

Hzz

Hzz

105.2630.10 H

Empirijski z-omjer manji je od teorijske vrijednosti pa se na danoj razini signifikantnosti odbacuje nulta

hipoteza.

Page 49: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

49

TESTIRANJE HIPOTEZA O RAZLICI ARITMETIĈKIH SREDINA DVAJU OSNOVNIH SKUPOVA

NEZAVISNIM UZORCIMA

Uzorci su nezavisni ako rezultati opaţanja i mjerenja u jednome uzorku ne ovise o rezultatima opaţanja i

mjerenja u drugome uzorku, npr. ispitivanje efikasnosti rada radnika u dvije tvornice.

Uzorci su zavisni ako se vrijednosti iz uzorka dobivaju ponovljenim opaţanjem odnosno mjerenjem

odabrane varijable na istim jedinicama u razliĉitim vremenskim terminima, npr. mjerenje efikasnosti rada

radnika u istoj tvornici prije i nakon provedenog programa struĉnog usavršavanja.

DVOSMJERNI TEST – pretpostavlja se da su aritmetiĉke sredine osnovnih skupova jednake (μ1,μ2).

Pretpostavka se formulira kao nulta hipoteza.

0........

0........

211

210

H

H

Primjer 2.

Pomoću uzorka se ispituje razlika u prosjeĉnoj mjeseĉnoj potrošnji mlijeka ĉetveroĉlanih kućanstava u dva

naselja. U naselju Lug je 2500 ĉetveroĉlanih kućanstava, a u naselju Gaj 2000. Kod ĉetveroĉlanih

kućanstava u naselju Lug izabrano je u uzorak svako 50. kućanstvo, a od ukupnog broja ĉetveroĉlanih

kućanstava u naselju Gaj u uzorak je izabrano 2% kućanstava. Na temelju podataka iz uzorka kućanstava

naselja Lug utvrđena je prosjeĉna mjeseĉna potrošnja po kućanstvu 53 litre s prosjeĉnim odstupanjem od

1 litre. Pomoću vrijednosti iz uzorka kućanstava iz naselja Gaj utvrđena je prosjeĉna mjeseĉna potrošnja

po kućanstvu 50 litara s prosjeĉnim odstupanjem od 1.41 litre. Moţe li se prihvatiti pretpostavka da se

prosjeĉna mjeseĉna potrošnja mlijeka ĉetveroĉlanih kućanstava u naseljima Lug i Gaj signifikantno ne

razlikuju? Razini signifikantnosti je 3%.

0........

0........

211

210

H

H

ls

lx

n

1

53

50

1

1

1

ls

lx

n

41.1

50

40

2

2

2

17.24850.0015.05.0

03.0

PzPz

03908.239

4041.1

02041.143

501

2

2

22

2

2

2

2

1

12

1

2

1

n

ns

n

ns

standardna pogreška za velike uzorke: 26719.040

03908.2

50

02041.1ˆˆ

2

2

2

1

2

1

21

nnxx

1. pomoću kritiĉnih granica

57980.026719.017.200

57980.026719.017.200

21

21

22

21

xx

xx

zC

zC

test veliĉina: 35053ˆ21 xxD

Page 50: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

50

ODLUKA:

12

11

021

ˆ

ˆ

ˆ

HCD

HCD

HCDC

157980.03 H

Ne moţe se prihvatiti pretpostavka da se prosjeĉna mjeseĉna potrošnja mlijeka ĉetveroĉlanih

kućanstava u naselju Lug i Gaj signifikantno se ne razlikuju.

2. Z-test

test veliĉina (empirijski z-omjer)

22997.1126719.0

5053

21

21

xx

xxz

ODLUKA:

12

02

Hzz

Hzz

117.222797.11 H

JEDNOSMJERNI TEST NA GORNJU GRANICU – pretpostavlja se da je aritmetiĉka sredina prvog osnovnog

skupa veća od aritmetiĉke sredine drugog osnovnog skupa. Pretpostavka se formulira kao alternativna

hipoteza.

0.......

0.......

211

210

H

H

Primjer 3.

Ispituje se pretpostavka da su prosjeĉni izdaci za odjeću poljoprivrednih kućanstava veći od prosjeĉnih

izdataka za odjeću nepoljoprivrednih kućanstava. U tu svrhu odabrani su sluĉajni uzorci od po 500

kućanstava. Promatrani su godišnji izdaci.

poljoprivredna kućanstva nepoljoprivredna kućanstva

kns

knx

30.520

50.5900

1

1

kns

knx

50.480

70.5830

2

2

0.......

0.......

211

210

H

H

33.24900.001.05.0

01.0

PzPz

9359.231342499

50050.480

5992,271254499

50030.520

2

2

22

2

2

2

2

1

12

1

2

1

n

ns

n

ns

standardna pogreška za velike uzorke:

7048.31500

9359.231342

500

5992.271254ˆˆ

2

2

2

1

2

1

21

nnxx

Page 51: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

51

1. pomoću kritiĉne granice

8722.737048.3133.200212 xxzC

test veliĉina: 8.6970.583050.5900ˆ21 xxD

ODLUKA:

12

02

ˆ

ˆ

HCD

HCD

08722.7380.69 H

Ne moţe se prihvatiti pretpostavka da su prosjeĉni izdaci za odjeću poljoprivrednih kućanstava veĉi od

prosjeĉnih izdataka za odjeću nepoljoprivrednih kućanstava.

2. Z-test

test veliĉina (empirijski z-omjer)

20.27048.31

70.583050.5900

21

21

xx

xxz

ODLUKA:

1

0

Hzz

Hzz

033.220.2 H

3. pomoću empirijske razine signifikantnosti (p-vrijednost)

0139.04861.05.020.2

20.2

ZPzZPvrijednostp

z

ODLUKA:

1

0

Hp

Hp

001.00139.0 H

JEDNOSMJERNI TEST NA DONJU GRANICU – pretpostavlja se da je aritmetiĉka sredina prvog osnovnog

skupa manja od aritmetiĉke sredine drugog osnovnog skupa. Pretpostavka se formulira kao alternativna

hipoteza.

0........

0........

211

21

H

Ho

Primjer 4.

Ispituje se tvrdnja da su maloprodajne cijene prehrambenih proizvoda niţe u diskontima nego u klasiĉnim

prodavaonicama. U tu su svrhu odabrani sluĉajni uzorci od 50 maloprodajnih cijena u diskontima i 80

maloprodajnih cijena u klasiĉnim prodavaonicama. Uzorci cijena prikupljeni su u istom vremenskom

razdoblju i za isti prehrambeni proizvod.

diskonti klasiĉne prodavaonice

kns

knx

30.2

90.9

1

1

kns

knx

10.2

42.11

2

2

Moţe li se na osnovi podataka iz uzorka zakljuĉiti da je prosjeĉna maloprodajna cijena prehrambenih

proizvoda niţa u diskontima nego u klasiĉnim prodavaonicama? Razina signifikantnosti je 1%.

Page 52: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

52

0........

0........

211

21

H

Ho

4658.479

8010.2

3980.549

5030.2

33.24900.001.05.0

2

2

22

2

2

2

2

1

12

1

2

1

n

ns

n

ns

PzPz

standardna pogreška za velike uzorke:

4047.080

4658.4

50

3980.5ˆˆ

2

2

2

1

2

1

21

nnxx

1. Z-test

test veliĉina (empirijski z-omjer)

7064.34047.0

40.1190.9

21

21

xx

xxz

ODLUKA:

1

0

Hzz

Hzz

133.27064.3 H

Moţe se prihvatiti pretpostavka da je prosjeĉna maloprodajna cijena prehrambenih proizvoda niţa u

diskontima nego u klasiĉnim prodavaonicama.

PREDAVANJE #13

REGRESIJSKA ANALIZA – njom se ispituje ovisnost jedne varijable o drugoj varijabli ili o više drugih

varijabli, npr.proizvodnja o broju zaposlenih, potrošnja o visini plaće

ZAVISNA VARIJABLA – varijabla ĉije se varijacije objašnjavaju

NEZAVISNE VARIJABLE – varijable kojima se objašnjavaju varijacije zavisne varijable

REGRESIJSKI MODEL – jednadţba ili skup jednadţbi s konaĉnim brojem parametara i varijabli

linearni

nelinearni

MODEL JEDNOSTAVNE LINEARNE REGRESIJE – njime se izraţava odnos među dvjema pojavama.

Model sadrţi jednu zavisnu i jednu nezavisnu varijablu. Primjenjuje se za varijable koje su u linearnom

statistiĉkom odnosu.

DESKRIPITVNO STATISTIĈKA ANALIZA MODELA JEDNOSTAVNE LINEARNE REGRESIJE

opći oblik modela jednostavne regresije: efy x

f(x) – funkcionalni dio modela

e – stohastiĉka varijabla koja odraţava nesistemske utjecaje na zavisnu varijablu

Ako je funkcionalni dio modela oblika xf x model postaje: exy

Page 53: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

53

Ako su a i b procjene nepoznatih parametara α i β, a ui procjene nepoznatih vrijednosti varijable e, model

se moţe izraziti na slijedeći naĉin: iii ubxay

linearna regresijska jednadţba: ii bxay ˆ

Do procjene a i b dolazi se primjenom metode najmanjih kvadrata: 22

xnx

yxnyxb

i

ii

xbya

KONSTANTNI ĈLAN a - predstavlja vrijednost regresije u sluĉaju kada je nezavisna varijabla jednaka nuli

REGRESIJSKI KOEFICIJENT b - pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna

varijabla poveća za jedinicu.

JEDNADŢBA ANALIZE VARIJANCE

SRSPST

yyyyyy iiii

222

ˆˆ

ST – ukupan zbroj kvadrata

SP – protumaĉeni zbroj kvadrata

SR – rezidualni ili neprotumaĉeni zbroj kvadrata

iy - empirijske ili stvarne vrijednosti zavisne varijable

y - aritmetiĉka sredina zavisne varijable

iy - regresijske vrijednosti

Osnove za mjerenje reprezentativnosti regresije su rezidualna odstupanja.

Varijanca regresije aritmetiĉka je sredina kvadrata rezidualnih odstupanja:

n

SR

n

yy ii

y

2

2

ˆ

ˆ

Standardna devijacija regresije: n

SRy ˆ

Koeficijent varijacije regresije: 100ˆ

yV

y

y

Standardna devijacija regresije interpretira se kao prosjeĉno odstupanje empirijskih vrijednosti od

regresijskih izraţeno apsolutno.

Koeficijent varijacije je to isto odstupanje izraţeno relativno.

Specifiĉan pokazatelj reprezentativnosti regresije je koeficijent determinacije:

2

2

yy

yy

ST

SPr

i

i

102 r

Regresija je to reprezentativnija što se koeficijent determinacije više pribliţava jedinici.

Page 54: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

54

KORELACIJSKA ANALIZA – njome se određuju jakosti veze. Mjera jakosti veze je koeficijent korelacije.

Koeficijent korelacije drugi je korijen iz koeficijenta determinacije: 2

rr

bsignrsign 11 r

Ako je koeficijent korelacije jednak nula, među pojavama ne postoji veza.

Ako je koeficijent korelacije jednak -1, veza je potpuna i negativnog smjera.

Ako je koeficijent korelacije jendak +1, veza je potpuna i pozitivnog smjera.

Primjer 1.

U 6 prodavaonica na podruĉju A registriran je slijedeći broj zaposlenih i ostvareni promet u tisućama kn.

broj

zaposlenih

promet 2

ix 2

iy ii yx

ix iy

2 25 4 625 50

3 31 9 961 93

8 85 . . .

4 51 . . .

7 69 . . .

6 65 . . .

30 326 178 20 398 1900

a) Odredite status varijabli u modelu!

Zavisna varijabla (y) – promet u tisućama kuna

Nezavisna varijabla (x) – broj zaposlenih

b) Nacrtajte dijagram rasipanja!

Konstruira se u pravokutnom koordinatnom sustavu. Na osi-x nalazi se aritmetiĉko mjerilo za nezavisnu

varijablu (x), a na osi-y mjerilo za zavisnu varijablu (y). Predstavlja pomoćno sredstvo za izbor oblika

funkcije u modelu.

Iz dijagrama rasipanja se zakljuĉuje o :

1. obliku veze – oblik veze je linearan

2. smjeru veze – smjer je pozitivan

3. jakosti veze – veza je relativno jak

33.546

326

560

30

n

yy

n

xx

i

i

Page 55: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

55

c) Kako glasi linearna regresijska jednadţba s procijenjenim parametrima?

08.6565.933.54

65.956178

33.54561900222

xbya

xnx

yxnyxb

i

ii

xy

bxay

65.908.6ˆ

ˆ

Interpretacija:

a (konstantni ĉlan) – Kada je broj zaposlenih jednak 0 regresijska vrijednost ukupnog prometa je 6.08

tisuća kuna.

b (regresijski koeficijent) – Ako se broj zaposlenih poveća za jednu osobu tada će se ukupan promet

povećati linearno i u prosjeku za 9.65 tisuća kuna.

d) Odredite regresijske vrijednosti i vrijednosti rezidualnih odstupanja te relativnih rezidualnih odstupanja!

Regresijske vrijednosti određuju se tako da se u regresijsku jednadţbu redom uvrštavaju stvarne

vrijednosti nezavisne varijable.

Interpretacija:

Za dva zaposlena oĉekivana vrijednost ukupnog prometa iznosi 25.38 tisuća kuna.

ii yy ˆ

Rezidualna odstupanja izraĉunavaju se tako da se od stvarne varijable iy oduzme pripadajuća

regresijska vrijednost iy :

Relativna rezidualna odstupanja definiraju se izrazom:

Interpretacija:

Prema regresiji za 2 zaposlena precijenjen je ukupan promet za 0.38 tisuća kuna ili 1,52%.

e) Regresijski pravac ucrtajte u dijagram rasipanja!

f) Kolika varijanca, standardna devijacija i koeficijent varijacije regresije?

%76.610033.54

67.3100

.67.349.13

49.136

92.80ˆ

92.80190065.932608.620298

ˆ

ˆ

ˆ

2

2

ˆ

2

yV

kntisn

SR

n

yy

n

SR

yxbyaySR

y

y

y

ii

y

iiii

.

.

.

.

38.25265.908.6ˆ1 y

0

.38.038.2525

ˆ

i

i

iii

u

kntisu

yyu

%52.110025

38.2525

100ˆ

,1

,

rel

i

iireli

u

y

yyu

Page 56: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

56

Prosjeĉno odstupanje empirijskih vrijednosti prometa od regresijskih vrijednosti iznosi 3.67 tisuća kuna

ili relativno 6.76%

g) Izraĉunajte vrijednosti ĉlanova u jednadţbi rašĉlambe zbroja kvadrata odstupanja vrijednosti zavisne

varijable od njezine aritmetiĉke sredine! (jednadţba analize varijance)

92.80

89.260633.546190065.932608.6

51.268733.54620398

22

222

SPSTSR

ynyxbyaSP

ynyST

iii

i

h) Odredite koeficijent determinacije i koeficijent linearne korelacije!

97.051.2687

59.26062 ST

SPr

Interpretacija:

Linearnom regresijskom vezom protumaĉeno je 97% svih odstupanja. Na temelju toga moţe se

zakljuĉiti da je model reprezentativan.

98.097.02 rr

koeficijent determinacije apsolutna vrijednost

koeficijenta linearne

korelacije

tumaĉenje

2r r

0 0 odsutnost korelacije

0,00-0,25 0,00-0,50 slaba korelacija

0,25-0,64 0,50-0,80 korelacija srednje jaĉine

0,64-1 0,80-1 ĉvrsta korelacija

1 1 potpuna korelacija (perfektna)

Radi se o ĉvrstoj korelaciji pozitivnog smjera

i) Koliko iznosi korigirani koeficijent determinacije?

96.097.0116

161

,12

11

2

2222

r

rrrn

nr

j) Sastavite tabelu ANOVA!

Tabela ANOVA za jednostavnu regresiju:

izvor varijacije stupnjevi slobode zbroj kvadrata sredina kvadrata empirijski t-omjer

protumaĉen

modelom

1

1

SP

2606.59

SP/1

2606.59

2n

SR

SP 128.85

neprotumaĉena

(rezidualna)

odstupanja

n-2

4

SR

80.92

SR/(n-2)

20.23

/

UKUPNO n-1

5

ST

2687.51

/ /

Page 57: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

57

PREDAVANJE #14

INFERENCIJALNO-STATISTIĈKA ANALIZA MODELA JEDNOSTAVNE LINEARNE REGRESIJE – empirijske

vrijednosti zavisne varijable smatraju se uzorkom iz zamišljenoga beskonaĉnoga osnovnog skupa. U

sklopu inferencijalno-statistiĉke analize provodi se procjenjivanje parametara i testiranje hipoteza.

model osnovnog skupa (populacije): iii exy

α i β – nepoznati parametri populacije

e – nepoznate vrijednosti sluĉajne varijable

model uzorka: iii exy ˆˆˆ

ˆˆ i - procjene nepoznatih parametara

e - procjene nepoznatih vrijednosti sluĉajne varijable

Procjene parametara brojem u sklopu inferencijalne statistike jednake su procjenama u sklopu

deskriptivne statistike, tj. ba ˆ,ˆ

procjena varijance brojem:

2

ˆ

ˆ 1

2

2

n

yyn

i

ii

procjena standardne devijacije:

2

ˆ

ˆ 1

2

n

yyn

i

ii

intervalna procjena parametra β:

mali uzorak

1ˆˆ

ˆ2

ˆ2

ttP

veliki uzorak

1ˆˆ

ˆ2

ˆ2

zzP

22

2

ˆ

ˆ

xnx i

Primjer 1.

Dana je regresijska jednadţba :

ˆ

03.0

ˆ

ˆ

92.0125ˆ xy

U kojim se granicama moţe oĉekivati da će se naći parametar β? Pouzdanost procjene je 95%, a n=25.

069.2

2321..

23

025.0

2

2

tt

nknss

n

95.098207.085793.0

95.003.0069.292.003.0069.292.0

P

P

Uz pouzdanost od 95% oĉekuje se da će se nepoznati parametar naći unutar ovih granica.

Page 58: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

58

TESTIRANJE HIPOTEZA U MODELU JEDNOSTAVNE LINEARNE REGRESIJE – moţe se provesti na više

ekvivalentnih naĉina:

1. F-TEST

iii

ii

exyH

eyH

........

........

1

0 ili alternativno (ĉešće)

0.........

0.........

1

0

H

H

test veliĉina (empirijski f-omjer) :

2

1

2

ˆ

ˆ

n

i

i yy

F

Odluka se donosi usporedbom empirijskog f-omjera sa teorijskom vrijednošću

koja se oĉitava iz tablica.

2. T-TEST

test veliĉina (empirijski t-omjer) :

ˆ

ˆt

Odluka se donosi usporedbom empirijskog t-omjera sa teorijskom vrijednošću

koja se oĉitava iz tablica.

Test se moţe provesti kao dvosmjerni ili jednosmjerni (na donju ili gornju

granicu). Ako je β<0 jednosmjerni test na donju granicu

Ako je β>0 jednosmjerni test na gornju granicu

Primjer 2.

Dana je regresijska jednadţba:

ˆ

03.0

ˆ

ˆ

92.0125ˆ xy

Moţe li se prihvatiti pretpostavka da je varijabla x suvišna u modelu? Testirati na razini 5% signifikantnosti.

n=25. Primjenite t-test.

0.......

0.......

1

0

H

H dvosmjerni test 667.30

03.0

92.0ˆ

ˆ

t 069.2

05.0

23

025.0

t

ODLUKA:

12

2

Htt

Htt o

1069.2667.30 H

Nezavisna varijabla x nije suvišna u modelu.

MODEL VIŠESTRUKE REGRESIJE (MULTIPLA REGRESIJA) – njime se izraţava ovisnost jedne

varijable o više drugih varijabli.

ANALIZA MODELA VIŠESTRUKE LINEARNE REGRESIJE

model osnovnog skupa (populacije): exxxy kk .......2211

model uzorka: exxxy kkˆˆ......ˆˆˆ

2211 alternativno eyy ˆˆ

linearna regresijska jednadţba s procijenjenim parametrima: kk xxxy ˆ......ˆˆˆˆ2211

Page 59: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

59

Za procjenjivanje parametra koristi se metoda najmanjeg kvadrata.

- konstantni ĉlan – predstavlja vrijednost regresije kada su nezavisne varijable jednake 0.

j - regresijski koeficijent – pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna

varijabla xj poveća za jedan uz uvjet da ostale nezavisne varijable ostanu nepromijenjene.

REGRESIJSKE VRIJEDNOSTI – određuju se uvrštavanjem vrijednosti nezavisnih varijabli u regresijsku

jednadţbu.

REZIDUALNA ODSTUPANJA – odstupanja empirijskih vrijednosti od regresijskih izraţena apsolutno

iii yye ˆˆ

RELATIVNA REZIDUALNA ODSTUPANJA - 100ˆ

ˆ,

i

ii

reliy

yye

STANDARDIZIRANA REZIDUALNA ODSTUPANJE - 100ˆ

ˆˆ

,

ii

reli

yye

NEPRISTRANA PROCJENA VARIJANCE BROJEM -

11

ˆˆ

2

2

kn

SR

kn

yy ii

1

ˆˆ

2

kn

yy ii

INTERVALNE PROCJENE PARAMETARA -

1ˆˆ

ˆ2

ˆ2

jj

ttP jj

KOEFICIJENT VIŠESTRUKE DETERMINACIJE -

ST

SP

yy

yyR

i

i

2

2

opći pokazatelj kvalitete modela

Model je to reprezentativniji što je

koeficijent determinacije bliţe

jedinici.

TESTIRANJE HIPOTEZA O MODELU VIŠESTRUKE REGRESIJE – najĉešće se koriste slijedeći testovi:

1. PARCIJALNI TEST – testira se znaĉajnost podskupa nezavisne varijable

2. POJEDINAĈNI TEST – testira se znaĉajnost jedne nezavisne varijable. Moţe se

provesti i kao f-test i kao t-test

3. SKUPNI TEST – testira se znaĉajnost svih nezavisnih varijabli u modelu. Uvijek

se provodi kao f-test.

0........

0............

1

210

j

kj

H

H

U hipotezi H0 stoji da nijedna nezavisna varijabla nije znaĉajna za model.

U hipotezi H1 stoji da je barem jedna nezavisna varijabla znaĉajna za model.

Test veliĉina je empirijski f-omjer iz tabele ANOVA.

Odluka se donosi usporedbom empirijskog f-omjera sa teorijskom vrijednošću

koja se oĉitava iz tablica.

Page 60: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

60

TABLICA ANOVA ZA VIŠESTRUKU REGRESIJU:

k – broj nezavisnih varijabli

ukupna odstupanja: empirijske vrijednosti od prosjeka

protumaĉena odstupanja: regresijske vrijednosti od prosjeka

neprotumaĉena odstupanja: empirijske vrijednosti od regresijskih

PREDAVANJE #15

MODELI VREMENSKIH SERIJA – njima se opisuje razvoj pojava u vremenu.

Vremenska serija se moţe rašĉlaniti na slijedeće komponente:

KOMPONENTA TRENDA – predstavlja osnovnu tendenciju razvoja pojave u vremenu. Izraţava

se nekom funkcijom vremena. S obzirom na tu funkciju vremena trend moţe biti linearni i

eksponencijalni.

SEZONSKA KOMPONENTA – posljedica je klimatskih faktora, ritma, proizvodnje, potrošnje…

Oĉituje se onda kada se vremenska pojava obnavlja na pribliţno isti naĉin unutar jedne

godine.

CIKLIĈKA KOMPONENTA – oĉituje se onda kada se vremenska pojava obnavlja na pribliţno

isti naĉin s periodom od 2 ili više godine.

SLUĈAJNA (STOHASTIĈKA) KOMPONENTA – odraţava nesistematske utjecaje na pojavu

opći oblik aditivnog modela: eSCTY Y – pojava koju promatramo

T – vrijednost komponente trenda

C – vrijednost cikliĉke komponente

S – vrijednost sezonske komponente

e – vrijednost sluĉajne komponente

U kratkom vremenskom razdoblju trend i ciklus komponente se ne razdvajaju pa se model moţe pisati:

eSTCY ili eSTY T – komponenta trend ciklusa

opći oblik multiplikativnog modela: IITY s komponentaslučI

komponentasezonskaI s

.

izvor varijacije stupnjevi

slobode

zbroj

kvadrata

sredine

kvadrata

empirijski

f-omjer

protumaĉen

modelom

k SP

k

SP

1 kn

SRk

SP

neprotumaĉena

modelom

(rezidualna)

odstupanja

n-(k+1) SR

1 kn

SR

/

ukupno n-1 ST / /

Page 61: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

61

MODELI TRENDA – njima se statistiĉki opisuje dugoroĉna kovarijacija pojave sa vremenom

1. ADITIVNI MODEL: eTY

2. MULTIPLIKATIVNI MODEL: ITY

3. MODEL LINEARNOG TRENDA: ttt exY

4. MODEL EKSPONENCIJALNOG TRENDA: t

x

ttY

Primjer 1. Linearni trend

Model linearnog trenda identiĉan je modelu jednostavne linearne regresije u kojemu je vrijeme nezavisna

varijabla. Prikladan je kada se vremenska pojava mijenja od razdoblja do razdoblja za pribliţno isti

apsolutni iznos, tj. kada su prve diferencije pribliţno konstantne.

Stanovništvo SAD-a u milijunima, stanje sredinom godine

godina stanovništvo prve

diferencije

varijabla

vrijeme tt yx 2

tx 2

ty trend

vrijednosti

rezidualna

odstupanja

ty ty tx

ty tU

1992 255 - 1 255 1 65025 255.32 -0.32

1993 258 3 2 516 4 . 257.93 0.07

1994 261 3 3 . . . 260.53 0.47

1995 263 2 4 . . . 263.13 -0.13

1996 266 3 5 . . . 265.73 0.27

1997 268 2 6 . . . 268.33 -0.33

ukupno 1571 - 21 5544 91 411459 1571.00 0.00

a) Odredite vrijednosti prvih diferencija! Što se zakljuĉuje na temelju grafa i prvih diferencijacija?

1 ttt YYY

Ako su prve diferencije pribliţno konstantne radi se o linearnom trendu.

b) Procijenite parametre modela linearnog trenda metodom najmanjih kvadrata!

tt bxaY ˆ

Varijabla vrijeme – koliko podataka imamo toliko brojeva poprima (1,….,n)

83.2616

1571

5.36

21

n

yy

n

xx

t

t

716.2525.3604.283.261

604.25.3691

83.2615.365544222

xbYa

xnx

yxnyxb

t

tt

jednadţba linearnog trenda: godinajednajexzajedinicax

ovnikasmilijunjeyzajedinicaxY

1992.06.30,1

tan604.2716.252ˆ

trendaododstupanjaslučIe

trendakomponenteivrijednostT

serijevremenskeivrijednostY

.,

parametri

odstupanjasluče

brojevaprirodnihnprvih

ivrijednostpoprimadogovorno

kojavrijemeijablanezavisnax

t

t

,

.

var

Page 62: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

62

Interpretacija:

a (konstantni ĉlan) = 252.716

Vrijednost trenda broja stanovnika za godinu koja prethodi prvoj godini u nizu tj.za 1991. iznosi

252.716 milijuna.

b (koeficijent linearnog trenda) = 2.604

Pokazuje prosjeĉnu linearnu pojavu razine pojave za jediniĉni porast vrijednostii varijable vrijeme,

dakle broj stanovnika povećavao se u prosjeku linearno 2.604 milijuna godišnje

c) Odredite trend vrijednosti!

Raĉunaju se uvrštavanjem varijable vrijeme u jednadţbu trenda.

32.2551604.2716.252ˆ1 Y

Procjena broja stanovnika prema trendu za 1992. iznosi 255.32 milijuna. tt YY ˆ

d) Odredite rezidualna osdtupanja i protumaĉite im znaĉenje!

32.032.255255

ˆ

1

U

YYU ttt 0 tU za malu decimalu se moţe razlikovati od 0 zbog zaokruţivanja

Interpretacija:

Stvarni broj stanovnika zta 1992.g. iznosi 255 milijuna, a vrijednost trenda broja stanovnika za tu

godinu 255.32 milijuna. Razlika predstavlja rezidualno odstupanje, tj. prema trendu broj stanovnika je

precijenjen za 0.32 milijuna

e) Formulirajte tabelu ANOVA!

72.123

59.55544604.21571716.252411459

31.12983,2616411459

2

322

SRSTSP

yxbYaYSR

ynYST

tttt

t

izvor varijacije stupnjevi

slobode

zbroj

kvadrata

sredina

kvadrata

empirijski f-omjer

protumaĉen

modelom

k

1

SP

123.72

SP/k

123.72 )1( knSR

kSP 88.37

neprotumaĉena

odstupanja

n-(k+1)

4

SR

5.59

SR/n-(k+1)

1.40

/

ukupno n-1

5

ST

129.31

/ /

f) Izraĉunajte varijancu, standardnu devijaciju i koeficijent varijacije trenda! to su mjere reprezentativnosti

trenda.

Interpretacija:

Prosjeĉno odstupanje stvarnog broja stanovnika od

vrijednosti trenda iznosi 0.30 milijuna ili relativno

0.11%. Na temelju ovih pokazatelja moţe se zakljuĉiti

da je reprezentativnost trenda velika.

%11.010083.261

30.0100

tan30.0

93.06

59.5ˆ

ˆ

ˆ

2

ˆˆ

2

2

ˆ

yV

ovnikasmilijuna

n

SR

n

yY

y

y

yy

tt

y

Page 63: STATISTIKA – znanstvena metoda koja se bavi prikupljanjem ... · MJERE ZAOBLJENOSTI ... MJERENJE – postupak pridruţivanja numeriĉkih i nenumeriĉkih oznaka jedinicama statistiĉkih

Doc.dr.sc. Draţenka Ĉizmić – predavanja 2009.g. UPLOADANO NA: www.referada.hr

63

Primjer 2. Eksponencijalni trend

Prikladan je kada se vremenska pojava mijenja od razdoblja do razdoblja za pribliţno isti relativni iznos, tj.

kada su veriţni indeksi pribliţno konstantni.

primjer eksponencijalnog trenda xabY ˆ

xbn

Ya

xnx

YxYxb

bxay

t

t

ttt

loglog

log

logloglog

loglogˆlog

22

Logaritamskom transformacijom model eksponencijalnog trenda svodi se na model linearnog trenda. U

linegriziranom modelu se umjesto originalnih vrijednosti koriste njihovi logaritmi.

Interpretacija:

a (konstantni ĉlan)

To je trend vrijednost za razdoblje prije prvoga.

b (koeficijent eksponencijalnog trenda)

Pokazuje za koliko će se puta promijeniti trend vrijednost ako se varijabla vrijeme poveća za 1.