Transcript
Page 1: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

STATISTIKA

Doc.dr.sc.Draženka Čizmić - predavanja 2009.g -

1

Page 2: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

SADRŽAJ:1. UVOD

Statistički skup................................................................................... 4 Vrste i izvori statističkih podataka.................................................... 4

2. UREĐIVANJE PODATAKA

Statistički nizovi i tabele.............................................. 5 Numerički nizovi........................................................... 7

3. OSNOVNA ANALIZA VREMENSKIH NIZOVA ................................................................ Grafičko prikazivanje vremenskih nizova..................... 10 Individualni indeksi....................................................... 10

4. SREDNJE VRIJEDNOSTI STATISTIČKOG NIZA

Mod....................................................................................................

.....................................................................................12 Medijan.............................................................................................

.....................................................................................13 Aritmetička sredina...........................................................................

.....................................................................................15 Geometrijska sredina.......................................................................

.....................................................................................17 Skupni indeksi..................................................................................

.....................................................................................185. MJERE DISPERZIJE

Raspon varijacije, Interkvartil, Koeficijent kvartilne devijacije....... 19 Srednje apsolutno odstupanje (MAD)........................................... 22 Varijanca, Standardna devijacija, Koeficijent varijacije.................. 23 Standardizirana varijabla..................................................................

.....................................................................................256. MJERE ASIMETRIJE

Koeficijent asimetrije, Pearsonova mjera, Bowleyjeva mjera........ 267. MJERE ZAOBLJENOSTI

Koeficijent zaobljenosti....................................................................

.....................................................................................298. MJERE KONCENTRACIJE

Koncentracijski omjer, Ginijev koeficijent....................................... 319. OSNOVNI POJMOVI VJEROJATNOSTI

2

Page 3: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Definicije i svojstva vjerojatnosti......................................................

.....................................................................................32 Modeli distribucija vjerojatnosti.......................................................

.....................................................................................3410................................................................OSNOVNI

POJMOVI INFERENCIJALNE STATISTIKE Plan uzorka.......................................................................................

.....................................................................................37 Sampling distribucija........................................................................

.....................................................................................3811................................................................PROCJENE

PARAMETRA Procjena aritmetičke sredine...........................................................

.....................................................................................39 Procjena totala osnovnog skupa..................................................... 42 Procjena proporcije osnovnog skupa............................................. 44

12................................................................TESTIRANJE HIPOTEZA O PARAMETRU Testiranje hipoteza o pretpostavljenoj vrijednosti aritmetičke

sredine osnovnog skupa................................................................ 44 Testiranje hipoteza o razlici aritmetičkih sredina dvaju

osnovnih skupova nezavisnim uzorcima.......................................... 4913................................................................REGRESIJSKA

ANALIZA Model jednostavne linearne regresije............................................... 52

- deskriptivno statistička analiza modela............................... 52- inferencijalno statistička analiza modela............................ 57- testiranje hipoteza o modelu................................................ 58

14................................................................MODEL VIŠESTRUKE REGRESIJE Analiza modela višestruke regresije................................................

.....................................................................................58 Testiranje hipoteza o modelu višestruke regresije......................... 59

15................................................................MODELI VREMENSKIH SERIJA Komponente vremenskih serija.......................................................

.....................................................................................60

3

Page 4: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Modeli trenda....................................................................................

.....................................................................................61

4

Page 5: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

PREDAVANJE #1

STATISTIKA – znanstvena metoda koja se bavi prikupljanjem, uređivanjem, analizom i tumačenjem podataka.

DESKRIPTIVNA – u okviru deskriptivne statistike zaključci se donose na temelju svih podataka. Ona obuhvaća postupke uređivanja, grupiranja, tabeliranja, grafičkog prikazivanja te izračunavanja različitih statističko-analitičkih veličina

INFERENCIJALNA – u sklopu inferencijalne statistike zaključci se dodose na temelju dijela podataka (uzoraka). Temelji se na teoriji vjerojatnosti

STATISTIČKI SKUP – čine jedinice koje su predmetom promatranja statističkom metodom. Možemo promatrati osobe, poduzeća, zemlje, proizvode itd.OPSEG SKUPA – broj jedinica. S obzirom na opseg statistički skupovi se dijele na:

KONAČNI STATISTIČKI SKUP – studenti upisani na efzg BESKONAČNI STATISTIČKI SKUP – bacanje novčića ili proizvodnja

Statistički skupovi definiraju se pojmovno, prostorno i vremenski.

OSNOVNI SKUP (POPULACIJA) – skup podataka o promatranom svojstvu za svaku jedinicu statističkog skupa.UZORAK – podskup, dio osnovnog skupa. Dio podataka izdvojen iz cjelovite evidencije.

STATISTIČKO OBILJEŽJE (VARIJABLA) – svojstvo koje stupnjem ili oblikom varira od jedinice do jedinice statističkog skupa.

VRSTE STATISTIČKOG OBILJEŽJA:1. NUMERIČKO (KVANTITATIVNO) – izražava se brojevima

DISKRETNO (diskontinuirano) – poprima isključivo cjelobrojne vrijednosti. npr. broj učenika u razredu, broj djece u obitelji

KONTINUIRANO – može poprimiti bilo koju vrijednost iz nekog intervala. npr. visina, težina, cijena...

2. KVALITATIVNO NOMINALNO (atributivno i geografsko) – izražava se opisno ili riječima. npr.

atributivno – spol, zanimanje ; geografsko – mjesto rođenja REDOSLIJEDNO (obilježje ranga) – npr. ocijena, stupanj kvalitete

MJERENJE – postupak pridruživanja numeričkih i nenumeričkih oznaka jedinicama statističkih skupova na temelju određenog pravila. Temelji se na primjeni mjerih skala.MJERNE SKALE:

1. NOMINALNA – sastoji se od liste naziva2. ORDINALNA – ovom skalom jedinicama statističkih skupova pridružuju se slovne

oznake, simboli ili brojevi sukladno intenzitetu mjernog svojstva3. INTERVALNA - ovom skalom jedinicama statističkih skupova pridružuju se brojevi

sukladno intenzitetu mjernog svojstva. Za ovu skalu karakteristično je da ima definiranu mjernu jedinicu i dogovorno utvrđenu nulu. npr. temperaturna ljestvica.

5

Page 6: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

4. OMJERNA - ovom skalom jedinicama statističkih skupova pridružuju se brojevi sukladno intenzitetu mjernog svojstva. Za ovu skalu karakteristično je da ima definiranu mjernu jedinicu i nulu koja označava nepostojanje svojstva. npr. plaća, broj zastoja rada stroja.

IZVORI PODATAKA: PRIMARNI – prikupljaju se u skladu s ciljem istraživanja. SEKUNDARNI – prikupljaju ih razne institucije (državni zavod za statistiku,

banke, agencije za istraživanje tržišta, osiguravajući zavodi...)

PREDAVANJE #2

UREĐIVANJE PODATAKA – uređivanjem podataka nastaju statistički nizovi

STATISTIČKI NIZOVI:1. NOMINALNI NIZ – nastaje uređivanjem podataka o nominalnom obilježju2. REDOSLIJEDNI NIZ – nastaje uređivanjem podataka o rang varijabli3. NUMERIČKI NIZ – nastaje uređenjem podataka koji predstavljaju vrijednosti

numeričke varijable4. VREMENSKI NIZ – nastaje kronološkim nizanjem podataka o nekoj pojavi

(proizvodnja,uvoz,izvoz)

STATISTIČKE TABELE: JEDNOSTAVNA

SKUPNA – sadrži barem dva niza koji su grupirani prema modalitetima istog obilježja

Poljoprivredna površina po kategorijama u tisućama hektara u RH, 2003.g

KATEGORIJE POVRŠINAoranice i vrtovi 1460

voćnjaci 68vinogradi 57

livade 396pašnjaci 1156izvor: SLJRH, 2004.g., str.250

Izvoz i uvoz prema pretežnoj ekonomskoj namjeni u milijunima am. $ u RH, 2003.g.EKONOMSKA NAMJENA IZVOZ UVO

Zproizvodi za reprodukciju 2959 6583proizvodi za investicije 1341 3316

proizvodi za široku potrošnju

1886 4311

izvor: SLJRH, 2004.g., str.386

6

Page 7: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

KOMBINIRANA (TABELA KONTIGENCE, TABELA S DVA ULAZA) – podaci su grupirani prema modalitetima dvaju ili više varijabli

Stanovništvo prema spolu i starosti u tisućama u RH, popis iz 2001.g.

STAROST SPOLM Ž

0 – 14 388 37015 – 64 1482 1501

65 - 266 430izvor: SLJRH, 2004.g., str.95

RELATIVNI BROJEVI – omogućavaju elementarnu analizu podataka u sklopu deskriptivne statistike

proporcije (dio/cjelina), postoci (dio/cjelina*100) odnosno relativne frekvencije indeksi relativni brojevi koordinacije – omjerni brojevi koji nastaju diobom dvaju

koordinirajućih veličina (npr.gustoća stanovništva, dohodak po stanovniku, BDP per capita)

NIZOVI KVALITATIVNIH PODATAKAKvalitativni podaci su oblici nominalne ili redoslijedne varijable.

ako ih je mali broj navode se nekim redom odabranim po volji ili prema intenzitetu mjernog obilježja kod redoslijednih podataka (npr.ocjene od najmanje prema najvećoj)

ako se radi o većem broju podataka pristupa se grupiranju. Grupiranjem se skup podataka raščlanjuje na podskupove koji se međusobno ne preklapaju.

FREKVENCIJA – broj podataka istog ili sličnog modaliteta varijable

NOMINALNI ILI REDOSLIJEDNI NIZ čine parovi različitog oblika kvalitativne varijable o i

i pripadajućih frekvencija fi (oi, fi), i=1,2,....,k

Učenici i studenti koji su završili osnovnu ili srednju školu odnosno diplomirai na

visokim učilištima u RH, 2003.g.STUPANJ

OBRAZOVANJABROJ OSOBA

oi fi

osnovno 51211srednje 47092

stručni studij 6489sveuč.studij 9243

ukupno 114035izvor: SLJRH, 2004.g., str.487

OPSEG SKUPA – zbroj frekvencija

7

Page 8: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

RELATIVNA FREKVENCIJA – omjer frekvencije i opsega skupa POSTOTNA RELATIVNA FREKVENCIJA – relativna frekvencija pomonožena sa 100

nizovi sa relativnim frekvencijama (oi, pi) ili (oi, Pi)Kvalitativni nizovi grafički se prikazuju površinskim grafikonima:

STUPCI (položeni, uspravni) STRUKTURNI KRUGOVI I POLUKRUGOVI RAZDIJELNI STUPCI VIŠESTRUKI STUPCI

NUMERIČKI NIZOVI – nastaju uređenjem numeričkih podataka. Način njihova uređivanja ovisi o tome da li su podaci diskretni ili kontinuirani.NAČINI UREĐIVANJA:

1. mali broj podataka - uređuje se nizanjem po veličini. Pojedinačni numerički podaci grafički se prikazuju dijagramom s točkama i dijagramom stablo-list (S-L dijagram)Primjer 1.Podaci o prodaji proizvoda A za 15 dana jednog razdoblja:Xi: 8, 15, 9, 17, 20, 14, 34, 27, 30, 18, 10, 18, 24, 25, 29Podaci uređeni po veličini:Xi: 8, 9, 10, 14, 15, 17, 18, 18, 20, 24, 25, 27, 29, 30, 34

dijagram s točkama:

dijagram stablo-list:

0 8 91 0 4 5 7 8 82 0 4 5 7 93 0 4

O|8 predstavlja 8

2. diskretno obilježje - velik broj podataka i manji broj oblika – pristupa se grupiranju. Numerički niz odnosno distribucija frekvencija se sastoji od parova (xi, fi), i=1,2,....,k

xi – modaliteti numeričkog obilježja

8

Page 9: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

fi – pripadajuće frekvencije Primjer 2.

Dnevna prodaja garnitura sobnog namještaja

BROJ GARNITURA

BROJ DANA

xi fi1 12 53 84 265 196 12

ukupno 71

3. kontinuirano obilježje/ diskretno obilježje s većim brojem oblika – grupiranje se provodi na temelju razreda. Svaki razred ima donju i gornju granicu.frekvencija razreda – broj podataka omeđen donjom i gornjom granicom razredaNumerički niz odnosno distribucija frekvencija sastoji se od parova razreda i pripadajućih frekvencija (Li1 ≤ xi ≤ Li2, fi), i= 1,2,....,kLi1 – donja granica i-tog razreda; Li2 – gornja granica i-tog razreda; fi – frekvencija i-tog razredaPrimjer 3.

Radnici poduzeća A prema starosti

STAROST BROJ RADNIKA18 – 26 526 – 34 634 – 42 1042 – 50 550 – 58 4ukupno 30

Formiranju distribucije frekvencija prethodi određivanje broja razreda i njihove veličine. Za određivanje broja razreda koristi se Sturgesovo pravilo: k ≈ 1 + 3,3 logN k-broj razreda; N-zbroj frekvencija

Ako su razredi jednakih veličina, veličina im se aproksimira tako da se raspon

varijacije podijeli sa brojem razreda:

Razredi jednakih veličina primjenjuju se kada su podaci simetrično raspoređeni.Razredi različitih veličina primjenjuju se kada su podaci asimetrično raspoređeni.

9

Page 10: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Pri brojčanoj analizi numeričkog niza potrebno je utvrditi da li su granice prave, a nakon toga odrediti veličinu razreda i rezredne sredine.

GRANICE RAZREDA: PRAVE – donja granica tekućeg razreda je jednaka gornjoj granici

prethodnog razreda NOMINALNE – pretvaraju se u prave tako da se svaka donja granica

umanji za polovicu jedinice, a svaka gornja se uveća za polovicu jedinice. To vrijedi za sve slučajeve osim za navršene godine života. Kod navršenih godina života svaka se gornja granica poveća za jedinicu.

VELIČINA RAZREDA – određuje se kao razlika gornje i donje prave granice razredaREZREDNA SREDINA i-tog razreda – određuje se kao poluzbroj gornje i donje prave granice razreda

Distribucija frekvencija grafički se prikazuje histogramom i poligonom frekvencija.

10

Page 11: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Primjer 4.

Prvi i posljednji razred mogu biti otvoreni razredi. Njihove se veličine procjenjuju i procjena se stavlja u zagradu.

Kada su razredi različitih veličina potrebno je korigirati frekvencije:

- ova se formula koristi kada su svi razredi različitih veličina, a može se

koristiti i generalno

- bazna veličina razreda (najčešće se pojavljuje)

IZVEDENI NIZOVI: KUMULATIVNI NIZ – nastaje postupnim zbrajanjem apsolutnih ili relativnih

frekvencija. On se grafički prikazuje kumulantom.

Primjer 5.

Nepismeno stanovništvo staro 10.g. i više prema starosti u RH prema popisu iz 2001.g.

STAROST BROJ OSOBA

PRAVE GRANICE

RAZREDNA SREDINA

VELIČINA REZREDA

KORIGIRANE FREKVENCIJE

fi xi ii1 2 3 4 5 6

10-19 1845 9.5-19.5 14.5 10 276820-34 3160 19.5-34.5 27 15 316035-49 4457 34.5-49.5 42 15 445750-64 11108 49.5-64.5 57 15 11108

65-(99) 49207 64.5-(99.5) 82 35 21089UKUPNO 69777 - - - -

Stanovništvo prema starosti u RH u tisućama prema popisu iz 2001.g.

STAROST BROJ OSOBA PRAVE GRANICE

KUMULATIVNI NIZ

0-14 758 -0.5 – 14.5 75815-64 2983 14.5 – 64.5 3741

65-(99) 696 64.5 – (99.5) 4437

11

Page 12: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

PREDAVANJE #3

VREMENSKI NIZ – skup kronološki uređenih vrijednosti koje predstavljaju neku pojavu (proizvodnja, uvoz, izvoz).ČLANOVI NIZA – vrijednosti koje tvore niz

Vremenski niz nože biti: INTERVALNI – nastaje trajanjem vrijednosti pojave po intervalima vremena

(godina, kvartal, mjesec) npr. proizvodnja, uvoz, izvoz... TRENUTAČNI – sastoji se od kronološki uređenih vrijednosti koje

predstavljaju stanja pojave u odabranim vremenskim točkama (početak, sredina, kraj) npr. stanje na računima, zaključne cijene dionica..

GRAFIČKO PRIKAZIVANJE VREMENSKIH NIZOVA: INTERVALNI NIZOVI prikazuju se površinskim i linijskim grafikonima. TRENUTNI NIZOVI prikazuju se samo linijskim grafikonima

Radi lakšeg praćenja u grafikon se ucrtava mreža. Prikaz je u pravokutnom koordinatnom sustavu s aritmetičkim mjerilima na osima. Na osi apscisa je mjerilo za varijablu vrijeme, a na osi ordinata za članove vremenskog niza.

OKOMITI PREKID GRAFIKONA – ako se ne raspolaže podacima za dio razdoblja moguće je izostaviti dio mjerila na osi apscisa.VODORAVNI PREKID GRAFIKONA – ako neka pojava varira na velikim razinama moguće je izostaviti dio mjerila osi ordinata.Prekidaju se samo linijski grafikoni.

POLULOGARITAMSKI GRAFIKON – koristi se ako se na istom grafikonu uspoređuju raznorodni podaci (nizovi izraženi u različitim mjernim jedinicama). To je grafikon sa aritmetičkim mjerilom na osi apscisa, a logaritamskim na osi ordinata.

INDIVIDUALNI INDEKSI – njima se prati razvoj jedne pojave u vremenu verižni indeksi – njima se prati razvoj pojave u uzastopnim vremenskim

razdobljima. Verižni indeks Vt razdoblja t dobije se tako da se vrijednost toga

12

Page 13: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

razdoblja podijeli s vrijednošću prethodnog razdoblja te se pomnoži sa sto

Verižni indeksi se grafički prikazuju specifičnim linijskim grafikonom i grafikonom jednostavnih stupaca.KOEFICIJENT DINAMIKE – vrijednost tekućeg razdoblja podijeljena sa

vrijednošću prethodnog razdoblja ne pomnožena sa sto STOPA PROMJENE – od verižnog indeksa se odbije sto

Primjer 1.

Izvoz RH u milijunima US$ u razdoblju od 1999. do 2003.g.GODINA IZVOZ VERIŽNI INDEKSI STOPA

PROMJENEyt Vt St

1999 4302 - -2000 4432 103,2 3,022001 4665 105,26 5,262002 4904 105,12 5,122003 6197 126,36 26,36

izvor: SLJRH 2004., str.384

Indeks se interpretira kao postotna promjena u odnosu na 100. Ako je veći od 100 predstavlja postotno povećanje, a ako je manji od 100 predstavlja postotno smanjenje.npr. Izvoz u RH u 2003.g. povećao se za 26.36% u odnosu na 2002.g.

indeksi na stalnoj bazi – njima se mjere promjene u odnosu na neko odabrano bazno razdoblje. Izračunavaju se tako da se svaki član niza podijeli

s vrijednošću baznog razdoblja te pomnoži sa 100

BAZNO RAZDOBLJE – razdoblje u kojemu pojava nije bila izložena nekim neuobičajenim utjecajima (prirodne katastrofe, rat). Ponekad se uzima neka vrijednost izvan niza ili nekakav prosjek.STOPA PROMJENE – kad od indeksa odbijemo sto Bazni indeksi se grafički prikazuju linijskim grafikonom jednostavnih stupaca.

Primjer 2.GODINA IZVOZ BAZNI INDEKSI

1999 = 100STOPA

PROMJENE1999 4302 100,00 0,002000 4432 103,02 3,022001 4665 108,44 8,44

13

Page 14: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

2002 4904 113,99 13,992003 6197 144,05 44,05

U 2003.g. izvoz se povećao za 44.05% u odnosu na baznu 1999.g.

SREDNJE VRIJEDNOSTI STATISTIČKOG NIZA – konstante kojima se predstavljaju nizovi varijabilnih podataka.

POTPUNE – računaju se na temelju svih podataka. U njih se ubrajaju aritmetička, geometrijska i harmonijska sredina.

POLOŽAJNE – u pravilu su jednake jednom modalitetu statističke varijable. U njih se ubrajaju MOD i MEDIJAN.

MOD – najčešći modalitet varijable, odnosno to je modalitet varijable s najvećom frekvencijom

1. pojedinačni podaci – kod pojedinačnih podataka MOD je vrijednost koja se najčešće pojavljujePrimjer 3.Slijedeći niz predstavlja cijene jednog proizvoda evidentirane na 10 prodajnih

mjesta u kn:25 24 25 23 25 22 21 25 20 25 Najčešća prodajna cijena (MOD) je 25 kn.

2. distribucija frekvencija formirana na temelju pojedinačnih vrijednosti – tu je MOD modalitet varijable s najvećom frekvencijom

Primjer 4.

MOD distribucije dnevne prodaje garnitura namještaja iznosi 4, tj. najčešća dnevna prodaja iznosila je 4 garniture

3. distribucija frekvencija sa razredima – MOD se aproksimira pomoću izraza:

b – najveća korigirana frekvencijaa – frekvencija ispred njec – frekvencija iza njeL1 – donja prava granica modalnoga razredai – njegova veličina

Dnevna prodaja garnitura sobnog namještaja

BROJ GARNITURA

BROJ DANA

xi fi

1 12 53 84 265 196 12

UKUPNO 71

14

Page 15: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

MODALNI RAZRED – razred s najvećom korigiranom frekvencijom

Primjer 5.

Mo = 24.5 + (460.8-216.0)/(460.8-216.0)+(460.8-246.7) * 25 = 37.84 godNajčešća starost aktivnog stanovništva u RH u 2003.g. iznosi 37.84 godine.

MEDIJAN – srednja vrijednost koja numerički niz uređen po veličini dijeli na dva jednakobrojna dijela

1. pojedinačni podaci (neparan broj) – MEDIJAN je jednak vrijednosti varijable središnjeg člana u nizu

Primjer 6.Podaci moraju biti uređeni po veličini1 3 5 8 10 12 14 7/2 = 3.5 ; r =4 ; Me = x4 = 8

2. pojedinačni podaci (paran broj) – MEDIJAN je jednak poluzbroju vrijednosti varijable središnjih dvaju članova niza uređenog po veličini N/2 = INT ; Me = (xr+Xr+1)/2 ; r = N/2Primjer 7.11 24 29 37 40 53 65 72 N=8 ; r=4 ; Me = (37+40)/2 = 38.5

3. distribucija frekvencija formirana na temelju pojedinačnih vrijednosti – određivanje MEDIJANA se pojednostavljuje uporabom kumulativnog niza manje od. MEDIJAN je jednak vrijednosti varijable čija kumulativna frekvencija prva uključuje N/2.Primjer 8.

N/2 = 35.5

Aktivno stanovništvo u RH u 2003.g. (2.polugodište) u tisućamaSTAROST BROJ

OSOBAPRAVE

GRANICEVELIČINE RAZREDA

KORIGIRANE FREKVENCIJE

fi ii fci

15-24 216 14,5-24,5 10 216,025-49 1152 24,5-49,5 25 460,850-64 370 49,5-64,5 15 246,7

65-(74) 55 64,5-(74.5) 10 55,0

Dnevna prodajaBROJ

GARNITURABROJ DANA KUMULATIVNI

NIZ xi fi S(xi)1 1 12 5 63 8 144 26 405 19 596 12 71

UKUPNO 71 -15

Page 16: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Me = 4

4. distribucija frekvencija s razredima – MEDIJAN se aproksimira pomoću izraza:

L1 – donja prava granica medijalnog razredaN – zbroj apsolutnih ili relativnih frekvencija∑fi – zbroj frekvencija do medijalnog razredafmed – frekvencija medijalnog razreda

i – veličina medijalnog razredaMEDIJALNI RAZRED – onaj čija kumulativna frekvencija prvi put uključuje N/2.

Primjer 9. STAROST BROJ OSOBA PRAVE

GRANICEVELIČINE RAZREDA

KUMULATIVNE

FREKVENCIJEfi ii S(xi)

15-24 216 14,5-24,5 10 21625-49 1152 24,5-49,5 25 136850-64 370 49,5-64,5 15 1738

65-(74) 55 64,5-(74,5) 10 1793

N/2 = 896.5Me = 24.5 + (896.5-216)/1152 * 25 = 39.27 godPrvih 50% osoba imalo je 39 godina i manje, a preostalih 50% osoba bilo je

starije od 39 godina

KVANTILI – numerički niz uređen po veličini dijele na jednakobrojne dijelove. Medijan spada među kvantile

KVARTILI – niz uređen po veličini dijele na 4 jednakobrojna dijela DECILI – niz uređen po veličini dijele na 10 jednakobrojnih dijelova PERCENTILI – niz uređen po veličini dijele na 100 jednakobrojnih dijelova

Broj kvartila je za jedan manji od njihova reda, tj. 3 su kvartila, 9 decila i 99 percentila

PREDAVANJE #4

ARITMETIČKA SREDINA – dobije se tako da se zbroje vrijednosti numeričke varijable i podijele sa njihovim brojem.TOTAL – zbroj vrijednosti numeričke varijable; aritmetička sredina je jednaki dio totala po jediniciSvojstva aritmetičke sredine:

1. zbroj vrijednosti odstupanja numeričke varijable od njezine aritmetičke sredine jednak je nuli

2. zbroj kvadrata odstupanja vrijednosti numeričke varijable od njezine aritmetičke sredine minimalan je

16

Page 17: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

3. aritmetička sredina nalazi se između najmanje i najveće vrijednosti niza za koji je izračunata

JEDNOSTAVNA ARITMETIČKA SREDINA – računa se kod pojedinačnih kvantitavnih

podataka

Primjer 1.Slijedeći niz predstavlja cijene jednog proizvoda evidentirane na 10 prodajnih mjesta u kn:25 24 25 23 25 22 21 25 20 25 235/10=23.5 prosječna prodaja iznosila je 23.5 kn

Aritmetička sredina izražena je u istim mjernim jedinicama kao i obilježje.VAGANA (PONDERIRANA) ARITMETIČKA SREDINA – primjenjuje se za grupirane podatke, tj. za distribuciju frekvencija

1. ponderi: APSOLUTNE FREKVENCIJE (fi)

2. ponderi: RELATIVNE FREKVENCIJE U VIDU POSTOTAKA (Pi)

3. ponderi: RELATIVNE FREKVENCIJE U VIDU PROPORCIJA (pi)

Primjer 2. Distribucija frekvencija formirana na temelju pojedinačnih vrijednosti

PRAVI TOTAL – ukupan broj

prodanih garnitura

garniture dnevno

Primjer 3. Distribucija frekvencija formirana na temelju razreda

Dnevna prodaja garnitura sobnog namještajaBROJ

GARNITURABROJ DANA kol. 1*2

xi fi fixi

1 1 12 5 103 8 244 26 1045 19 956 12 72

UKUPNO 71 306

17

Page 18: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

PROCIJENJENI PODTOTALI

PROCIJENJENI TOTAL-

ukupna starost promatranih

osoba

Prosječna starost aktivnog

ARITMETIČKA SREDINA ARITMETIČKIH SREDINA – određuje se kao vagana sredina u kojoj se za pondere uzima broj podataka za koje su pojedine sredine računate ili tom broju proporcionalne veličine.

Primjer 4.

Prosječna plaća za sve kompanije:

Aktivno stanovništvo u RH u 2003.g. (drugo polugodište) u tisućama

STAROST

BROJ OSOBA

PRAVE GRANICE

RAZREDNE

SREDINE

kol.2*4

fi xi fixi

15-24 216 14.5-24.5 19.5 4212.025-49 1152 24.5-49.5 37.0 42624.050-64 370 49.5-64.5 57.0 21090.0

65-(74) 55 64.5-(74.5) 69.5 3822.5UKUPN

O1793 - - 71746.5

Odabrane kompanije zaposlenih i prosječne mjesečne plaće u kn

KOMPANIJA BROJ ZAPOSLENI

H

PROSJEČNA PLAĆA

UKUPNA PLAĆA

Ni Ni

ALFA 550 3500 1925000GAMA 320 2300 736000TRADE 250 4200 1050000

UKUPNO 1120 - 3711000

18

Page 19: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Ako se svaka individualna vrijednost numeričkog obilježja zamijeni aritmetičkom sredinom dobiva se polazna veličina tj. total ili zbroj vrijednosti numeričkog obilježja.

ARITMETIČKA SREDINA RELATIVNIH BROJEVA KOORDINACIJE – određuje se kao

vagana sredina u kojoj su ponderi baze tih brojeva

RELATIVNI BROJEVI KOORDINACIJE – omjerni su brojevi koji nastaju diobom dviju koordinirajućih veličina

Grafički se prikazuju na 2 načina:1. jednostavnim stupcima2. pravokutnicima čije su osnovice proporcionalne bazama tih brojeva, a visine

samim relativnim brojevima koordinacije

Primjer 5.

Prosječan broj stanovnika na km2 za sve navedene države:

GEOMETRIJSKA SREDINA – jednaka je N-tom korijenu produkta N pojedinačnih vrijednosti

Najveće države svijeta, površina u km2 i broj stanovnika na km2

DRŽAVA POVRŠINA U km2

STANOVNIŠTVO/ km2

UKUPAN BROJ STANOVNIKA

Bi Ri Vi= Ri*BiRUSIJA 17075400 8 136603200

KANADA 9970610 3 29911830SAD 9629091 30 288872730KINA 9596961 135 1295589735

BRAZIL 8514215 21 178798515UKUPNO 54786277 - 1929776010

19

Page 20: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Za grupirane podatke geometrijska sredina dana je izrazom:

Primjer 6. zadani su koeficijenti dinamikeGODIN

A2000 2001 2002 2003 2004

Vt - 1,06 1,05 1,03 1,02prosječna stopa računata pomoću geometrijske sredine:

Promatrana pojava prosječno se godišnje povećavala

za 3.99%.

Geometrijska i harmonijska sredina relativno se rijetko primjenjuju. Geometrijska sredina se primjenjuje u analizi vremenskih nizova. Pomoću nje se računa prosječna stopa promjene pojave. Geometrijska sredina poprima nižu vrijednost od aritmetičke sredine.

HARMONIJSKA SREDINA – recipročna vrijednost aritmetičke sredine recipročnih vrijednosti varijable x

negrupirani pojedinačni podaci

grupirani podaci

Harmonijska sredina manja je od aritmetičke i geometrijske sredine

Primjer 7. Ugostiteljska poduzeća, ukupan promet (u tisućama kn) i promet po zaposlenom (u

tisućama kn)UGOSTITELJSKA

PODUZEĆAPROMET PROMET PO

ZAPOSLENOMZAPOSLENI

Vi Ri Vi/Ri = BiHOTELI 6272146 199 31518

KAMPOVI 272070 158 1722RESTORANI 814160 178 4574

BAROVI 716065 131 5466KANTINE 331094 137 2417UKUPNO 8405535 - 45697

20

Page 21: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Prosječan promet po zaposlenom za sva ugostiteljska poduzeća:

Ako nazivnici relativnih brojeva koordinacije nisu poznati, a brojnici jesu ili se lakše procjenjuju do sredine će se doći pomoću izraza za vaganu ponderiranu harmonijsku sredinu:

Ako imamo zadano Bi koristimo formulu za aritmetičku, a ako su nam zadane Vi koristimo harmonijsku vaganu sredinu.

SKUPNI INDEKSI – njima se prati dinamika skupine pojava u vremenu npr.proizvodnja, uvoz, izvoz....

SKUPNI INDEKSI CIJENA SKUPNI INDEKSI KOLIČINA SKUPNI INDEKS VRIJEDNOSTI

U pravilu se računaju kao vagana aritmetička sredina individualnih indeksa. Ponderi su obično vrijednosti. Uglavnom se izračunavaju:

LASPEYRESOV INDEKS CIJENA I KOLIČINA PAASCHEOV INDEKS CIJENA I KOLIČINA FISHEROV INDEKS CIJENA I KOLIČINA INDEKS VRIJEDNOSTI

Skupne indekse izračunavaju i objavljuju statistički uredi. Obično su Laspeyresova tipa: INDEKS POTROŠAČKIH CIJENA – mjera inflacije; INDEKS INDUSTRIJSKE PROIZVODNJESkupni indeksi cijena koriste se u postupku deflacioniranja tj. uklanjanja utjecaja promjena cijena na vrijednosno izražene pojave.

PREDAVANJE #5

MJERE DISPERZIJEReprezentativnost srednje vrijednosti ovisi o stupnju varijabilnosti podataka.Varijabilnost numeričkog obilježja predočava se i pomoću grafičkih prikaza: dijagram s točkama i dijagram s pravokutnikomMjere za varijabilnost podataka su:

1. raspon varijacije2. interkvartil3. koeficijent kvartilne devijacije4. varijanca5. standardna devijacija6. koeficijent varijacije7. srednje apsolutno odstupanje (MAD)

21

Page 22: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

1. RASPON VARIJACIJE pojedinačni podaci – određuje se kao razlika između najveće i najmanje

vrijednosti

distribucija frekvencija formirana na temelju pojedinačnih podataka – određuje se kao razlika između posljednje i prve vrijednosti

distribucija frekvencija s razredima – aproksimira se kao razlika između gornje granice posljednjeg i donje granice prvog razreda ili kao razlika razrednih sredina posljednjeg i prvog razreda.

Raspon varijacije je apsolutna (izražena je u istim mjernim jedinicama kao i obilježje) i nepotpuna (dobiva se iz samo dvije vrijednosti) mjera disperzije.

2. INTERKVARTIL KVARTILI:

PRVI ILI DONJI KVARTIL (Q1) – vrijednost numeričke varijable koja članove niza dijeli u dvije skupine. U prvoj je skupini 25% elemenata s vrijednostima varijable koja je jednaka ili manja od donjeg kvartila, a u drugoj je skupini 75% elemenata s vrijednostima većim od donjeg kvartila.

DRUGI ILI MEDIJAN (Q2) TREĆI ILI GORNJI KVARTIL (Q3) - vrijednost numeričke varijable koja članove niza

dijeli u dvije skupine. U prvoj je skupini 75% elemenata s vrijednostima varijable koja je jednaka ili manja od gornjeg kvartila, a u drugoj je skupini 25% elemenata s vrijednostima većim od gornjeg kvartila.

Interkvartil se određuje kao razlika kvartila 50% Interpretira se kao raspon varijacije središnjih 50% podataka:

Interkvartil je također apsolutna i nepotpuna mjera disperzije.

3. KOEFICIJENT KVARTILNE DEVIJACIJE – njime se uspoređuje stupanj disperzije raznorodnih nizova. Određuje se kao omjer interkvartila i zbroja kvartila:

0 ≤ VQ < 1

Ovo je relativna i nepotpuna mjera disperzije.

GRAFIČKI PRIKAZ VARIJABILNOSTI PODATAKA – dijagram s pravokutnikom box-plot (B-P) dijagramZa njegovu konstrukciju koristi se 5 pokazatelja numeričkog niza – 5's (five summary numbers)

najmanja vrijednost najveća vrijednost medijan donji kvartil

22

Page 23: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

gornji kvartilNa ovom grafičkom prikazu oučava se raspon varijacije i interkvartilni raspon te se prosuđuje o mogućoj asimetriji kao i o pojavi netipičnih vrijednosti ( out lier)

23

Page 24: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Primjer 1. Negrupirani tj. pojedinačni podaciMjereno je vrijeme u minutama potrebno za rješavanje jednog zadatka iz statistike za 10 studenata. Dobiveni su ovi rezultati : 20 22 25 27 28 28 30 30 33 35Podaci moraju biti uređeni po veličini.

raspon varijacije: 30–15 = 15 minVrijeme potrebno za rješavanje zadatka bilo je između 20 i 35 min. Odnosno u raponu od 15 min.

interkvartil: donji kvartil: N/4 = 10/4 = 2.5 ≠ INT

r = INT (N/4) + 1 = 2+1 = 3, Q1=x3=25 Prva četvrtina studenata imala je vrijeme 25 min i manje, a

preostale 3 četvrtine imale su vrijeme veće od 25 min.

gornji kvartil: 3N/4 = 30/4 = 7.5 ≠ INT r = INT (3N/4) + 1 =7+1=8, Q3=xr=x8=30 Prve tri četvrtine studenata imale su vrijeme 30 min i manje, a

preostala četvrtina imala je vrijeme veće od 30 min.

IQ = Q3 – Q1 = 30 - 25=5 minRaspon varijacije središnjih 50% studenata iznosio je 5 min, tj. njihova vremena bila su između 25 i 30 min.

koeficijent kvartilne devijacijeVQ= (Q3-Q1)/(Q3+Q1) = (30-25)/(30+25) = 0.09Raspon varijacije središnjih 50% studenata u relativnom iznosu je 0.09.

B-P dijagram N/2 = 10/2 = 5 = INT , r=5Me = (xr+Xr+1)/2 = (x5+x6)/2 = (28+28)/2 = 28

24

Page 25: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Primjer 2. Distribucija frekvencija formirana na temelju pojedinačnih vrijednostiPismeni ispit iz statistike sadrži 5 zadataka. Distribucija frekvencija prema broju rješenih zadataka dana je u tabeli:

BROJ ZADATAKA

BROJ STUDENAT

A

KUMULATIVNI NIZ „manje od“

xi fi S(xi)0 10 101 25 352 55 903 125 2154 50 2655 15 280

UKUPNO 280 -

raspon varijacije: Rx = xk – x1 = 5-0 = 5 zadatakaBroj rješenih zadataka bio je između 0 i 5 odnosno u rasponu od 5 zadataka.

interkvartil: donji kvartil: N/4 = 70 ; Za Q1 se uzima vrijednosti varijable s prvom

kumulativnom frekvencijom koja sadrži vrijednost N/4 Q1= 2gornji kvartil: 3N/4 = 210 Q3=3IQ = Q3 – Q1= 3 – 2= 1Raspon varijacije središnjih 50% studenata iznosio je 1 zadatak, tj. broj rješenih

zadataka bio je između 2 i 3.

koeficijent kvartilne devijacije VQ= (Q3-Q1)/(Q3+Q1) = (3-2)/(3+2) = 0.2Raspon varijacije središnjih 50% studenata u relativnom iznosu je 0.2

Primjer 3. Distribucija frekvencija s razredimaDistribucija studenata prema vremenu potrebnom za rješavanje jednog zadatka iz statistike u min.

raspon varijacijeRx = 30 – 10 = 20 minRx = 27.5 – 12.5 = 15 min

UTROŠENO VRIJEME

BROJ STUDENAT

A

KUMULATIVNI NIZ „manje od“

VELIČINA RAZREDA

fi S(xi) ii10-15 15 15 515-20 20 35 520-25 30 65 525-30 10 75 5

UKUPNO 75 - -

25

Page 26: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

interkvartilN/4 = 75/4 = 18.75Kvartilni razred je razred čija kumulativna frekvencija prva uključuje vrijednost N/4

IQ = 23.5 – 15.9 = 7.6 minRaspon varijacije središnjih 50% studenata iznosio je 7.6 min.

VQ= (Q3-Q1)/(Q3+Q1) = (23.5 – 15.9)/(23.5 – 15.9) = 0.19Raspon varijacije središnjih 50% studenata u relativnom iznosu je 0.19.

4. SREDNJE APSOLUTNO ODSTUPANJE (MAD) – za mjerenje disperzije može se koristiti i prosječno apsolutno odstupanje vrijednosti varijable od njezine aritmetičke sredine ili medijana:

pojedinačni podaci:

za distiribuciju frekvencija apsolutne razlike ponderiraju se apsloutnim ili relativnim frekvencijama

Primjer 4.Dnevna prodaja hladnjaka u 10 prodavaonica iznosila je: 2 5 3 3 7 3 4 6 4 3

MAD = 12/10 = 1,2

2 3 3 3 3 4 4 5 6 7

N/2 = 5 = INT, r = 5

Me = (x5+x6)/2 = (3+4)/2 = 3.5

PREDAVANJE #6

PRODAJAxi

2 25 13 13 17 33 14 06 24 03 140 12

PRODAJAxi

2 1,55 1,53 0,53 0,57 3,53 0,54 0,56 2,54 0,53 0,540 12,0

26

Page 27: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

5. VARIJANCA – aritmetička sredina kvadrata odstupanja vrijednosti numeričke varijable od njezine aritmetičke sredine. Varijanca je mjera disperzije u drugom stupnju koju je potrebno vratiti u prvi stupanj.

negrupirani podaci

grupirani podaci

6. STANDARDNA DEVIJACIJA – pozitivni drugi korijen iz varijance. Potpuna i apsolutna mjera disperzije.

negrupirani podaci

grupirani podaci

7. KOEFICIJENT VARIJACIJE – realtivna mjera disperzije. Određuje se kao omjer srtandardne devijacije i aritmetičke sredine pomnožen sa sto.

Standardna devijacija se interpretira kao prosječno odstupanje od prosjeka izraženo apsolutno, a koeficijent varijacije kao to isto odstupanje izraženo relativno i to u vidu postotka.

Primjer 1. Negrupirani tj. pojedinačni podaciMjereno je vrijeme (u minutama) potrebno za rješavanje jednog zadatka iz statistike za 10 stuudenata. Dobiveni su ovi rezultati:

27

Page 28: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Interpretacija:Prosječno vrijeme rješavanja zadataka iznosilo je 27.8

minuta s prosječnim odstupanjem od 4.38 minute odnosno 15.76%.

Primjer 2. Distribucija frekvencija formirana na temelju pojedinačnih podatakaPismeni ispit iz statistike sadrži 5 zadataka. Distribucija studenata prema broju rješenih zadataka dana je u tabeli:

Prosječni broj rješenih zadataka iznosio je 2.80 zadatka. S prosječnim odstupanjem od 1.11 zadataka odnosno 39.64%.

Primjer 3. Distribucija frekvencija s razredimaStruktura aktivnog stanovništva u drugom polugodištu 2003.g. u RH

STAROST

STAROST%

PRAVE GRANICE

RAZREDNE

SREDINE

kol. 2x4 VELIČINA

RAZREDA

KORIGIRANE

FREKVENCIJE

Pi xi Pixi Pci

15-24 12 14.5-24.5 19.5 234.0 5043.00 10 1225-49 64 24.5-49.5 37.0 2368.0 . 25 25.6

VRIJEMExi

20 60.8422 33.6425 .27 .28 .28 .30 .30 .33 .35 .

UKUPNO 191.60

BROJ ZADATAK

A

BROJ STUDENA

TA

kol. 1x2

xi fi fixi

0 10 0 78.41 25 25 81.02 55 110 .3 125 375 .4 50 200 .5 15 75 .

UKUPNO 280 785 344.2

28

Page 29: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

50-64 21 49.5-64.5 57.0 1197.0 . 15 14.065-(74) 3 64.5-

(74.5)69.5 208.5 . 10 3.0

UKUPNO

100 - - 4007.5 14298.75 - -

Interpretacija:Prosječna starost aktivnog stanovništva iznosila

je 40 godina. S prosječnim odstupanjem od

11.96 godina

STANDARDIZIRANA VARIJABLA – linearna transformacija numeričke varijable x. Određuje se tako da se odstupanja numeričke varijable od njezine aritmetičke sredine podijele sa standardnom devijacijom, tj. da se izraze u jedinicama standardnih devijacija. Aritmetička sredina standardizirane varijable jednaka je nuli, a standardna devijacija jednaka je jedan.

PRAVILO ČEBIŠEVA – govori da je najmanja proporcija članova bilo kojeg niza

obuhvaćenih bilo kojim intervalom .

U pojasu nalazi se najmanje 0.75 tj. 75% svih podataka.U pojasu nalazi se najmanje 0.889 tj. 88.89% svih podataka.

Ako su podaci raspoređeni po normalnoj distribuciji onda:

pojas obuhvaća oko 68% podataka pojas obuhvaća oko 95% podataka pojas obuhvaća oko 99.73%

podataka

Primjer 4.

29

Page 30: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Prosječan broj bodova na 1. kolokviju iz statistike iznosi 15, a prosječno odstupanje od prosjeka iznosi 5. Na drugom kolokviju postignut je prosječan broj bodova 17 s prosječnim odstupanjem od prosjeka 4. Student je na prvom kolokviju postigao 20, a na drugome 22 boda. Što se može zaključiti o uspjehu studenta na kolokvijima?

Vrijednost standardiziranog obilježja na prvom kolokviju:

Vrijednost standardiziranog obilježja na drugom kolkviju:

Student je na oba kolokvija postigao iznad prosječan rezultat. Bolji je na drugom kolokviju jer je odstupanje od prosjeka na više 1.25 σ, a na prvome 1 σ.

Primjer 5.Mjereno je vrijeme u minutama potrebno za rješavanje jednog zadatka iz statistike za 10 studenata. Dobiveni su ovi rezultati: 20 22 25 27 28 28 30 30 33 35Je li vrijeme rješavanja od 35 minuta netipično?

Netipičan je podatak koji se nalazi izvan pojasa tj. ako od prosjeka odstupa za više od 2σ.Ako se podaci raspoređuju po normalnoj distribuciji netipičan je podatak koji se nalazi izvan pojasa tj. ako od prosjeka odstupa za više od 3σ.

Budući da se vrijeme od 35 minuta nalazi u pojasu ne može se

smatrati netipičnim.

PREDAVANJE #7

MJERE ASIMETRIJE – njima se mjeri način rasporeda podataka prema aritmetičkoj sredini ili nekoj drugoj vrijednosti.Najvažnije su:

1. Koeficijent asimetrije α3 - potpuna mjera2. Pearsonova mjera nepotpune3. Bowleyeva mjera mjere

1. KOEFICIJENT ASIMETRIJE α3 MOMENTI OKO SREDINE – aritmetičke sredine odstupanja vrijednosti numeričke

varijable od njezine aritmetičke sredine podignuti na neku potenciju

pojedinačni podaci

30

Page 31: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

grupirani podaci

- s obzirom na veličinu r govori se o nultom, prvom, drugom, trećem ili četvrtom momentu oko

sredine

- koeficijent asimetrije α3 je omjeru trećeg momenta oko sredine i standardne devijacije podignute

na treću potenciju obično se kreće u intervalu ±z, a u određenim

slučajevima može biti izvan toga intervala:

α3 = 0 simetrična distribucijaα3 < 0 negativno asimetrična

distribucijaα3 > 0 pozitivno asimetrična

distribucija

2. PEARSONOVA MJERA – temelji se na odnosu srednjih vrijednosti u distribucijama frekvencija

simetrična distribucija

pozitivno asimetrična distribucija

negativno asimetrična distibucija

31

Page 32: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

- Pearsonova mjera definira se kao standardizirano odstupanje vrijednosti medijana ili moda od aritmetičke sredine:

kreće se u intervalu ±

St = 0 simetrična distribucijaSt > 0 pozitivno asimetrična distribucijaSt < 0 negativno asimetrična distribucija

3. BOWLEYJEVA MJERA – temelji se na odnosu medijana i kvartila

simetrična distribucija

pozitivno asimetrična distribucija

negativno asimetrična distibucija

kreće se u intervalu ±1

Ska = 0 simetrična distribucija Ska > 0 pozitivno asimetrična distribucija

32

Page 33: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Ska < 0 negativno asimetrična distribucija

Primjer 1. pojedinačni podaci Radi kontrole deklarirane težine izabran je uzorak od 10 proizvoda pakiranih u vrećice. Mjerenjem su dobiveni ovi rezultati u gramima: 10 12 15 13 10 11 12 11 11 15

1.koeficijent asimetrije

- α3 je pozitivan, distibucija je umjereno pozitivno asimetrična

2. Pearsonova mjera 3. Bowleyjeva mjera

Primjer 2. distribucija frekvencija s razredimaDistribucija studenata prema vremenu potrebnom za rješavanje

jednog zadatka iz statistikeUTROŠE

NO VRIJEME

BROJ STUDENAT

A

RAZREDNE SREDINE

10-15 15 12.5 187.5 187.5 -5907.4915-20 20 17.5 350 - -20-25 30 2.5 675 - -25-30 10 17.5 275 - -

UKUPNO 75 - 1487.5 1716.67 -1076.29

10 -2 4 -812 0 0 015 . . .13 . . .10 . . .11 . . .12 . . .11 . . .11 . . .15 . . .

120 0 30 36

33

Page 34: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Distribucija je blago negativno asimetrična.

Pearsonova mjera:

Bowleyjeva mjera:

MJERA ZAOBLJENOSTI

KOEFICIJENT ZAOBLJENOSTI α4 – njime se mjeri zaobljenost modalnog vrha distribucije. Izračunava se kao omjer četvrtog momenta oko sredine i standardne

devijacije podignute na 4. potenciju

negrupirani podaci

grupirani podaci

- α4 = 3 NORMALNA DISTRIBUCIJA – najvažnija teorijska distribucija

- α4 > 3 šiljatija distribucija od normalne- α4 < 3 plosnatija distribucija od normalne

- α4 ≈ 1.8 pravokutna distribucija- α4 < 1.8 U-distibucija

34

Page 35: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

EKSCES – alternativna mjera zaobljenosti K = 0 ---- normalna distribucija K > 0 ---- šiljatija distribucija K < 0 ---- plosnatija distribucija

Primjer 3. pojedinačni podaci

Distribucija je plosnatija od normalne.

Primjer 4. distribucija frekvencija s razredima

Distribucija je plosnatija od normalne.

10 1612 015 .13 .10 .11 .12 .11 .11 .15 .

120 198

UTROŠENO VRIJEME

BROJ STUDENATA

RAZREDNE SREDINE

10-15 15 12.5 13 301.9215-20 20 17.5 .20-25 30 22.5 .25-30 10 27.5 .

UKUPNO 75 - 80 024.41

35

Page 36: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

MJERE KONCENTRACIJE – njima se mjeri način rasporeda totala po jedinicama niza apsolutne – najčešće se koriste koncentracijski omjeri relativne – najčešće se koristi Ginijev koeficijent

koncentracije

1. KONCENTRACIJSKI OMJER reda r se određuje tako da se zbroj r vrijednosti (od njih N) podijeli sa zbrojem N vrijednosti. Pri tome se pretpostavlja da su podaci poredani od najvećeg prema najmanjem.

Ako se radi o ravnomjernoj raspodjeli, koncentracijski omjer poprima vrijednost od 1 do N.

A ako se radi o maksimalnoj raspodijeli, koncentracijski omjer poprima vrijednost 1.

1) na osi apscisa nalazi se aritmetičko mjerilo za kumulativni niz relativnih frekvencija

2) na osi ordinata nalazi se aritmetičko mjerilo za kumulativni niz proporcija podtotala

3) prva točka ima koordinate (0,0); posljednja točka ima koordinate (1,1); koordinate ostalih točaka određene su vrijednostima članova kumulativnih nizova

4) u grafički prikaz ucrtava se pravac jednolike raspodjele, on prolazi točkama (0,0) i (1,1)

2. GINIJEV KOEFICIJENT – temelj za njegovo utvrđivanje je površina između pravca jednolike raspodjele i Lorenzove krivulje. Što je koncentacija veće to se Lorenzova krivulja više udaljuje od toga pravca

xi - pojedinačne vrijednosti varijable

negrupirani podaci i - redni broj podatka

- podaci moraju biti uređeni od najmanjeg prema najvećem- kreće se u intervalu od 0 do 1 - G = 0 ravnomjerna raspodjela- G = 1 maksimalna koncentracija

- NORMIRANI KOEFICIJENT GINIJA

36

Page 37: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

PREDAVANJE #8

OSNOVNI POJMOVI VJEROJATNOSTI

VJEROJATNOST – brojčana mjera nastanka neizvjesnih, tj. slučajnih događaja. Vjerojatnost nastanka događaja A jednaka je P(A) pri čemu je 0 ≤ P(A) ≤ 1. Nekada se izražava i u obliku postotka.

DEFINICIJE VJEROJATNOSTI

SLUČAJNI POKUS – pokus je slučajan ako se u definiranim uvjetima može ponavljati, ako postoje barem 2 različita ishoda te ako se ishodi ne mogu predvidjeti sa sigurnošću. PROSTOR UZORKA S – skup svih mogućih ishoda slučajnog pokusaSLUČAJNI DOGAĐAJ – jednočlani ili višečlani podskup skupa S te su sa događajima dopuštene skupovne operacije.

1. KLASIČNA DEFINICIJA (vjerojatnost a priori) – pretpostavlja se da se pokus ponavlja konačan broj puta, pri čemu se vjerojatnost određuje kao omjer povoljnog broja

ishoda m i ukupnog broja ishoda n

2. STATISTIČKA VJEROJATNOST (vjerojatnost a posteriori) – broj ponavljanja pokusa je beskonačan, a vjerojatnost se aproksimira relativnom frekvencijom, tj.omjerom apsolutne frekvencije opsega i opsega statističkog skupa.

3. SUBJEKTIVNA VJEROJATNOST – to je broj iz intervala [0,1] određen na temelju prosudbe okolnosti relevantnih za nastup slučajnog događaja.

SVOJSTVA VJEROJATNOSTI:1) vjerojatnost da događaj A neće nastupiti jednaka je P(Ā)=1-P(A)2) vjerojatnost istodobnog nastupa događaja A1 i A2 jednaka je P(A1∩A2)3) ako su događaji međusobno isključivi, vjerojatnost da će nastupiti događaj A1 ili A2

jednaka je P(A1UA2)=P(A1)+P(A2)4) ako događaji nisu međusobno isključivi, vjerojatnost nastupa barem jednog od njih

jednaka je P(A1UA2)=P(A1)+P(A2)-P(A1∩A2)5) ponekad je potrebno odrediti vjerojatnost nastupa događaja A uz uvjet da se

dogodio događaj B. Takva se vjerojatnost naziva uvjetnom vjerojatnošću

6) ako su događaji neovisni tada vrijedi da je P(A∩B)=P(A)P(B)

SLUČAJNA VARIJABLA X – numerička funkcija koja svakom ishodu slučajnog pokusa pridružuje realan broj.

diskretna- ako poprima konačan broj vrijednosti kontinuirana – može poprimiti bilo koju vrijednost iz nekog intervala

DISTRIBUCIJA VJEROJATNOSTI diskretne slučajne varijable – skup uređenih parova različitih vrijednosti slučajne

varijable xi i pripadajućih vjerojatnosti p(xi). Ima slijedeća svojstva:

37

Page 38: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

- p(xi) ≥ 0 - ∑p(xi) = 1

Kumulativna funkcija ili funkcija distribucije F(xi) – pokazuje kolika je vjerojatnost da slučajna

varijabla x poprimi vrijednost xi ili manju. kontinuirane slučajne varijable – opisuje razdiobu vjerojatnosti na intervalu

vrijednosti varijable. Njena svojstva: - f(x) ≥ 0

-

Primjer 1.KVALITETA PROIZVODA

(KLASA)

BROJ PROIZVODA UKUPNODOB A DOB B

I 20 10 30II 10 10 20III 30 20 50

UKUPNO 60 40 100

marginalne vjerojatnosti

a) Kolika je vjerojatnost odabira proizvoda I. klase? P(A1)=0.3b) Kolika je vjerojatnost odabira proizvoda dobavljača B? P(B2) = 0.4c) Kolika je vjerojatnost izbora proizvoda III. klase dobavljača A? P(A3∩B1) = 0.3d) Kolika je vjerojatnost izbora proizvoda I. ili III. klase? P(A1UA3) = P(A1)+P(A3) = 0.3+0.5 = 0.8e) Kolika je vjerojatnost da se izabere proizvod III. klase ili proizvod dobavljača B? P(A3UB2) = P(A3)+P(B2)-P(A3∩B2)= 0.5 + 0.4 – 0.2 =0.7f) Kolika je vjerojatnost izbora proizvoda dobavljača A ako je poznato da je III. klase?

g) Jesu li varijable kvaliteta i dobavljač neovisne? Ako bi varijable kvaliteta i dobavljač bile neovisne, vjerojatnosti bi u polju tabele bile jednake umnošku

marginalnih vjerojatnosti

Budući da je 0.2≠0.18, između kvalitete proizvoda i dobavljača postoji zavisnost.

Primjer 2.

KVALITETA PROIZVODA

(KLASA)

BROJ PROIZVODA UKUPNODOB A

(B1)DOB B

(B2)I (A1) 0.2 0.1 0.3II (A2) 0.1 0.1 0.2III (A3) 0.3 0.2 0.5

UKUPNO 0.6 0.4 1

38

Page 39: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

a) Pokažite da je navedena distribucija, distribucija vjerojatnosti!

DA

b) Odredite očekivanu vrijednost! c) Odredite vrijednosti funkcije distribucije! (tablica)d) Odredite vjerojatnost p(x≤2)!

MODELI DISTRIBUCIJA VJEROJATNOSTI – temelj inferencijalne statistikeDistribucije vjerojatnosti diskretne slučajne varijable: (najčešće se koriste binomna i poissonova)

1. BINOMNA2. POISSONOVA3. HIPERGEOMETRIJSKA4. UNIFORMNA

1. BINOMNA DISTRIBUCIJA – njena je definicija povezana sa Bernaulijevim pokusom. Bernaulijev pokus je slučajni pokus slijedećih svojstava: - ima dva ishoda (uspjeh i neuspjeh)

- vjerojatnost ishoda uspjeh je p, a neuspjeh q=1-p - pokusi su neovisni

n-broj ponavljanja Bernaulijevih pokusa p-vjerojatnst ishoda uspjeh x-slučajni broj ishoda uspjeha Očekivana vrijednost Varijanca

2. POISSONOVA DISTRIBUCIJA – granični slučaj binomne distribucije. Prikladna je za opis rijetkih događaja, tj. događaja koji se javljaju s malom vjerojatnošću.

x-broj povoljnih ishoda

Očekivana vrijednost Varijanca

Primjer 3. Prema raspoloživim podaciima banke u prosjeku 5 stranaka po satu zahtijeva usluge oročavanja depozita. Pretpostavi li se da stranke prispjevaju u banku neovisno, po satima u random vremenu s itom vjerojatnosti, kolika je vjerojatnost da se pred šelterom za oročavanje nađu: (broj stranaka koje u jednom satu za radnog vremena dolaze neovisno i s istom vjerojatnosti diskretna je slučajna varijabla koja se ravna prema Poissonovoj distribuciji s parametrom = 5.)

xi p(xi

)xi

p(xi)F(xi)

0 0.1 0 0.11 0.2 0.2 0.32 0.4 0.8 0.73 0.2 0.6 0.94 0.1 0.4 1.0

UKUPNO

1.0 2.0 -

39

Page 40: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

a) 3 stranke?

b) više od 1 stranke?

PREDAVANJE #9

Distribucije vjerojatnosti kontinuirane slučajne varijable:1. NORMALNA (GAUSSOVA)2. STUDENTOVA (T-DISTRIBUCIJA)3. (HI-KVADRAT)4. F-DISTRIBUCIJA5. UNIFORMNA KONTINUIRANA6. EKSPONENCIJALNA

1. NORMALNA (GAUSSOVA) DISTRIBUCIJA – najvažnija distribucija vjerojatnosti.- dvoparametarska funkcija (određena s 2 parametra) : očekivana vrijednost i varijanca - zvonolika je i simtrična- budući da aritmetička sredina i standardna devijacija ovise o mjernim jedinicama varijable uvodi se

jedinična (standardizirana) normalna distribucija

Jedinična normalna distribucija je tabelirana. U poljima tabele nalaze se površine koje predstavljaju vjerojatnosti. U pred-stupcu tabele su sve vrijednosti izražene kao brojevi s jednom decimalom. Druga decimala nalazi se u zaglavlju.Budući da je distribucija simetrična u tabeli su dane samo vrijednosti z.

označena površina označava vjerojatnost da

slučajna varijabla poprimi vrijednost iz intervala od 0 do z.

Primjer 1.Slučajna varijabla x distribuirana je po normalnoj distribuciji N ( μ,σ2 ). Odredite vjerojatnost da varijabla poprimi vrijednost:

40

Page 41: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

a) μ-σ < x < μ+σ

Kažemo da je 68.26% vjerojatno da će slučajna varijabla z zauzeti vrijednosti između -1 i 1 ili da će slučajna varijabla x zauzeti vrijednost između μ-σ i μ+σ.

41

Page 42: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

b) μ-2σ < x < μ+2σ

Kažemo da je 95,44% vjerojatno da će slučajna varijabla z zauzeti vrijednost između -2 i 2 ili da će slučajna varijabla x zauzeti vrijednost između μ-2σ i μ+2σ.

2. STUDENTOVA DISTRIBUCIJA- njen oblik je određen veličinom n- za n>30 (veliki uzorak) distribucija se po obliku približava normalnoj distribuciji- za n<30 (mali uzorak) distribucija je više razvučena na obje strane uzduž apscise - i ona je zvonolika i simetrična te tabelirana- u pred-stupcu tablice nalaze se stupnjevi slobode, u zaglavlju su vjerojatnosti. U poljima tabele su kritične vrijednosti.

Vjerojatnost da će slučajna varijabla koja se ravna po Studentovoj distribuciji poprimiti vrijednost veću od tα

iznosi α.

Primjer 2. Slučajna varijabla t distibuirana je po Studentovoj distribuciji s 8 stupnjeva slobode. Odredite slijedeće vjerojatnosti:a) P (t ≤ 1.397)

b) P (t ≤ -1.397)

42

Page 43: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

43

Page 44: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

OSNOVNI POJMOVI INFERENCIJALNE STATISTIKE

INFERENCIJALNA STATISTIKA – skup analitičkih metoda koje polaze od uzorka.. Budući da se zaključci donose na temelju dijela podataka oni sadrže pogrešku nastalu zbog primjene uzorka (Sampling error).

Faktori koji uvjetuju primjenu uzorka su slijedeći:1. pojedini konačni skupovi sadrže veliki broj članova pa bi njihovo istraživanje

zahtijevalo velika financijska sredstva2. do rezultata se dolazi u kraćem vremenu3. uzorak se primjenjuje kada bi se istraživanjem uništio čitav statistički skup

(npr.istraživanje trajnosti električnih žarulja)4. beskonačni skupovi istražuju se isključivo metodom uzorka (pr.beskonačnog

skupa:proizvodnja)

Dvije su osnovne zadaće metode uzorka:1. procjenjivanje parametra2. testiranje hipoteza

PLAN UZORKA – plan izbora jedinica u uzorak. Osnovna svrha plana je izbor reprezentativnog uzorka, tj. uzorak mora biti umanjena slika osnovnog skupa.S obzirom na način izbora jedinica uzorka razlikuju se namjerni i slučajni uzorci.

1. namjerni uzorci – jedinice uzorka izabiru se prema odluci istraživača prigodni uzorak – ispituju se dostupne jedinice (npr.javno mišljenje) uzorak izabran na temelju prosudbe istraživača – istraživač izabire

reprezentativne jedinice pri čemu je potrebno da dobro poznaje osnovni skup

kvotni uzorak – anketari se slobodno odlučuju za jedinice u sklopu kvota Namjerni uzorci jednostavni su za primjenu te se često koriste. Analiziraju se metodama deskriptivne statistike. Nedostatak: nije moguće izračunati grešku nastalu zbog primjene uzorka.

2. slučajni uzorci – svaki elemnt ima vjerojatnost izbora veću od nule. Kod ovih uzoraka moguće je izračunati grešku. Analiziraju se metodama inferencijalne statistike.

jednostavni slučajni uzorak – svaki element ima jednaku vjerojatnost izbora. primjenjuje se kod homogenih skupova.

stratificirani uzorak – prikladniji je kod skupova koji pokazuju veći stupanj varijabilnosti. Jedinice se izabiru iz homogenih dijelova osnovnog skupa koji se nazivaju STRATUMI.

uzorak skupina – u uzorak se ne izabiru pojedini elementi nego njihove skupine.

Ponekad se primjenjuje sistematski izbor (npr.ako iz skupa od 10 000 članova biramo uzorak veličine 1000 birat ćemo svaki 10. član). Budući da se radi o slučajnom uzorku potrebno je odrediti slučajni početak.

44

Page 45: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

OKVIR IZBORA – popis članova statističkog skupa (npr.birački popis)

45

Page 46: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

PREDAVANJE #10

SAMPLING DISTRIBUCIJA – teorijska distribucija vjerojatnosti procjenitelja parametra. Zasniva se na konceptu ponovljenih izbora slučajnih uzoraka iz danog osnovnog skupa pri čemu različiti uzorci dovode do različitih vrijednosti procjena.

Primjer 1.Vrijednosti numeričke varijable x koje tvore osnovni skup su 1, 3 i 5. Iz skupa se izabiru uzorci veličine n=2. Izbor je s jednakom vjerojatnošću svakog elementa skupa odnosno svakog uzorka.

aritmetička sredina osnovnog skupa (μ)

standardna devijacija osnovnog skupa

vrijednosti varijabla

elemenata u uzorku

1 ; 1 1 ; 3 1 ; 5 3 ; 3 3 ; 1 3 ; 5 5 ; 1 5 ; 3 5 ; 5

aritmetička sredina uzorka

1 2 3 3 2 4 3 4 5

Provest ćemo izbor s ponavljanjem – izbor u kojem se svaki izabrani element za uzorak nakon izbora vraća u osnovni skup i tako sudjeluje u izboru sljedećeg elementa za uzorak.Budući da je vjerojatnost izbora svakog slučajnog uzorka veličine n=2 jednaka, iznosi 1/9, distribucija je sredina:

sampling distribucija

Očekivana vrijednost sampling distribucije aritmetičkih sredina uzoraka jednaka je aritmetičkoj sredini osnovnog skupa. Standardna devijacija sampling distribucije sredina prosječno je odstupanje aritmetičkih sredina od aritmetičke sredine osnovnog skupa.

aritmetička sredina uzorka

1 1/9 1/92 2/9 4/93 3/9 9/94 2/9 8/95 1/9 5/9

ukupno 1 27/9=3

46

Page 47: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Ona izražava pogrešku koja nastaje zbog primjene uzorka, stoga se naziva standardnom pogreškom aritmetičke sredine.

47

Page 48: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

PROCJENE PARAMETARA – parametar se procjenjuje brojem i intervalom. Intervalna procjena sastoji se od određivanja granica u kojima će se naći nepoznati parametar.

- karakteristika uzorka, a ujedno i procjena broja - karakteristika osnovnog skupa koja se procjenjuje (npr. aritmetička sredina, total i

proporcija) Procjenitelj :

nepristran – ako je njegova očekivana vrijednost jednaka parametru koji se procjenjuje

konzistentan – ako njegova standardna devijacija s porastom uzorka teži nuli

PROCJENA ARITMETIČKE SREDINE – može biti brojem i intervalom procjena brojem – jednaka je aritmetičkoj sredini uzorka intervalna procjena za veliki uzorak (n>30) – koristi se normalna distribucija

(Gaussova)

aritmetička sredina uzorka

koeficijent pouzdanosti koji se određuje na temelju

površina ispod normalne krivulje standardna pogreška procjene aritm.sredine aritmetčka sredina osnovnog skupa,a ujedno i parametar koji se procjenjuje razina signifikantnosti

intervalna promjena za mali uzorak (n≤30) – koristi se Studentova T – distribucija

-koeficijent pouzdanosti koji se određuje na temelju

studentove distribucije

Primjer 2.Odredite vrijednost standardne pogreške procjene aritmetičke sredine osnovnog skupa za ove slučajeve:a) Procjenjuje se sredina konačnog skupa od 125 768 članova pomoću slučajnog uzorka veličine 1250 članova. Standardna devijacija osnovnog skupa iznosi 64.

N-broj elemenata osnovnog skupa n-broj elemanata uzorka

Frakcija izbora (f) pokazuje da je u uzorak izabrano približno 1% osnovnog skupa.

48

Page 49: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

b) Sredina se procjenjuje pomoću slučajnog uzorka veličine 600 formiranog izborom svakog desetog člana konačnog osnovnog skupa, a varijanca skupa iznosi 100.

c) Uzorak veličine 36 izabran je iz beskonačnog osnovnog skupa N(μ, 52) beskonačni skup f<0.05 (kad u zadatku nemamo N pretpostavljamo da je skup beskonačan i f<0.05)

d)

- nepristrani procjenitelj standardne devijacije populacije

(osnovnog skupa)

e) Veličina je uzorka 256 i čini 2% osnovnog skupa, a standardna devijacija uzorka je 32.s – standardna devijacija uzorka

faktor korekcije

Primjer 3.Tvrtka isporučuje vijke pakovanih po 100 komada. Kupac je primio pošiljku od 10000

49

Page 50: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

pakovanja. Radi kontrole izabran je slučajni uzorak od 60 pakovanja. Kontrolom je ustanovljen slijedeći broj neispravnih vijaka po pakovanju: 4, 3, 3, 1, 3,…. Njihov zbroj je

117.

Procjenite brojem i intervalom prosječan broj neispravnih vijaka po pakovanju za cijelu pošiljku. Razina povjerenja je 95%.

procjena brojem – procjenitelj aritmetičke sredine je aritmetička sredina uzorka

procjena prosječnog broja neispravnih vijaka po pakovanju

intervalni procjenitelj

0.95:2 = 0.4750z(P=0.4750) = 1.96

Kako nije poznata standardna devijacija osnovnog skupa potrebno je izračunati njezinu procjenu pomoću podataka iz uzorka.

Interpretacija: S vjerojatnošću od 0.95 odnosno 95% očekuje se da će se prosječan broj neispravnih vijaka po pakovanju kretati između 0.68471 i 2.21529.

Primjer 4.Ispituje se prosječno trajanje pozivnih telefonskih razgovora preko telefonske centrale poduzeća Market. Trajanje u minutama 10 slučajno odabranih razgovora iz evidencije 8967 razgovora bilo je slijedeće:xi : 2 1 1 2 3 4 2 1 1 3

50

Page 51: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Pretpostavlja se da je trajanje pozivnih razgovora na centrali normalno distribuirano s nepoznatom aritmetičkom sredinom i nepoznatom standardnom devijacijom.Odredite granice za koje se može očekivati da obuhvaćaju prosječno trajanje razgovora za osnovni skup. Pouzdanost procjene je 90%.

koeficijent pouzdanosti t određuje se pomoću tablice studentove T-distribucije.

S vjerojatnošću od 90% očekuje se da će se prosječno trajanje razgovora za osnovni skup kretati između 1.38901 i 2.61099.

PREDAVANJE #11

PROCJENA TOTALA OSNOVNOG SKUPA

TOTAL – zbroj vrijednosti numeričkog obilježja. Taj je parametar povezan s aritmetičkom sredinom.

Zbog toga se postupak procjenjivanja totala svodi na postupak procjenjivanja aritmetičke sredine.

procjena totala brojem -

51

Page 52: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

-

intervalna procjena za veliki uzorak -

- koeficijent pouzdanosti

- standardna pogreška procjene totala - razina pouzdanosti (povjerenja)

intervalna procjena za mali uzorak – kao koeficijent korisnosti koristi se .

ODREĐIVANJE VELIČINE UZORKA ZA PROCJENU ARITMETIČKE SREDINE OSNOVNOGA SKUPAVeličina uzorka ovisi o slijedećim elementima:

1. vrsti osnovnog skupa (konačan ili beskonačan)2. razini pouzdanosti procjene3. željenoj pouzdanosti procjene4. stupnju varijabilnosti podataka

PRETHODNA VELIČINA UZORKA n0 :

ako su pogreška (d) i stupanj varijabilnosti izraženi apsolutno:

ako su pogreška (dr) i stupanj varijabilnosti izraženi relativno:

KONAČNA VELIČINA UZORKA:

frakcija:

Primjer 1.U grafičkoj djelatnosti zaposlena su 9 754 zaposlenika. Koliko zaposlenika treba izabrati u uzorak pomoću kojega se procjenjuje prosječni radni staž svih zaposlenika. Procjenjuje se s 95% pouzdanosti. Tolerira se pogreška od najviše ±0.5 godine. Pretpostavlja se da je σ osnovnog skupa 6 godina.

52

Page 53: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Prema navedenim uvjetima u uzorak treba izabrati 523 zaposlenika. PROCJENA PROPORCIJE OSNOVNOG SKUPA

PROPORCIJA OSNOVNOG SKUPA – parametar koji predstavlja omjer broja članova osnovnog skupa s određenim modalitetom obilježja i opsega statističkog skupa

procjenitelj procjene brojem: m - broj elemenata s određenim modalitetom

obilježja u uzorku n - broj elemenata uzorkaSampling distribucija proporcija uzoraka ima oblik binomne ili hipergeometrijske distribucije. Za dovoljno veliki uzorak aproksimira se normalnom distribucijom.

intervalna procjena za veliki uzorak:

p-proporcija osnovnog skupa

TESTIRANJE HIPOTEZA O PARAMETRU

STATISTIČKA HIPOTEZA – tvrdnja o veličini parametra ili o obliku distribucije osnovnog skupa čija se istinitost ispituje pomoću slučajnog uzorka.TESTIRANJE STATISTIČKIH HIPOTEZA – postupak kojim se donosi odluka o prihvaćanju ili ne prihvaćanju tvrdnje.

STATISTIČKI TESTOVI: parametarski – polazi se od danog oblika numeričke varijable u osnovnom skupu neparametarski

Svaki postupak testiranja polazi od nulte (H0) i alternativne hipoteze (H1)

U postupku donošenja odluka mogu se pojaviti dvije vrste pogrešaka: POGREŠKA TIPA I – nastaje ako se odbaci istinita nulta hipoteza POGREŠKA TIPA II – nastaje ako se prihvati lažna nulta hipoteza

RAZINA ZNAČAJNOSTI (RAZINA SIGNIFIKANTNOSTI) α – vjerojatnost odbacivanja istinite nulte hipotezeβ – vjerojatnost prihvaćanja lažne nulte hipotezeSNAGA TESTA (1-β)– vjerojatnost odbacivanja lažne nulte hipoteze

53

Page 54: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

TESTIRANJE HIPOTEZA O PRETPOSTVLJENOJ VRIJEDNOSTI ARITMETIČKE SREDINE OSNOVNOG SKUPA – ovo se testiranje provodi na temelju slučajnog uzorka od N članova

N > 30 veliki uzorak – TEST VELIKIM UZORKOMN ≤ 30 mali uzorak – TEST MALIM UZORKOM

Testiranje se provodi u slijedećim koracima:1. postavljanje hipoteza2. identificiranje izraza za testnu veličinu i određivanje njene vrijednosti3. odabir razine signifikantnosti i određivanje kritičnih granica4. donošenje odluke

Test može biti: dvosmjeran jednosmjeran (na donju ili na gornju granicu)

Odluka se može donijeti na iduće načine: pomoću kritičnih granica Z-test ; T-test pomoću empirijske razine signifikantnosti tj. p-vrijednosti

DVOSMJERNI TEST – nije ograničen smjer odstupanja. Pretpostavka je da je aritmetička sredina jednaka pretpostavljenoj. Pretpostavka se formulira kao nulta hipoteza.

Primjer 2.Prema standardu prosječna trajnost električnih žarulja od 75W iznosi 2000 h s prosječnim odstupanjem 250 h. Iz serije žarulja izabran je, uz frakciju izbora manju od 5%, slučajni uzorak 64 žarulje. Ispitivanjem je ustanovljeno da je prosječna trajnost žarulja u uzorku 1935 h. Može li se prihvatiti pretpostavka da je uzorak izabran iz osnovnog skupa kojemu je aritmetička sredina prema standardu tj.2000 h. testirati na razini značajnosti 5%.

veliki uzorak normalna distribucija

Koeficijent značajnosti za danu razinu značajnosti određuje se pomoću površina ispod normalne krivulje. Postupak određivanja toga koeficijenta jednak je postupku određivanja koeficijenta povjerenja pri procjeni parametra. Međutim koeficijent značajnosti odražava razinu značajnosti tj. vjerojatnost pogreške tipa I., a koeficijent povjerenja razinu povjerenja procjene.

54

Page 55: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

1.

Ove kritične granice izražene su u mjernim jedinicama varijable.

ODLUKA:

Na danoj razini značajnosti odbacuje se nulta hipoteza tj. ne prihvaća se pretpostavka da je uzorak izabran iz skupa žarulja s prosječnom trajnošću 2000 h.

2. Z-testtest veličina ( empirijski z-omjer)

ODLUKA:

3. Pomoću empirijske razine signifikantnosti tj. p-vrijednostiTeorijska razina signifikantnosti sastavni je element. Ona predstavlja odabranu vjerojatnost odbacivanja istinite nulte hipoteze.Empirijska razina signifikantnosti ili opažena razina signifikantnosti (p-vrijednost) vjerojatnost je odbacivanja istinite nulte hipoteze izračunata pomoću podataka iz uzorka odnosno test veličina (empirijskog z odnosno t omjera)

ODLUKA:

JEDNOSMJERNI TEST NA GORNJU GRANICU - od interesa je promatrati odstupanje na više. Pretpostavlja se da je aritmetička sredina osnovnog skupa veća od pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza. (“više od”, “najmanje”, “barem”)

55

Page 56: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Primjer 3.Radi povećanja produktivnosti strojeva predložena je njihova preinaka. Prema proračunima preinaka je poslovno opravdana ako se postigne povećan broj operacija po satu i ako u prosjeku iznosi više od 120. Na jednom stroju provedena je preinaka i evidentiran je broj operacija po satu 144 mjerenja. Prosječan broj operacija po satu iznosi je 125. Zbroj kvadrata vrijednosti mjerenja iznosi 2 307 600. Do kojeg se zaključka dolazi na temelju provedenog ispitivanja? Vjerojatnost odbacivanja istinite nulte hipoteze iznosi 5%.

1. pomoću kritičnih granica

ODLUKA:

Odstupanje aritmetičke sredine uzorka na više značajno je pa se prihvaća pretpostavka da je preinaka strojeva opravdana.

2. Z-test

ODLUKA:

3. pomoću empirijske razine signifikantnosti tj. p-vrijednost

ODLUKA:

56

Page 57: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

57

Page 58: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

PREDAVANJE#12

JEDNOSMJERNI TEST NA DONJU GRANICU – od interesa je promatrati odstupanje na niže. Pretpostavlja se da je aritmetička sredina osnovnog skupa manja od pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza. (“manje od”, “najviše”, “ne više od”)

Primjer 1.Poslovodstvo banke odlučilo je promijeniti programsku potporu šalterskog poslovanja kako bi se smanjio prosječni utrošak vremena obrade naloga stranaka i time skratilo vrijeme čekanja stranaka. Analizom je utvrđeno da se promjena potpore isplati ako prosječno vrijeme obrade iznosi najviše 30 sekundi po nalogu. Razvojna služba banke izradila je programsku potporu koja se testira u odabranom broju poslovnica. Na temelju podataka o trajanju obrade pomoću nove programske potpore za 453 slučajno odabrana naloga izračunano je prosječno utrošeno vrijeme po nalogu koje iznosi 28 sekundi s prosječnim odstupanjem 4 sekunde. Do kojeg se zaključka dolazi na temelju provjere rada s novim programom? Testirati na razini značajnosti 2%.

Uzorak je velik pa koristimo normalnu distribuciju.

1. pomoću kritične granice

ODLUKA:

Odstupanje aritmetičke sredine uzorka naniže je značajno na danoj razini signifikantnosti pa se zaključuje da nova programska potpora skraćuje vrijeme obrade naloga.

2. Z-testtest veličina (empirijski z-omjer) je:

ODLUKA:

58

Page 59: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Empirijski z-omjer manji je od teorijske vrijednosti pa se na danoj razini signifikantnosti odbacuje nulta hipoteza.

TESTIRANJE HIPOTEZA O RAZLICI ARITMETIČKIH SREDINA DVAJU OSNOVNIH SKUPOVA NEZAVISNIM UZORCIMA

Uzorci su nezavisni ako rezultati opažanja i mjerenja u jednome uzorku ne ovise o rezultatima opažanja i mjerenja u drugome uzorku, npr. ispitivanje efikasnosti rada radnika u dvije tvornice.

Uzorci su zavisni ako se vrijednosti iz uzorka dobivaju ponovljenim opažanjem odnosno mjerenjem odabrane varijable na istim jedinicama u različitim vremenskim terminima, npr. mjerenje efikasnosti rada radnika u istoj tvornici prije i nakon provedenog programa stručnog usavršavanja.

DVOSMJERNI TEST – pretpostavlja se da su aritmetičke sredine osnovnih skupova jednake (μ1,μ2). Pretpostavka se formulira kao nulta hipoteza.

Primjer 2.Pomoću uzorka se ispituje razlika u prosječnoj mjesečnoj potrošnji mlijeka četveročlanih kućanstava u dva naselja. U naselju Lug je 2500 četveročlanih kućanstava, a u naselju Gaj 2000. Kod četveročlanih kućanstava u naselju Lug izabrano je u uzorak svako 50. kućanstvo, a od ukupnog broja četveročlanih kućanstava u naselju Gaj u uzorak je izabrano 2% kućanstava. Na temelju podataka iz uzorka kućanstava naselja Lug utvrđena je prosječna mjesečna potrošnja po kućanstvu 53 litre s prosječnim odstupanjem od 1 litre. Pomoću vrijednosti iz uzorka kućanstava iz naselja Gaj utvrđena je prosječna mjesečna potrošnja po kućanstvu 50 litara s prosječnim odstupanjem od 1.41 litre. Može li se prihvatiti pretpostavka da se prosječna mjesečna potrošnja mlijeka četveročlanih kućanstava u naseljima Lug i Gaj signifikantno ne razlikuju? Razini signifikantnosti je 3%.

standardna pogreška za velike uzorke:

59

Page 60: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

1. pomoću kritičnih granica

test veličina:

ODLUKA:

Ne može se prihvatiti pretpostavka da se prosječna mjesečna potrošnja mlijeka četveročlanih kućanstava u naselju Lug i Gaj signifikantno se ne razlikuju.

2. Z-testtest veličina (empirijski z-omjer)

ODLUKA:

JEDNOSMJERNI TEST NA GORNJU GRANICU – pretpostavlja se da je aritmetička sredina prvog osnovnog skupa veća od aritmetičke sredine drugog osnovnog skupa. Pretpostavka se formulira kao alternativna hipoteza.

Primjer 3.Ispituje se pretpostavka da su prosječni izdaci za odjeću poljoprivrednih kućanstava veći od prosječnih izdataka za odjeću nepoljoprivrednih kućanstava. U tu svrhu odabrani su slučajni uzorci od po 500 kućanstava. Promatrani su godišnji izdaci.

poljoprivredna kućanstva nepoljoprivredna kućanstva

60

Page 61: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

standardna pogreška za velike uzorke:

1. pomoću kritične granice

test veličina: ODLUKA:

Ne može se prihvatiti pretpostavka da su prosječni izdaci za odjeću poljoprivrednih kućanstava veči od prosječnih izdataka za odjeću nepoljoprivrednih kućanstava.

2. Z-testtest veličina (empirijski z-omjer)

ODLUKA:

3. pomoću empirijske razine signifikantnosti (p-vrijednost)

ODLUKA:

JEDNOSMJERNI TEST NA DONJU GRANICU – pretpostavlja se da je aritmetička sredina prvog osnovnog skupa manja od aritmetičke sredine drugog osnovnog skupa. Pretpostavka se formulira kao alternativna hipoteza.

Primjer 4.Ispituje se tvrdnja da su maloprodajne cijene prehrambenih proizvoda niže u diskontima nego u klasičnim prodavaonicama. U tu su svrhu odabrani slučajni uzorci od 50 maloprodajnih cijena u diskontima i 80 maloprodajnih cijena u klasičnim prodavaonicama. Uzorci cijena prikupljeni su u istom vremenskom razdoblju i za isti prehrambeni proizvod.

61

Page 62: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

diskonti klasične prodavaonice

Može li se na osnovi podataka iz uzorka zaključiti da je prosječna maloprodajna cijena prehrambenih proizvoda niža u diskontima nego u klasičnim prodavaonicama? Razina signifikantnosti je 1%.

standardna pogreška za velike uzorke:

1. Z-testtest veličina (empirijski z-omjer)

ODLUKA:

Može se prihvatiti pretpostavka da je prosječna maloprodajna cijena prehrambenih proizvoda niža u diskontima nego u klasičnim prodavaonicama.

PREDAVANJE #13

REGRESIJSKA ANALIZA – njom se ispituje ovisnost jedne varijable o drugoj varijabli ili o više drugih varijabli, npr.proizvodnja o broju zaposlenih, potrošnja o visini plaće

ZAVISNA VARIJABLA – varijabla čije se varijacije objašnjavaju NEZAVISNE VARIJABLE – varijable kojima se objašnjavaju varijacije zavisne varijableREGRESIJSKI MODEL – jednadžba ili skup jednadžbi s konačnim brojem parametara i varijabli

linearni nelinearni

62

Page 63: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

MODEL JEDNOSTAVNE LINEARNE REGRESIJE – njime se izražava odnos među dvjema pojavama. Model sadrži jednu zavisnu i jednu nezavisnu varijablu. Primjenjuje se za varijable koje su u linearnom statističkom odnosu.

DESKRIPITVNO STATISTIČKA ANALIZA MODELA JEDNOSTAVNE LINEARNE REGRESIJEopći oblik modela jednostavne regresije:f(x) – funkcionalni dio modelae – stohastička varijabla koja odražava nesistemske utjecaje na zavisnu varijablu

Ako je funkcionalni dio modela oblika model postaje: Ako su a i b procjene nepoznatih parametara α i β, a ui procjene nepoznatih vrijednosti varijable e, model se može izraziti na slijedeći način:

linearna regresijska jednadžba:

Do procjene a i b dolazi se primjenom metode najmanjih kvadrata:

KONSTANTNI ČLAN a - predstavlja vrijednost regresije u slučaju kada je nezavisna varijabla jednaka nuliREGRESIJSKI KOEFICIJENT b - pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna varijabla poveća za jedinicu.

JEDNADŽBA ANALIZE VARIJANCE

ST – ukupan zbroj kvadrataSP – protumačeni zbroj kvadrataSR – rezidualni ili neprotumačeni zbroj kvadrata

- empirijske ili stvarne vrijednosti zavisne

varijable - aritmetička sredina zavisne varijable

- regresijske vrijednosti

Osnove za mjerenje reprezentativnosti regresije su rezidualna odstupanja.Varijanca regresije aritmetička je sredina kvadrata rezidualnih odstupanja:

63

Page 64: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Standardna devijacija regresije:

Koeficijent varijacije regresije:

Standardna devijacija regresije interpretira se kao prosječno odstupanje empirijskih vrijednosti od regresijskih izraženo apsolutno. Koeficijent varijacije je to isto odstupanje izraženo relativno.

Specifičan pokazatelj reprezentativnosti regresije je koeficijent determinacije:

Regresija je to reprezentativnija što se koeficijent determinacije više približava jedinici.

KORELACIJSKA ANALIZA – njome se određuju jakosti veze. Mjera jakosti veze je koeficijent korelacije.Koeficijent korelacije drugi je korijen iz koeficijenta determinacije:

Ako je koeficijent korelacije jednak nula, među pojavama ne postoji veza.Ako je koeficijent korelacije jednak -1, veza je potpuna i negativnog smjera.Ako je koeficijent korelacije jendak +1, veza je potpuna i pozitivnog smjera.

Primjer 1.U 6 prodavaonica na području A registriran je slijedeći broj zaposlenih i ostvareni promet u tisućama kn.

broj zaposleni

h

promet

2 25 4 625 503 31 9 961 938 85 . . .4 51 . . .7 69 . . .6 65 . . .30 326 178 20 398 1900

a) Odredite status varijabli u modelu! Zavisna varijabla (y) – promet u tisućama kuna Nezavisna varijabla (x) – broj zaposlenih

b) Nacrtajte dijagram rasipanja! Konstruira se u pravokutnom koordinatnom sustavu. Na osi-x nalazi se aritmetičko mjerilo za nezavisnu varijablu (x), a na osi-y mjerilo za zavisnu varijablu (y). Predstavlja pomoćno sredstvo za izbor oblika

64

Page 65: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

funkcije u modelu.

Iz dijagrama rasipanja se zaključuje o :1. obliku veze – oblik veze je linearan2. smjeru veze – smjer je pozitivan3. jakosti veze – veza je relativno jak

c) Kako glasi linearna regresijska jednadžba s procijenjenim parametrima?

Interpretacija: a (konstantni član) – Kada je broj zaposlenih jednak 0 regresijska vrijednost ukupnog prometa je 6.08 tisuća kuna. b (regresijski koeficijent) – Ako se broj zaposlenih poveća za jednu osobu tada će se ukupan promet povećati linearno i u prosjeku za 9.65 tisuća kuna.

d) Odredite regresijske vrijednosti i vrijednosti rezidualnih odstupanja te relativnih rezidualnih odstupanja! Regresijske vrijednosti određuju se tako da se u regresijsku jednadžbu redom uvrštavaju stvarne vrijednosti nezavisne varijable.

Interpretacija: Za dva zaposlena očekivana vrijednost ukupnog prometa iznosi 25.38 tisuća kuna.

65

Page 66: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Rezidualna odstupanja izračunavaju se tako da se od stvarne varijable oduzme pripadajuća regresijska vrijednost :

Relativna rezidualna odstupanja definiraju se izrazom:

Interpretacija: Prema regresiji za 2 zaposlena precijenjen je ukupan promet za 0.38 tisuća kuna ili 1,52%.

e) Regresijski pravac ucrtajte u dijagram rasipanja!f) Kolika varijanca, standardna devijacija i koeficijent varijacije regresije?

Prosječno odstupanje empirijskih vrijednosti prometa od regresijskih vrijednosti iznosi 3.67 tisuća kuna ili relativno 6.76%

g) Izračunajte vrijednosti članova u jednadžbi raščlambe zbroja kvadrata odstupanja vrijednosti zavisne varijable od njezine aritmetičke sredine! (jednadžba analize varijance)

h) Odredite koeficijent determinacije i koeficijent linearne korelacije!

Interpretacija: Linearnom regresijskom vezom protumačeno je 97% svih odstupanja. Na temelju toga može se zaključiti da je model reprezentativan.

66

Page 67: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

koeficijent determinacije

apsolutna vrijednost koeficijenta linearne

korelacije

tumačenje

0 0 odsutnost korelacije0,00-0,25 0,00-0,50 slaba korelacija0,25-0,64 0,50-0,80 korelacija srednje jačine

0,64-1 0,80-1 čvrsta korelacija1 1 potpuna korelacija

(perfektna)

Radi se o čvrstoj korelaciji pozitivnog smjera

i) Koliko iznosi korigirani koeficijent determinacije?

j) Sastavite tabelu ANOVA! Tabela ANOVA za jednostavnu regresiju:

izvor varijacije

stupnjevi slobode

zbroj kvadrata

sredina kvadrata

empirijski t-omjer

protumačen modelom

11

SP2606.59

SP/12606.59 128.85

neprotumačena

(rezidualna) odstupanja

n-24

SR80.92

SR/(n-2)20.23

/

UKUPNO n-15

ST2687.51

/ /

PREDAVANJE #14

INFERENCIJALNO-STATISTIČKA ANALIZA MODELA JEDNOSTAVNE LINEARNE REGRESIJE – empirijske vrijednosti zavisne varijable smatraju se uzorkom iz zamišljenoga beskonačnoga osnovnog skupa. U sklopu inferencijalno-statističke analize provodi se procjenjivanje parametara i testiranje hipoteza.

model osnovnog skupa (populacije): α i β – nepoznati parametri populacijee – nepoznate vrijednosti slučajne varijable

model uzorka: - procjene nepoznatih parametara

- procjene nepoznatih vrijednosti slučajne varijable

67

Page 68: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Procjene parametara brojem u sklopu inferencijalne statistike jednake su procjenama u sklopu deskriptivne statistike, tj.

procjena varijance brojem:

procjena standardne devijacije:

intervalna procjena parametra β:

mali uzorak

veliki uzorak

Primjer 1.

Dana je regresijska jednadžba :

U kojim se granicama može očekivati da će se naći parametar β? Pouzdanost procjene je 95%, a n=25.

Uz pouzdanost od 95% očekuje se da će se nepoznati parametar naći unutar ovih granica.

TESTIRANJE HIPOTEZA U MODELU JEDNOSTAVNE LINEARNE REGRESIJE – može se provesti na više ekvivalentnih načina:

1. F-TEST

ili alternativno (češće)

test veličina (empirijski f-omjer) :

Odluka se donosi usporedbom empirijskog f-omjera sa teorijskom vrijednošću koja se očitava iz tablica.

2. T-TEST

test veličina (empirijski t-omjer) :

68

Page 69: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Odluka se donosi usporedbom empirijskog t-omjera sa teorijskom vrijednošću koja se očitava iz tablica.Test se može provesti kao dvosmjerni ili jednosmjerni (na donju ili gornju granicu). Ako je β<0 jednosmjerni test na donju granicu

Ako je β>0 jednosmjerni test na gornju granicu

Primjer 2.

Dana je regresijska jednadžba:

Može li se prihvatiti pretpostavka da je varijabla x suvišna u modelu? Testirati na razini 5% signifikantnosti. n=25. Primjenite t-test.

dvosmjerni test

ODLUKA:

Nezavisna varijabla x nije suvišna u modelu.

MODEL VIŠESTRUKE REGRESIJE (MULTIPLA REGRESIJA) – njime se izražava ovisnost jedne varijable o više drugih varijabli.

ANALIZA MODELA VIŠESTRUKE LINEARNE REGRESIJE

model osnovnog skupa (populacije): model uzorka: alternativno linearna regresijska jednadžba s procijenjenim parametrima:

Za procjenjivanje parametra koristi se metoda najmanjeg kvadrata.- konstantni član – predstavlja vrijednost regresije kada su nezavisne varijable jednake

0.- regresijski koeficijent – pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako

se nezavisna varijabla xj poveća za jedan uz uvjet da ostale nezavisne varijable ostanu nepromijenjene.

REGRESIJSKE VRIJEDNOSTI – određuju se uvrštavanjem vrijednosti nezavisnih varijabli u regresijsku jednadžbu.REZIDUALNA ODSTUPANJA – odstupanja empirijskih vrijednosti od regresijskih izražena apsolutno

RELATIVNA REZIDUALNA ODSTUPANJA -

69

Page 70: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

STANDARDIZIRANA REZIDUALNA ODSTUPANJE -

NEPRISTRANA PROCJENA VARIJANCE BROJEM -

INTERVALNE PROCJENE PARAMETARA -

KOEFICIJENT VIŠESTRUKE DETERMINACIJE - opći pokazatelj

kvalitete modelaModel je to reprezentativniji što je koeficijent determinacije bliže jedinici.

TESTIRANJE HIPOTEZA O MODELU VIŠESTRUKE REGRESIJE – najčešće se koriste slijedeći testovi:

1. PARCIJALNI TEST – testira se značajnost podskupa nezavisne varijable

2. POJEDINAČNI TEST – testira se značajnost jedne nezavisne varijable. Može se

provesti i kao f-test i kao t-test3. SKUPNI TEST – testira se značajnost svih nezavisnih varijabli u

modelu. Uvijek se provodi kao f-test.

U hipotezi H0 stoji da nijedna nezavisna varijabla nije značajna za model. U hipotezi H1 stoji da je barem jedna nezavisna varijabla značajna za model.

Test veličina je empirijski f-omjer iz tabele ANOVA.Odluka se donosi usporedbom empirijskog f-omjera sa teorijskom vrijednošću koja se očitava iz tablica.

TABLICA ANOVA ZA VIŠESTRUKU REGRESIJU:

izvor varijacije

stupnjevi slobode

zbroj kvadrat

a

sredine kvadrata

empirijski f-

omjerprotumačen

modelomk SP

neprotumačena modelom (rezidualna) odstupanja

n-(k+1) SR /

ukupno n-1 ST / /

70

Page 71: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

k – broj nezavisnih varijabli

ukupna odstupanja: empirijske vrijednosti od prosjekaprotumačena odstupanja: regresijske vrijednosti od prosjekaneprotumačena odstupanja: empirijske vrijednosti od regresijskih

PREDAVANJE #15

MODELI VREMENSKIH SERIJA – njima se opisuje razvoj pojava u vremenu.

Vremenska serija se može raščlaniti na slijedeće komponente: KOMPONENTA TRENDA – predstavlja osnovnu tendenciju razvoja pojave u

vremenu. Izražava se nekom funkcijom vremena. S obzirom na tu funkciju vremena trend može biti linearni i eksponencijalni.

SEZONSKA KOMPONENTA – posljedica je klimatskih faktora, ritma, proizvodnje, potrošnje… Očituje se onda kada se vremenska pojava obnavlja na približno isti način unutar jedne godine.

CIKLIČKA KOMPONENTA – očituje se onda kada se vremenska pojava obnavlja na približno isti način s periodom od 2 ili više godine.

SLUČAJNA (STOHASTIČKA) KOMPONENTA – odražava nesistematske utjecaje na pojavu

opći oblik aditivnog modela: Y – pojava koju promatramo T – vrijednost komponente trenda C – vrijednost cikličke komponente S – vrijednost sezonske komponente e – vrijednost slučajne komponente

U kratkom vremenskom razdoblju trend i ciklus komponente se ne razdvajaju pa se model može pisati:

ili T – komponenta trend ciklusa

opći oblik multiplikativnog modela:

MODELI TRENDA – njima se statistički opisuje dugoročna kovarijacija pojave sa vremenom

1. ADITIVNI MODEL: 2. MULTIPLIKATIVNI MODEL:

71

Page 72: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

3. MODEL LINEARNOG TRENDA:

4. MODEL EKSPONENCIJALNOG TRENDA:

Primjer 1. Linearni trendModel linearnog trenda identičan je modelu jednostavne linearne regresije u kojemu je vrijeme nezavisna varijabla. Prikladan je kada se vremenska pojava mijenja od razdoblja do razdoblja za približno isti apsolutni iznos, tj. kada su prve diferencije približno konstantne.

Stanovništvo SAD-a u milijunima, stanje sredinom godinegodin

astanovništ

voprve

diferencije

varijabla

vrijeme

trend vrijedno

sti

rezidualna

odstupanja

1992 255 - 1 255 1 65025 255.32 -0.321993 258 3 2 516 4 . 257.93 0.071994 261 3 3 . . . 260.53 0.471995 263 2 4 . . . 263.13 -0.131996 266 3 5 . . . 265.73 0.271997 268 2 6 . . . 268.33 -0.33ukupn

o1571 - 21 5544 91 41145

91571.00 0.00

a) Odredite vrijednosti prvih diferencija! Što se zaključuje na temelju grafa i prvih diferencijacija?

Ako su prve diferencije približno konstantne radi se o linearnom trendu.

b) Procijenite parametre modela linearnog trenda metodom najmanjih kvadrata! Varijabla vrijeme – koliko podataka imamo toliko brojeva poprima (1,….,n)

jednadžba linearnog trenda:

Interpretacija: a (konstantni član) = 252.716

72

Page 73: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Vrijednost trenda broja stanovnika za godinu koja prethodi prvoj godini u nizu tj.za 1991. iznosi 252.716 milijuna.

b (koeficijent linearnog trenda) = 2.604 Pokazuje prosječnu linearnu pojavu razine pojave za jedinični porast vrijednostii varijable vrijeme, dakle broj stanovnika povećavao se u prosjeku linearno 2.604 milijuna godišnje

c) Odredite trend vrijednosti! Računaju se uvrštavanjem varijable vrijeme u jednadžbu trenda. Procjena broja stanovnika prema trendu za 1992. iznosi 255.32 milijuna.

d) Odredite rezidualna osdtupanja i protumačite im značenje!

za malu decimalu se može razlikovati od 0 zbog

zaokruživanja Interpretacija: Stvarni broj stanovnika zta 1992.g. iznosi 255 milijuna, a vrijednost trenda broja stanovnika za tu godinu 255.32 milijuna. Razlika predstavlja rezidualno odstupanje, tj. prema trendu broj stanovnika je precijenjen za 0.32 milijuna

e) Formulirajte tabelu ANOVA!

izvor

varijacijestupnjev

i slobode

zbroj kvadrat

a

sredina kvadrata

empirijski f-omjer

protumačen modelom

k1

SP123.72

SP/k123.72 88.37

neprotumačena

odstupanja

n-(k+1)4

SR5.59

SR/n-(k+1)1.40

/

ukupno n-15

ST129.31

/ /

f) Izračunajte varijancu, standardnu devijaciju i koeficijent varijacije trenda! to su mjere reprezentativnosti trenda.

Interpretacija:

73

Page 74: EFZG - statisitka, prof. Cizmic - predavanja

Doc.dr.sc. Draženka Čizmić – predavanja 2009.g.

Prosječno odstupanje stvarnog broja stanovnika od vrijednosti trenda iznosi 0.30 milijuna ili relativno 0.11%. Na temelju ovih pokazatelja može se zaključiti da je reprezentativnost trenda velika.

Primjer 2. Eksponencijalni trendPrikladan je kada se vremenska pojava mijenja od razdoblja do razdoblja za približno isti relativni iznos, tj. kada su verižni indeksi približno konstantni.primjer eksponencijalnog trenda

Logaritamskom transformacijom model eksponencijalnog trenda svodi se na model linearnog trenda. U linegriziranom modelu se umjesto originalnih vrijednosti koriste njihovi logaritmi.

Interpretacija:a (konstantni član)To je trend vrijednost za razdoblje prije prvoga.

b (koeficijent eksponencijalnog trenda)Pokazuje za koliko će se puta promijeniti trend vrijednost ako se varijabla vrijeme poveća za 1.

74