33
Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007. __________________________________________________________________________ ______________________________________________________________________1 5. Teorija uzoraka Sadrţaj poglavlja: 5. Teorija uzoraka 5.1. Zaključivanje na temelju uzorka iz jedne slučajne varijable 5.1.1. Procjena očekivanja 5.1.2. Testiranje hipoteza o očekivanju iz jedne slučajne varijable 5.1.3. Procjena proporcije 5.1.4. Testiranje hipoteza o proporciji iz jedne slučajne varijable 5.1.5. Zaključivanje o distribuciji 5.1.5.1. Je li obiljeţje normalno distribuirano 5.2. Zadaci - zaključivanje iz jedne slučajne varijable 5.3. Zaključivanje temeljeno na dva i više uzoraka 5.3.1. Testiranje hipoteza o očekivanju iz dva uzorka 5.3.2. Testiranje hipoteza o proporciji iz dva uzorka 5.3.3. Zaključivanje temeljeno na više od dva uzorka 5.4. Zadaci - zaključivanje iz dva i više uzoraka 5.5. Neparametarske metode 5.5.1. Diskretna obiljeţja 5.5.2. Kontinuirana obiljeţja 5.6. Zadaci - neparametarske metode

Predavanja za kolegij 'Analiza poslovnih podataka' · Interval povjerenja za očekivanje slučajne varijable obično se odreĎuje korištenjem aritmetičke sredine uzorka. Zašto?

  • Upload
    others

  • View
    14

  • Download
    0

Embed Size (px)

Citation preview

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________1 5. Teorija uzoraka

Sadrţaj poglavlja:

5. Teorija uzoraka 5.1. Zaključivanje na temelju uzorka iz jedne slučajne varijable 5.1.1. Procjena očekivanja 5.1.2. Testiranje hipoteza o očekivanju iz jedne slučajne varijable 5.1.3. Procjena proporcije 5.1.4. Testiranje hipoteza o proporciji iz jedne slučajne varijable 5.1.5. Zaključivanje o distribuciji 5.1.5.1. Je li obiljeţje normalno distribuirano 5.2. Zadaci - zaključivanje iz jedne slučajne varijable 5.3. Zaključivanje temeljeno na dva i više uzoraka 5.3.1. Testiranje hipoteza o očekivanju iz dva uzorka 5.3.2. Testiranje hipoteza o proporciji iz dva uzorka 5.3.3. Zaključivanje temeljeno na više od dva uzorka 5.4. Zadaci - zaključivanje iz dva i više uzoraka 5.5. Neparametarske metode 5.5.1. Diskretna obiljeţja 5.5.2. Kontinuirana obiljeţja 5.6. Zadaci - neparametarske metode

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________2 5. Teorija uzoraka

5. Teorija uzoraka

Promatranje neke pojave koju ţelimo ispitati i statistički obraditi nije jednostavan posao i gotovo je nemoguće imati podatke o toj pojavi na svakom mjestu i u svakom trenutku. Zbog toga su se u statistici razvile metode koje na osnovi poznavanja jednog dijela pojave, omogućuju donošenje zaključaka o cijeloj pojavi. Jedan dio neke pojave naziva se UZORAK. Kako se kreira uzorak? Recimo da imamo neko obiljeţje koje se moţe opisati slučajnom varijablom X koja ima distribuciju F(x). Postotak vlage u zrnu pčenice – slučajna varijabla U cilju istraţivanja slučajne varijable trebamo napraviti uzorak.

uzimamo n elemenata u uzorak (n puta izvodimo pokus) Slučajan pokus – prikupljanje zrna pšenice na polju n puta uzimamo po zrno pšenice i izmjerimo postotak vlage Prvi postupak izbora; dobijemo n brojeva; jedna realizacija uzorka

)1(n

)1(2

)1(1 x,...,x,x

jedan uzorak postotaka vlage za n zrna pšenice Drugi postupak izbora; dobijemo n brojeva; druga realizacija uzorka

)2(n

)2(2

)2(1 x,...,x,x

drugi uzorak postotaka vlage za n zrna pšenice itd. Svi brojevi koje dobijemo uzimanjem elemenata u uzorak su iz skupa vrijednosti slučajne varijable X i distribuirani su kao X. Uzorak je n-dimenzionalni slučajan vektor:

n21 X,...,X,X

kod kojeg su sve komponente - jednako distribuirane i nezavisne.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________3 5. Teorija uzoraka

Da bi uzorak bio reprezentativan, postupak uzimanja pojedinog elementa u uzorak ne smije utjecati na uzimanje ostalih elemenata u uzorak - nezavisnost. NPR. Ţelimo saznati količinu groţĎa koje rodi na petogodišnjem čokotu u jednom vinogradu u jednoj sezoni. Količina groţĎa je slučajna varijabla koja ima oblik normalne slučajne varijable. No, za nju ne znamo koliko je očekivanje i varijanca.

X N ( , 2) ? ? Kako bismo dobili informaciju koliko iznosi očekivanje slučajne varijable, odabire se uzorak koji treba zadovoljavati: - jednaka distribuiranost kao kod slučajne varijable - nezavisnost izbora – uzimanje jednog elementa ne utječe na odabir drugog U uzorak smo izabrali 20 čokota i dobili 20 teţina:

20321 x,...,x,x,x - realizacija uzorka

Kako na temelju uzorka procijeniti očekivanje i varijancu? Vrlo često se aritmetičkom sredinom uzorka procjenjuje očekivanje slučajne varijable, a varijancom uzorka se procjenjuje varijanca slučajne varijable. Dakle, za odabranu realizaciju uzorka se izračunava aritmetička sredina uzorka. Vrijednost te aritmetičke sredine je odreĎena uzorkom koji je izabran. Aritmetičke sredine uzoraka mogu dati različite vrijednosti dok je očekivanje slučajne varijable konstanta. U praksi se često koristi: Aritmetička sredina uzorka

n

i

iXn

X1

1

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________4 5. Teorija uzoraka

Varijanca uzorka

n

i

i XXn

S1

22 1

Korigirana varijanca uzorka

n

i

i XXn

S1

22

1

1

Aritmetička sredina uzorka Aritmetička sredina uzorka je slučajna varijabla:

n

i

iXn

X1

1

Očekivanje i varijanca aritmetičke sredine uzorka:

nXV

XE

2

)(

)(

Moţemo reći da se aritmetičke sredine uzoraka rasporeĎuju oko očekivanja slučajne varijable X sa standardnom devijacijom:

nx

Broj x zove se standardna greška.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________5 5. Teorija uzoraka

CENTRALNI GRANIČNI TEOREM

1. Imamo uzorak n21 X,...,X,X iz normalne distribucije s i 2 , tada je

aritmetička sredina uzorka slučajna varijabla koja se po normalnom zakonu raspršuje oko istog očekivanja:

)X(E

sa standardnom greškom:

nx

2. Imamo uzorak n21 X,...,X,X koji nije iz normalne distribucije. Ako

dimenzija uzorka broji 30 jedinica ili više, aritmetička sredina uzorka bit će normalno distribuirana.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________6 5. Teorija uzoraka

Varijanca uzorka Varijanca uzorka od n elemenata moţe se koristiti kao procjenitelj varijance slučajne varijable. Definirana je varijanca uzorka:

n

i

i XXn

S1

22 1

Očekivanje varijance uzorka:

22 1)(

n

nSE

Vidimo da očekivanje varijance uzorka nije jednako varijanci obiljeţja, pa zbog toga definiramo – Korigiranu varijancu uzorka:

n

i

i XXn

S1

22

1

1

Njeno očekivanje jednako je varijanci obiljeţja

22 )( SE

pa stoga korigiranu varijancu uzorka koristimo kao procjenitelj varijance slučajne varijable.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________7 5. Teorija uzoraka

5.1. Zaključivanje na temelju uzorka iz jedne slučajne varijable

PROCJENJIVANJE PARAMETARA Ideja: X je slučajna varijabla koja opisuje obiljeţje. Poznat je oblik funkcije distribucije, ali je nepoznat njen parametar kojega treba procijeniti promatranjem uzorka. Ako je parametar koji trebamo procijeniti očekivanje, upotrijebit ćemo aritmetičku sredinu uzorka zato što je očekivanje aritmetičke sredine uzorka jednako očekivanju slučajne varijable obiljeţja koje proučavamo. Ako treba procijeniti varijancu, onda ćemo upotrijebiti korigiranu varijancu uzorka. Naime:

22

n

1n)S(E

22)S(E

INTERVALI POVJERENJA Nepoznati parametar moţemo procijeniti jednim brojem i inertvalom. Npr. Prosječna plaća za 50 managera iz 500 vodećih kompanija u SAD iznosi 56 000$ - procjena jednim brojem. Na temelju uzorka je potrebno odrediti interval za koji, s unaprijed definiranom vjerojatnošću, moţemo tvrditi da sadrţi vrijednost nepoznatog parametra. Interval povjerenja za očekivanje slučajne varijable obično se odreĎuje korištenjem aritmetičke sredine uzorka. Zašto? Zato što vrijedi sljedeće: zato što je očekivanje aritmetičke sredine uzorka jednako je očekivanju slučajne

varijable obiljeţja koje proučavamo Za uzorke iz normalne distribucije, aritmetička sredina uzorka takoĎer je normalna

slučajna varijabla Neovisno o distribuciji obiljeţja, distribucija aritmetičke sredine uzorka uvijek se

ponaša prema zakonu normalne distribucije kada je dimenzija uzorka velika

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________8 5. Teorija uzoraka

TESTIRANJE HIPOTEZA U postupku statističkog proučavanja pojava moţemo na osnovu iskustva postaviti pretpostavke koje se odnose na promatranu pojavu. Npr. pretpostavimo vrijednost nekog parametra u distribuciji slučajne varijable Pretpostavke koje se odnose na funkciju distribucije slučajne varijable nazivaju se statističke hipoteze. Teorija testiranja statističkih hipoteza razvila se u svrhu testiranja ispravnosti postavljenih pretpostavki. PRIMJER. Količina proizvedenog šećera neke šećerane u jednom danu – slučajna varijabla. Neke hipoteze koje se mogu postaviti: - očekivanje je jednako 10 000 kg - očekivanje je veće od 10 000 kg - slučajna varijabla je normalno distribuirana - itd. Kod testiranja se polazi od jedne osnovne hipoteze koju nazivamo hul-hipoteza i

označavamo 0H . Njoj se suprotstavlja druga, takozvana alternativna hipoteza koju

označavamo 1H .

Alternativna hipoteza se testira zajedno s nul-hipotezom, a odluka koju od hipoteza treba prihvatiti donosimo na temelju realizacije uzorka. POGREŠKE TESTA

Neka je 0H nul-hipoteza, a 1H alternativna hipoteza koje se odnose na obiljeţje X

iz distribucije F(x), a testiramo ih korištenjem n-dimenzionalnog uzorka

n21 X,...,X,X . Jednu od hipoteza prihvaćamo na osnovu realizacije tog

uzorka. Dizajnirati statistički test znači izraditi kriterij za odbacivanje (prihvaćanje) jedne od hipoteza. Područje odbacivanje nul-hipoteze nazivamo kritično područje. Ako na osnovu definiranog kritičnog područja odbacimo nul-hipotezu, a ona je

zapravo istinita, napravljena je pogreška tipa I. Oznaka . Ako prihvatimo nul-hipotezu kada je istinita alternativna hipoteza, napravljena je

pogreška tipa II. Oznaka .

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________9 5. Teorija uzoraka

5.1.1. Procjena očekivanja

1) INTERVAL POVJERENJA ZA OČEKIVANJE NORMALNE SLUČAJNE VARIJABLE UZ POZNATU VARIJANCU

Neka obiljeţje ima normalnu distribuciju s poznatom varijancom 2 i nepoznatim

očekivanjem . Tada je aritmetička sredina uzorka takoĎer normalno distribuirana s

očekivanjem i varijancom n

2.

Interval povjerenja za uz zadanu razinu pouzdanost 1 - :

100*)1(22

zZzP

n

XZ

100*)1(22

nzX

nzXP

donja granica gornja granica intervala povjerenja intervala povjerenja PRIMJER 1.

Koliki je z/2 ako je (1-): a) 0.90 b) 0.80 c) 0.95

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________10 5. Teorija uzoraka

2) INTERVAL POVJERENJA ZA OČEKIVANJE NORMALNE SLUČAJNE VARIJABLE UZ NEPOZNATU VARIJANCU

Ideja:

Umjesto varijance obiljeţja 2 , u procjeni očekivanja aritmetičkom sredinom upotrijebiti procjenu varijance.

Neka je X normalna slučajna varijabla s očekivanjem i varijancom 2 , X

aritmetička sredina uzorka i 2S korigirana varijanca uzorka. Tada je

n

S

Xnt

)1( slučajna varijabla koja ima Studentovu razdiobu sa stupnjevima

slobode n-1. Slučajna varijabla je distribuirana po normalnoj distribuciji s nepoznatim očekivanjem

i varijancom 2. Ţelimo napraviti interval povjerenja za očekivanje za zadanu pouzdanost:

)1()1(22

tnttP

)1(22

n

StX

n

StXP

donja granica gornja granica intervala povjerenja intervala povjerenja Za velike dimenzije uzorka možemo koristiti normalnu aproksimaciju Studentove distribucije. PRIMJER 2.

Odredite vrijednost koeficijenta pouzdanosti 2

t

procjene očekivanja ako je:

a) n=11, 1-=0,95

b) n=16, 1-=0,80

c) n=27, 1-=0,99

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________11 5. Teorija uzoraka

3) INTERVAL POVJERENJA ZA OČEKIVANJE PROIZVOLJNE DISTRIBUCIJE PRI VELIKIM UZORCIMA

Centralni granični teorem i saznanje da je aritmetička sredina nepristrana procjena za očekivanje omogućuje sastavljanje intervala povjerenja za očekivanje proizvoljne distribucije ako je poznata varijanca i ako je dimenzija uzorka veća ili jednaka 30.

Interval povjerenja za n30:

100*)1(22

nzX

nzXP

donja granica gornja granica intervala povjerenja intervala povjerenja

5.1.2. Testiranje hipoteza o očekivanju iz jedne slučajne varijable

1 slučaj: Ako: - nul-hipoteza istinita - slučajna varijabla je normalno distribuirana - slučajna varijabla je proizvoljno distribuirana i uzorak ima više od 30 jedinica - poznata varijanca tada: distribucija aritmetičke sredine uzorka slijedi normalnu distribuciju

PIŠEMO:

nNX

2

0 ,

Nepoznato je očekivanje , a pretpostavljena je veličina 0 .

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________12 5. Teorija uzoraka

Hipoteze o pretpostavljenom očekivanju i način donošenja odluke:

Vrsta testa Hipoteze Prihvaćanje i

odbacivanje 0H

Dvosmjerni

01

00

:

:

H

H

odbacitizz

odbacitiNEzz

2

2

Jednosmjerni, na gornju granicu

01

00

:

:

H

H

odbacitizz

odbacitiNEzz

Jednosmjerni, na donju granicu

01

00

:

:

H

H

odbacitizz

odbacitiNEzz

n

Xz

0

Pogreška tipa I je vjerojatnost odbacivanja ISTINITE nul-hipoteze. Oznaka: Naziva se razina značajnosti ili razina signifikantnosti.

Za zadani odreĎuje se koeficijent signifikantnosti z ili 2

z . OdreĎuje se

pomoću tablice površina ispod normalne krivulje.

2 slučaj: Ako: - nul-hipoteza istinita - jedinice u osnovnom skupu normalno su distribuirane s obzirom na obiljeţje koje

se ispituje i ako nije poznata varijanca osnovnog skupa - uzorak je mali; broji 30 jedinica ili manje tada: distirubucija aritmetičke sredine uzorka slijedi studentovu distribuciju

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________13 5. Teorija uzoraka

Hipoteze o pretpostavljenom očekivanju i način donošenja odluke:

Vrsta testa Hipoteze Prihvaćanje i

odbacivanje 0H

Dvosmjerni

01

00

:

:

H

H

odbacititt

odbacitiNEtt

2

2

Jednosmjerni, na gornju granicu

01

00

:

:

H

H

odbacititt

odbacitiNEtt

Jednosmjerni, na donju granicu

01

00

:

:

H

H

odbacititt

odbacitiNEtt

n

S

Xt 0

Za zadani odreĎuje se koeficijent signifikantnosti t ili 2

t . OdreĎuje se

pomoću tablice kritičnih vrijednosti za t Studentove distribucije. PRIMJER 3. Odredite koeficijent značajnosti za test o pretpostavljenoj vrijednosti očekivanja ako su zadani uvjeti:

a) test je dvosmjeran; n=231; =0,01; 0,02; 0,05; 0,10;

b) test je jednosmjeran; n=852; =0,05 c) test je dvosmjeran; uzorak veličine 19 izabran je iz normalne distribucije

8,N 0 ; razina značajnosti je 6%

d) test je dvosmjeran; uzorak veličine 19 izabran je iz normalno distribuirane populacije s nepoznatom standardnom devijacijom; razina značajnosti je 5%. Kolika bi bila vrijednost koeficijenta ako bi test bio jednosmjeran

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________14 5. Teorija uzoraka

5.1.3. Procjena proporcije

Razmotrimo Bernoullijevu slučajnu varijablu X koja moţe zauzeti dvije vrijednosti 0 i 1 s pripadajućim vjerojatnostima:

x P(x)

Uspjeh 1 P

Neuspjeh 0 Q

Dakle, populacija je podijeljena u dvije grupe. Sa p ćemo označiti nepoznati

parametar Bernoullijeve slučajne varijable. To je zapravo vjerojatnost da izvučemo

uspjeh. p̂ proporcija odnosno relativna frekvencija uspjeha u uzorku.

n

m

n

uzorkuuuspjehabrojp ˆ

Kakva je distribucija proporcije uzorka?

p̂ je prosječan broj uspjeha. Centralni granični teorem – distribucija relativnih

frekvencija aritmetičke sredine uzorka za bilo koju populaciju je pribliţno jednaka normalnoj za velike uzorke.

proporcija uzorka p̂ ima očekivanje p i varijancu n

pq

p̂ je nepristrani procjenitelj za p

za velike uzorke distribucija proporcije uzorka p̂ pribliţno je jednaka normalnoj

distribuciji

kada je n velik, moţemo uzeti p̂ kao aproksimaciju za p

Koji ćemo uzorak smatrati velikim?

30n

Zadatak je napraviti intervalnu procjenu za p na temelju podataka iz uzorka.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________15 5. Teorija uzoraka

Da bismo odredili intervalnu procjenu za p uz zadanu pouzdanost , treba odrediti

realan broj z za koji vrijedi:

100)1(22

zZzP

n

pq

ppZ

ˆ

moţe se pokazati da za velike uzorke vrijedi:

donja granica gornja granica intervala povjerenja intervala povjerenja

5.1.4. Testiranje hipoteza o proporciji iz jedne slučajne varijable Ako: - nul-hipoteza istinita - veliki uzorak tada je: distribucija proporcije uzorka pribliţno oblika normalne distribucije.

pišemo: p̂0 ,pNp̂

Nepoznata je proporcija osnovnog skupa p , a njezina pretpostavljena veličina je

0p .

100)1(ˆˆ

ˆˆˆ

ˆ22

n

qpzpp

n

qpzpP

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________16 5. Teorija uzoraka

Hipoteze o pretpostavljenoj proporciji i način donošenja odluke:

Vrsta testa Hipoteze Prihvaćanje i

odbacivanje 0H

Dvosmjerni

01

00

:

:

ppH

ppH

odbacitizz

odbacitiNEzz

2

2

Jednosmjerni, na gornju granicu

01

00

:

:

ppH

ppH

odbacitizz

odbacitiNEzz

Jednosmjerni, na donju granicu

01

00

:

:

ppH

ppH

odbacitizz

odbacitiNEzz

Empirijski z omjer:

n

qp

ppz

00

Za zadani odreĎuje se koeficijent signifikantnosti z ili 2

z . OdreĎuje se

pomoću tablice površina ispod normalne krivulje.

5.1.5. Zaključivanje o distribuciji Za obiljeţje koje nas zanima pretpostavljamo da ima neku odreĎenu distribuciju koja je dana tablicom distribucije odnosno gustoćom. Tu pretpostavljenu distribuciju zovemo teoretska distribucija naše slučajne karakteristike. Nezavisnim ponavljanjem pokusa (prikupljanjem podataka u reprezentativan uzorak) ţelimo testirati je li to stvarno tako ili ne.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________17 5. Teorija uzoraka

2 test (hi-kvadrat test)

Neka je teoretska distribucija dana tablicom:

Da bi koristili ovaj test, svaki npi mora biti veći od 5, gdje je n dimenzija uzorka. Hipoteze: H0: distribucija je jednaka teoretskoj H1: distribucija se razlikuje od teoretske Iskoristimo programski paket Statistica i odbacimo H0 ako je dobivena vrijednost za

p<, gdje je odabrani nivo značajnosti testa. Ovaj test moţemo koristiti i kod neprekidnih slučajnih varijabli tako da (R) razbijemo na disjunktne intervale i suprotstavimo teoretske frekvencije tih intervala njihovim uzoračkim frekvencijama.

5.1.5.1. Je li obilježje normalno distribuirano Kod kontinuiranih slučajnih varijabli najčešće se ispituje je li obiljeţje normalno distribuirano ili ne. Odgovor na ovo pitanje od izuzetne je vaţnosti za točnost statističkih analiza obzirom da su mnogi statistički testovi kreirani uz pretpostavku normalnosti obiljeţja. Hipoteze: H0: obiljeţje je normalno distribuirano H1: obiljeţje nije normalno distribuirano Za testiranje moţemo koristiti razne testove:

Deskriptivne metode Lillieforsova inačica Kolmogorov-Smirnov testa Shapiro-Wilk's W test

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________18 5. Teorija uzoraka

5.2. Zadaci - zaključivanje iz jedne slučajne varijable Zadatak 1. Obiljeţje X ima normalnu distribuciju s varijancom 12. Treba odrediti interval povjerenja pouzdanosti 0.99 za očekivanje ako je aritmetička sredina uzorka, koji je dimenzije 48 jedinica, 12.24. Zadatak 2. Ispituje se prosječno trajanje pozivnih telefonskih razgovora preko telefonske centrale poduzeća Market. Trajanje u minutama 10 slučajno odabranih razgovora:

2 1 1 2 3 4 2 1 1 3

Pretpostavlja se da je trajanje pozivnih razgovora normalno distribuirano s nepoznatim očekivanjem i nepoznatom varijancom. Odredite interval povjerenja za pouzdanost 0,95 i 0,90. Zadatak 3. U jednom vinogradu mjerena je količina groţĎa na petogodišnjem čokotu “Sivi Pinot”:

Kg 2,5 2,7 2,9 3,1 3,3 3,5 3,7 3,9 4,1

Fi 2 1 4 4 1 10 0 5 3

Uz pretpostavku da je urod groţĎa na petogodišnjem čokotu u tom vinogradu normalna slučajna varijabla, odredite 95% interval povjerenja za očekivanje. Zadatak 4. Prema standardu, očekivana trajnost električnih ţarulja od 75W je 2000 sati sa standardnom devijacijom od 250 sati. Izabran je uzorak veličine 64. Prosječna trajnost ţarulja u uzorku je 1935 sati. Moţe li se prihvatiti pretpostavka da je

očekivanje jednako 2000? =5% Zadatak 5. Očekivani promjer jednog dijela ureĎaja mora biti 250 mm. Treba kontrolirati proizvedenu seriju. U uzorak se uzima 625 proizvoda čiji je prosječni promjer 247,5 mm, a standardna devijacija 3,8mm. Upućuju li rezultati kontrole na zaključak da je očekivanje promjera rezervnih dijelova 250 mm? Greška tipa I je 2%. Zadatak 6. Proizvod X ne smije sadrţavati više od 30g komponente A. Analizirana su 64 proizvoda. Prosječan sadrţaj komponente A u izabranim proizvodima iznosio je 27g, a standardna devijacija 8 g. Koji se zaključak moţe donijeti na temelju kontrole sadrţaja A. Greška tipa I je 5%.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________19 5. Teorija uzoraka

Zadatak 7. U toku pokusne proizvodnje od 45 dana neki je automatski stroj dao prosječnu proizvodnju od 625 komada po smjeni sa standardnom devijacijom od 30 komada. Da li pokusna proizvodnja potvrĎuje navod dobavljača stroja da stroj radi s očekivanom proizvodnjom od najmanje 620 komada po smjeni. Testirajte na razini 5% signifikantnosti. Zadatak 8. Stroj puni vrećice mljevenom kavom nominalne mase 10 dag s prosječnim odstupanjem od 0,8 dag. Kontrolor sumnja da je očekivanje veće od 10. Prosječna teţina kave u uzorku od 100 vrećica je 10,15 dag. Vjerojatnost pogreške tipa I je 0,01. Napravite testiranje. Zadatak 9. Laboratorijski se ispituje nova smjesa pri izradi teflonskih proizvoda. Smjesa koja se koristi u tekućoj proizvodnji suši se 3 minute, to je očekivanje. Pretpostavlja se da se nova smjesa osuši u kraćem razdoblju. Ispitivanje vremena sušenja na 16 podloga dalo je ove rezultate: 1.4;2.1;2.8;0.9;2.4;1.7;3.7;2.7;2.6;1.9;2.8;2.8;2.2;2.2;3.4;1.9; Pretpostavlja se da je vrijeme sušenja normalno distribuirano s nepoznatim očekivanjem i nepoznatom varijancom. Što zaključujemo testiranjem na razini 5% značajnosti? Zadatak 10. Ispituje se raspoloţenje birača prema kandidatu A. Iz biračkog popisa izabrano je 196 birača od kojih je 138 izjavilo da će glasovati za kandidata A. Procijenite proporciju osnovnog skupa na razini 90% pouzdanosti. Zadatak 11. Analizira se proporcija članova jedne knjiţnice koji su posudili knjigu Thomasa Manna „Budenbrokovi“ u tijeku 1999. godine. U uzorku odabranih članova njih 320 nije posudilo knjigu. Odredite interval povjerenja za 95% pouzdanosti za čitatelje koji su posudili tu knjigu. Zadatak 12. Procjenjuje se proporcija kupaca koji stalno kupuju bezalkoholne napitke proizvoĎača A na području jednog grada. U slučajnom uzorku 400 kupaca, 55% stalno kupuje taj

napitak. Odredite granice intervala procjene proporcije za 100(1-)=94%.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________20 5. Teorija uzoraka

Zadatak 13. U slučajnom uzorku od 300 vozača na cesti izmeĎu dva grada ustanovljeno je da njih 175 ispravno upotrebljava svjetla u tijeku noćne voţnje. Procijenite proporciju na razini 90% pouzdanosti. Zadatak 14. Pretpostavlja se da je proporcija turista mlaĎih od 30 godina u jednoj regiji jednaka 0,48. U uzorku od 300 turista ustanovljeno je da ima 135 osoba mlaĎih od 30 godina. Testirajte hipotezu na razini 4,04% signifikantnosti. Zadatak 15. Pretpostavlja se da ¾ domaćinstava na području A posjeduje štednjak. U uzorku izabranih domaćinstava 73,5% odnosno 735 domaćinstava posjeduje štednjak. Moţe li se na temelju rezultata uzorka prihvatiti navedena pretpostavka. Testirajte na razini 1% signifikantnosti. Zadatak 16. Iz jedne pošiljke 10 000 staklenih bočica izabrano je 2% u uzorak. U tom je uzorku naĎeno 8 oštećenih bočica. Hoće li kupac prihvatiti ovu pošiljku ako je ugovorom odreĎeno da će se u pošiljkama tolerirati najviše 5% škarta? Vjerojatnost pogreške tipa I je 5%. Zadatak 17. Jedna strana firma nudi nam novi stroj za pakiranje. Tvrde da stroj ne pravi više od 4% škarta. Stroj ćemo kupiti ako se uvjerimo da škart nije veći od 4%. U uzorak je izabrano 145 zapakovanih kutija i ustanovljeno 8 loših. Testirajte na razini 5% značajnosti. Hoće li naši predstavnici kupiti stroj? Zadatak 18. Jedna je studija o poduzetništvu u Hrvatskoj pokazala da je distribucija poduzetnika prema stručnoj spremi slijedeća: srednja stručna sprema 20%, viša stručna sprema 20% i visoka stručna sprema 60%. Odgovara li toj distribuciji, distribucija iz naše baze podataka? Napravite testiranje na razini 5% značajnosti. Zadatak 19. Savjetnik ekološkog kluba na jednom sveučilištu vjeruje da klub čini 10% brucoša, 20% studenata druge godine, 40% studenata treće godine te 30% apsolvenata. Članstvo ekološkog kluba za ovu godinu brojilo je 14 brucoša, 19 studenata druge godine, 51 studenata treće godine te 16 apsolvenata. Testirajte tvrdnju savjetnika

ekološkog kluba s nivoom značajnosti =0.1

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________21 5. Teorija uzoraka

Zadatak 20. Trţišni analitičar ţeli istraţiti imaju li potrošači neke posebne sklonosti prema nekom od okusa sokova koji su se pojavili na trţištu. Pokupio je preferencije 100 ljudi o tome koji okus najviše vole: višnja 32 jagoda 28 naranča 16 limun 14 grejp 10 Ispitajte postoji li preferencija prema nekom okusu ili je sklonost potrošača jednaka

prema svim ponuĎenim okusima s nivoom značajnosti =0.05 Zadatak 21. U bazi podataka 'podaci_analiza poslovnih podataka_32_studenti.sta' nalazi se varijabla o starosti poduzeća. Provjerite radi li se o normalno distribuiranoj slučajnoj varijabli. Zadatak 22. Raspolaţete podacima ('mba.sta') o bodovima ostvarenima na GMAT testu (Graduate Management Admission Test) za 100 studenata koji se upisuju na MBA studij. Testirajte hipotezu o normalnosti slučajne varijable. Dajte svoj komentar. Zadatak 23. U bazi podataka 'podaci_analiza poslovnih podataka_32_studenti.sta' nalazi se varijabla o ukupnoj imovini poduzeća u 2003. godini. Provjerite radi li se o normalnoj distribuiranoj slučajnoj varijabli. Što očekujete? Hoće li to biti normalna varijabla ili ne? Objasnite.

Zadatak 24. U bazi podataka 'podaci_analiza poslovnih podataka_32_studenti.sta' nalaze se podaci o dobi poduzetnika. Sastavite interval pouzdanosti 95% za dob poduzetnika u Hrvatskoj prema našem istraţivanju. Protumačite ga. Zadatak 25. Sastavite interval povjerenja za ukupnu imovinu poduzeća u 2003. na temelju podataka iz baze 'podaci_analiza poslovnih podataka_32_studenti.sta'. Zadatak 26. U bazi podataka 'podaci_analiza poslovnih podataka_32_studenti.sta' nalaze se podaci o broju godina koliko se ispitani poduzetnici bave poduzetništvom. Provjerite razlikuje li se značajno taj broj godina od 17? Izvedite zaključak.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________22 5. Teorija uzoraka

Zadatak 27. 1979. osnovna kablovska televizija je, u prosjeku, koštala 7.37 dolara mjesečno. 1983. godine „Federalno udruţenje kablovskih televizija“ (broji više od 4000 kablovskih sistema) je zaključilo da je kablovska poskupjela za samo 8% u odnosu na 1979. te da ne stoji više od 8 dolara mjesečno. No, „Udruţenje potrošača“ sumnja u izjave pa su odlučili to provjeriti. Podaci se nalaze u tv.sta Zadatak 28. Zakon o diskriminaciji prema dobi 1967. godine označava ilegalnim postupak diskriminacije djelatnika starih 40 godina i više. Oni koji se ne slaţu sa zakonom argumentiraju da postoje ekonomski razlozi zašto poslodavci nerado zapošljavaju osobe koje su blizu mirovine. TakoĎer govore da je sposobnost ljudi te dobi upitna. U datoteci iq25.sta nalaze se rezultati testa inteligencije za 25 godišnjake, a u iq60.sta rezultati testa inteligencije za 60 godišnjake. Odredite 95% intervale povjerenja za očekivanje za obje dobi. Dajte objašnjenje tih intervala. Koje pretpostavke moraju vrijediti da bi procjena bila valjana? Zadatak 29. Jedna tvornica hrane ţeli provesti istraţivanje trţišta intervjuirajući 1000 potrošača kako bi odredili koju marku pahuljica za doručak oni preferiraju. Prikupljeni podaci su pokazali da 313 ispitanika upravo odabire marku tvornice koja je provela istraţivanje. Na osnovu dobivenih rezultata odredite interval za koji se moţe tvrditi da sadrţi proporciju konzumenata pahuljica navedene tvrtke u odnosu na sve potrošače

pahuljica istraţivanog trţišta s pouzdanošću =0.95. (Rj. 0.284, 0.342

Zadatak 30. „Gallup“ je proveo istraţivanje koje je obuhvatilo 1252 osobe koje posjeduju kreditnu karticu. Pronašli su da je njih 180 koristilo karticu za kupovinu preko Interneta.

1. Da li je uzorak dovoljno velik za konstruiranje valjanog intervala povjerenja za proporciju onih koji su koristili kartice za kupovinu preko Interneta u odnosu na sve osobe koje posjeduju kreditnu karticu? Obrazloţite odgovor.

2. Sastavite interval povjerenja za navedenu proporciju ako je =0.98. Interpretirajte rezultat u kontekstu problema koji proučavate.

3. Da ste konstruirali interval za =0.90, da li bi on bio uţi ili širi? Zadatak 31. U bazi podataka 'podaci_analiza poslovnih podataka_32_studenti.sta' nalaze se podaci o udjelu dugotrajne imovine u ukupnoj imovini poduzeća. Za podatke iz 2003. godine testirajte hipotezu je li udio dugotrajne imovine različit od 35%.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________23 5. Teorija uzoraka

Zadatak 32. Reputacija mnogih poslova moţe biti snaţno narušena pošiljkom proizvedene robe koja sadrţi veliki postotak oštećenih proizvoda. Na primjer, proizvoĎač alkalnih baterija ţeli biti siguran da je manje od 5% baterija oštećeno. Pretpostavimo da je slučajnim izborom iz vrlo velike pošiljke odabrano 300 baterija od kojih je 10 oštećenih. Da li je to dovoljan dokaz proizvoĎaču da zaključi kako je proporcija

defektnih proizvoda u cijeloj pošiljci manja od 0.05 na nivou značajnosti =0.01?

Zadatak 33. U bazi podataka 'poduzeca_hrvatska.sta' nalaze se podaci o broju zaposlenih u poduzećima (AAOP164). Sastavite interval pouzdanosti 95% za broj zaposlenih u Hrvatskoj. Protumačite ga. Sastavite interval pouzdanosti za broj zaposlenih za poduzeća čija je glavna djelatnost graĎevinarstvo. Protumačite ga.

Zadatak 34. Sastavite interval povjerenja za ukupnu imovinu poduzeća (AAOP001) na temelju podataka iz baze 'poduzeca_hrvatska.sta'. Zadatak 35. U bazi podataka 'poduzeca_hrvatska.sta' nalaze se podaci o tome je li poduzeće u 2004. godini ostvarilo dobitak ili ne (DOB=1 - ostvaren dobitak; DOB=0 - nije ostvaren dobitak). Odredite 99% interval povjerenja za proporciju ostvarenog dobitka poduzeća u Hrvatskoj. Protumačite ga. Zadatak 36. U bazi podataka 'poduzeca_hrvatska.sta' nalaze se podaci o tome je li izvršena kontrola financijskih izvještaja poduzeća (PROVJEREN=1 - kontrola izvršena; PROVJEREN=0 - kontrola nije izvršena). Na osnovu tih podataka odredite interval 98% za koji se moţe tvrditi da sadrţi proporciju poduzeća koja će biti provjerena u odnosu na sva poduzeća koja predaju financijske izvještaje. Da ste konstruirali

interval za =0.90, bi li on bio uţi ili širi? Dajte komentar. Zadatak 37. U bazi podataka 'poduzeca_hrvatska.sta' nalaze se podaci o zalihama (AAOP034). Provjerite razlikuje li se značajno vrijednost zaliha za graĎevinarstvo od pola milijuna kn. Izvedite zaključak.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________24 5. Teorija uzoraka

Zadatak 38. U bazi podataka 'poduzeca_hrvatska.sta' nalaze se podaci o potraţivanjima od kupaca u zemlji (AAOP047). Negdje ste pročitali da su u prosjeku potraţivanja u trgovačkoj djelatnosti 1,5 milijuna kn. Provjerite razlikuju li se potraţivanja za tu grupu djelatnosti od tog iznosa u podacima kojima mi raspolaţemo.

Zadatak 39. U bazi podataka 'poduzeca_hrvatska.sta' nalaze se podaci o poduzećima koja su u 2004. godini ostvarila gubitak (GUB). U jednom ekonomskom časopisu je objavljen podatak da je trećina poduzeća u Hrvatskoj ostvarila gubitak. Testirajte hipotezu i izvedite zaključak. Zadatak 40. Izračunajte koeficijent likvidnosti za poduzeća u bazi podataka 'poduzeca_hrvatska.sta' za djelatnost financijsko posredovanje. Što zaključujete o likvidnosti poduzeća iz te grupe djelatnosti? Koliko je pouzdan vaš zaključak? Zadatak 41. U bazi podataka 'poduzeca_hrvatska.sta' nalazi se varijabla o starosti poduzeća (AOP161). Provjerite radi li se o normalno distribuiranoj slučajnoj varijabli. Zadatak 42. Zadnja provedena studija o gospodarstvu u Hrvatskoj je, izmeĎu ostaloga, pokazala da je distribucija poduzeća prema djelatnostima sljedeća: Trgovina 35%; Prijevoz, skladištenje i veze 4,5%; PreraĎivačka industrija 10%; Rudarstvo 0,2%; Poljoprivreda, lov, šumarstvo, ribarstvo 2,5%; Poslovanje nekretninama 20%; GraĎevinarstvo 14%; Financijsko poslovanje 5%; Hoteli i restorani 3%; Zdravstvena zaštita 3%; Obrazovanje 1%, Ostale usluţne djelatnosti 1% te Električna energija 0,8%. Provjerite je li se što promijenilo u distribuciji poduzeća prema djelatnosti odnosno odgovara li toj distribuciji, distribucija iz baze podataka poduzeca_hrvatska.sta.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________25 5. Teorija uzoraka

5.3. Zaključivanje temeljeno na dva i više uzoraka

5.3.1. Testiranje hipoteza o očekivanju iz dva uzorka

1) Nezavisni uzorci Zanima nas postoji li razlika u očekivanju izmeĎu dvije slučajne varijable. Iz svake od njih sakupimo nezavisno uzorak. Neka je n1 dimenzija uzorka prve slučajne varijable, a n2 dimenzija uzorka druge slučajne varijable. Osim toga, neka su

1 i 1 očekivanje i standardna devijacija prve slučajne varijable, a 2 i 2 druge te izabrani nivo značajnosti.

Veliki uzorci (n1 30, n2 30)

Za primjenu ovog testa potrebno je poznavati varijancu obiljeţja, što najčešće nije slučaj. Pri velikim uzorcima moţemo iskoristiti procjene za varijance, ali ukoliko su obiljeţja normalno distribuirana i varijance jednake bolje rezultate dobivamo primjenom sljedećeg testa, tzv. t-testa.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________26 5. Teorija uzoraka

Ukoliko smo sigurni da su naše slučajne varijable - normalno distribuirane - varijance jednake

moţemo dobiti odgovor na ovakvo pitanje i kod malih uzoraka.

2) Uzorci u paru

Npr. rezultat testa za iste bolesnike prije i poslije liječenja. Zanima nas zapravo da li postoji razlika u očekivanju izmeĎu ova dva „trenutka“ za isto obiljeţje, na istom uzorku. Prethodni test ovdje nije adekvatan jer nemamo nezavisne pojave. Treba pratiti ponašanje razlika i testirati hipotezu da je očekivanje razlike jednako nula. Od ova dva niza mjerenja napravi se jedan (niz razlika) i na njega primjenjuje test o jednakosti očekivanja unaprijed odreĎenoj vrijednosti (tj. 0) kao u prethodnom poglavlju (Zaključivanje na temelju uzorka iz jedne slučajne varijable) ovisno o tome da li su razlike normalno distribuirane ili ne, da li imamo veliki uzorak ili ne. U programskom paketu Statistica imamo ugraĎenu proceduru za testiranje ovakvih hipoteza.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________27 5. Teorija uzoraka

5.3.2. Testiranje hipoteza o proporciji iz dva uzorka

Dva slučajna pokusa koja moţemo modelirati Bernoullijevim slučajnim varijablama, tj.

Nezavisnim ponavljanjem naših pokusa (n1 puta prvi pokus, a n2 puta drugi pokus) prikupljamo uzorak i tako dobivamo dva niza jedinica i nula. Uzorci su veliki. Trebamo odgovoriti na pitanje: Postoji li razlika u vjerojatnosti uspjeha u navedena dva slučaja. (Npr. Postoji li razlika u vjerojatnosti pobjede neke stranke na izborima u Osijeku i Zagrebu?)

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________28 5. Teorija uzoraka

Analogno se definira jednostrani test za alternativnu hipotezu s obrnutom nejednakošću.

5.3.3. Zaključivanje temeljeno na više od dva uzorka

Na analogan način moţemo prevesti u termine statističkih testova pitanja vezana uz jednakost distribucija slučajnih obiljeţja iz kojih uzimamo uzorke i ako je tih obiljeţja više od dva. Pretpostavimo da smo za svako od slučajnih obiljeţja X1, X2,... Xk prikupili uzorak. Ukoliko se radi o diskretnim slučajnim varijablama s istim skupom vrijednosti,

testiranje nulte hipoteze da su sve distribucije iste moţemo provesti 2 testom na analogan način kao i u poglavlju 3.4.1., tj. upotrebom modula Basic statistics procedura koje se odnose na dvodimenzionalne tablice frekvencija. Ukoliko nas zanimaju neprekidna slučajna obiljeţja i jednakost očekivanja, uz pretpostavke o jednakosti varijanci i normalnosti distribucija, hipotezu

H0 : 1 = 2 = ... = k protiv alternativne hipoteze da se neko očekivanje razlikuje, moţemo testirati metodologijom ANOVA (analiza varijance). Neparametarska procedura koja testira nul hipotezu o jednakosti medijana za nezavisne uzorke i primjenjuje se analogno Mann-Whitney U testu iz poglavlja 3.4.2. je Kruskal-Wallis one-way ANOVA.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________29 5. Teorija uzoraka

5.4. Zadaci - zaključivanje iz dva i više uzoraka

Zadatak 1. U bazi podataka 'podaci_analiza poslovnih podataka_32_studenti.sta' nalaze se ocjene managementa za viziju i privrţenost [O-vizija] poduzeću te ocjene odnosa prema zaposlenicima [O-zaposlenici]. Postoji li statistički značajna razlika u očekivanjima izmeĎu te dvije varijable? Što zaključujete? Zadatak 2. Američki ekonomisti su odlučili testirati hipotezu da su cijene japanskih automobila prosječno veće u Japanu nego li u Sjedinjenim Drţavama. Prikupljen je uzorak od 50 cijena u Sjedinjenim Američkim Drţavama i 30 u Japanu za isti period i isti model automobila. Dobivena je sljedeća deskriptivna statistika nizova podataka:

SAD: n1=50, x 1= 16 545 USD, s1=1 989 USD

Japan: n2=30, x 2= 17 243 USD, s2=1 843 USD

Je li razlika statistički značajna ili ne na razini =0.05?

Zadatak 3. U sklopu studije organizacije rada poduzeća ispituje se efikasnost zaposlenih u proizvodnom procesu. Ispitivanje se provodi mjerenjem produktivnosti rada uzorka radnika. Radi mogućeg povećanja produktivnosti, na radnim mjestima radnika u uzorku izmijenjen je red radnih operacija i prostorni razmještaj sredstava rada. Imamo rezultate mjerenja produktivnosti rada prije i poslije izmjena: Prije: 45,34,42,28,35,39,50,41,27,29 Poslije: 49,40,43,32,40,39,51,42,30,24 Što se moţe zaključiti na temelju navedenih mjerenja pod pretpostavkom da je produktivnost normalno distribuirana. Razina signifikantnosti je 5%. Zadatak 4. U bazi podataka 'podaci_analiza poslovnih podataka_32_studenti.sta' nalaze se podaci o kratkoročnim potraţivanjima u 2002. i 2003. godini. Postoji li statistički značajna razlika u očekivanim potraţivanjima u te dvije godine. Testiranje provedite na razini značajnosti od 5%. Zadatak 5. U uzorku od 100 potrošača jedne trgovine, 43 potrošača kupuje Master karticom. U drugom uzorku koji broji takoĎer 100 potrošača, 58 kupuje Visa karticom. Na razini

=0,05 testirajte postoji li statistički značajna razlika u proporcijama potrošača koji kupuju s različitim karticama. Podaci se nalaze u datoteci card.sta.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________30 5. Teorija uzoraka

Zadatak 6. Grupa potrošača ţeli odrediti postoji li razlika izmeĎu proporcija automobila koja trebaju popravke unutar dvije godine za dva tipa automobila. Za prvi model je uzorak iznosio 400 automobila od kojih je 53 trebalo popravak, a za drugi model je u uzorak odabrano 500 automobila od kojih je 78 trebalo popravak. Testirajte postoji li

statistički značajna razlika u navedenim proporcijama. Neka je =0,05. Zadatak 7. Tri dobavljača opskrbljuju kupca istim proizvodom. Proizvodi se isporučuju u pakiranjima po 1000 komada. Kontrolom pomoću slučajnih uzoraka dobiveni su rezultati koji se nalaze u datoteci def.sta. Prva varijabla (DOBAV) označava dobavljače, a druga (DEF) broj defektnih proizvoda u isporučenim proizvodima. Poznato nam je samo da su izabrani uzorci nezavisni i slučajno odabrani. Moţe li se prihvatiti hipoteza da ne postoji značajna razlika u kakvoći isporučenih proizvodi dobavljača? Razina signifikantnosti neka je 5%. Zadatak 8. Veliki lanac trgovina odlučio je reklamirati proizvode koje prodaje na tri različita načina: radio (1), televizija (2) i novine (3). U datoteci lanac.sta nalaze se podaci o ostvarenoj prodaji za sva tri načina reklamiranja za slučajno odabrane trgovine iz lanca. Postoji li razlika u prodaji za različite načine reklamiranja na razini 10%? Napravite testiranje i izvedite zaključak. Zadatak 9. U bazi podataka 'podaci_analiza poslovnih podataka_32_studenti.sta' nalaze se podaci o stručnoj spremi poduzetnika i o broju zaposlenih. U jednom članku ste pročitali da postoji razlika u distribucijama zaposlenih s obzirom na visinu stručne spreme, naime, obrazovaniji poduzetnici zapošljavaju veći broj djelatnika. Provjerite vrijedi li to u našim podacima. Zadatak 10. U bazi podataka 'poduzeca_hrvatska.sta' nalaze se podaci o poslovnim prihodima poduzeća (AAOP097). Postoji li statistički značajna razlika u poslovnim prihodima izmeĎu poduzeća u osječkoj-baranjskoj (14) i poduzeća u zagrebačkoj ţupaniji (1)? Zadatak 11. U bazi podataka 'poduzeca_hrvatska.sta' nalaze se podaci o broju zaposlenih za 2004. i 2005. godinu (AAOP0165 i BAOP0165). Postoji li statistički značajna razlika u broju zaposlenih u te dvije godine?

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________31 5. Teorija uzoraka

Zadatak 12. Grupa potrošača ţeli odrediti postoji li razlika izmeĎu proporcija automobila koja trebaju popravke unutar dvije godine za dva tipa automobila. Za prvi model je uzorak iznosio 400 automobila od kojih je 53 trebalo popravak, a za drugi model je u uzorak odabrano 500 automobila od kojih je 78 trebalo popravak. Testirajte postoji li

statistički značajna razlika u navedenim proporcijama. Neka je =0,05. Zadatak 13. U bazi podataka 'poduzeca_hrvatska.sta' nalaze se podaci o novcu u blagajni (AAOP053). Postoji li statistički značajna razlika u stanju novca izmeĎu poduzeća iz djelatnosti: trgovina, preraĎivačka industrija i poslovanje nekretninama. Zadatak 14. Za podatke iz 'poduzeca_hrvatska.sta' izračunajte koeficijent zaduţenosti (ukupne obveze/ukupna imovina). Testirajte hipotezu o postojanju statistički značajne razlike u očekivanoj vrijednosti koeficijent zaduţenosti s obzirom na veličinu poduzeća (VEL). Kakva su vaša očekivanja? Što ste zaključili na temelju testiranja? Zadatak 15. U bazi podataka 'poduzeca_hrvatska.sta' nalaze se podaci o obavljenoj kontroli financijskih izvještaja (PROVJEREN). Postoji li razlika u proporciji napravljene kontrole s obzirom na veličinu poduzeća (VEL)?

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________32 5. Teorija uzoraka

5.5. Neparametarske metode

5.5.1. Diskretna obilježja

Zanima nas da li dva uzorka iz konačne diskretne slučajne varijable potiču iz iste distribucije ili su razlike statistički značajne. Imamo:

i zapravo nas zanima da li moţemo tvrditi da su te distribucije jednake, tj. testiramo hipoteze:

H0: distribucije su jednake H1: distribucije nisu jednake.

Koristimo relativne frekvencije kao procjene za vjerojatnosti i testove koji se na ovim procjenama baziraju. U tu svrhu treba pogledati dvodimenzionalne tablice frekvencija. Koristit ćemo modul Basic statistics iz programskog paketa Statistica ako imamo baze podataka iz kojih treba tek odrediti frekvencije. Ako imamo 2x2 tablice moţemo koristiti i modul Nonparametric statistics tako da upišemo frekvencije.

5.5.2. Kontinuirana obilježja

Zanima nas da li dva uzorka iz neprekidnih slučajnih varijabli potiču od iste distribucije ili ne. Ako je uzorak velik i ako odbacimo hipotezu o jednakosti očekivanja, onda su distribucije nuţno različite, to je jasno. Ako prihvatimo hipotezu o jednakosti očekivanja stvar je kompliciranija.

- ukoliko su uzorci iz normalne s istim varijancama tada su i distribucije iste - ukoliko su uzorci iz normalne s različitim varijancama, distribucije ne mogu

nikako biti iste zbog različitih varijanci - općenito, jednakost očekivanja ne mora značiti i jednakost distribucija

U tu svrhu, razvijeni su testovi koji testiraju jednakost nekih drugih numeričkih karakteristika (npr. medijana) ili čak jednakost distribucija, npr.

- Mann-Whitney U test za nezavisne uzorke - Kolmogorov-Smirnov test za dva nezavisna uzorka - Wilcoxonov matched-pairs test za zavisne uzorke

Za ovakva testiranja koristimo modul Nonparametrics statistics.

Predavanja za kolegij 'Analiza poslovnih podataka' Šarlija, 2007.

__________________________________________________________________________

______________________________________________________________________33 5. Teorija uzoraka

5.6. Zadaci - neparametarske metode Zadatak 1. U bazi podataka 'podaci_analiza poslovnih podataka_32_studenti.sta' nalaze se podaci o tome jesu li se poduzetnici dodatno stručno usavršavali ili ne. Negdje ste pročitali da postoji razlika u ostvarenom profitu poduzeća s obzirom na to jesu li poduzetnici prošli dodatno usavršavanje. Provjerite vrijedi li to i za naše podatke. Zadatak 2. U bazi podataka 'poduzeca_hrvatska.sta' nalaze se podaci o kratkoročnim obvezama prema dobavljačima iz zemlje (AAOP088). Testirajte hipotezu o postojanju razlike u obvezama prema dobavljačima izmeĎu djelatnosti financijskog poslovanja i obrazovanja. Očekujete li razliku? Zašto? Zadatak 3. Za podatke iz baze 'podaci_hrvatska.sta' testirajte hipotezu o postojanju razlike u distribucijama obavljene kontrole financijskih izvještaja poduzeća s obzirom na veličinu poduzeća (VEL). Što ste zaključili?