71
Statistićke metode u menadžmentu Uvod Glavni cilj ove knjige jeste da predstavi osnovne koncepte iz elementarne statistike i da prikaže kako se rešavaju neki česti problemi sa kojima se susrećemo u bilo kojem predmetu osnovne statistike. Statistika je težak predmet mnogim studentima. Ova knjiga daje jednostavan, logičan i postepen princip u predmet osnovne statistike koji može pomoći studentima da prevaziđu ovu prepreku. Smišljena je tako da dopuni glavne udžbenike studenata na brojnim fakultetima. Takođe je idealna za netradicionalne studente koji se vraćaju u fakultetske klupe i moraju da urade pregled, kao i za one kojima je potrebno netehničko objašnjenje statistike. Pored toga, profesionalci kojima je potreban brzi priručnik, kao i srednjoškolci kojima je potreban brzi pregled tema iz statistike mogu iskoristiti ovu knjigu. Knjiga je napisana za osobe koje se ne bave statistikom i za studente brojnih fakulteta. U knjizi se koristi princip „od početka i od osnova“ koji olakšava studentima da bolje shvate statističke koncepte. Pored toga, ovaj princip u predstavljanju statističkih koncepta olakšava obimnost posla sa kojima se sureću studentima na fakultetima. Povezivanje sa tehnologijom Zbog brzih promena u nauci i tehnologiji, istraživanje elementarne statistike pretpelo je znatne promene. Naše metode podučavanja moraju se promeniti kako bi se ispratile ove promene i iskoristila tehnologija kao pomoć studentima da istraže, otkriju i shvate potrebne koncepte. Na kraju svakog poglavlja spomenuti su tehnološke stvari koje mogu biti od pomoći u koncentrisanju, otkrivanju, primeni i shvatanju statističkih koncepta. Prvo poglavlje

Statisticke Metode u Menadzmentu

Embed Size (px)

DESCRIPTION

Statističke metode u menadzmentu

Citation preview

Page 1: Statisticke Metode u Menadzmentu

Statistićke metode u menadžmentu

Uvod

Glavni cilj ove knjige jeste da predstavi osnovne koncepte iz elementarne statistike i da prikaže kako se rešavaju neki česti problemi sa kojima se susrećemo u bilo kojem predmetu osnovne statistike.

Statistika je težak predmet mnogim studentima. Ova knjiga daje jednostavan, logičan i postepen princip u predmet osnovne statistike koji može pomoći studentima da prevaziđu ovu prepreku. Smišljena je tako da dopuni glavne udžbenike studenata na brojnim fakultetima. Takođe je idealna za netradicionalne studente koji se vraćaju u fakultetske klupe i moraju da urade pregled, kao i za one kojima je potrebno netehničko objašnjenje statistike. Pored toga, profesionalci kojima je potreban brzi priručnik, kao i srednjoškolci kojima je potreban brzi pregled tema iz statistike mogu iskoristiti ovu knjigu. Knjiga je napisana za osobe koje se ne bave statistikom i za studente brojnih fakulteta. U knjizi se koristi princip „od početka i od osnova“ koji olakšava studentima da bolje shvate statističke koncepte. Pored toga, ovaj princip u predstavljanju statističkih koncepta olakšava obimnost posla sa kojima se sureću studentima na fakultetima.

Povezivanje sa tehnologijom

Zbog brzih promena u nauci i tehnologiji, istraživanje elementarne statistike pretpelo je znatne promene. Naše metode podučavanja moraju se promeniti kako bi se ispratile ove promene i iskoristila tehnologija kao pomoć studentima da istraže, otkriju i shvate potrebne koncepte. Na kraju svakog poglavlja spomenuti su tehnološke stvari koje mogu biti od pomoći u koncentrisanju, otkrivanju, primeni i shvatanju statističkih koncepta.

Prvo poglavlje

Grafički prikazi podataka sa jednom promenljivom

U ovom poglavlju dat je pregled:

Teme kojom se bavi statistika; Nekih najčešćih grafičkih prikaza koji se koriste za predstavljanje podataka; Raspodela učestalosti; Tačkastih grafikona; Grafikona sa stupcima; Histograma; Mnogouglova učestalosti; Grafikona pitica; Pareto grafikona.

U poslednjim poglavljima biće dat uvod u druge grafičke prikazem a vićete videti da se ovi grafički prikazi mogu kombinovati sa drugim merilima za opisivanje raspodele podataka.

Page 2: Statisticke Metode u Menadzmentu

Da bismo shvatili o čemu se u statistici radi, moramo da uvedemo neku terminologiju. Prvo ćemo objasniti šta smatramo temom statistike.

Objašnjenje pojma statistike: Statistika je nauka sakupljanja, organizovanja, rezimiranja, analize podataka i izvođenja zaključaka iz podataka.

Tema statistike podeljena je u dve široke oblasti koje čine 1 – sakupljanje, organizovanje, rezimiranje i analizu, i 2 – izvođenje zaključaka. Ove kategorije nazivaju se opisna i zaključna statistika.

Da bismo dobili informacije, podaci se sakupljaju iz promenljivih veličina koje se koriste za opisivanje događaja.

Objašnjenje pojma podataka: Podaci su vrednosti merenja koje mogu imati promenljive veličine događaja.

Promenljive čije su vrednosti određene slučajnošću nazivaju se nasumične promenljive. Postoje dva tipa promenljivih: kvalitativne promenljive i kvantitativne promenljive. Kvalitatne promenljive nisu numeričke po prirodi. Kvantitativne promenljive mogu biti u vidu numerički vrednosti i mogu se klasifikovati u dve grupe: diskretne promenljive i neprekidne (kontinualne) promenljive.

Objašnjenje pojma kvantitaitnih podataka: Kvantitativni podaci su vrednosti podataka koje su numeričke po prirodi. Na primer, visine ženskih košarkašica jesu kvantitativne vrednosti pdoataka.

Objašnjenje pojma kvalitativnih podataka: Kvalitativni podaci su vrednosti podataka koje se mogu podeliti u različite kategorije, po nekim karkateristikama ili osobinama. Na primer, boja očiju košarkašica klasifikuje se u vidu kvalitativnih podataka.

Objašnjenje pojma diskretnih promenljivih: Diskretne promenljive su one koje uzimaju vrednosti koje se mogu brojati – na primer, broj dana kada je padala kiša u mesecu martu.

Objašnjenje pojma neprekidnih promenljivih – Neprekidne promenljive su one koje uzimaju sve vrednost između dvaju datih vrednosti – na primer, vreme koje je porebno da obavite vašu novogodišnju kupovinu.

Da bi statističari uradili bilo kakvu analizu moraju se sakupiti podaci. Jedna od stvari koje statističari žele da urade jeste da izvedu zaključke o karakteristikama populacije. Ponekad je nepraktično ili previše skupo sakupljati podatke od cele populacije. U ovakvim primerima statističar može odabrati predstavnički deo populacije, koji se naziva uzorak.

Objašnjenje pojma populacije: Populacija se sastoji od svih elemenata koji se istražuju. Na primer, nas može zanimati istraživanje raspodele ocena na ispitu iz matematike među brucošima. U ovom slučaju populacija će biti skup ocena svih brucoša.

Objašnjenje pojma uzorka: Uzorak je podskup populacije. Na primer, nas može zanimati istraživanje raspodele ocena brucoša iz matematike. U ovom slučaju, možemo odabrati ocene svakog desetog brucoša sa azbučnog reda njihovih prezimena.

Page 3: Statisticke Metode u Menadzmentu

Objašnjenje pojma cenzus: Cenzus je uzorak cele populacije. Na primer, nas može zanimati istraživanje raspodele ocena brucoša iz matematike. U ovom slučaju, možemo dati spisak ocena svih brucoša.

I populacije i uzorci imaju karakteristike povezane sa njima. Ove karakteristike se nazivaju parametri i statistike, respektivno.

Objašnjenje pojma parametra: Parametar je karakteristika ili činjenica o populaciji. Na primer, nas može zanimati istraživanje raspodele ocene brucoša iz matematike. U ovom slučaju, prosečna ocena iz matematike među brucošima može biti 25.

Objašnjenje pojma statistike: Statistika je karakteristika ili činjenica o uzorku. Na primer, nas može zanimati istraživanje raspodele ocena brucoša iz matematike. U ovom slučaju prosečna ocena svakog desetog brucoša po azbučnom redu može biti 22.

Kako su parametri opisi populacije, populacija može imati brojne parametre. Slično tome, uzorak može imati brojne statistike.

Kada se bira uzorak, statističari žele da odaberu vrednosti na takav način da ne postoji ugrađena greška (naginjanje ka nekim vrednostima). Jedan način da se ovo ostvari jeste da se odabere nasumičan uzorak.

Objašnjenje pojma nasumičnog uzorka: Nasumični uzorak određene veličine jeste uzorak koji se bira na takav način da svaka gruša iste veličine ima podjednake šanse da se odabere. Na primer, kod lutrije gde se bira šest brojeva, ovo će biti nasumičan uzorak sa šest elemenata, pošto svaka grupa veličine šest ima podjednake šanse da se odabere.

Objašnjenje pojma raspodele učestalosti: Raspodela učestalosti jeste orgnaizacija neobrađenih pdoataka u vidu tabele, primenom klasa (ili intervala) i učestalosti javljanja (frekvencija).

Tipovi raspodela učestalosti koji će biti razmotreni u ovom delu jesu kategorička, negrupisana i grupisana raspodela učestalosti.

Objašnjenje pojma učestalosti (frekvencije): Učestalost ili frekvencija vrednosti podataka jeste broj puta koliko se ova vrednost javlja u skupu podataka.

Objašnjenje pojma kategoričke raspodele učestalosti: Kategorička raspodela učestalosti predstavlja podatke koji se mogu staviti u određene kategorije, poput pola, boje kose, ili vreske pripadnosti.

Objašnjenje pojma negrupisane raspodele učestalosti: Negrupisana raspodela učestalosti prosto daje spisak vrednosti podataka sa odgovarajućim brojem javljanja ili učestalosti.

Objašnjenje pojma relativne učestalosti: Relativna učestalost neke klase dobija se podelom učestalosti te klase sa ukupnim brojem merenja.

Objašnjenje pojma zbirne učestalosti: Zbirna učestalost određene vrednosti u tabeli učestalosti jeste zbir učestalosti svih vrednosti ispod date vrednosti.

Page 4: Statisticke Metode u Menadzmentu

Objašnjenje pojma zbirne relativne učestalosti: Zbirna relativna učestalost određene vrednosti u tabeli učestalosti jeste zbir relativnih učestalosti svih vrednsoti ispod date vrednosti.

Objašnjenje pojma tačkastog grafika: Tačkasti grafik jeste grafik koji prikazuje tačke svake vrednosti u skupu podataka duž brojne ose. Ako postoji veći broj javljanja određene vrednosti, tada se tačke gomilaju vertikalno.

Objašnjenje pojma grafika sa stupcima: Grafik sa stupcima jeste onaj gde se koriste vertikalne ili horizontalne linije (stupci) za predstavljanje učestalosti kategorija u skupu podataka.

Objašnjenje pojma histogram: Histogram je grafički prikaz raspodele učestalosti ili relativne učestalosti koji koristi klase i vertikalne stupce (pravougaonike) različitih visina za predstavljanje učestalosti.

Objašnjenje pojma mnogougaonik učestalosti: Mnogougaonik (poligon) učestalosti jeste grafik koji prikazuje podatke linijama koje povezuju tačke nacrtane za učestalosti. Učestalosti predstavljaju visine vertikalnih stubaca u histogramima.

Objašnjenje pojma vremenskih serija: Grafik vremenskih serija prikazuje podatke koji su posmatrani u datom vremenskom periodu. Iz ovog grafika se može analizirati ponašanje podataka tokom vremena.

Objašnjenje pojma pitica: Grafik u obliku pitica jeste krug koji je podeljen u parčiće po procentima vrednosti podataka u svakoj kategoriji.

Objašnjenje pojma Pareto grafika: Pareto grafik je tip grafika sa stupcima gde horizontalna osa predstavlja kategorije od interesa. Kada se stupci urede od najvećeg do najmanjeg po učestalosti kategorija, Pareto grafik može pomoći u utvđivanju onih kategorija koje su malobrojne ali suštinske, i one koje su beznačajne a kojih ima mnogo. Linija zbirnog procenta pomaže u procenjivanju dodatnog doprinosa svake kategorije.

Svi navedeni grafički prikazi mogu se dobiti primenom brojnih softverskih paketa koji se danas mogu nabaviti. U stvari, svi grafici u ovoj knjizi dobijeni su primenom programa MINITAB za Vindous. Nekoliko drugih primera programa koji mogu biti od pomoći jesu Excel, SAS i SPSS.

Drugo poglavlje

Opis podataka – numerička merila centralne tendencije negrupisanih podataka sa jednom promenljivom

U ovom poglavlju se daje pregled:

numeričkih vrednosti koje mere centralne tendencije numeričkog skupa podataka; kako izračunati ova merila i istražiti njihove karakteristike.

Page 5: Statisticke Metode u Menadzmentu

Ova merila se bave samo jednom karakteristikom skupa podataka: osrednjošću (centralnim položajem). Samim tim, moraćemo da kombinujemo ova merila sa drugim karakteristikama skupa podataka da bi ga u potpunosti opisali. Druge karakteristike skupa podataka sa jednom promenljivom biće istražene u sledećim poglavljima.

Merilo centralne tendencije skupa vrednosti jeste broj koji prenosi ideju centralnosti (središnjosti) skupa podataka. Najčešće korišćena merila centralne tendencije uzorka jesu srednja vrednosti, medijana i moda. Ova merila su razmotrena dalje.

Objašnjenje pojma srednje vrednosti. Srednja vrednost skupa numeričkih vrednosti jeste prosek skupa tih vrednosti. Možemo računati srednju vrednost populacije ili uzorka.

Objašnjenje pojma srednje vrednosti populacije: Ako se vrednosti odnose na celu populaciju, tada se srednja vrednosti naziva srednja vrednost populacije. Obično se označava sa μ.

Objašnjenje pojma srednje vrednosti uzorka: Ako se vrednosti odnose na uzorak, tada se srednja vrednost naziva srednja vrednost uzorka. Označava se sa nadvučeno x.

Kada se reč srednja vrednost ili prosek koristi u svakodnevnoj konverzaciji, ona predstavlja tipičnu vrednost ili centar skupa vrednosti. Zbog ovoga, srednja vrednost se naziva merilo centralne tendencije.

Srednja vrednost je centralna tačka gde je zbir negativnih odstupanja (apsolutnih vrednosti) od srednje vrednosti jednak zbiru pozitivnih odstupanja (apsolutnih vrednosti) od srednje vrednosti. Zato se srednja vrednost smatra merilom centralne tendencije.

Objašnjenje pojma medijane: Medijana numeričkog skupa podataka jeste numerička vrednosti u sredini kada se skup podataka uredi u nekom poretku.

1. Kada je broj vrednosti u skupu podataka neparan, medijana će biti srednja vrednost u poretku;

2. Kada je broj vrednosti u skupu podataka paran, tada će medijana biti prosek dve srednje vrednosti.

Kada se izbroje vrednosti ispod i iznad medijane vidimo da je „ravnotežna tačka“ upravo emdijana, i tada broj vrednosti ispred nje i iza nje jeste jednak. Zato se medijana smatra merilom centralne tendencije.

Objašnjenje pojma mode: Moda numeričkog skupa podataka jeste ona vrednost koja se najčešće javljala u tom skupu podataka.

1. Ako svi elementi u skupu podataka imaju istu učestalost javljanja, tada se za skup podataka kaže da nema modu;

2. Ako skup podataka ima jednu vrednost koja se javlja češće od ostalih, tada se za skup podataka kaže da je unimodalan;

3. Ako su dva elementa skupa podataka povezana sa najvećom učestalošću javljanja, tada se za skup podataka kaže da je bimodalan.

Page 6: Statisticke Metode u Menadzmentu

Oblici (nagnutost) raspodela: Tri najbitnija oblika raspodela učestalosti jesu pozitivna nagnutost, negativna nagnutost i simetričnost.

Kod pozitivno nagnute učestalosti najveći deo skupa vrednosti pada sa leve strane od srednje vrednosti, a „rep“ raspodele pada sa desne strane. Pored toga, srednja vrednost nalazi se desno od medijane, a moda je levo od medijane.

Kod negativno nagnute raspodele većina vrednosti podataka pada sa desne strane od srednje vrednosti, a rep raspodele sa leve. Pored toga, srednja vrednost je nalevo od medijane, a moda nadesno od medijane.

Kod simetrične raspodele vrednosti podataka su ravnomerno raspodeljene na obe strane od srednje vrednosti. Takođe, kada je raspodela unimodalna, srednja vrednost, medijana i moda su na istoj vrednosti i u centru raspodele.

Svi koncepti koji su razmotreni u ovom poglavlju mogu se prikazati primenom većine softverskih paketa. Svi naučni i grafički kalkulatori direktno pomažu u ovim računicama. Pored toga, neki noviji kalkulatori omogućavaju direktno računanje srednjih vrednosti i medijane. Ako imate ovakav kalkulator pogledajte u uputstvu kako se to radi.

Za razliku od medijane i mode, srednja vrednost je osetljiva na promene bilo koje vrednosti iz skupa podataka. Ako se ista konstanta doda svakoj vrednosti u skupu podataka, srednja vrednost podataka povećaće se za tu vrednost. Ako se svaka vrednost pomnoži sa istom konstantom, srednja vrednost će takođe biti pomnožena tom vrednošću.

Treće poglavlje

Opis podataka – numerička merila promenljivosti (odstupanja) negrupisanih podataka sa jednom

promenljivom

U ovom poglavlju daje se pregled:

numeričkih vrednosti koje mere raširenost ili promenljivost skupa numeričkih podataka;

kako izračunati ova merila i istražiti neke njihove karakteristike.

Videćete da se većina ovih merila bavi samo jednom osobinom iz skupa podataka: raširenošću ili promenljivošću (odstupanjem). Samim tim, moraćemo da kombinujemo ova merila sa drugim karkateristikama skupa podataka da bi ga u potpunosti opisali. Druge karakteristike podataka sa jednom promenljivom biće istražene u sledećim poglavljima.

Merilo odstupanja za vrednosti skupa podataka jeste broj koji prenosi ideju raširenost skupa podataka. Najčešće korišćena merila odstupanja za uzorak jesu raspon, međučetvrtinski raspon, srednje apsolutno odstupanje, varijansa ili standardno odstupanje, i koeficijent odstupanja. Ova merila razmotrena su u ovom poglavlju.

Page 7: Statisticke Metode u Menadzmentu

Objašnjenje pojma raspona: Raspon je razlika između najveće i najmanje vrednost u skupu podataka. Definicija važi za uzorak kao i za konačnu populaciju vrednosti.

Raspon = R = najveća vrednost - najmanja vrednost

Raspon ne koristi koncept odstupanja. Na njega utiču krajnje vrednosti (velike ili male vrednosti u odnosu na ostatak skupa podataka) i ne koristi sve informacije iz skupa podataka – samo najveću i najmanju vrednost. Samim tim, nije veoma korisno merilo odstupanja.

Objašnjenje pojma međučetvrtinskog raspona: Međučetvrtinski raspon meri raširenost srednjih 50% uređenog skupa podataka.

On se dobija u sledećim koracima:1. Urediti skup podataka od najmanje do najveće vrednosti;2. Naći medijanu uređenog skupa. Označiti ovo sa Q2.3. Pronaći medijanu prvih 50% skupa podataka. Medijana u drugom koraku nije

sadržana u ovom delu skupa. Neka ova vrednost bude označena sa Q1;4. Naći medijanu drugih 50% skupa podataka. Medijana u drugom koraku nije sadžana

u ovom delu skupa podaaka. Neka ova vrednost bude označena sa Q3;5. Međučetvrtinski rasponIQR = Q3 – Q1

Srednje apsolutno odstupanje – ovde se koristi odstupanje vrednosti podaaka od srednje vrednosti u računanju.

Objašnjenje pojma srednjeg apsolutnog odstupanja: SAO je prosek vrednosti apsolutnih odstupanja od srednje vrednosti. To jest, računaju se odstupanja podataka od srednje vrednosti, onda se uzimaju apsolutne vrednosti od ovih izračunatih, pa se računa njihov prosek.

Generalno, ako postoje n vrednosti podataka u uzorku, gde je xi i-ta vrednost a x nadvučeno srednja vrednost uzorka, tada se srednje apsolutno odstupanje definiše kao prosek od apsolutnih odstupanja od srednje vrednosti i dato je sa

SAO =

Obrazac kaže da oduzimate srednju vrednost od svake vrednosti podataka i uzimate apsolutnu vrednost rezultata, a zatim sabirate ove vrednosti i delite iih sa veličinom uzorka.

Odstupanja doprinose ukupnoj vrednosti srednjeg apsolutnog odstupanja proporcionalno veličini odstupanja. Poželjno je stoga definisati merilo odstupanja gde svaka vrednost podataka doprinosi proporcionalno svojoj razdaljini od srednje vrednosti, kao što je to slučaj sa srednjim apsolutnim odstupanjem.

1. Ako skup A ima veće SAO od skupa B, tada je logično verovati da su vrednosti u skupu A raširenije od vrednosti u skupu B.

2. SAO je osetljivo na vrednosti koje su veoma velike ili veoma male u odnosu na ostatak podataka.

Page 8: Statisticke Metode u Menadzmentu

Varijansa i standardno odstupanje – Varijansa i standardno odstupanje su najčešća i najkorisnija merila odstupanja. Ova dva merila daju informacije o tome kako podaci variraju oko srednje vrednosti.

Ako su podaci grupisani oko srednje vrednosti, tada će varijansa i standardno odstupanje biti male vrednosti.

Ako su međutim podaci široko razbacani oko srednje vrednosti, varijansa i standardno odstupanje biće velike vrednosti.

Objašnjenje pojma varijanse uzorka: Varijansa uzorka je približni prosek kvadratnih odstupanja od srednje vrednosti. To jest, odstupanja vrednosti podataka od srednje vrednosti prvo se računaju, zatim se radi radi njihov kvadrat, a zatim se nalazi prosečna vrednosti ovih kvadratnih vrednosti. Prosek je približan jer ne delimo sa veličinom uzorka već sa veličinom uzorka minus 1.

Beleške:1. Delimo sa vrednošću n-1 kako bi varijansa uzorka bila nepristrasna (objektivna)

procena varijanse populacije.2. Procena je objektivna ako je njena prosečna vrednost jednaka parametru koji

procenjuje. Na primer, srednja vrednost uzorka jeste objektivna procena srednje vrednosti populacije. To jest, ako uzmemo sve moguće uzorke fiksne veličine i nađemo njihove srednje vrednosti, tada će prosek svih ovih srednjih vrednosti biti jednaka srednjoj vrednosti populacije.

3. Variransa uzorka koristi kvadrate odstupanja od srednje vrednosti, jer se ovim eliminiše efekat znakova (kao što je slučaj kada koristimo apsolutne vrednosti odstupanja u računanju SAO).

Generalno, ako ima n vrednosti podataka u uzorku, gde je xi i-ta vrednost a x nadvučeno srednja vrednost uzorka, tada je varijansa skupa vrednosti uzorka data sa:

Varijansa uzorka = s2 =

Obrazac kaže da oduzimate srednju vrednost od svake vrednosti podataka, i kvadrirate razlikue, zatim sabirate ove vrednosti i delite zbir sa veličinom uzorka minus 1.

Varaijansa je ponekad velika u odnosu na veličinu vrednosti podataka.

Objašnjenje pojma standardno odstupanje: Standardno odstupanje je pozitivni kvadratni koren varijanse uzorka. Dato je pomoću:

Standardno odstupanje =

Beleška: Pozitivni kvadratni koren varijanse ima istu jedinicu kao i promenljiva. Kako je varijansa kvadrat jedinice odstupanja, kvadratni koren daje početnu jedinicu.

1. Standardno odstupanje uzorka približno je jednako prosečnoj razdaljini (SAO) merenja od njihove srednje vrednosti;

Page 9: Statisticke Metode u Menadzmentu

2. Ako sva merenja imaju istu vrednost, standardno odstupanje uzorka biće nula. To jest, ne postoji odstupanje u skupu podataka.

3. Varijansa (standardno odstupanje) trpi uticaj ekstremnih vrednosti (veoma malih ili veoma velikih) u skupu podataka.

4. Jedinica standardnog odstupanja ista je kao ona za neobrađene podatke, tako da je bolje koristiti standardno odstupanje od varijanse kao merilo odstupanja.

Objašnjenje pojma varijanse uzorka: Varijansa uzorka jeste prosek kvadratnih odstupanja od srednje vrednosti populacije. To jest, prvo se računaju odstupanja vrednosti podataka od srednje vrednosti populacije, a zatim se ove vrednosti kvadriraju, pa se zatim traži prosek ovih kvadriranih vrednosti. Prosek će biti tačan jer delimo sa veličinom uzorka.

Generalno, ako postoji N vrednosti podataka u populaciji, gde je x i i-ta vrednost a μ srednja vrednost populacije, tada je varijansa populacije, označena sa σ2 data kao:

Varijansa populacije =

Obrazac kaže da oduzimate srednju vrednost populacije od svake vrednosti podataka i kvadrirate rezultat, a zatim sabirate ove vrednosti i zbir delite sa veličinom uzorka.

Objašnjenje pojma standardnog odstupanja populacije: Standardno odstupanje populacije je pozitivni kvadratni koren varijanse populacije. Dato je sa

Standardno odstupanje populacije =

Beleška: Podsetimo se da se vrednosti uzorka dobijaju iz populacije. Samim tim, srednja vrednost uzorka i varijansa uzorka (standardno odstupanje) biće procene srednje vrednosti i varijanse (stanradnog odstupanja) populacije, respektivno. Takođe, primetimo da će varijansa populacije biti prosek standardnih odstupanja od srednje vrednosti, jer delimo sa veličinom populacije N.

Koeficijent odstupanja – Koeficijent odstupanja (KO) omogućava nam poređenje dostušanja dvaju (ili više) različitih promenljivih.

Objašnjenje pojma koeficijenta odstupanja uzorka: Koeficijent odstupanja uzorka definiše se kao standardno odstupanje uzorka koje se deli sa srednjom vrednošću skupa podataka. Obično se rezultat izražava kao procenat.

KO uzorka =

Beleška: Koeficijent odstupanja uzorka standardizuje odstupanje, tako što ga deli sa srednjom vrednošću. Koeficijent odstupanja nema jedinicu, pošto standardno odstupanje i srednja vrednost imaju iste jedinice, pa se tako potiru. Zbog ove karakteristike, možemo koristiti ovo merilo da poredimo odstupanja različitih promenljivih veličina sa različitim jedinicama.

Page 10: Statisticke Metode u Menadzmentu

Objašnjenje pojma koeficijent odstupanja populacije: Koeficijent odstupanja populacije definisano je kao standardno odstupanje populacije σ podeljeno sa srednjom vrednošću populacije μ. Ponovo, rezultat se obično izražava kao procenat.

KO populacije =

Beleška: Ponovo, koeficijent odstupanja populacije standardizuje odstupanje tako što ga deli sa srednjom vrednošću. Samim tim, koeficijent odstupanja nema jedinice, pa se ovo merilo može koristiti za poređenje odstupanja različitih populacija sa različitim jedinicama.

Praktično pravilo – Kada znamo srednju vrednost i standardno odstupanje datog skupa podataka možemo mnogo toga reći o samom skupu. Konkretno, ako skup podataka ima jedan maksimum i simetričan je („u obliku zvona“), tada možemo uopštiti neke karakteristike raspodele. Ovakvo uopštenje naziva se praktično pravilo.

Praktično pravilo daje neke opšte zaključke povezane sa srednjom vrednošću i standardnim odstupanjem zvonaste raspodele. Ono povezuje srednju vrednost i standardno odstupanje, dva standardna odstupanja i tri standardna odstupanja. Bez gubitka opštosti, koristićemo simetričnu raspodelu sa srednjom vrednošću nula da razmotrimo praktično pravilo.

Pravilo jedne sigme: Približno 68% vrednosti podataka leži unutar jednog standardnog odstupanja od srednje vrednosti. Samim tim, može se očekivati da se odstupanje veće od jedne sigme javi jednom u svaka tri merenja. Ovo važi za približno 33 procenta = 1/3 vrednosti koje su van standardnog odstupanja od srednje vrednosti.

Pravilo dve sigme: Približno 95% vrednosti podataka mora ležati unutar dva standardna odstupanja od srednje vrednosti. Samim tim, može se očekivati da do odstupanja koje je veće od dve sigme dođe jednom u svaka 20 emrenja. Ovo važi jer je približno 5% = 1/20 od vrednosti van dva standardna odstupanja od srednje vrednosti.

Pravilo tri sigme: Približno 99,7 procenata vrednosti podataka leži unutar tri standardna odstupanja od srednje vrednosti. Samim tim, može se očekivati da se odstupanje veće od tri sigme od srednje vrednosti javi jednom u svaka 333 merenja. Ovo važi jer približno 0,3 procenta = 1/333 vrednosti leži van tri standardna odstupanja od srednje vrednosti.

Sva merila odstupanja koja su razmotrena u ovom poglavlju mogu se direktno izračunati sa većinom statističkih softverskih paketa. Većina naučnih kalkulatora računa varijansu ili standardno odstušanje uzorka i populacije. Međutim, samo novije generacije kalkulatora ovo rade direktno. Ako imate ovakav kalkulator pogledajte uputstvo za ove funkcije.

Za razliku od međučetvrtinskog raspona, raspon, srednje apsolutno odstupanje, i varijansa (stadardno odstupanje) su osetljivi na ekstremne vrednosti.

Četvrto poglavlje

Page 11: Statisticke Metode u Menadzmentu

Opis podataka – numerička merila pozicije negrupisanih podataka sa jednom promenljivom

U ovom poglavlju daje se pregled:

numeričkih vrednosti koje mere lokaciju ili položaj vrednosti podataka u numeričkom skupu;

kako izračunati ova merila i istražiti neke njihove karakteristike.

Videćete da se ova merila bave samo jednom osobinom skupa podataka: lokacijom ili položajem. Samim tim, moraćete da kombinujete ova merila sa drugim karakteristikama skupa podataka kako bi ga u potpunosti opisali. Druge karakteristike podataka sa jednom promenljivom biće istražene u narednim poglavljima.

Merilo lokacije ili pozicije skupa vrednosti podataka jeste broj koji prenosi ideju relativnog položaja vrednosti jednog podatka u skupu podataka. Najčešća korišćena merila lokacije podataka jesu z ocene ili standardne ocene i procenti. Ova merila su razmotrena u ovom poglavlju, kao i neki posebni procentili.

Objašnjenje pojma z ocene ili standardne ocene – Z ocena za neku vrednost uzorka u skupu podataka dobija se oduzimanje srednje vrednosti skupa od neke vrednosti i podelom rezultata sa standardnim odstupanjem skupa. U suštini, z ocena nam govori koliko je standardnih odstupanja neka konkretna vrednost udaljena od srednje vrednosti skupa podataka.

Ako x predstavlja vrednost uzorka, x nadvučeno srednju vrednost, a s standardno odstupanje, tada se z ocena može izračunati primenom sledećeg obrasca:

z ocena =

Odgovarajuća z ocena za vrednost x iz cele populacije data je sa

z ocena =

gde μ predstavlja srednju vrednost populacije a σ njeno standardno odstupanje.

1. Z ocena je broj standardnih odstupanja vrednosti iznad (pozitivna z ocena) ili ispod (negativna z ocena) srednje vrednosti skupa podataka.

2. Z ocena trpi uticaj ekstremnih vrednosti u skupu podataka, pošto one direktno utiču na srednju vrednost i standardno odstupanje.

Objašnjenje pojma procentila: Procentili su numeričke vrednosti koje dele uređeni skup podataka u 100 grupa vrednosti sa 1% vrednosti podataka u svakoj grupi.

Kada razmatramo procentile, generalno predstavljamo diskusiju sa k-tim procentilom. K-ti procentil uređenog skupa podataka jeste numerička vrednost Pk takva da je najviše k

Page 12: Statisticke Metode u Menadzmentu

procenta vrednosti podataka manje od Pk, a najviše (100-k) procenta vrednosti podataka jeste veće od Pk.

1. Da bi se odredio procentil, skup podataka se mora prvo urediti od najmanje do najveće vrednosti.

2. Postoji 99 procentila u skupu podataka.

Procentil koji odgovara datoj vrednosti podatka, recimo x, u skupu podataka, dobija se primenom sledećeg obrasca:

procentil = (broj vrednosti ispod x + 0,5 / broj vrednosti u skupu podataka) × 100%

Procedura za pronalaženje vrednosti podataka za opšti procentil Pk – Pretpostavimo da želimo da odredimo koja vrednost pada u neki opšti procentil Pk. Sledeći koraci omogućiće vam da pronađete opšti procentil za skup podataka.

Prvi korak: Urediti skup podataka od najmanjeg do najvećeg;Drugi korak: Izračunati poziciju c procentila;c = (n * k) / 100n – veličina uzorkak – traženi procentilTreći korak: Ako c nije ceo broj zaokružiti ga na sledeći ceo broj. Locirajte ovu poziciju

u uređenom skupu. Vrednost u ovoj lokaciji jeste potrebni procentil.Ako je c ceo broj, naći prosek vrednosti c i c+1 u uređenom skupu. Prosečna vrednost

biće traženi procentil.

Posebni procentili – decili i kvartili – Decili i kvartili su posebni procentili. Decili dele uređeni skup podataka u deset jednakih delova, a kvartili u četiri jednaka dela.

Decile obično označavamo sa D1, D2....D9, a kvartile sa Q1, Q2 i Q3.

1. Postoji devet decila i tri kvartila;2. Q1 se obično naziva prvim kvartilom, Q2 drugim kvartilom, a Q3 trećim kvartilom.3. P50 = D5 = Q2 = medijana. To jest, 50-ti procentil, 5-ti decil i drugi kvartil i medijana

se poklapaju.4. Traženje decila i kvartila isto je kao i traženje odgovarajućeg procentila.

Podsetimo se da su ekstremne vrednosti vrlo male ili vrlo velike vrednosti podataka u poređenju sa ostalim vrednostima. Procedura za proveru da li se podatak može smatrati ekstremnom vrednošću može biti od koristi.

Prvi korak: Urediti podatke od najmanjeg do najvećeg.Drugi korak: Odrediti prvi kvartil Q1 i treći kvartil Q3. Podsetimo se da je Q1 = P25 a Q3

= P75.Treći korak: Naći međučetvrtinski raspon, MČR = Q3 – Q1.Četvrti korak: Izračunati Q1 – 1,5 × MČR.Peti korak: Neka x bude vrednost podatka koji se proverava da bi se utvrdilo da li je

ekstremna vrednost.a) Ako je vrednost x manja od Q1 – 1,5 × MČR, tada je x ekstremna vrednost;b) Ako je vrednost x veća od Q3 + 1,5 × MČR, tada je x ekstremna vrednost.

Page 13: Statisticke Metode u Menadzmentu

Objašnjenje pojma pravougaonog grafika: Kvadratni grafik je grafički prikaz koji se odnosi na rezime raspodele vrednosti od pet broja, minimalne vrednosti, nižeg kvartila, medijane, višeg kvartila i maksimalne vrednosti.

Horizontalni pravougaonik se dobija crtanjem pravougaonika između kvartila Q1 i Q3. To jest, pravougaonik se crta tako da pokaže srednjih 50% vrednosti podataka. Horizontalne linije se zatim crtaju od sredine strana pravougaonika do minimalnih i maksimalnih vrednosti. Ove horizontalne linije se nazivaju antene. Vertikalna linija unutar pravougaonika označava medijanu. Esktremne vrednosti obično su prikazane tačkom ili zvezdicom.

Vertikalne strane pravougaonog grafika se ponekad nazivaju osovine.

Informacije koje se mogu dobiti iz pravougaonog grafika:1. Ako je medijana blizu centra pravougaonika, raspodela vrednosti podataka biće

približno simetrična.2. Ako je medijana sa leve strane od xentra pravougaonika, raspodela vrednosti

podataka biće pozitivno nagnuta.3. Ako je medijana sa desne strane od centra pravougaonika, raspodela vrednosti

podataka biće negativno nagnuta.4. Ako su antene približno iste dužine, raspodela vrednosti podataka biće približno

simetrična;5. Ako je desna antena duža od leve, raspodela podataka biće pozitivno nagnuta.6. Ako je leva antena duža od desne, raspodela podataka biće negativno nagnuta.

Što se tiče softverskih programa, obično se prvi drugi i treći kvartil mogu direktno izračunati pomoću njih. Pravougaone grafike prikazuje većina softverskih paketa. Većina naučnih digitrona ne računa merila pozicije koja su razmotrena u ovom poglavlju. Međutim, noviji digitroni sa brojnim statističkim funkcijama direktno računaju kvartile. Svi ostali procentili i z ocene moraju se računati primenom obrasca ili procedure koje ja objašnjenja u ovom poglavlju.

Peto poglavlje

Istraživanje podataka sa dve promenljive

U ovom poglavlju daje se pregled:

grafičkih prikaza koji se koriste za istraživanje odnosa između dve promenljive veličine;

koeficijenta korelacije kao numeričkog merila jačine odnosa između dve promenljive veličine;

regresije najmanjih kvadrata kao metode za modeliranje linearnog odnosa između dve promenljive veličine.

Do sada smo se bavili podacima sa jednom promenljivom. Međutim, u ovom poglavlju ćemo uvesti podatke sa dve promenljive. To jest, bavićemo se podacima u kojima se nalaze dve promenljive veličine. Istražićemo ideju povezivanja preko grafičkih prikaza i analize korelacije. Pored toga, istražićemo kako se modelira odnos između dve promenljive pomoću regresione analize.

Page 14: Statisticke Metode u Menadzmentu

Najčešći grafički prikaz koji se koristi za istraživanje povezanosti dvaju promenljivih naziva se grafik razbacanosti. Merilo povezanosti podataka sa dve promenljive jeste broj koji prenosi ideju snage odnosa između ovih promenljivih. Najčešće korišćeno merilo u ove svrhe naziva se koeficijent korelacije. Pored toga, regresiona analiza će nam omogućiti da predložimo matematički model njihove povezanosti. Možemo koristiti ove modele da dajemo predviđanja jedne promenljive ako imamo vrednosti druge. Mi ćemo se međutim ograničiti na linearne modele u ovom razmatranju. Koncepti koji su povezani sa ovim temama razmotrene su u ovom poglavlju.

Kod prostih studija korelacije i regresije, podaci se sakupljaju u odnosu na dve promenljive veličine, da bi se odredilo da li postoji odnos između ovih promenljivih.

Neka y predstavlja zavisnu promenljivu a x nezavisnu promenljivu.

Objašnjenje pojma grafika razbacanosti: Grafik razbacanosti (podataka) jeste grafik uređenih parova (x,y) vrednosti nezavisne promenljive x i zavisne promenljive y.

Kod grafika razbacanosti vrednosti zavisne promenljive upisuju se duž vertikalne (y) ose, a vrednosti nezavisne promenljive duž horizontalne (x) ose.

Traženje obrazaca u podacima – Otkrivanje povezanosti ili odnosa među podacima sa dve promenljive počinje sa grafikom razbacanosti. Kada se istražuje ovaj grafik, moraju se dati odgovori na sledeća pitanja:

Da li postoji pravolinijski obrazac ili povezanost? Da li obrazac ili povezanost naginje nadole ili nagore? Da li su ucrtane vrednosti blisko grupisanje u obrascu ili široko razbacane? Da li postoje primetna odstupanja od obrasca?

1. Za dve promenljive se kaže da su pozitivno povezane ako su veće vrednosti jedne promenljive povezane sa većim vrednostima druge.

2. Za dve promenljive se kaže da su negativno povezane ako su veće vrednosti jedne promenljive povezane sa manjim vrednostima druge.

Korelacija – Do sada smo videli kako grafik razbacanosti može dati vizuelnu pomoć u otkrivanju povezanosti dvaju promenljivih. Ovde ćemo razmatrati numeričko merilo povezanosti dve promenljive koje se naziva Pirsonov koeficijent korelacije.

Objašnjenje pojma koeficijenta korelacije: Koeficijent korelacije uzorka meri jačinu i smer odnosa između dve promenljive u podacima iz uzorka. Koeficijent korelacije uzorka označava se sa r i računa na sledeći način:

ggde je n broj parova podataka (x,y).

Beleška: Ovo je samo jedan način da se izračuna koeficijent korelacije. Postoje brojni drugi načini za pronalaženje vrednosti r koji neće biti razmatrani u ovom tekstu.

Page 15: Statisticke Metode u Menadzmentu

Karakteristike koeficijenta korelacije:

Opseg koeficijenta korelacije je od -1 do +1; Ako postoji savršeni pozitivni linearni odnos među promenljivim veličinama,

vrednost r biće jednaka +1; Ako postoji savršeni negativni linearni odnos među promenljivim veličinama,

vrednost r biće jednaka -1; Ako postoji snažan pozitivni linearni odnos među promenljivim veličinama,

vrednost r biće bliska +1; Ako postoji snažan negativni linearni odnos među promenljivim veličinama,

vrednost r biće bliska -1; Ako postoji slab ili nikakav odnos među promenljivim veličinama, vrednost r biće

bliska 0.

Objašnjenje pojma koeficijenta korelacije populacije: Koeficijent korelacije populacije meri jačinu i smer odnosa između dve promenljive veličine, iz vrednost podataka o populaciji. Koeficijent korelacije populacije označava se grčkim slovom ρ, i računa primenom svih mogućih parova vrednosti (x,y) iz populacije.

Isti obrazac može se koristiti za računanje koeficijenta korelacije uzorka, osim što se sada koriste svi parovi vrednosti (x,y).

Mora se uvek koristiti i grafik razbacanosti a ne samo vrednost koeficijenta linearne korelacije. Ovo merilo ne otkriva krivolinijske ili druge tipove složenih odnosa. To jest, može postojati odnos među promenljivim veličinama iako je korelacija bliska nuli.

Korelacija i uzročnost – Bitno je shvatiti prirodu odnosa između nezavisne promenljive x i zavisne promenljive y. Ovde je dat spisak stvari koje bi trebalo da se uzmu u obzir.

Može postojati direktni uzročni i stvarni odnos između dve promenljive. Na primer, x dovodi do javljanja x. Primeri ovoga su recimo pojava da nedostatak vode izaziva dehidraciju, naporno trčanje dovodi do javljanja umora, toplota dovodi do topljenja leda, itd.

Može postojati obrnuti uzročni i stvarni odnos među promenljivim veličinama. Na primer, y izaziva pojavu x. Ovo recimo može biti slučaj kada se veruje da su loše ocene posledica odsustva sa časa, ali se takođe mora razmotriti i činjenica da loše ocene dovode do odsustvovanja.

Odnos može biti slučaj ili proizvoljan. Može se recimo pronaći odnos između broja samoubistava i povećanje prodaje peciva. Ali ova povezanost je naravno sasvim slučajna.

Odnos može biti posledica mešanja. To jest, odnos je posledica isprepletanosti velikog broja promenljivih.

Linija regresije najmanjih kvadrata – Prilikom istraživanja odnosa između dve promenljive, prva stvar koja se mora uraditi jeste crtanje grafika razbacanosti za podatke koji se sakupe. Sa grafika se može posmatrati obrazac. Ako je koeficijent korelacije dovoljno veliki (pozitivno ili negativno), sledeći korak je poređenje regresione linije sa modelima tako da se dobije najbolje slaganje. Jedna od svrha modela jeste da omogući predviđanje.

Page 16: Statisticke Metode u Menadzmentu

Linija najboljeg slaganja – Regresiona analiza omogućava nam da utvrdimo koja linija najbolje predstavlja odnosa. Iz algebre jednačina prave linije data je sa y = mx + b, gde je m nagib linije a b presek sa y osom. U elementarnoj statistici, jednačine regresione linije obično se piše kao y = ax + b, gde je a nagib, b presek sa y osom, a y daje predviđenu vrednost za poznato x. Analiza najmanjih kvadrata omogućava nam da odredimo vrednosti a i b tako da jednačina regresione linije najbolje predstavlja odnosa između dve promenljive, minimizujući grešku zbira kvadrata, to jest mnimizujući , gde je greška za datu vrednost. Ova regresiona linija obično se naziva linijom najboljeg slaganja. Ovaj tip regresione analize nazivamo prostom regresionom analizom, pošto se bavimo samo pravolinijskim modelima sa jedno nezavisnom promenljivom. Jednačine koje se mogu koristiti za računanje vrednosti a i b su:

Postoje i drugi oblici jednačina.

Kada se koristi linija najboljeg slaganja za davanje predviđanja, mora se voditi računa da nezavisne vrednosti budu u opsegu merene nezavisne promenljive. Ako se koriste vrednosti van dometa merene promenljive dobijaju se pogrešna predviđanja jer mi ne znamo kako se model ponaša van ovog opsega. Model odražava ponašanje povezanosti između dve promenljive samo u opsegu merenih vrednosti.

Koeficijent tačnosti – Koeficijent tačnosti je merilo koje nam omogućava da odredimo koliko možemo biti sigurni prilikom davanja predviđanja sa linijom najboljeg slaganja.

Objašnjenje pojma – loeficijenta tačnosti: Koeficijent tačnosti meri udeo odstupanja u zavisnoj promenljivoj koji se može objasniti regresionim modelim preko nezavisne promenljive.

Koeficijent tačnosti dobija se kvadriranjem vrednosti koeficijenta korelacije; simbol koji se koristi je r2; primetimo da je 0 < r2 < 1; vrednosti od r2 koje su bliske jedinici ukazuju da model objašnjava najveći deo

odstupanja zavisne promenljive i da može biti veoma koristan model; vrednost od r2 koje su bliske nuli ukazuju da model objašnjava vrlo malo odstupanja

zavisne promenljive i ne mora biti koristan model.

Grafici ostataka – Ostaci su samo greške. Konkretno, ostatak je razlika između stvarne izmerene vrednosti y i odgovarajuće predviđene vrednosti. Samim tim, greška nekog merenja data je sa

ostatak = greška = (izmerena vrednost – predviđena vrednost) = y – y nadvučeno

Grafici ostataka mogu pokazati obrasci koji daju neku ideju o kvalitetu modela. Ako je funkcionalni oblik regresionog modela nepravilan, grafici ostataka koje pravi model često će prikazati neki obrazac. Obrazac se onda može koristiti za predlaganje boljeg modela.

Page 17: Statisticke Metode u Menadzmentu

Moguće je dobiti krivoliniske obrasce kada se ucrtaju ostaci. Međutim, ako se koristi linearni model za dobijanje ostataka, mora se proveriti model i prilagoditi zakrivljenosti.

Ekstremne vrednosti i uticajne tačke – Vrednost koja se dobrano razdvaja od ostalih naziva se ekstremna vrednost. Što se tiče linije najboljeg slaganja, ekstremna vrednost je podatak sa velikom apsolutnom vrednošću ostatka. To jest, ekstremna vrednost će pasti daleko od regresione linije i neće pratiti obrazac linearnog odnosa koji je izražen linijom najboljeg slaganja. U četvrtom poglavlju smo razmatrali kako testirati i utvrditi da li se vrednost u skupu podataka sa jednom promenljivom može smatrati ekstremnom.

Podatak koji dovodi do toga da vrednost nagiba i preksa linije najboljeg slaganja bude znatno drugačija od one kada bi se ovaj podatak uklonio naziva se uticajnim podatkom.

Svi koncepti koji su razmotreni u ovom poglavlju mogu se izračunati i prikazati primenom većine softverskih statističkih paekta. Većina naučnih kalkulatora neće direktno računati koeficijent korelacije, već se mora računati nagib i presek linije najboljeg slaganja, i uraditi grafik razbacanosti. Međutim, neki noviji kalkulatori sa brojnim statističkim funkcijama direktno računaju koeficijent korelacije i nagiv i presek regresione linije i prikazuju grafik razbacanosti. Ako imate ovakav kalkulator pogledajte u uputstvu kako se to radi.

Šesto poglavlje

Istraživanje kategoričkih podataka

U ovom poglavlju daje se pregled:

dvosmernih tabela za par kategoričkih promenljivih veličina; marginalnih i uslovnih raspodela kategoričkih promenljivih; grafičkih prikaza kategoričkih promenljivih; nezavisnosti između kategoričkih promenljivih; Simpsonovog paradoksa.

U prethodnom poglavlju bavili smo se podacima sa dve promenljive kod kojih su promenljive bile kvantitativne. U ovom poglavlju istražićemo odnos između kategoričkih ili kvalitativnih promenljivih.

Kada posmatramo veze između dve kvalitativne promenljive, grafici razbacanosti neće nam pokazati nikakav obrazac. Koristimo tabele odnosa da predstavimo povezanost dvaju ili više kvalitativnih ili kategoričkih promenljivih. Kada postoje samo dve kvalitativne promenljive, tabela se obično naziva dvosmerna tabela odnosa ili tabela učestalosti sa dve promenljive. Primeri kategoričkih promenljivih veličina bili bi pol, etnička pripadnost, i verska pripadnost. Ove promenljive mogu imati vrednosti koje su kvalitativne. Primeri vrednosti za kategoričke promenljive su muško/žensko, belac/crnac, pravoslavac/katolik. Kvantitativne promenljive poput starosne dobi takođe mogu biti kategoričke promenljive kada se podaci klasifikuju u starosne grupe. Na primer, starosna grupa od 20 do 25 godina bila bi primer odgovarajuće kategorije u kojoj bi klasifikovali sve 24-godišnjake. Biće korišćeni grafikoni sa stupcima za prikaz odnosa između kvalitativnih promenljivih.

Page 18: Statisticke Metode u Menadzmentu

Marginalne raspodele – Iz tabela odnosa ili učestalosti, mogu se dobiti marginalne raspodele, računanjem odgovarajućih procenata.

Objašnjenje pojma marginalnih raspodela: Marginalna raspodela promenljive jeste procenat promenljive koji se izražava kao zbir reda ili kolone u odnosu na ukupnu vrednost tabele.

Da bi se dobile marginalne raspodele, podelimo zbirne vrednosti redova ili kolona sa ukupnom vrednošću tabele. One se obično izražavaju u procentima.

Uslovne raspodele – Iz tabele odnosa može se dobiti raspodela jedne promenljive u odnosu na drugu. Takođe se ovo može posmatrati kao klasifikacija kolona u odnosu na klasifikaciju redova. Izračunati odnosi u ovakvoj analizi nazivaju se uslovne raspodele.

Iz tabela odnosa ili učestalosti, mogu se dobiti uslovne raspodele tako što se računaju odgovarajući procenti.

Objašnjenje pojma uslovnih raspodela: Uslovna raspodela za (prvu) promenljivu u odnosu na drugu jeste procenat elemenata prve promenljive koji se sadrže u drugoj promenljivoj.

Da bismo dobili uslovne raspodele klasifikacije reda u odnosu na klasifikacije kolona, podelimo vrednosti učestalosti iz početne tabele sa zbirnim vrednostima kolona. Ove vrednosti se obično izražavaju u procentima. Uslovne raspodele promenljive u koloni u odnosu na promenljivu iz reda dobija se podelom vrednosti učestalosti iz početne tabele sa zbirnim vrednostima redova i izražavanjem ovih rezultata u procentima.

Nezavisnost kod kategoričkih promenljivih – Ponekad je bitno odrediti da li postoji povezanost između promenljivih u tabeli odnosa; to jest, da li su promenljive međusobno nezavisne ili zavisne. Koristićemo koncept uslovnih raspodela iz tabela odnosa da odredimo da li postoji povezanost među promenljivim veličinama.

Objašnjenje pojma nezavisnosti: Dve kategoričke promenljive su međusobno nezavisne (nemaju povezanost) ako su uslovne raspodele jedne promenljive iste za svaku kategoriju druge promenljive.

Tabele odnosa nisu ograničene na klasifikacije dimenzija 2 × 2. Druge oblasti statistike bave se mnogo složenijim tabelama.

Simpsonov paradoks odnosi se na situaciju u kojoj postoji greška u oba smera koja se ne može otkriti posmatranjem marginalnih raspodela. Ovde se moraju podaci temeljnije analizirati kako bi se videlo koje su informacije skrivene u podacima.

Svi koncepti koji su razmotreni u ovom poglavlju mogu se izračunati i prikazati primenom bilo kog statističkog softverskog paketa. Međutim, često je mnogo lakše raditi to ručno jer su računice veoma jednostavne. Svi naučni digitroni i grafički kalkulatori direktno pomažu u ovoj oblasti.

Page 19: Statisticke Metode u Menadzmentu

Mora se uvek voditi računa prilikom tumačenja marginalnih i uslovnih raspodela koje su povezane sa tabelama odnosa. Mora se takođe povesti računa kada se tumače grafikoni sa stupcima.

Sedmo poglavlje

Nasumičnost, neizvesnost i verovatnoća

U ovom poglavlju dajemo pregled:

verovatnoće relativne učestalosti; zakona velikih brojeva; pravila sabiranja u verovatnoći; uslovne verovatnoće; pravila množenja u verovatnoći; nezavisnosti u verovatnoći.

Verovatnoća je svuda oko nas. Primeri verovatnoće su recimo:

postoji 60% šanse da će danas padati kiša; šansa da dobijem na lotou je jedan prema 80 miliona; postoji 50:50 šansa da padne glava kada se baci novčić.

Ali šta se misli pod „šansom“ u navedenim rečenicama? Šansa je merilo neizvesnosti, i mi ovo merilo nazivamo verovatnoćom. U ovom poglavlju istražićemo koncept verovatnoće.

Nasumičnost (slučajnost) – Pojam nasumičnosti ukazuje na nepredvidivost. Prost primer nasumičnost jeste bacanje novčića. Osim ako neko ne pita proročicu o ishodu bacanja, ishod je sasvim neizvestan. Ishod može biti glava ili pismo. Kako ishod bacanja ne može biti predviđen sigurno, kažemo da on pokazuje nasumičnost. Ovo je primer lako opisivog nasumičnog procesa. Međutim, drugi nasumični procesi mogu biti sasvim intrgantni: na primer, promenljive cene deonica teško se izražavaju jer postoji veliki broj promenljivih i kombinacija promenljivih koje utiču na cene.

Neizvesnost – U nekom trenutku svako od nas doživi neizvesnost. Na primerm ako se bavite nekim sportom niste sigurni kako tačno da se ponašate. Ili razmotrite slučaj kada se približavate saobraćajnim znacima a svetlo se menja od zelenog ka crvenm. Morate odlučiti da li da prođete kroz raskrsnicu ili ne. Niste sasvim sigurni koja je prava odluka, iako postoji samo jedna.

Verovatnoća – Kada se zapitate da li verujete da li možete proći kroz žuto svetlo, odgovor može biti „verovatno“. To jest, verujete da možete, ali i dalje imate određene sumnje. Koncept verovatnoće se koristi za merenje ove pojave sumnje. Ako verujete da imate 0,99 verovatnoće da prođete kroz raskrsnicu, da li ste jasno merilo vaše sumnje. Verovatnoća daje preciznu inforamciju, mnogo precizniju od „možda mogu da pređem“, ili „trebao bih da pređem“, itd.

Page 20: Statisticke Metode u Menadzmentu

Nasumični eksperiment – Kada bacimo novčić, kao što smo spomenuli ranije, ne znamo ishod. Nazovimo ovaj proces bacanja novčića eksperimentom. Definisaćemo ovakav eksperiment kao nasumični eksperiment ili eksperiment verovatnoće.

Objašnjenje pojma nasumični eksperiment – Nasumični eksperiment je onaj kod kog je ishod svakog pokušaja neizvestan i tačno određen nakon pokušaja.

Primeri nasumičnih eksperimenata su bacanje konckice, biranje predmeta nasumično iz proizvodnog procesa radi istraživanja defekata, odabir brojeva u lotou, itd.

Prostor događaja – Kada bacamo novčić imamo dva moguća ishoda, pismo i glava. Kada se rodi dete, ono je ili muško ili žensko. Ako posmatramo neku porodicu sa dva deteta, mogućnosti se mogu rezimirati na sledeći način (MM, MŽ, ŽM, ŽŽ). U svakom slučaju, ishodi koji su ovde nabrojani sadrže sve moguće ishode. Ovakav spisak svih mogućih ishoda naziva se prostor događaja.

Objašnjenje pojma prostor događaja: Prostor događaja eksperimenta jeste spisak ili skup svih mogućih ishoda eksperimenta.

Događaj – Nas može zanimati samo jedan deo ishoda. Na primer, može nas zanimati samo jedna devojčica u porodici sa dva deteta; to jest, ishodi MŽ i ŽM. Ova dva ishoda čine podskup prostora događaja. Ovakav podskup naziva se događaj.

Objašnjenje pojma događaj: Događaj je podskup prostora svih događaja.

Beleška: Svaki ishod u prostoru jeste jedan događaj. Ovi događaji nazivaju se prostim ili elementarnim događajima.

Klasična verovatnoća – Ako možemo pretpostaviti da svi prosti događaji u prostoru događaja imaju istu šansu ili verovatnoću javljanja, tada možemo izmeriti verovatnoću događaja kao udeo, u odnosu na broj događaja u prostoru događaja. Ovakvo merilo verovatnoće naziva se klasična verovatnoća.

Objašnjenje pojma klasične verovatnoće događaja: Ako se ishodi u prostoru događaja dešavaju sa podjednakom šansom, tada se klasična verovatnoća događaja A definiše kao

P(A) = broj prostih događaja u A / ukupan broj prostih događaja u prostoru događaja

Relativna učestalost ili praktična verovatnoća – Ako jednom bacimo novčić, kažemo da je verovatnoća da će pasti glava ½ = 0,5, Ovo je posledica toga što imamo dva moguća ishoda: glava ili pismo. Ova verovatnoća od 0,5 jeste teorijska verovatnoća da će pasti glava kada bacamo novčić.Međutim, ako bacimo novčić deset puta, recimo, i vidimo da je glava pala četiri puta, na osnovu ove informacije kažemo da je šansa jednaka 4/10, što nije isto kao 0,5. Ako međutim bacimo novčič više puta očekivali bi da se približavamo brojci od 50%.

Šansa ili verovatnoća može se izmeriti relativnom učestalošću kada se ponavljanja mogu precizno obaviti, kao u slučaju bacanja novčića veći broj puta. Samim tim, verovatnoća da će doći do događaja može se izmeriti udelom broja javljanja događaja kada se proces ponavlja veći broj puta. Ovo se naziva dugoročnom relativnom učestalošću događaja.

Page 21: Statisticke Metode u Menadzmentu

Objašnjenje pojma relativne učestalosti ili praktične verovatnoće događaja: Relativna učestalost ili praktična verovatnoća događaja jeste udeo broja javljanja događaja u datom broju pokušaja.

Ako je A događaj koji nas zanima, tada je relativna učestalost događaja A, što se označava sa P(A), jednaka:

P(A) = učestalost javljanja / broj pokušaja

Zakon velikih brojeva – U bilo kom eksperimentu relativna učestalost događaja menjaće se od pokušaja do pokušaja. Međutim, ako se eksperiment obavi mnogo puta, relativna učestalost događaja težiće ka broju koji se naziva teorijska verovatnoća događaja. Ovaj koncept se naziva zakonom velikih brojeva.

Subjektivna verovatnoća – Subjektivna verovatnoča je merilo uverenja. Ovo merilo zavisi od vašeg životnog iskustva. Samim tim, na osnovu svojih iskustava, dve razumne osobe mogu imati različita merila uverenja za pojavu konkretnog događaja. Primer subjektivne verovatnoće jeste vrednost koju dodeljujemo šansi da položimo ispit recimo. Ova šansa će biti zasnovana na vašem prethodnom iskustvu – na osnovu toga koliko ste učili, koliko ste gradiva propustili, itd. Subjektivna verovatnoća ne može se koristiti za definisanje šanse javljanja događaja jer ova vrednost može biti različita za različite ljude.

Neki osnovni zakoni verovatnoće – Dajemo četiri osnovna zakona verovatnoće:

Prvi zakon: Ako je verovatnoća događaja 1, tada se događaj mora odigrati.Drugi zakon: Ako je verovatnoća događaja 0, tada se događaj nikada neće odigrati.Treći zakon: Verovatnoća nekog događaja mora imati vrednost između 0 i 1, uključujući

i ove vrednosti.Četvrti zakon: Zbir verovatnoća svih prostih događaja u prostoru događaja mora biti

jednak 1. Drugi način da se ovo iskaže jeste da je verovatnoća celog prostora događaja bilo kog eksperimenta jednaka 1.

Što je verovatnoća bliža 1 to je verovatnije da će se događaj desiti.Što je verovatnoća bliža nuli to je manje verovatno da će se događaj desiti.

Sastavni događaji – Ponekad moramo da sabiramo (sastavljamo, kombinujemo) događaje da bismo definisali neki (veći) događaj. Ovakvi događaji nazivaju se sastavnim.

Objašnjenje pojma sastavnog događaja: Sastavni događaj je događaj koji je definisan sastavljanjem dva ili više događaja.

Unija događaja – Razmotrimo dva događaja A i B. Može nas zanimati događaj koji se dobija razmatranjem elemenata koji su u A, ili u B, ili i u A i u B. Ovakav sastavni događaj naziva se unija događaja A i B.

Objašnjenje pojma unije dva događaja – Unija dva događaja A i B jeste skup ishoda koji se sadrže u A ili u B, ili u oba.

Oznaka: Unija događaja A i B biće označena sa A U B.

Page 22: Statisticke Metode u Menadzmentu

Kod unije događaja, elementi koji su zajednički različitim događajima se ne ponavljaju.

Presek događaja – Razmotrimo dva događaja. Može nas zanimati događaj koji se dobija razmatranjem elemenata koji su i u A i u B. Ovakav sastavni događaj naziva se presekom događaja A i B.

Objašnjenje pojma preseka događaja: Presek dva događaja A i B je skup ishoda koji su sadržani u A i u B.

Oznaka: Presek A i B biće označen sa A ∩ B.

Obostrano isključivi događaji – Ponekad događaji nemaju nijedan zajednički element. U ovakvim slučajevima, bavimo se obostrano isključivim događajima.

Objašnjenje pojma obostrano isključivih događaja – Dva događaja A i B su obostrano iskljućiti ako nemaju nijedan zajednički element – drugim rečima ako je presek prazan.

Peti zakon: Ako su dva događaja obostrano isključiva, tada P (A U B) = P(A) + P(B)

Ako su dva događaja obostrano isključiva tada ako se jedan od njih desi, drugi ne može da se desi.

Drugi izraz koji se koristi za obostrano isključive događaja jeste nepreklapajući.

Komplement događaja – Ponekad je zgodnije posmatati šta se nalazi van događaja nego unutar njega. Sve što je van događaja onda jeste njegov komplement.

Objašnjenje pojma komplementa događaja – Komplement događaja A jeste skup svih ishoda koji nisu u A.

Oznaka: Sa A’ ćemo označiti komplement događaja A.

Pravilo komplementa – Primetimo da su komplement događaja i sam događaj međusobno isključivi. Ako se bavimo samo jednim događajem u prostoru događaja, tada je unija događaja i njegovog komplementa ceo prostor događaja. Ako je A događaj, tada je A U A’ = S, gde je S prostor događaja. Samim tim, P(A U A’) = P(S). Sadam verovatnoća prostora događaja za neki eksperiment je 1. To jest, P(S) = 1. Tako da je P(A U A’) = 1. Kako su A i A’ međusobno isključivi, tada je P(A U A’) = P(A) + P(A’). Ovo daje P(A) + P(A’) = 1. Ovo obično navodimo u vidu zakona.

Šesti zakon: Zbir verovatnoće događaja i njegovog komplementa iznosi 1.

Pravilo sabiranja – Opštije pravilo unije dva događaja dato je u sledećem zakonu.

Sedmi zakon: Za bilo koja dva događaja A i B, verovatnoća njihove unije je data sa

Page 23: Statisticke Metode u Menadzmentu

Ovo se obično naziva pravilo sabiranja verovatnoća.

Uslovna verovatnoća – Ponekad je bitno da se pronađe verovatnoća jednog događaja ako se već odigrao neki drugi događaj. Ovakva verovatnoća se naziva uslovna verovatnoća.

Oznaka: Neka P(A|B) predstavlja uslovnu verovatnoću događaja A, ako se već odigrao događaj B. Čita se „verovatnoća A uz uslov B“.

Osmi zakon: Uslovna verovatnoća događaja A, ako se odigrao događaj B, računa se sledećim obrascem:

U pronalaženju uslovne verovatnoće, ograničavamo prostor događaja na onaj događaj od koga zavisimo.

Deveti zakon (pravilo množenja za dva zavisna događaja): Ako su događaji A i B zavisni, tada

Nezavisnost – Nezavisnost pokazuje poseban odnos među događajima. Ako znamo da će se odigrati neki događaj, a to pritom ne utiče na verovatnoću javljanja drugog događaja, onda se za ova dva događaja kaže da su nezavisni.

Objašnjenje pojma nezavisnosti u verovatnoći – Dva događaja su nezavisna ako odigravanje jednog događaja ne utiče na verovatnoću drugog. Tako, ako su događaji nezavisni, tada simbolično ovo možemo izraziti kao:

Ako događaji A i B nisu nezavisni, tada se za njih kaže da su zavisni.

Svi koncepti koji su razmatrani u ovom poglavlju mogu se izračunati i prikazati primenom standardnih statističkih softvera. Međutim, primena ovakvih softvera za računice u ovom poglavlju ponovo će biti uglavnom nepotrebno. Sve što je ovde potrebno jeste uraditi par prostih računica.

Osmo poglavlje

Diskretne raspodele verovatnoće

U ovom poglavlju se daje pregled:

raspodela verovatnoća očekivanja ili očekivanih vrednosti varijanse Brnulijevih pokušaja binomske raspodele.

Page 24: Statisticke Metode u Menadzmentu

Ovde ćemo razmatrati ideje koje su povezane sa pojavom nasumičnosti u prostoru događaja koja se javlja obavljanjem nasumičnog eksperimenta. Na primer, ako se baca novčić tada je dobijeni prostor događaja S = (pismo, glava). Primenom ove klasične definicije verovatnoće možemo rezimirati ishode sa povezanim verovatnoćama kao

Ishod verovatnoćapismo 0,5glava 0,5Da bi analizirali složenije nasumične eksperimente, uvešćemo i koristiti ideje

nasumičnih promenljivih i raspodele verovatnoća.

Nasumične promenljive veličine – Razmotrimo eksperiment bacanja jednog novčića. Podsetimo se da je prostor događaja S = (pismo, glava). Neka X predstavlja broj glava. Samim tim, X može imati vrednosti 0 i 1. Neka x budu ove vrednosti. To jest x = 0,1.

Objašnjenje pojma nasumične promenljive: Nasumična promenljiva dodeljuje jednu i samo jednu numeričku vrednost svakoj tački u prostoru događaja za nasumični eksperiment,

Beleška: Nasumične promenljive se obično označavaju velikim slovima pri kraju alfabeta, poput X, Y i Z. Mi ćemo koristiti mala slova za predstavljanje vrednosti nasumičnih promenljivih, poput x,y i z.

Tipovi nasumičnih promenljivih – Susrešćemo se sa dva tipa nasumičnih promenljivih, diskretnim i neprekidnim.

Objašnjenje pojma diskretne nasumične promenljive veličine – Diskretna nasumična promenljiva je ona koja može imati ograničen broj mogućih vrednosti. Na primer broj dana kada pada kiša u mesecu martu. Ako je X broj dana, tada su moguće vrednosti za X, x = 0,1,2,3....31.

Objašnjenje pojma neprekidne nasumične promenljive – Neprekidna nasumična promenljiva je ona koja može imati bilo koju vrednost u intervalu na osi realnih brojeva. Na primer, količina padavina u msecu martu primer je neprekidne promenljive. Ako je X količina padavina, tada su moguće vrednosti za X u intervalu [0,∞). To jest, količina može varirati od nula cm3 do beskonačno, ali sa praktičnog aspekta, ovo se nikada neće desiti. Praktični neprekidni interval može biti recimo [0,12] cm3.

Beleška: Mi ćemo se u ovom poglavlju baviti samo diskretnim nasumičnih promenljivim veličinama.

Raspodela verovatnoća za diskretne nasumične promenljive – Podsetimo se primera porodice sa dva deteta iz sedmog poglavlja. Prostor događaja je S = (MM, MŽ, ŽM, ŽŽ). Neka X predstavlja broj devojčica u porodici; tada su vrednosti za X, x = 0,1,2. Primenom klasične definicije verovatnoće,

P(X = 0) = P(MM) = ¼ = 0,25P(X = 1) = P(MŽ ili ŽM) = P(MŽ U ŽM) = P(MŽ) + P(ŽM) = ¼ + ¼ = ½ = 0,5. (pošto

su MŽ i ŽM međusobno isključivi događaji).P(X = 2) = P(ŽŽ) = ¼ = 0,25.

Page 25: Statisticke Metode u Menadzmentu

Možemo urediti vrednosti nasumičnih promenljivih i povezane verovatnoće u tabelu, kako je to prikazano:

x P(X = x)0 0,251 0,502 0,25

ΣP(x) = 1

Ovakva tabela zove se raspodela verovatnoća. Konkretno, to je diskretna raspodela verovatnoće jer je nasumična promenljiva diskretna.

Objašnjenje pojma diskretne raspodele verovatnoće – Diskretna raspodela verovatnoće sastoji se od svih mogućih vrednosti diskretne nasumične promenljive sa njihovim odgovarajućim verovatnoćama.

1. Verovatnoća bilo koje vrednosti mora biti između 0 i 1, uključujući ove vrednosti. Simbolično, možemo ovo izraziti kao 0 < P(X = x) < 1, za sve vrednosti.

2. Zbir svih verovatnoća mora biti jednaka 1. Simbolično, ovo izražavamo kao ΣP(x) = 1.

Očekivana vrednost – Veoma bitan koncept u verovatnoći jeste ideja očekivane vrednosti. Očekivana vrednost nasumične promenljive jeste srednja vrednost ili prosečna vrednost nasumične promenljive. Ako se nasumična promenljiva posmatra tokom nekog perioda vremena, očekivana vrednost mora biti bliska prosečnoj vrednosti posmatranja pojave koja se javlja u nasumičnom procesu. Što je veći broj posmatranja, to je očekivana vrednost bliža prosečnoj vrednosti posmatranja.

Objašnjenje pojma očekivane vrednosti za diskretnu nasumičnu promenljivu: Očekivana vrednost diskretne nasumične promenljive X jeste srednja vrednost nasumične promenljive. Označava se sa E(X) ili μ, i dobija se računanjem

Neki udžbenici koriste simbol μ ili μx da predstave očekivanu vrednost nasumične promenljive X.

Kod diskretnih nasumičnih promenljivih, očekivana vrednost veoma je retko jedna od mogućih ishoda nasumične promenljive.

Varijansa i standardno odstupanje diskretne nasumične promenljive – Promenljivost nasumične promenljive odnosi se na razbacanost vrednosti oko srednje vrednosti.

Objašnjenje pojma varijanse kod diskretne nasumične promenljive: Varijansa diskretne nasumične promenljive X meri raširenost nasumične promenljive oko očekivane vrednosti (srednje vrednosti) i računa se sledećim obrascem:

gde je μ očekivana vrednost nasumične promenljive.

Page 26: Statisticke Metode u Menadzmentu

Sličan računski obrazac varijanse dat je kao

Beleška: U navedenom obrascu sabiranje se radi samo za [x2 × P(x)] za sve vrednosti x.

Neki udžbenici koriste simbol σ2 ili σ2x da predstave varijansu nasumične promenljive X.

Standardno odstupanje – Lakše je raditi sa veličinom koja ima iste jedinice kao i sama promenljiva. Ako uradimo kvadratni koren kvadrata jedinice, dobijamo jedinicu. Samim tim, ako uradimo kvadratni koren varijanse, dobijamo standardno odstupanje, i veličinu koja ima istu jedinicu kao i nasumična promenljiva.

Objašnjenje pojma standardnog odstupanja nasumične promenljive: Standardno odstupanje nasumične promenljive X definisano je kao pozitivni kvadratni koren varijanse. Računa se na sledeći način:

Standardno odstupanje je grupa procena prosečne udaljenost vrednosti nasumične promenljive od očekivane vrednosti (srednje vrednosti).

Bernulijevi pokušaji i binomska raspodela verovatnoće – Kada jednom bacimo novčić, ishod se može klasifikovati kao glava ili pismo. Slično tome, kada biramo neki proizvod sa proizvodne trake, možemo izabrati defektivni ili dobar proizvod. Ovakvi eksperimenti nazivaju se Bernulijevim. U slučaju bacanja novčića može nas zanimati ishod da padne glava. U ovakvom slučaju, klasifikovaćemo glavu kao uspešni ishod. U slučaju odabira proizvoda, uspeh može biti odabir defektivnog proizvoda (da bismo ga izbacili sa trake).

Objašnjenje pojma Bernulijevog eksperimenta: Bernulijev eksperiment je nasumični eksperiment, čiji se ishod može klasifikocati kao jedan od dva prosta događaja.

Naravno, možemo ponavljati Bernulijev eksperiment nekoliko puta. Kada ovo radimo pod određenim uslovima, kažemo da imamo niz Bernulijevih pokušaja.

Objašnjenje pojma Bernulijevih pokušaja – Bernulijevi pokušaji se dešavaju kada se Bernulijev eksperiment ponavlja nekoliko puta nezavisno, tako da verovatnoća uspeha, recimo p, ostaje ista iz pokušaja u pokušaj.

U nizu Bernulijevih pokušaja, često nas zanima ukupnih broj uspeha. Na primer, ako istražujemo 18 proizvoda sa proizvodne trake, može nas zanimati broj defektivnih u uzorku od 18. Ako stavimo da je X nasumična promenljiva koja predstavlja broj defektivnih proizvoda u uzorku, tada se X naziva binomska nasumična promenljiva, a povezani eksperiment, binomski eksperiment.

Objašnjenje pojma binomskog eksperimenta – Binomski eksperiment je nasumični eksperiment koji zadovoljava sledeće uslove:

Postoje dva moguća ishoda (uspeh ili neuspeh) svakog pokušaja; Postoji fiksni broj pokušaja, recimo n;

Page 27: Statisticke Metode u Menadzmentu

Verovatnoća uspeha, recimo p, je fiksna od pokušaja do pokušaja; Pokušaji su nezavisni; Binomska nasumična promenljiva je broj uspeha u n pokušaja.

Binomski eksperimenti dešavaju se sasvim često u realnom svetu, a model je razvijen kako bi se pomoglo u računanju verovatnoća povezanih sa ovakvim eksperimentima. Pre nego što razmotrimo binomsku raspodelu međutim, moramo da uvedemo koncept faktorijela.

Faktorijeli – Pretpostavimo da postoji pet radnih mesta koje bi trebalo da popune pet kandidata. Biće pet izbora za prvo radno mesto. Jednom kada se ono popuni, ostaje četiri kandidata, pa će biti četiri moguća izbora za drugo radno mesto. Možemo ovako nastaviti sve dok se ne popune sva radna mesta. Primetimo da će na kraju ostati samo jedan izbor za poslednje radno mesto. Po principu računanja, biće 5 × 4 × 3 × 2 × 1 načina da se popune pet radnih mesta. Kažemo da postoji 5 faktorijel načina da se ispune ova radna mesta.

Oznaka: koristićemo simbol ! da predstavimo faktorijel.

Binomska raspodela – Funkcija koja daje binomske verovatnoće prikazana je niže. Ona predstavlja verovatnoću precizno x uspeha u n pokušaja u binomskom eksperimentu.

Mogu se napraviti velike tabele za pronalaženje binomskih nasumičnih promenljivih. Mana je međutim što postoji beskonačan broj vrednosti između 0 i 1 za verovatnoću uspeha, pa samim tim ne bi bilo dovoljno redova za sve vrednosti.

Srednja (očekivana) vrednost i varijansa kod binomske nasumične promenljive – Srednja vrednost, varijansa i standardno odstupanje binomske nasumične promenljive mogu se izračunati primenom sledećeg obrasca:

Srednja vrednost μ = n * pVarijansa = n * p * (1-p)Standardno odstupanje = (np(1-p))1/2

Svi koncepti koji su razmotreni u ovom poglavlju mogu se izračunati i prikazati primenom većine statističkih softverskih paketa. Međutim, primena ovog softvera za prostije računice u ovom poglavlju nije potrebna. Svi naučni i grafički kalkulatori direktno pomažu u računicama. Pored toga, noviji kalkulatori imaju binomsku raspodelu.

Deveto poglavlje

Normalna raspodela verovatnoće

U ovom poglavlju daje se pregled:

Normalne raspodele verovatnoće; standardne normalne raspodele; z ocena;

Page 28: Statisticke Metode u Menadzmentu

verovatnoće povezane sa bilo kojom normalnom raspodelom.

Ovde ćemo se fokusirati na posebnu neprekidnu nasumičnu promenljivu koja može imati bilo koju vrednost u intervalu (-∞, +∞). To jest, nasumična promenljiva može imati bilo koju vrednost na realnoj osi. Raspodela ove nasumične promenljive naziva se normalna raspodela, ili Gausova raspodela u čast Karla Gausa koji je 1833. godine objavio svoj rad u kojoj je opisuje. Raspodela se smatra najbitnijiom raspodelom verovatnoća u statistici.

Normalna raspodela može se posmatrati kao ograničeni oblik binomske nasumične promenljive. To jest, u binomskom eksperimentu ako koristimo fiksnu verovatnoću uspeha p, možemo analizirati šta se dešava kada se broj pokušaja povećava. Da bimos vizuelno predstavili šta se dešava možemo napraviti histograme za fiksno p i sve veće n.

Beleška: Ako imate pristup statističkom softveru, simulirajte vrednosti binomske nasumične promenljive sa različitim p i n, i prikažite rezultate grafički kako bi opazili obrasce.

Normalna raspodela se koristi za opis brojnih prirodnih pojava, poput visine osoba, iQ rezultata, težine, krvnog pritiska, itd.

Osobine normalne raspodele – Matematička jednačina za normalnu raspodelu je

gde je e = 2,718 a π = 3,14, μ – srednja vrednost populacije, a σ – standardno odstupanje populacije. Kada se nacrta jednačina za dato μ i σ, dobija se neprekidni grafik u obliku zvona. Samim tim, možemo prikazati beskonačan broj grafika ove jednačine, u zavisnosti od vrednosti μ i σ. Za takve grafike kažemo da su porodica normalnih krivih.

Normalne krive imaju slične oblike ali se nalaze na različitim tačkama duž x ose, što zavisi od srednje vrednosti. Takođe, što je veće standardno odstupanje to je kriva šira.

Objašnjenje pojma normalne raspodele – Normalna raspodela je neprekidna simetrična raspodela u obliku zvona za normalnu nasumičnu promenljivu veličinu.

Rezime osobina normalne raspodele:

Kriva je neprekidna; Kriva ima oblik zvona; Kriva je simetrična u odnosu na srednju vrednost; Srednja vrednost, medijana i moda se nalaze u centru raspodele i jednake su; Kriva je unimodalna; Kriva nikada ne dodiruje x osu; Ukupna površina ispod normalne krive jednaka je 1.

Veoma bitna karakteristika bilo koje normalne raspodele jeste da unutar fiksnog broja standardnih odstupanja od srednje vrednosti, sve normalne raspodele imaju isti udeo svojih verovatnoća. Podsetimo se da je ovo razmotreno u trećem poglavlju, pod nazivom praktično pravilo.

Page 29: Statisticke Metode u Menadzmentu

Ponovljeno praktično pravilo:

Pravilo jedne sigme: Približno 68 procenata vrednosti podataka trebalo bi da leži unutar jednog standardnog odstupanja od srednje vrednosti. To jest, bez obzira na oblik normalne rapsodele, verovatnoća da će normalna nasumična promenljiva biti unutar jednog standardnog odstupanja od srednje vrednosti je približno jednaka 0,68.

Pravilo dve sigme: Približno 95 procenata vrednosti trebalo bi da leži unutar dva standardna odstupanja od srednje vrednosti. To jest, bez obzira na oblik normalne raspodele, verovatnoća da normalna nasumična promenljiva leži unutar dva standardna odstupanja od srednje vrednosti približno je jednako 0,95.

Pravilo tri sigme: Približno 99,7 procenata vrednosti trebalo bi da leži unutar tri standardna odstupanja od srednje vrednosti. To jest, bez obzira na oblik normalne raspodele, verovatnoća da normalna nasumična promenljiva leži unutar tri standardna odstupanja od srednje vrednosti približno je jednaka 0,997.

1. Ukupna oblast ispod normalne krive je jednaka 1;2. Verovatnoća da je normalna nasumična promenljiva jednaka datoj diskretnoj

vrednosti uvek je nula, pošto je normalna nasumična promenljiva neprekidna;3. Verovatnoća da se normalna nasumična promenljiva nalazi između dve vrednosti data

je površinom ispod normalne krive između dvaju datih vrednosti, i horizontalne ose.

Standardna normalna raspodela – Kako svaka normalno raspodeljena nasumična promenljiva ima sopstvenu srednju vrednost i standardno odstupanje, oblik i položaj krivih varira u velikoj meri. Samim tim moramo imati informaciju o površinama svih normalnih raspodela. Ovo je naravno nepraktično. Stoga, koristimo informaciju za posebnu normalnu raspodelu koja se zove standardna normalna raspodela da pojednostavimo situaciju.

Objašnjenje pojma standardne normalne raspodele – Standardna normalna raspodela je normalna raspodela sa srednjom vrednošću 0 i standardnim odstupanjem 1.

Svaka normalna nasumična promenljiva može se pretvoriti u standardnu normalnu promenljivu računanjem odgovarajućih z ocena. Z ocena se računa sledećim obrascem:

Z = (vrednost - srednja vrednost)/ standardno odstupanje = (x – μ) / σ

U jednačini x je vrednost normalne nasumične promenljive X sa srednjom vrednošću μ i standardnim odstupanjem σ.

Z ocena je obično raspodeljena sa srednjom vrednošću 0 i standardnim odstupanjem 1.

Podsetimo se da z ocena daje broj standardnih odstupanja konkretne vrednosti iznad ili ispod srednje vrednosti.

Prilikom rešavanja problema povezanih sa standardnom normalnom raspodelom, može biti od pomoći da se koristi sledeća procedura:

Napište funkciju verovatnoće;

Page 30: Statisticke Metode u Menadzmentu

Nacrtajte normalnu krivu; Osenčite željenu oblast; Koristite tabelu standardne normalne raspodele da pronađete osenčenu oblast.

Primena normalne raspodele – Možemo koristiti krivu standardne normalne raspodele da rešimo probleme koje se odnose na promenljive koje su normalno ili približno normalno raspodeljene. Da bismo rešili probleme koji se odnose na normalne nasumične promenljive, moramo da pretvorimo početnu normalnu promenljivu u standardnu normalnu promenljivu primenom obrasca:

Z = (vrednost - srednja vrednost)/ standardno odstupanje = (x – μ) / σ

U jednačini, x je vrednost normaln nasumične promenljive x sa srednjom vrednošću μ i standardnim odstupanjem σ. Jednom kada se uradi pretvaranje, problem se može redukovati na sličan, kako je to predstavljeno u prethodnom delu.

Svi problemi u praksi koji se odnose na normalnu raspodelu mogu se redukovati na proste probleme primenom z ocena. Ovi redukovani problemi mogu se rešiti na isti način kao i prethodni primeri ili njihove kombinacije.

Prilikom rešavanja problema iz prakse koji se odnose na normalnu raspodelu, može biti od pomoći da se koristi sledeća procedura:

Definisati odgovarajuću normalnu promenljivu sa odgovarajućim parametrima (srednjom vrednošću i standardnim odstupanjem);

Napisati odgovarajuću funkciju verovatnoće; Napisati odgovarajućre izvedene funkcije primenom z ocena; Nacrtati normalnu krivu; Osenčiti željenu površinu; Koristiti tabele normalne raspodele za pronalaženje željene površine.

Svi koncepti koji su razmotreni u ovom poglavlju mogu se računati i prikazati priomenom statističkih softverskih paketa. Svi naučni i grafički kalkulatori direktno pomažu u računicama. Pored toga, noviji kalkulatori mogu imati normalnu raspodelu, iz koje možete izračunati normalne verovatnoće.

Deseto poglavlje

Raspodele uzoraka i centralna granična teorema

U ovom poglavlju daje se pregled:

uzorkovane raspodele dela uzoraka; uzorkovane raspodele srednje vrednosti uzoraka; centralne granične teoreme; uzorkovane raspodele razlike između dva nezavisna dela uzorka; uzorkovane raspodele razlike između srednjih vrednosti dvaju nezavisnih uzoraka.

Page 31: Statisticke Metode u Menadzmentu

Ovde ćemo se fokusirati na uzorkovane raspodele i centralnu graničnu teoremu. Bće istražene uzorkovane raspodele za srednju vrednost uzorka, udeo uzorka, razlike udela dvaju nezavisnih opulacije, i razlike srednjih vrednosti uzorka dvaju nezavisnih populacije, zajedno sa centralnom graničnom teoremom za ove okolnosti. Mi ćemo razmatrati samo uzorkovane populacije koje su konačne. Centralna granična teorema čini temelj šire oblasti statistike.

Uzorkovana raspodela dela uzorka – Pretpostavimo da nas zanima pravi udeo Amerikanaca koji se zalažu za eutanaziju. Ako se udeo populacije označi sa p, tada se p može definisati kao

p = broj Amerikanaca koji se zalažu za eutanaziju / ukupan broj Amerikanaca

Kako je populacija od interesa isuviše velika da bi pitali svakog posebno, možemo proceniti pravi udeo tako što ćemo posmatrati nasumični uzorak populacije. Ako uzorkovani udeo označimo sa ( p nadvučeno), tada se tačkasta procena p nadvučenog može definisati kao

= broj Amerikanaca koji se zalažu za eutanaziju / veličina uzorka

Objašnjenje pojma tačkaste procene: Tačkasta procena je jedan broj koji se koristi za procenu parametra populacije.

Pretpostavimo da je pravi udeo Amerikanaca koji se zalažu za eutanaziju 68%. Generalno, mi ne znamo pravi udeo populacije kada radimo neko istraživanje. Ako odaberemo nasumični uzorak od recimo 50 Amerikanaca, možemo primetiti da se 35 njih zalaže za eutanaziju. Samim tim, naš udeo uzorkovanih Amerikanaca koji se zalažu za eutanaziju biće = 35/50 = 0,7, ili 70%. Ako trebamo da odaberemo drugi nasumični uzorak od 50 ljudi, verovatno bismo dobili neku drugu vrednost za . Ako odaberemo 50 različitih uzoraka iste veličine i izračunamo udeo Amerikanca koji se zalažu za eutanaziju u svim uzorcima, ne možemo očekivati da ove vrednosti budu iste. To jest, javiće se određeno odstupanje u ovim izračunatim udelima.

Ovih 50 uzorkovanih udela čini uzorkovanu raspodelu udela uzorka.

Objašnjenje pojma uzorkovane raspodele udela uzoraka: Uzorkovana raspodela udela uzoraka jeste raspodela koja se dobija primenom udela koji se računaju iz nasumičnih uzoraka određene veličine, dobijenih iz cele populacije.

Da bismo istražili karakteristike uzorkovane raspodele udela uzoraka, mgou se uraditi simulacije. Na priemr, mogu se napraviti 50 uzoraka sa 50 ljudi. Raspodela koja je korišćena u simulaciji jeste binomska raspodela sa parametrima n = 50 i p = 0,68. Ova pretpostavljena raspodela je logična, pošto ans zanima udeo (broj) ljudi u uzorku veličine 50 koji podržavaju eutanaziju. Možete pokušati da uradite sopstvenu simulaciju ako imate neki statistički softver.

Pretpostavimo da se odaberu nasumični uzorci veličine n iz populacije (raspodela) u kojoj je pravi udeo karakteristike od interesa p. Tada uzorkovana raspodela udela uzoraka ima sledeće karakteristike:

Page 32: Statisticke Metode u Menadzmentu

* Srednja vrednost udela uzoraka jednaka je pravom udelu populacije. To jest, simbolično, μp = p.

* Standardno odstupanje udela uzoraka dato je sa

Primetimo da je oblik raspodele simuliranih udela uzoraka približno zvonast. To jest, raspodela udela uzoraka približno je normalno raspodeljena.

Možemo istražiti situaciju sa drugim veličinama uzoraka i verovatnoćama p. Međutim, generalno ćemo primetiti istu karkateristikukada je veličina uzorka dovoljno velika (n > 30).

Možemo uopštiti posmatranja u jednu veoma bitnu teoremu koja se naziva Centralna granična teorema za udele uzoraka.

Centralna granična teorema za udele uzoraka – Pretpostavimo da se biraju nasumični uzorci veličine n iz populacije (raspodele) u kojoj je pravi udeo karakteristike od interesa p. Tada, uz uslov da je np > 5 i n(1-p) > 5, uzorkovana raspodela udela uzoraka biće približno normalno raspodeljena sa srednjom vrednošću , i standardnim odstupanjem

.

Beleška: Pretpostavka normalnosti poboljšava se sa većom veličinom uzoraka.

Kako je uzorkovana raspodela udela uzoraka približno normalno raspodeljena za dovoljno velike veličine uzoraka, sa srednjom vrednošću μp = p i standardnim odstupanjem

, možemo izračunati z ocene izmerenih vrednosti. Takođe, možemo da izračunamo verovatnoće povezane sa ovim vrednostima. Jednačina koju korsitimo za računanje povezanih z ocena je

Uzorkovana raspodela srednje vrednosti uzoraka – Pretpostavimo da nas zanima pravo dnevno srednje vreme koje ljudi potroše u automobilima u SAD-u. Ako srednju vrednost populacije označimo sa μ, tada se μ može definisati sa:

μ = ukupno dnevno vreme koje se troši u vožnji / ukupno dostupno vreme vozačima

Kako je populacija od interesa isuviše velika da bi pratili sve Amerikance koji voze, može proceniti pravu srednju vrednost tako što ćemo izvući nasumični uzorak iz populacije. Ako se srednja vrednost uzorka označi sa tačkastom procenom , tada se može definisati kao:

= ukupno vreme tokom dana koje Amerikanci iz uzorka potroše u vožnji / veličina uzorka

Pretpostavimo da smo dobili da ovo vreme iznosi 81 minuta. Generalno, mi ne znamo srednju vrednost populacije. Ako odaberemo nasumični uzorak od 50 Amerikanaca koji voze, možemo primetiti da je prosečno vreme provedeno u vožnji za ovaj uzorak oko 85 minuta. Ako odaberemo još jedan nasumični uzorak veličine 50, najverovatnije bi dobili različitu vrednost za . Ako odaberemo 100 različitih uzoraka iste veličine i izračunamo prosečno

Page 33: Statisticke Metode u Menadzmentu

vreme u vožnji, očekivali bismo da dobijemo 100 različitih vrednosti. To jest, javlja se određeno odstupanje u ovim izračunatim srednjim vrednostima uzoraka.

Ovih 100 srednjih vrednosti uzoraka čine uzorkovanu raspodelu srednjih vrednosti uzoraka.

Objašnjenje pojma uzorkovana raspodela srednje vrednosti uzorka: Uzorkovana raspodela srednjih vrednosti uzorka jeste raspodela koja se dobija primenom srednjih vrednosti koje su izračunate iz nasumičnih uzoraka konkretne veličine koji su dobijeni iz populacije.

Da bi se istražile karakteristike uzorkovane raspodele srednjih vrednosti uzoraka, mogu se uraditi simulacije okolnosti o kojima pričamo. Ponovo je korišćen MINITAB statistički softver, kao i 100 uzoraka veličine 50. Ovde ćemo pretpostaviti da je vreme provedeno u vožnji normalno raspodeljeno sa srednjom vrednošću 81 i standardnim odstupanjem radi simulacije. Možete pokušati da sami uradite simulacije ako imate pristup ovakvom statističkom softveru.

Ako se svi mogući nasumični uzorci veličine n odaberu iz populacije sa srednjom vrednošću μ i standardnim odstupanjem σ, tada uzorkovana raspodela ima sledeće karakteristike:

* Srednja vrednost srednjih vrednosti uzoraka jednaka je srednjoj vrednosti populacije. To jest simbolički, μx = μ.

* Standardno odstupanje srednjih vrednosti uzoraka jednako je standardnom odstupanju uzorkovane populacije koje je podeljeno sa kvadratnim korenom od veličine uzoraka. To jest

simbolički,

Kako se veličina uzoraka n povećava, oblik raspodele srednjih vrednosti uzoraka dobijenih iz bilo koje populacije (raspodele) sa srednjom vrednošću μ i standardnim odstupanjem σ približavaće se normalnoj raspodeli. Ova raspodela (raspodela srednjih

vrednosti) imaće srednju vrednosti μx = μ i standardno odstupanje

Beleška: Ako je uzorkovana raspodela tačno normalna raspodela, raspodela srednjih vrednosti uzoraka takođe će biti tačno normalna raspodela za uzorke bilo koje veličine.

Beleška: U primeni Centralne granične teoreme za srednje vrednosti uzoraka, uzorkovana populacije može imati bilo koju raspodelu.

Kako je uzorkovana raspodela srednjih vrednosti uzoraka približno normalno raspodeljena sa srednjom vrednošću μx = μ i standardnim odstupanjem , možemo izračunati z ocene za merene vrednosti. Takođe, možemo da izračunamo verovatnoće koje su povezane sa ovim vrednostima. Jednačina koja se koristi za računanje z ocene data je sledeća:

Page 34: Statisticke Metode u Menadzmentu

Uzorkovana raspodela razlike između udela nezavisnih uzoraka – Može nas zanimati da poredimo udele dvaju populacija. Na primer, možemo porediti efikasnost dva različita leka, u lečenju neke medicinske bolesti. Jedan način da se ovo ostvari jeste da se odabere homogena grupa ljudi sa datim medicinskim problemom i da se oni nasumično podele u dve grupe. Ove grupe se onda mogu lečiti različitim lekovima tokom određenog vremenskog perioda, pa se tako može utvditi efikasnost oba leka.

U navedenom primeru možemo posmatrati homogene grupe kao uzorke dvaju različitih populacija koje se leče različitim lekovima. Informacije koje su dobijene o broju pacijenata mogu se koristiti za pravljenje poređenja o udelima onih koji su se izlečili.

Konkretno, neka indeks 1 bude oznaka prve populacije, a indeks 2 oznaka druge populacije. Neka n1 i n2 označavaju veličine dvaju nezavisnih uzoraka iz dvaju populacija. Neka p1 i p2 označavaju udele populacije od interesa. Takođe, neka i predstavljaju uzorkovane udele iz prve i druge populacije. Zatim možemo istražiti uzorkovane raspodele

. Simulacijama i teorijom možemo navesti neke karakteristike uzorkovane raspodele

.

Objašnjenje pojma uzorkovane raspodele razlike udela dvaju nezavisnih uzoraka: Uzorkovana raspodela razlike između udela dvaju nezavisnih uzoraka jeste raspodela koja se dobija primenom razlike udela izračunate iz nasumičnih uzoraka dvaju populacija.

Da bi se istražile karakteristike uzorkovane raspodele razlike između udela dvaju uzoraka, mogu se uraditi simulacije. Ponovo je u ove svrhe korišćen statistički softver MINITAB.

Ako se odaberu svi mogući nasumični uzorci veličina n1 i n2 iz populacija sa datim udelima p1 i p2, tada uzorkovana raspodela od ima sledeće karakteristike:

* Srednja vrednost razlike udela uzoraka jednaka je p2 – p1, što je razlika udela populacije.

* Standardno odstupanje razlike udela uzoraka približno je jednaka

Centralna granična teorema za razliku između udela dvaju uzoraka – Kada se veličine uzoraka n1 i n2 povećaju, oblik raspodele razlike udela uzoraka dobijenih iz bilo kojih populacija, težiće normalnoj raspodeli. Ova raspodela imaće srednju vrednost μp1 – p2 = p1 – p2 i standardno odstupanje

, gde su p1 i p2 respektivni udeli od interesa.

Kako je uzorkovana raspodela razlika udela približno normalno raspodeljena sa srednjom vrednošću , i standardnim odstupanjem

,

Page 35: Statisticke Metode u Menadzmentu

možemo izračunati z ocene za merene vrednosti . Takođe, moćićemo da izračunamo verovatnoće koje su povezane sa ovim vrednostima. Jednačina koja je korišćena za računanje z ocena data je ovako:

Uzorkovana raspodela razlike između srednjih vrednosti dvaju nezavisnih uzoraka – Može nas zanimati da poredimo srednje vrednosti dvaju populacija. Na primer, možemo porediti efikasnost dve različite dijete, u smanjenju telesne težine. Jedan način da se ovo uradi jeste da se odabere homogena grupa ljudi koji su klasifikovani kao gojazni i da ih nasumično podelimo u dve grupe. Ove grupe se onda mogu podvrgnuti različitim dijetama tokom određenog vremenskog perioda, i može se utvrditi efikasnost dijeta.

Ponovo kao u navedenom primeru, možemo posmatrati dve homogene grupe kao uzorke dvaju nezavisnih populacija koje su podrvrgnute različitim dijetama. Informacije dobijene o gubitku težine dvaju uzoraka mogu se koristiti za poređenje prosečnog gubitka težina pomoću ove dve dijete.

Konkretno, neka indeks 1 označava prvu populaciju, a indeks 2 drugu. Neka n1 i n2

označavaju veličine dvaju nezavisnih uzoraka. Neka μ1 i μ2 označavaju srednje vrednosti populacije. Takođe, neka i predstavljaju srednje vrednosti uzoraka. Tada možemo istražiti uzorkovanu raspodelu od Simulacijama i teorijom možemo navesti neke karakteristike uzorkovane raspodele

Objašnjenje pojma uzorkovane raspodele razlike između srednjih vrednosti dvaju nezavisnih uzoraka: Uzorkovana raspodela razlike između srednjih vrednosti dvaju nezavisnih uzoraka jeste ona raspodela koja se dobija primenom razlike srednjih vrednosti izračunatih iz dvaju nasumičnih uzoraka.

Da bismo istražili karakteristike uzorkovane raspodele razlike između srednjih vrednosti uzoraka, možemo uraditi simulacije. Ponovo se koristi statistički softver MINITAB.

Neka predstavlja srednju vrednost razlike srednjih vrednosti uzoraka, a predstavlja standardno odstupanje razlike srednjih vrednosti uzoraka.

Ako se odaberu svi mogući uzorci veličina n1 i n2 iz dvaju populacija sa datim srednjim vrednostima μ1 i μ2, uzorkovana raspodela od ima sledeće karakteristike:

* Srednja vrednost razlike srednjih vrednosti jednaka je μ1 – μ2, što je razlika srednjih vrednosti populacije.

* Standardno odstupanje razlike srednjih vrednosti uzoraka približno je jednaka

.

Ako se povećaju veličine n1 i n2, oblik raspodele razlike uzorkovanih srednjih vrednosti dobijenih iz bilo kojih populacija težiće normalnoj raspodeli. Raspodela će imati srednju

Page 36: Statisticke Metode u Menadzmentu

vrednost i standardno odstupanje , gde su μ1 i μ2

odgovarajuće srednje vrednosti od interesa.

Beleška: Ako su standardna odstupanja nepoznata ali su veličine uzorka dovoljne ( > 30), tada možemo približno dobiti varijanse populacije preko odgovarajućih varijansi uzoraka.

Kako je uzorkovana raspodela razlika srednjih vrednosti uzoraka približno normalno raspodeljena, sa srednjom vrednošću i standardnim odstupanjem

mi možemo izračunati z ocene za dobijene vrednosti . Takođe, moćićemo da izračunamo verovatnoće koje su povezane sa ovim vrednostima. Jednačina koja se koristi za računanje z ocena je:

Ako su veličine uzorka dovoljno velike da se primeni Centralna granična teorema (n1, n2

> 30), tada je pretpostavka normalnih populacija od manjeg značaja, pošto će raspodela biti približno normalna.

Svi koncepti koji su razmotreni u ovom poglavlju mogu se izračunati i prikazati primenom nekih statističkih softverskih paketa. Svi naučni i grafički kalkulatori mogu se koristiti za ove računice. Pored toga, neki noviji kalkulatori imaju mogućnost simuliranja podataka iz različitih raspodela, kao pomoć u razumevanju koncepta koji su predstavljeni u ovom poglavlju.

Rezime – Uzorkovane raspodele udela i srednjih vrednosti mogu se istražiti:* simulacijama;* histogramima;* opisnim statistikama;* softverskim programima.Ovde razmatramo samo uzorkovane populacije koje su beskonačno velike. Drugi

obrasci važe za slućaj kada radimo sa konačnim ograničenim populacijama.

Jedanaesto poglavlje

Intervali pouzdanosti – veliki uzorci

U ovom poglavlju daje se pregled:

* intervala pouzdanosti za udele kod velikih uzoraka;* intervale pouzdanosti za srednje vrednosti kod velikih uzoraka;* intervale pouzdanosti za razlike među udelima kod velikih uzoraka;* intervale pouzdanosti za razlike srednjih vrednosti velikih uzoraka.

Page 37: Statisticke Metode u Menadzmentu

Ovde ćemo se fokusirati na intervale pouzdanosti. Kada se koristi tačkasta procena za parametar koji nas interesuje, malo je verovatno da će vrednost tačkaste procene biti jednaka vrednosti parametra. Zbog toga, koristićemo vrednost tačkaste procene kao pomoć u dobijanju procene intervala za parametar. Moćićemo da tvrdimo, uz određeni nivo pouzdanosti, da parametar leži u datom intervalu, i zbog toga, ove intervale nazivamo intervalima pouzdanosti. Obično govorimo o intervalu pouzdanosti od 90%, 95% i 99%, ali se mogu tražiti i drugi intervali. Ovde ćemo se baviti intervalima pouzdanosti za velike uzorke, i to za udele populacije i srednje vrednosti, kao i za razlike između udela i srednjih vrednosti.

Interval pouzdanosti udela velikog uzorka – Iz desetog poglavlja možemo rezimirati udele iz Centralne granične teoreme sa sledećim navodima:

* Nasumični uzorci veličine n biraju se iz populacije u kojoj je pravi udeo karakteristike od interesa jednak veličini p.

* Uz uslov da je np > 5, i da je n(1-p) > 5, uzorkovana raspodela udela uzorka , imaće približno normalnu raspodelu sa srednjom vrednošću i standardnim odstupanjem

Sada, da bi pronašli procenu intervala pouzdanosti za nepoznati parametar p, moramo da

izračunamo , standardno odstupanje za uzorkovanu raspodelu udela uzoraka . Pitanje je onda kako da izračunamo pošto procenjujemo p, a p je nepoznato? Logičan

princip bio bi da se zameni p sa , tačkastom procenom za p, u obrascima. Stoga, koristićemo

Objašnjeje oznake zα: zα je z ocena takva da je α oblast nadesno od vrednosti z ocene, gde je 0 < α < 1.

Odnos između α i nivoa pouzdanosti jeste taj što je navedeni nivo pouzdanosti procenat koji je jednak decimalnoj vrednosti 1 – α.

Opšta jednačina koja se koristi u dobijanju intervala pouzdanosti (1-α)×100 za udeo populacije kod velikih uzoraka je:

Beleška: margina greške data je sa

Tumačenje intervala pouzdanosti kod ponovljenog uzorka – Kod ponovljenog uzorkovanja ne možemo očekivati da udeli uzorka budu isti. Ako koristimo udele uzorka da dobijemo intervale pouzdanosti moramo očekivati da oni budu različiti. Međutim, možemo očekivati da 90% njih sadrži prave udele.

Tumačenje intervala pouzdanosti kod ponovljenih uzoraka može se generalno primeniti na bilo koji interval pouzdanosti bilo kog parametra populacije.

Page 38: Statisticke Metode u Menadzmentu

Veličina uzorka: Utvrđivanje veličine uzorka blisko je povezano sa procenom. Morate da znate koliko je uzorak veliki da bi dali preciznu procenu udela proporcije p. Odgovor zavisi od:

* margine greške;* tačkaste procene udela populacije;* stepena pouzdanosti.Na primer, možda vam je potrebno da znate koliko želite daleko od udela propocije da

vaša procena bude, i koliko je ovo pouzdano. Kako je , možemo to rešiti da pronađemo n, veličinu uzorka. Rešavanjem dobijamo:

Beleška: Ovo će biti minimalna veličina uzorka koja je potrebna.

Kada računamo veličinu uzorka da bi dobili preciznu procenu udela populacije p, ako je nepoznato, koristiti vrednost 0,5 u obrascu za .

Interval pouzdanosti srednje vrednosti kod velikih uzoraka – Iz desetog poglavlja možemo rezimirati karakteristike Centralne granične teoreme za srednje vrednosti uzorka sa sledećim navodima:

* Uzorkovanje se vrši sa bilo kojom raspodelom sa srednjom vrednošću μ i standardnim odstupanjem σ;

* Uz uslov da je n dovoljno veliko (n > 30, po nekom opštem pravilu), uzorkovana raspodela srednjih vrednosti uzoraka imaće približno normalnu raspodelu sa srednjom

vrednošću i standardnim odstupanjem ;* Ako je uzorkovana raspodela normalna, uzorkovana raspodela srednjih vrednosti

uzorka biće precizno normalna raspodela za bilo koju veličinu uzorka;

Sada, u pronalaženju procena intervala pouzdanosti nekog nepoznatog parametra μ,

moramo da izračunamo . Opšta jednaćina koja se koristi za dobijanje intervala pouzdanosti za srednju vrednost populacije data je kao:

Beleška: Margina greške data je sa

U računanju intervala pouzdanosti za srednju vrednost populacije, kada je standardno odstupanje populacije σ nepoznato, ono se može zameniti sa standardnim odstupanjem uzorka s, ako je veličina uzorka dovoljno velika (n > 30).

Veličina uzorka: Prilikom razmatranja intervala pouzdanosti srednjih vrednosti velikih

uzoraka, kako je procena greške data sa , možemo to iskoristiti za pronalaženje n. Rešavanjem po n dobijamo:

Page 39: Statisticke Metode u Menadzmentu

Beleška: Kod dovoljno velikih uzoraka (n > 30), kada je standardno odstupanje populacije σ nepoznato, možemo zameniti σ sa s u navedenim jednačinama.

Intervali pouzdanosti za razliku između dva udela populacije kod velikih uzoraka – Iz desetog poglavlja možemo rezimirati karakteristike uzorkovane raspodele razlike između udela dva nezavisna uzorka sa sledećim navodima:

* Kada se veličine uzoraka n1 i n2 povećaju, oblik raspodele razlika udela uzoraka dobijenih iz bilo koje populacije (raspodele) težiće normalnoj raspodeli;

* Raspodela razlika udela uzoraka imaće srednju vrednost ;

* Raspodela razlika udela uzoraka imaće standardno odstupanje , gde su p1 i p2 respektivni udeli populacije od interesa.

Ovi udeli mogu nam pomoći u dobijanju intervala pouzdanosti za razliku dvaju udela populacije. Ponovo, kako mi ne znamo prave vrednosti udela, koristićemo odgovarajuće procene za ove prave udele. Opšta jednačina koja se koristi u dobijanju intervala pouzdanosti za razliku između dva udela populacije kod velikih uzoraka, data je kao:

Veličine uzoraka: Prilikom razmatranja intervala pouzdanosti kod velikog uzorka za razliku između dvaju udela u populaciji, to jest kada je

potrebno je da procenimo veličine uzoraka da bi sakupili podatke. Obrasci koji su dati ovde važe kada su veličine uzoraka iste. Takođe, ovo će biti jednačina za minimalnu veličinu uzoraka. Obrazac je:

Interval pouzdanosti za razliku dvaju srednjih vrednosti populacija – Iz desetog poglavlja možemo rezimirati karakteristike uzorkovane raspodele za razliku između srednjih vrednosti dvaju nezavisnih uzoraka, sa sledećim navodima:

* Kada se veličine uzorka n1 i n2 povećavaju, oblik raspodele razlika srednjih vrednosti uzoraka dobijenih iz bilo koje populacije (raspodele) težiće normalnoj raspodeli.

* Raspodela razlika srednjih vrednosti imaće srednju vrednost , gde su μ1 i μ2 odgovarajuće srednje vrednosti populacija od interesa.

* Raspodela razlika srednjih vrednosti uzoraka imaće standardno odstupanje

gde su σ1 i σ2 odgovarajuća standardna odstupanja uzoraka populacija od interesa.

Ove karakteristike mogu nam pomoći u dobijanju intervala pouzdanosti od procenta za razliku dvaju srednjih vrednosti. Opšta jednačina koja se koristi u dobijanju

Page 40: Statisticke Metode u Menadzmentu

intervala pouzdanosti od procenta za razliku između srednjih vrednosti populacije kod velikih uzoraka je:

Za velike uzorke (n1 i n2 > 30), varijanse populacije mogu se zameniti varijansama uzoraka, ako su varijanse populacije nepoznate.

Veličine uzoraka: Prilikom razmatranja intervala pouzdanosti za razliku srednjih vrednosti populacija kod velikih uzoraka, potrebno je da procenimo veličine uzoraka kako bi sakupili podatke. Obrazac koji je dat ovde važi za minimalne veličine uzoraka kada su veličine uzoraka iste.

Svi koncepti koji su razmotreni u ovom poglavlju mogu se izračunati i prikazati primenom većine statističkih softverskih paketa. Svi naučni i grafički kalkulatori mogu se koristiti za računice. Pored toga, neki noviji kalkulatori omogućavaju direktno račuanje intervala pouzdanosti.

Dvanaesto poglavlje

Testiranje hipoteza – veliki uzorci

U ovom poglavlju daje se pregled:

* testiranje hipoteza za udeo u populaciji kod velikih uzoraka;* testiranje hipoteza za srednje vrednosti populacije kod velikih uzoraka;* testiranje hipoteza za razliku udela u populacijama kod velikih uzoraka;* testiranje hipoteza za razliku među srednjim vrednostima populacija kod velikih

uzoraka;

Ovde ćemo se fokusirati na testiranje hipoteza za udele i srednje vrednosti populacija kod velikih uzoraka. Ovim testovima ćemo izvlačiti određene zaključke o ovim parametrima.

Neki izrazi povezani sa testiranjem hipoteza – Svaka situacija koja zahteva testiranje hipoteze počinje sa navodom hipoteze.

Objašnjenje pojma statističke hipoteze – Statistička hipoteza je mišljenje o parametru populacije. Mišljenje može biti tačno ili netačno. Postoje dva tipa statističkih hipoteza: a) nulta hipoteza, i b) alternativna hipoteza.

Objašnjenje pojma nulte hipoteze – Nulta hipoteza kaže da ne postoji razlika između parametra i određene vrednosti.

Oznaka: Nulta hipoteza se označava sa H0.

Page 41: Statisticke Metode u Menadzmentu

Objašnjenje pojma alternativne hipoteze: Alternativna hipoteza kaže da postoji precizna razlika između parametra i konkretne vrednosti.

Oznaka: Alternativna hipoteza označava se sa H1.

Kada se hipoteze navedu, sledeći korak je osmišljavanje istraživanja. Biće odabrani odgovarajući statistički testovi, nivo značaja, i plan za obavljanje formulisanog istraživanja. Da bi se izveli zaključci, koristi se statistički test i nivo značaja.

Objašnjenje pojma statističkog testa: Statistički test koristi sakupljene podatke u istraživanju da donese odluku o nultoj hipotezi. Ova odluka biće da se odbaci ili da se ne odbaci nulta hipoteza.

Moraćemo da izračuanmo vrednost testa ili statistiku testa da bi doneli odluku. Obrazac koji se koristi za računanje ove vrednosti zavisiće od konkretnog statističkog testa.

Mogući ishodi testiranja hipoteze – Kada se test obavi, postoje četiri moguća ishoda. H0 je tačno H0 je pogrešno

Odbaciti H0 Greška I tipa Pravilna odlukaNe odbaciti H0 Pravilna odluka Greška II tipa

Objašnjenje pojma greške prvog tipa: Greška prvog tipa javlja se ako se nulta hipoteza odbaci iako je ona zapravo tačna.

Objašnjeje pojma greške drugog tipa: Greška drugog tipa javlja se ako nulta hipoteza nije dobačena iako je pogrešna.

Kada odbacujemo nultu hipotezu, koliko smo sigurni da donosimo pravilnu odluku? Na ovo pitanje može se odgovoriti konkretnim nivoom značaja.

Objašnjenje pojma – nivo značaja – Nivo značaja, označeno sa α, jeste verovatnoća javljanja greške prvog tipa. Tipične vrednosti za α su 0,1 , 0,05 , i 0,01. Na primer, ako je α = 0,1 u testu, a nulta hipoteza se odbacuje, tada smo 90% sigurni da je ovo pravilna odluka.

Beleška: Nećemo se baviti verovatnoćom javljanja greške drugog tipa u ovom tekstu zbog njene složenosti.

Jednom kada se odabere nivo značaja, bira se kritična vrednost za odgovarajući test iz tabele. Ako se koristi z test, biće korišćene tabele z vrednsoti za dobijanje odgovarajuće kritične vrednosti.

Objašnjenje pojma kritične vrednosti: Kritična vrednost odvaja kritičnu oblast od nekritične.

Objašnjenje pojma kritične oblasti ili oblasti odbacivanja: Oblast odbacivanja je raspon vrednosti statističke za koje se nulta hipoteza mora odbaciti. Ovaj raspon vrednosti ukazaće na to da postoji značajna ili dovoljna razlika između navedenih vrednosti parametara i odgovarajuće tačkaste procene za parametar.

Page 42: Statisticke Metode u Menadzmentu

Objašnjenje pojma nekritične oblasti ili oblasti neodbacivanja: Kritična oblast ili oblast odbacivanja jeste raspon vrednosti statistike u testu koje ukazuju na to da je razlika između navedene vrednosti parametra i odgovarajuće tačkaste procene posledica slučaja, pa se tako nulta hipoteza ne odbacuje.

Postoje dve šire klasifikacije testova hipoteza: a) sa jednim krajem, i b) sa dva kraja.

Test sa jednim krajem (jednom stranom) ukazuje na to da se nulta hipoteza treba odbaciti kada je statistička vrednost u oblasti odbacivanja na jednom strani vrednosti parametra koji se testira.

Test sa dva kraja (dve strane) ukazuje na to da bi se nulta hipoteza trebalo odbaciti kada je vrednost statistike sa jedne ili druge strane oblasti odbacivanja.

Testiranje udela kod velikih uzoraka – Testovi koji su predstavljeni u ovom i narednim poglavljima poštuju petostepenu proceduru:

I korak: navesti nultu hipotezu H0;II korak: navesti alternativnu hipotezu H1;III korak: Navesti obrazac za statistiku testa i izračunati njegovu vrednost;IV korak:navesti pravilno odlučivanja za odbacivanje nulte hipoteze za dati nivo

značaja;V korak: navesti zaključak u kontekstu informacije date u problemu;

Ovde ćemo predstaviti testove hipoteza koji će nam omogućiti da odredimo, na osnovu uzorkovanih podataka, da li je tačna vrednost udela jednaka datoj konstanti. Biće dobijeni uzorci veličine n, kao i broj ili udeo uspeha. Biće pretpostavljeno da su pokušaji u eksperimentu nezavisni i da je verovatnoća uspeha jednaka za svaki pokušaj. To jest, pretpostavljamo da imamo binomski eksperiment, i testiramo hipoteze o parametru p binomske populacije.

Rezime testiranja hipotezea) Desnostrani testoviH0: p < p0 (gde je p0 konkretna vrednost udela)H1: p > p0

Za konkretni nivo značaja α, odbaciti nultu hipotezu ako je izračunata vrednost z statističke veća od +zα

Zaključak:.............Beleška: Ovo je desnostrani test zbog smera znaka nejednakosti u alternativnoj hipotezi.

b) Levostrani testoviH0: p > p0 (gde je p0 konkretna vrednost udela);H1: p < p0

Za konkretni nivo značaja α, odbaciti nultu hipotezu ako je izračunata vrednost z statistike manja od –zα;

Zaključak.......Beleška: Ovo je levostrani test zbog smera znaka nejednakosti u alternativnoj hipotezi.

Page 43: Statisticke Metode u Menadzmentu

c) Dvostrani testoviH0: p = p0 (gde je p0 konkretna vrednost udela);H1: p različito od p0

Za konkretni nivo značaja α, odbaciti nultu hipotezu ako je izračunata vrednost statistike testa z manja od –zα/2 ili veća od +zα/2.

Zaključak.......Beleška: Ovo je dvostrani test zbog znaka nejednakosti u alternativnoj hipotezi.

Primetimo takođe da se nivo značaja deli podjednako kada se traži kritična vrednost (zα/2).

Beleška: Statistika testa u nevedenim testovima, jednaka je

= . Primetimo da je ovo slično z oceni koja je razmotrena u desetom poglavlju u vezi sa uzorkovanom raspodelom udela populacije.

Testiranje srednje vrednosti kod velikih uzoraka – Testove zasnovane na statistici

kao testove velikih uzoraka jer pretpostavljamo da je uzorkovana raspodela sredjih vrednosti približno normalna. Test zahteva da je veličina uzorka n > 30 kada je σ nepoznato, osim ako uzorkovana populacije nije precizno normalna. Ako je uzorkovana raspodela normalna, test je pogodan za bilo koju veličinu uzoraka.

Rezime estova srednjih vrednosti populacijaa) Desnostrani testoviH0: μ < μ0 (gde je μ0 konkretna srednja vrednost populacije);H1: μ > μ0

ili , za nepoznato σ i n > 30.Za konkretni nivo značaja α, odbaciti nultu hipotezu ako je izračunata vrednost statistike

z veća od +zα

Zaključak:.........Beleška: Ovo je desnostrani test zbog smera znaka nejednakosti u alternativnoj hipotezi.

b) Levostrani testoviH0: μ > μ0 (gde je μ0 konkretna srednja vrednost populacije);H1: μ < μ0

ili , za nepoznato σ i n > 30.Za konkretni nivo značaja α, odbaciti nultu hipotezu ako je izračunata vrednost statistike

z manja od -zα

Zaključak:.........Beleška: Ovo je levostrani test zbog smera znaka nejednakosti u alternativnoj hipotezi.

c) Dvostrani testoviH0: μ = μ0 (gde je μ0 konkretna srednja vrednost populacije);H1: μ različito od μ0;

Page 44: Statisticke Metode u Menadzmentu

ili za nepoznato σ i n > 30;Za konkretni nivo značaja α odbaciti nultu hipotezu ako je izračunata vrednost

statističke z manja od –zα/2 ili veća od +zα/2;Zaključak:.............Beleška: Ovo je dvostrani test zbog simbola različitosti u alternativnoj hipotezi. Takođe

možemo primetiti da se nivo značaja deli kada se pronalazi kritična vrednost z.

Testiranje razlike između dva udela u populaciji – Mogu se javiti problemi kod kojih se mora odlučiti da li je opažena razlika između dva udeča posledica slučaja ili činjenice da odgovarajući udeli nisu isti, ili da potiču od različitih populacija.

Podsetimo se iz poglavlja 11 da razlike udela imaju srednju vrednost i

standardno odstupanje (ili standardnu grešku): gde su p1 i p2 odgovarajući udeli populacija od interesa. Kada testiramo nultu hipotezu

p1 = p2 u odnosu na alternativnu hipotezu, srednja vrednost = p1 – p2 biće nula a

standardna greška može se napisati kao . Kako je vrednost p nepoznata,

možemo proceniti vrednost sa

Rezime testiranja hipoteze:a) Desnostrani testoviH0: p1 < p2-;

H1: p1 > p2;

Za konkretni nivo značaja α odbaciti nultu hiporezu ako je izračunata vrednost statističek z veća od +zα.

Zaključak:.........Beleška: Ovo je desnostrani test zbog smera znaka nejednakosti u alternativnoj hipotezi.

b) Levostrani testoviH0: p1 > p2-;

H1: p1 < p2;

Za konkretni nivo značaja α odbaciti nultu hiporezu ako je izračunata vrednost statističek z manja od -zα.

Zaključak:.........Beleška: Ovo je levostrani test zbog smera znaka nejednakosti u alternativnoj hipotezi.

c) Dvostrani testH0: p1 = p2-;

H1: p1 različito od p2;

Page 45: Statisticke Metode u Menadzmentu

Za konkretni nivo značaja α odbaciti nultu hiporezu ako je izračunata vrednost statističek z veća od +zα ili manja od –zα/2.

Zaključak:.........Beleška: Ovo je desnostrani test zbog smera znaka različitosti u alternativnoj hipotezi.

Takođe, primetimo da se nivo značaja podjednako deli kada se traži kritična vrednost.Trinaesto poglavlje

Intervali pouzdanosti i testiranje hipoteza – mali uzorci

U ovom poglavlju daje se pregled:

* t raspodele;* intervala pouzdanosti za srednju vrednost populacije – mali uzorci;* testiranja hipoteze za srednju vrednost populacije – mali uzorci;* intervala pouzdanosti razlike srednjih vrednosti – mali nezavisni uzorci;* testiranja hipoteze za razliku srednjih vrednosti – mali nezavisni uzorci;* intervala pouzdanosti za razliku srednjih vrednosti – mali nezavisni uzorci;* testiranja hipoteze za razliku srednjih vrednosti – mali nezavisni uzorci.

Ovde ćemo se fokusirati na intervale pouzdanosti i testiranje hipoteza kod malih uzoraka. Pored toga, za slučaj sa dve populacije razmatraćemo nezavisne i zavisne uzorke.

t raspodela – Podsetimo se da kod intervala pouzdanosti za srednju vrednost pretpostavljamo da je ili poznato standardno odstupanje ili da je uzorak dovoljno veliki (n > 30). U ovom drugom slučaju, zamenjujemo standardno odstupanje populacije sa stand. odstupanjem uzorka. U oba slučaju koristi se standardna normalna raspodela za pronalaženje intervala pouzdanosti za srednju vrednost, a za veličinu od interesa pretpostavlja se da je normalna. U mnogim slučajevima međutim, standardno odstupanje populacije je nepoznato a veličina uzoraka je mala (n < 30). Mi i ovde možemo zameniti standardno odstupanje populacije sa onim za uzorak, ali u tom slučaju koristimo t raspodelu a ne normalnu raspodelu.

t raspodela ima neke karakteristike koje su slične i neke koje su različite od karakteristika standardne normalne raspodele. Karakteristike t raspodele date su u spisku ispod:

Karakteristike koje slične onima za z raspodelu:* U obliku je zvona;* Simetrična je u odnosu na srednju vrednost;* Srednja vrednost, medijana i moda jednake su 0;* Kriva nikada ne dodiruje x osu (horizontalnu osu).

Karakteristike koje su različite od onih za z raspodelu:* Odstupanje je veće od 1;* Oblik raspodele zavisi od veličine uzorka ili od koncepta stepeni slobode;kako se veličina uzorka povećava, t raspodela teži z raspodeli.

Page 46: Statisticke Metode u Menadzmentu

Beleška: Stepeni slobode su broj vrednosti koje slobodno variraju nakon računanja statističke iz skupa vrednosti. Oni nam kažu koju bi t raspodelu trebalo koristiti.

Postoje obimne tabele kritičnih t-vrednosti za primenu kod rešavanja intervala pouzdanosti i testiranja hipoteze za male uzorke.

Da bi se naveli obrasci koji se mogu koristiti za računanje intervala pouzdanosti malih uzoraka i testiranje hipoteza moramo da se upoznamo sa oznakom .

Objašnjenje pojma : je t ocena sa n-1 stepeni slobode, takva da je α oblast nadesno od vrednosti t ocene.

Interval pouzdanosti za srednju vrednost kod malih uzoraka – Opšta jednačina koja se koristi za dobijanje intervala pouzdanosti srednje vrednosti populacije od procenata kada je standardno odstupanje nepoznato a veličina uzorka n < 30, jeste

Beleška: Margina greške data je sa

Interval pouzdanosti za razliku među srednjim vrednostima kod malih uzoraka – Kada imamo nezavisne uzorke, postoji procedura koja se koristi za dobijanje intervala pouzdanosti za razliku među srednjih vrednostima kada su uzorci mali a varijanse populacija nepoznate. Ovde se pretpostavlja da se uzorci dobijaju iz normalnih raspodela a da populacije imaju jednake varijanse. Stoga, raspodela razlika srednjih vrednosti imaće standardno odstupanje

. Kako je σ nepoznato, pitanje je, kako bi mogli da ga procenimo? Koristimo zbirna standardna odstupanja sp za procenu σ. Jednačina za zbirnu

varijansu data je sa . Primetimo da se indeksi odnose na populacije.

Tako, možemo napisati da je . Stepeni slobode za ovu situaciju su ss = n1 + n2 – 2.

Ove karakteristike mogu nam pomoći u dobijanju intervala pouzdanosti od procenata za razliku dvaju srednjih vrednosti. Opšta jednaćina koja se koristi

jeste

Četrnaesto poglavlje

Hi-kvadrat procedure

U ovom poglavlju daje se pregled:

Page 47: Statisticke Metode u Menadzmentu

* Karakteristika hi-kvadrat raspodele;* Hi-kvadrat testova za stepen slaganja;* Hi-kvadrat testova za nezavisnost.

Ovde ćemo se fokusirati na hi-kvadrat raspodelu i kako se ona koristi za testiranje stepena slaganja i nezavisnosti.

Karakteristike Hi-kvadrat raspodele:

* To je neprekidna (kontinualna) raspodela;* Nije simetrična;* Naginje nadesno;* Raspodela zavisi od stepeni slobode ss = n-1, gde je n veličina uzorka;* Vrednost nasumične promenljive hi-kvadrat (X2) uvek je nenegativna;* Postoji beskonačno mnogo X2 raspodela, pošto je svaka jedinstveno definisana svojim

stepenima slobode;* Za male uzorke, X2 raspodela veoma naginje na desno;* Kako se n povećava, X2 raspodela postaje sve više i više simetrična.

Kko ćemo koristiti X2 raspodelu za testiranje u ovom poglavlju, moraćemo da pronađemo kritične vrednosti povezane sa ovom raspodelom.

Velike tabele sa kritičnim X2 vrednostima koriste se u praksi za rešavanje intervala pouzdanosti i testiranje hipoteza povezanih sa X2 raspodelom.

Objašnjenje pojma : To je vrednost sa n-1 stepeni slobode takva da je α površina nadesno od odgovarajuće X2 vrednosti.

Hi-kvadrat testovi za stepen slaganja – Da li ste se ikada zapitali da li se određeni uzorak podataka (raspodela učestalosti ili udela) slaže sa nekim teorijskim obrascem ili raspodelom? Ne možemo naravno očekivati da se obrazac savršeno slaže sa teorijskom raspodelom, pa zato tražimo stepen slaganja podataka.

Možemo pretpostaviti da postoji dobro slaganje. To jest, možemo postaviti hipotezu da određena teorijska raspodela dobro odgovara modelu obrasca. Ovo će stoga biti nulta hipoteza. Kako je ovaj uzorak jedan od mnogih mogućih, možemo istražiti šansu da dobijemo ovaj uzorak sa njegovim razlikama iz modela kada pretpostavimo da je nulta hipoteza tačna. Ako je šansa mala, možemo odbaciti nultu hipotezu i tvrditi da model ne odgovara.

Kako bi trebalo da se donese odluka o postojećoj sličnosti ili razlikama? Da bi se ovo uradilo, koristimo statistiku koja je sastavljena od faktorisanih razlika učestalosti. Ova statistika ima hi-kvadrat raspodelu sa n-1 stepeni slobode, gde je n broj kategorija (učestalost), i data sa:

U jednaćini, obs predstavlja opažene učestalosti a exp predstavlja očekivane učestalosti.

Rezime testiranja hipoteze:H0: navod koji kaže da se opaženi podaci slažu sa nekim obrascem ili raspodelom;

Page 48: Statisticke Metode u Menadzmentu

H1: navod koji kaže da se opaženi podaci ne slažu sa obrascem ili raspodelom koja je definisana u nultoj hipotezi;

Za konkretni nivo značaja, odbaciti nultu hipotezu ako je izračunata vrednost statistike veća od .

Zaključak:.......................

Za test stepena salganja, očekivane učestalosti moraju biti barem 5. Kada je očekivana učestalost klase ili kategorije manja od pet, ova klasa ili kategorija može se spojiti sa nekom drugom tako da očekivana učestalost bude veća od 5.

Hi-kvadrat test nezavisnosti Koristi se za testiranje nezavisnosti dvaju promenljivih.

Svi koncepti koji su razmotreni u ovom poglavlju mogu se izračunati i prikazati primenom većine statističkih softverskih paketa. Svi naučni i grafički kalkulatori mogu se koristiti za računice.