of 27 /27
Štreberaj Harambašićeva 31 099/306 3232 [email protected] POSLOVNA STATISTIKA Numeričko opisivanje podataka Što ćemo naučiti u ovom poglavlju? Ovo poglavlje dotiče se i razrađuje srednje vrijednosti, kao što su aritmetička sredina, medijan, mod i varijabilnost i simetričnost podataka. Da, ni meni nije jasno! Sad na Hrvatskom. Pa evo za početak, možeš naučiti što je to prosječna vrijednost, i kako se koristi u nekim praktičnim situacijama (tipa prosječna starost učenika u razredu, prosječan broj golova koje neki klub zabije po utakmici i sl). Zatim, koje su još slične mjere kao što je „taj prosjek“, tipa medijan koji je sličan prosjeku ali ima svoje prednosti i mane te njihov prijatelj mod, koji opet nije isto što i prosjek i medijan ali nalazi se u tom društvu. Naučit ćete da kada postoji neki centar, odnosno sredina, da uvijek postoje i odstupanja od tog prosjeka, odnosno ako znamo koliko je vrijednost sredine, to ne mora (u većini slučajeva niti nije) značiti da sve što proučavamo ima upravo tu vrijednost. Tako recimo prosječna starost osoba u nekom disko klubu može biti 25 godina, a kada uzmemo 100 osoba koje se trenutno tamo nalaze, niti jedna ne mora imati točno 25 godina, odnosno mali broj njih može imati 25 godina. Upravo zbog takvih slučajeva, potpomažemo srednje vrijednosti s mjerama odstupanja (varijabilnosti) te time radimo učinkovitiju i točniju analizu. Sretno MJERE CENTRALNE TENDENCIJE Aritmetička sredina Predstavlja potpunu mjeru sredine jer pokazuje prosječnu vrijednost svih podataka, odnosno analitički ona se računa kao odnos sume svih podataka i broja podataka uzorka: x= xi n

Numeričko opisivanje podataka - Referada.hr€¦ · Web viewPredstavlja potpunu mjeru sredine jer pokazuje prosječnu vrijednost svih podataka, odnosno analitički ona se računa

  • Author
    others

  • View
    1

  • Download
    0

Embed Size (px)

Text of Numeričko opisivanje podataka - Referada.hr€¦ · Web viewPredstavlja potpunu mjeru sredine jer...

POSLOVNA STATISTIKA

Numeričko opisivanje podataka

Što ćemo naučiti u ovom poglavlju? Ovo poglavlje dotiče se i razrađuje srednje vrijednosti, kao što su aritmetička sredina, medijan, mod i varijabilnost i simetričnost podataka. Da, ni meni nije jasno! Sad na Hrvatskom. Pa evo za početak, možeš naučiti što je to prosječna vrijednost, i kako se koristi u nekim praktičnim situacijama (tipa prosječna starost učenika u razredu, prosječan broj golova koje neki klub zabije po utakmici i sl). Zatim, koje su još slične mjere kao što je „taj prosjek“, tipa medijan koji je sličan prosjeku ali ima svoje prednosti i mane te njihov prijatelj mod, koji opet nije isto što i prosjek i medijan ali nalazi se u tom društvu. Naučit ćete da kada postoji neki centar, odnosno sredina, da uvijek postoje i odstupanja od tog prosjeka, odnosno ako znamo koliko je vrijednost sredine, to ne mora (u većini slučajeva niti nije) značiti da sve što proučavamo ima upravo tu vrijednost. Tako recimo prosječna starost osoba u nekom disko klubu može biti 25 godina, a kada uzmemo 100 osoba koje se trenutno tamo nalaze, niti jedna ne mora imati točno 25 godina, odnosno mali broj njih može imati 25 godina. Upravo zbog takvih slučajeva, potpomažemo srednje vrijednosti s mjerama odstupanja (varijabilnosti) te time radimo učinkovitiju i točniju analizu. Sretno

MJERE CENTRALNE TENDENCIJE

Aritmetička sredina

Predstavlja potpunu mjeru sredine jer pokazuje prosječnu vrijednost svih podataka, odnosno analitički ona se računa kao odnos sume svih podataka i broja podataka uzorka:

Za aritmetičku sredinu bitno je napomenuti činjenicu da je ona sklona utjecaju izdvojenica, odnosno netipičnih vrijednosti. Pojasnit ćemo kroz brzi primjer. Ako imamo niz brojeva od 1 2 3 4 5, prosječna vrijednost je 3. Međutim, maknemo li vrijednost 5 i stavimo recimo netipično visoku vrijednost od 15, rezultat se drastično mijenja, i aritmetička sredina sada iznosi 5! Dakle vrijednost se povećala za čak dvije jedinice. Kod medijana je sasvim drugačija situacija, kao što ćemo vidjeti u nastavku.

Medijan

Predstavlja središnju položajnu vrijednost koja niz dijeli na dva jednaka dijela. Medijan je „otporan“ na izdvojenice (ekstremeno visoke vrijednosti), ali ne predstavlja

potpunu mjeru srednjih vrijednosti jer ne obuhvaća sve promatrane podatke. Medijan se računa tako da se numerički niz primarno poreda po veličini (od najmanje do najveće vrijednosti), a potom se izračuna vrijednost medijalne točke koja pokazuje poziciju na kojoj se nalazi medijan u numeričkom nizu.

Nakon što se odredi medijalna točka, medijan se određuje na jedan od dva načina ovisno o rezultatu.

Ukoliko je medijalna točka cijeli broj, medijan se određuje kao prosjek dobivene vrijednosti i prve veće vrijednosti po veličini.

Ukoliko medijalna točka nije cijeli broj, tada se medijan određuje tako da se medijalnoj točki dodijeli prva veća vrijednost od vrijednosti medijalne točke.

Sada mala digresija na otpornost medijana prema izdvojenicama, odnosno netipičnim vrijednostima. Ukoliko imamo već spomenuti niz 1 2 3 4 5, medijan je očigledno 3 (n/2=5/2=2,5 ~ 3Me=X3=3). Pogledajmo što se događa kada umjesto 5 ubacimo broj 15… Apsolutno ništa, medijan je i dalje 3 jer je medijan položaj na sredini naše distribucije podataka. 1 2 3 4 15 (n/2=5/2=2,5 ~ 3Me=X3=3).

Iako ne spadaju u srednje vrijednosti, kvantili predstavljaju položajne vrijednosti, pa ćemo ih obraditi u sklopu paragrafa o medijanu. Naime dva su najučestalija kvantila koja se pojavljuju uz medijan, a to su donji (prvi) i gornji (treći) kvartil. Kvartili zapravo imaju sličnu funkciju kao i medijan, međutim oni ne dijele niz na jednake dijelove. Donji kvartil niz dijeli na dva nejednaka dijela, odnosno na prvih 25% podataka i preostalih 75% podataka, dok gornji kvartil također dijeli niza na dva nejednaka dijela, i to u omjeru prvih 75% i preostalih 25% podataka.

Analitički se računaju po istom principu kao i medijan, a jedina razlika je računanje inicijalne prvokvartilne i trećekvartilne točke. Kod prvog kvartila kvartilna točka računa se po sljedećem principu:

,

a kod trećeg kvartila, izračun kvartilne točke dan je izrazom:

.

Poziciju triju kvartila najjednostavnije je predočiti grafom 2.

Graf 2. Grafikon kvartila i njihovih pozicija

Q1 MeQ3

IQ = Q3 – Q1

Mod

Mod predstavlja najčešću vrijednost numeričkog niza (broj koji se najviše puta ponovio). Distribucija može biti unimodalna (jedan mod), bimodalana (dva broja se ponavljaju jednak broj puta) i višemodalna distribucija (tri ili više brojeva se ponavljaju jednak broj puta). Kada se niti jedna broj u nizu ne ponavlja, tada kažemo da distribucija ne sadrži mod (pr. 1,2,3,4,5,6).

Povezivanje mjera srednjih vrijednosti

Usporedbom prethodno spomenuti mjera srednjih vrijednosti moguće je odrediti simetričnost distribucije podataka. Naime, međuodnosi srednjih vrijednosti mogu pokazivati kakva je simetrija podataka u nizu. Simetrija će biti pojašnjena u kasnijem poglavlju, ali bitno svojstvo distribucije je da kada se radi o potpuno simetričnoj distribuciji, sve tri mjere centralne tendencije imat će jednaku vrijednost (=Me=Mo) i distribucija će biti unimodalna (samo jedan mod) kao što je prikazano na slici 1.

Slika 1. Primjer simetrične distribucije

U ovom primjeru vidimo da su sve mjere srednjih vrijednosti jednake. Aritmetička sredina, medijan i mod jednake su 11.

Kako biste što bolje shvatili bit srednjih vrijednosti pomoći će vam Štrebsy d.d. Jeste li ikada čuli za Štrebsy d.d.? Nemoguće da niste. To je jedno od najpoznatijih svjetskih poduzeća. Teško da ćete ga pronaći na Google-u, jer uglavnom se ne eksponira medijski. A čime se poduzeće bavi? Pa… zapravo apsolutno svime. Od recikliranja toaletnog papira do proizvodnje elipsi za podmornice, a povremeno nudi i usluge wellnessa za sibirske tigrove. U svakom slučaju, poduzeće je svestrano i bavi se svime što nam može poslužiti kao primjer u našim instrukcijama.

Primjer 1. Štrebsy Invest

Štrebsy invest bavi se uglavnom ulaganjem u greenfielfd investicije. Trenutno ih zanima najbolja prosječna stopa povrata na ulaganje za tri paralelna projekta na tri različite geografske lokacije. Svaki od spomenutih projekata ima razdoblje povrata na ulaganje petnaest godina jer je to jedna od preferencija Štrebsyja invest. Za početak, Štrebsy invest zainteresiran je usporediti tri studije koje su napravili projektanti. Ulagači Štrebsy investa shvaćaju da je potrebno uzeti u obzir sve karakteristike projekata međutim trenutno se fokusiraju isključivo na pokazateljima srednjih vrijednosti.

Tablica xy. Rezultati deskriptivne statistike tri različita projekta

 

Projekt 1

Projekt 2

Projekt 3

Mean

8,8

13,4

12,93

Standard Error

1,37

2,00

0,42

Median

8

19

13

Mode

7

19

11

Standard Deviation

5,31

7,76

1,62

Sample Variance

28,17

60,26

2,64

Kurtosis

0,25

-1,37

-0,85

Skewness

0,81

-0,70

0,35

Range

18

19

5

Minimum

2

1

11

Maximum

20

20

16

Sum

132

201

194

Count

15

15

15

Kada ukratko pogledamo tri usporedna projekta, projekt 2 bi definitivno bio najprihvatljiviji prema prosječnoj stopi povrata na ulaganje (Najviša vrijednost aritmetičke sredine). Međutim stvari nisu toliko jednostavne. Svaki projekt se mora ispitati po još mnogim drugim kriterijima koji će se obrađivati u nastavku, pa ćemo vidjeti zašto odmah ne prvi Štrebsy invest nije odabrao projekt 2.

MJERE VARIJABILNOSTI

Mjere varijabilnosti odnosno disperzije, pokazuju koliko su podaci promatrane distribucije udaljeni od sredine distribucije. Osnovna podjela mjera varijabilnosti bila bi na potpune i nepotpune mjere varijabilnosti. Potpune mjere su standardna devijacija, varijanca i koeficijent varijacije, a nepotpune, raspon varijacije i interkvartilni raspon.

Kada uspoređujete neke dvije distribucije, one na prvi pogled mogu imati jednake srednje vrijednosti, ali usprkos tome te dvije distribucije mogu biti potpuno različite kada promotrite njihove mjere varijabilnosti.

Raspon varijacije

Raspon varijacije nepotpuna je mjera varijabilnosti koja zapravo predstavlja razliku najveće i najmanje vrijednosti uređenog niza. Njena formula analitički izgleda ovako:

Rv= Xmax – Xmin

Ograničenje kod računanja ove mjere varijabilnosti je to što je ona nepotpuna, a podaci koji se koriste u izračunu (Xmax i Xmin) zapravo nerijetko predstavljaju netipične vrijednosti odnosno izdvojenice.

Interkvartilni raspon

Interkvartilni raspon predstavlja drugu nepotpunu mjeru varijabilnosti jer za svoj analitički izračun koristi samo dva podatka, baš kao i raspon varijacije. Njega smo spomenuli kada smo pričali o pozicijama kvantila u poglavlju o medijanu. Njegov analitički oblik zapravo izgleda ovako:

IQ= Q3 – Q1

Interkvartilni raspon zapravo pokazuje koliki je raspon središnjih 50% podataka, jer Q1 predstavlja vrijednost koja se nalazi na 75% niza, dok Q1 predstavlja vrijednost koja se nalazi na 25% niza. Logično, oduzmemo li 75%tnu i 25%tnu vrijednost dobit ćemo raspon podataka središnjih 50%. Ukoliko ne razumijete, pogledajte skicu:

25% 75%

Dva smajlija predstavljaju neke x1 i x2 vrijednosti. Prvi smajli je vrijednost x1 koja se nalazi na 25%tnoj, dok je drugi smajli vrijednost x2 koja se nalazi na 75%tnoj poziciji. Oduzmu li se te dvije vrijednosti dobit će se interkvartilni raspon, odnosno raspon središnjih 50% podataka.

Box Plot i modificirani box plot whiskers dijagram

Grafikon koji na najbolji način prikazuje raspon podataka i interkvartilni raspon naziva se Box-Plot dijagram, dok se dodatnom modifikacijom može konstruirati i modificirani Box-Plot dijagram koji se koristi za identifikaciju izdvojenica.

Jednostavni BP dijagram ističe pet ključnih vrijednosti, položaj medijana, oba kvartila, kao i najmanju i najveću vrijednost. Shodno tome uz BP dijagram se uobičajeno prikazuje i pet ključnih vrijednosti odnosno five number summary. Uobičajena slike BP dijagrama i modificiranog BP dijagrama predočene su slikama ispod.

Slika xy. Primjer box-plot dijagrama

Slika xy. Primjer modificiranog box-plot dijagrama

Ukoliko nam se neki od podataka nalazi izvan vanjskih međa, tada te podatke smatramo ozbiljnim izdvojenicama, odnosno netipičnim vrijednostima

Ako se desi da nam se neki od podataka nalazi u ovom području (područje između donje vanjske i donje unutarnje međe ili između gornje unutarnje i gornje vanjske međe), tada taj podatak nazivamo sumnjivom vrijednošću

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Gornja vanjska međa: Q3+3*IQ

Donja unutarnja međa: Q1-1,5*IQ

Gornja unutarnja međa: Q3+1,5*IQ

Donja vanjska međa: Q1-3*IQ

Štreberaj

Harambašićeva 31

099/306 3232

[email protected]

Varijanca i standardna devijacija

Varijanca i standardna devijacija predstavljaju mjere varijabilnosti koje svoje rezultate temelje na svim podacima, a ne samo dijelu podataka, kao što je slučaj kod interkvartilnog raspona ili kod raspona varijacije. Analitički su jako slične. Zapravo, standardna devijacija je drugi korijen iz varijance. Pitaš se zašto se onda uopće računaju jedna i druga mjera? Razlog je jednostavan… Prvo pogledaj matematički izračun, a potom pročitaj objašnjenje.

Pretpostavimo da je zadan sljedeći numerički niz: 1,2,3,4,5,6,7,8

Potrebno je izračunati prosječno odstupanje od prosjeka u apsolutnom iznosu (standardna devijacija). Formula za standardnu devijaciju uzorka dana je sljedećim izrazom:

Vidljivo je iz analitičkog oblika da su formule jednake, a razlika je zapravo samo u korijenu. Standardna devijacija apsolutni je pokazatelj reprezentativnosti prosječne vrijednosti. Što je manja vrijednost standardne devijacije to je vrijednost aritmetičke sredine reprezentativnija. Relativni pokazatelj odstupanja od aritmetičke sredine nazivamo koeficijent varijacije koji predstavlja omjer standardne devijacije i aritmetičke sredine pomnožen sa sto kako bi se prikazao relativni iznos.

Ukoliko je V ≤ 30% tada je reprezentativan

Ukoliko je V > 30% tada je nereprezentativan

V= * 100

Dakle sada moramo izračunati brojnik, koji zapravo predstavlja sva odstupanja od prosjeka na kvadrat. Pogledaj što bi se desilo s našim odstupanjima da ih ne kvadriramo:

xi

 

1

-3,5

12,25

2

-2,5

6,25

3

-1,5

2,25

4

-0,5

0,25

5

0,5

0,25

6

1,5

2,25

7

2,5

6,25

8

3,5

12,25

 

0

42

Ako ne kvadriramo naša odstupanja (stupac 2.) tada će ona biti jednaka nula, jer to je jedno od obilježja aritmetičke sredine (zbroj svih odstupanja od prosjeka bit će jednak nula). Međutim kvadriramo li ta odstupanja, dobit ćemo rezultat različit od nula, a potom ga podijelimo s brojem jedinica u uzorku kako bismo dobili prosječnu vrijednosti odstupanja.

Ukoliko ostavimo ovaj rezultat trenutno smo na varijanci, međutim statističari (ekonomisti) češće koriste standardnu devijaciju jer ih zanima apsolutna vrijednost odstupanja u mjernim jedinicama (dakle odstupanja u tisućama, komadima, vremenu i sl.), a to se postiže samo ako se varijanca korjenuje.

Još jedna bitna digresija oko varijance i standardne devijacije. Primijetio si da je u sklopu formule za standardnu devijaciju u nazivniku izraz n-1, a ne n. To je prvenstveno zato što radimo zadatke na temelju uzorka, a ne populacije (nemaš ni vremena ni novaca za skupit sve podatke iz populacije, iz tog razloga radimo obradu na temelju uzroka). Stoga koristimo izraz n-1 kada imamo male u uzorke jer time povećavamo devijaciju (odstupanja).

Ukoliko ti nije u potpunosti jasno zašto se koristi izraz n-1 obrati pozornost na sljedeće objašnjenje:

Prikazana je krivulja normalne distribucije podataka s očekivanom vrijednosti populacije µ=60. Dakle znamo da je aritmetička sredina cijele populacije jednaka 60. Pošto imamo samo dio informacija o populaciji (obradili smo mali uzorak) znamo da je aritmetička sredina uzorka jednaka 70 (…

=70

µ=60

Razlika očekivane vrijednosti i aritmetičke sredine zapravo je jednaka pogrešci (error). Pogreška često nastaje zato što nam je veličina uzorka premalena za kvalitetnu obradu, ili smo uzorak birali na loš način ili nešto treće… Sada do izražaja dolazi izraz n-1, odnosno njegova uloga u reduciranju ove iste pogreške.

Tablica xy. Matematičko objašnjenje izraza n-1

Uzmimo za potrebe pojašnjenja da je u primjeru danom u tablici brojnik pri računanju varijance jednak 240 (= 240). Prvi nam stupac pokazuje veličinu uzorka, a druga dva iznose varijance, međutim drugi stupac dijeli naš brojnik (240) s vrijednošću n-1, dok se u trećem stupcu naš brojnik dijeli s vrijednosti punog uzorka n. Zadnji stupac pokazuje razliku u varijancama. Pa je tako pri veličini uzorka od 4 razlika u varijancama 20, no vidimo da se s povećanjem veličine uzorka razlika smanjuje i u jednom trenu pri dovoljno velikom uzorku, gotovo da nema razlika u vrijednostima varijanci (n=120). Međutim zašto bismo željeli koristiti formulu s izrazom n-1 kada on samo uzrokuje povećanje varijance? Pa razlog tome je što se prosječna vrijednost populacije i uzorka razlikuju, pa ukoliko procjenjujemo varijancu (standardnu devijaciju) formulom koja u sebi sadrži aritmetičku sredinu uzorka time podcjenjujemo vrijednost varijance čitave populacije, pa izrazom n-1 zapravo kompenziramo za moguću pogrešku koju bi napravili da smo dijelili s ukupnom vrijednošću uzorka, što zapravo rezultira većom varijancom kako je prikazano u tablici. To je zapravo cijela nuklearna fizika oko ovog izraza

Primjer 2. Štrebsy Invest

Već smo spominjali Štrebsy Invest i tri potencijalna projekta u koje Štrebsy želi ulagati svoja sredstva. Nakon što su doznali detalje oko srednjih vrijednosti, analitičari iz Štrebsyja bave se detaljima oko varijabilnosti kod ova tri projekta. Idemo se prisjetiti kako su izgledali spomenuti projekti.

 

Projekt 1

Projekt 2

Projekt 3

Mean

8,8

13,4

12,93

Standard Error

1,37

2,00

0,42

Median

8

19

13

Mode

7

19

11

Standard Deviation

5,31

7,76

1,62

Sample Variance

28,17

60,26

2,64

Kurtosis

0,25

-1,37

-0,85

Skewness

0,81

-0,70

0,35

Range

18

19

5

Minimum

2

1

11

Maximum

20

20

16

Sum

132

201

194

Count

15

15

15

Naučili smo da je potpuna i najosnovnija mjera varijabilnosti standardna devijacija uzorka. Na prvi pogled opet nam je projekt 2 na prvom mjestu kao najvarijabilniji, jer posjeduje najvišu standardnu devijaciju od tri projekta. Projekt 1 ima nešto manju vrijednost standardne devijacije od projekta 2 međutim projekt 1 također ima i manju vrijednost aritmetičke sredine. Treći projekt čini se jako zanimljiv u oba segmenta, kao najviše isplativ, a najmanje rizičan. Pogledajmo prvo grafički kako se kreću stope povrata po godinama u odnosu na prosječne vrijednosti projekata.

Slika xy. Kretanja prosječnih stopa povrata u odnosu na prosječnu vrijednost za sva tri promatrana projekta

Grafička analiza nam uvelike olakšava odabir adekvatnog projekta. Kada pogledamo sva tri projekta, vidljivo je da je prvi projekt jako nestabilan i sklon oscilacijama. Tome svjedoče i pokazatelji iz tablice. Naime standardna devijacija iznosi 5,31%, međutim izračunamo li koeficijent varijacije dobijemo rezultat od 60,34% (V>30%) prosječnih odstupanja od prosjeka. Ovdje vidimo da se radi o izuzetno nereprezentativnoj aritmetičkoj sredini koja ne ulijeva povjerenje da će nam povrat biti stabilan na godišnjoj razini. Također raspon varijacije je također visok, nalazi se unutar 18%, što znači da postoji mogućnost da se u našem projektu nalaze izdvojenice, te ih je potrebno ispitati. Projekt 2 također pokazuje da je u nekoliko navrata prisutno visoko odstupanje od prosječne vrijednosti. Iz tog razloga moramo provjeriti reprezentativnost prosjeka. Koeficijent varijacije drugog projekta iznosi 57,91%, što je također preko 30% i možemo zaključiti da niti ovaj pokazatelj prosjeka nije reprezentativan. Također moguće je primijetiti da je raspon varijacije distribucije također iznimno visok, pa je potrebno ispitati postojanost izdvojenica u nizu. Treći je projekt prema skici najstabilniji, a i analitički indikatori doprinose stabilnosti projekta. Naime prosječna stopa iznosi visokih 12,93%, uz prosječna odstupanja od 1,62%, što nam daje koeficijent varijacije od 12,53%. Time zaključujemo da je naš pokazatelj prosjeka u projektu 3 reprezentativan jer su mu relativna odstupanja manja od 30%. Raspon varijacije kod trećeg projekta neusporedivo je manji u usporedbi s prethodna dva. Pogledajmo usporedno Interkvartilne raspone i grafičke prikaze box-plot dijagrama kako bismo vidjeli što nam o projektima govore kvantili i pet ključnih pokazatelja.

Slika xy. Box-plot dijagrami promatranih projekata za ulaganje.

Fokusiramo li se na analizu varijabilnosti putem box-plot dijagrama, možemo zaključiti da je treći projekt daleko najstabilniji, odnosno najmanje varijabilan. Raspon središnjih 50% vrijednosti kod trećeg projekta kreće se unutar 2,5% dok su kod preostala dva projekta varijacije središnjih 50% podataka puno veće.

MJERE OBLIKA DISTRIBUCIJE

Uz mjere centralne tendencije, mjere varijabilnosti, također koristimo i mjere oblika distribucije. Oblik distribucije bitan je, jer nam pokazuje kako su podaci raspoređeni između najmanje i najveće vrijednosti. Dva su najučestalija pokazatelja u poslovnoj statistici: 1) Koeficijent asimetrije i 2) Koeficijent zaobljenosti.

Koeficijent asimetrije

Koeficijent asimetrije često se naziva alfa 3 ili u podatkovnom outputu skewness. Ovaj pokazatelj pokazuje nam kako su podaci raspoređeni u sklopu naše distribucije. Odnosno, nalazi li se većina podataka desno ili lijevo od centralne vrijednosti ili su pak podaci simetrični oko centralne vrijednosti. Grafički prikaz daje konkretniji uvid:

Slika xy. Desnostrano asimetrična distribucija

Me

Q3

Q1

Me – Q1 < Q3 – Me

Skewness ~ α3 > 0

Mo

Kod desnostrano asimetrične distribucije aritmetička sredina imat će veću vrijednost od medijalne i modalne (ukoliko se radi o unimodalnoj distribuciji). Najlakši način da ovo shvatiš je da zamisliš da ispunjavaš anketu o zadovoljstvu nekom uslugom. Imaš ocjene od 1-10 i zamisli da su na x-osi upravo te vrijednosti od 1-10. Pa ukoliko imaš 20 osoba da su popunile upitnik o zadovoljstvu, oni će biti različito distribuirani jer svaki od tih 20 ispitanika na drugačiji način percipira zadovoljstvo. Netko će uslugu percipirati kao osrednje kvalitetnu i dati joj ocjenu 5 ili 6, a netko će pak istu tu uslugu ocijeniti s ocjenom 9, dajući do znanja da je prezadovoljan. Upravo zato provjeravamo simetričnost. Dakle ukoliko nam je većina odgovora smještena na lijevoj domeni tada imamo situaciju kao na slici iznad. Naravno s promjenom distribucije podataka mijenja se i sam oblik distribucije.

Slika xy. Ljevostrano asimetrična distribucija

Q1

Me

Q3

Me – Q1 > Q3 – Me

Skewness ~ α3 < 0

Mo

Logično, ako bi većina odgovora bila koncentrirana na desnoj strani naša bi distribucija odgovora izgledala kao na slici, odnosno bila bi ljevostrano asimetrična. Kod ljevostrano asimetrične distribucije aritmetička sredina imat će manju vrijednost od medijana i moda (ukoliko se radi o unimodalnoj distribuciji).

Slika xy. Simetrična distribucija

Q3

Me

Q1

Me – Q1 = Q3 – Me

=

Mo

Skewness ~ α3 = 0

Kod simetrične distribucije, pretpostavlja se da su podaci podjednako raspoređeni oko srednje vrijednosti, te su tada aritmetička sredina, medijan i mod jednakih veličina. Može se primijetiti da je skica ove distribucije zapravo vrlo slična zvonu pa ne čudi sinonim zvonolika distribucija. U slučaju kada su sve tri vrijednosti jednakih veličina, koeficijent asimetrije bit će jednak nula.

Koeficijent zaobljenosti

Mjera zaobljenosti pokazuje se koeficijentom zaobljenosti alfa 4 odnosno njegovim relativnim pokazateljem eksces. Koeficijent zaobljenosti opisuje zaobljenost vrha distribucije, a ukoliko se radi o normalnoj (zvonolikoj) distribuciji, tada će ovaj pokazatelj uvijek biti pozitivan i jednak tri. Ukoliko je distribucija šiljastija od normalne tada će koeficijent zaobljenosti biti veći od tri, dok će u slučaju kada je distribucija plosnatija od normalne koeficijent zaobljenosti biti manji od tri.

Ukoliko u outputu naiđemo na pokazatelj eksces, tada je potrebno izračunati alfa 4 te ga adekvatno interpretirati

κ = α4 – 3

Primjer 3. Štrebsy Infographic

Štrebsy Infographic sada želi ispitati zadovoljstvo svojih poslovnih partnera s njihovom uslugom istraživanja tržišta. Zadovoljstvo ispituju pomoću znanstveno validiranog instrumenta skalama od 1 do 10. Istraživanjem je obuhvaćena čitava populacija poslovnih partnera Štrebsy Infographica. 13 poslovnih partnera pod upitom o ukupnom zadovoljstvu ocijenilo je Štrebsy Infographic sljedećim ocjenama:

333467889991010

Skewness

-0,47

Kurtosis

-1,48

A4

1,51

Pogledamo li rezultate o zadovoljstvu korisnika uslugama, možemo uočiti da je većina odgovora smještena desno od sredine distribucije, što znači da klijenti Štrebsyja Infographic uslugu uglavnom ocjenjuju s ocjenama većim od 5, čemu svjedoči i histogram odgovora. Prema tome zaključujemo da je distribucija podataka prema simetriji negativno asimetrična, a prema obliku plosnatija od normalne distribucije.

Standardizirana vrijednost (Empirijsko i Čebiševljevo pravilo)

Empirijsko i teorijsko pravilo korisni su analitički alati za otkrivanje izdvojenica odnosno netipičnih vrijednosti. Izdvojenice su ekstremne vrijednosti koje su netipično male ili velike iz bilo kojeg razloga. Na primjer, može biti da se radi o neuobičajenim okolnostima ili da je riječ o rijetkom podatku ili pogrešci kod razvrstavanja podataka i sl.

Oba pravila temelje se na istom analitičkom obliku, standardiziranoj vrijednosti numeričke varijable.

Empirijsko pravilo odnosno pravilo normalne distribucije koristi se samo u slučaju kada je distribucija podataka koju proučavamo poznata odnosno ima zvonoliki oblik. U suprotnom, kada su nam distribucije podataka čije rezultate analiziramo nepoznate tada koristimo čebiševljevo pravilo. Kao mala pomoć slobodno se referiraj na tablicu kako bi smanjio mogućnost pogreške

Pravilo

Oblik distribucije

Obuhvat podataka

µ ± 1σ

µ ± 2σ

µ ± 3σ

µ ± 4σ

Empirijsko pravilo/pravilo normalne distribucije

Normalna

68% podataka

95% podataka

99% podataka

gotovo 100%

Čebiševljevo pravilo

Ostale distribucije

-

najmanje 75%

najmanje 89%

najmanje 94%

Kao praktičnu primjenu ovih pravila osvrnite se na primjer Štrebsy Logistics koje je koristio ova pravila kod kupnje novih vozila za ažuriranje svog voznog parka.

Primjer 4. Štrebsy Logistics

Voditelj odjela za transport u Štrebsy Logistics detaljnom je analizom došao do zaključka da se pri kupnji kamiona za novi vozni park mora paziti s prosječnom potrošnjom goriva, jer ona uvelike može pridonijeti smanjenju ili povećanju varijabilnih troškova u poduzeću. Voditelj je dao naputak da se pri kupnji novih vozila uz barem 85% sigurnosti može potvrditi da prosječna potrošnja kamiona ne prelazi 20 litara na 100 kilometara. Kako ne znamo prema kojoj distribuciji je razvrstana potrošnja goriva na markama kamiona, moramo koristiti Čebiševljevo pravilo. Prosječna potrošnja i odstupanja od prosječne potrošnje dani su u tabeli ispod.

Tablica xy. Prosječne potrošnje promatranih vozila

Pošto zaključak o kupnji moramo donijeti uz čak 85% sigurnosti moramo se referirati na prethodnu tablicu, odnosno na predzadnji stupac kojim je obuhvaćeno najmanje 89% podataka.

Rezultate ćemo tako računati formulom µ ± 3σ, jer kao što smo naveli ona obuhvaća najmanje 89% podataka.

Tablica xy. Rezultati o prosječnoj potrošnji

 

µ ± 3σ

Donja granica

Gornja granica

Renault

 15,8±3*1,9

10,1

21,9

Peugeot

 14,5±3*2,8

6,1

22,9

Citroen

 15,3±3*1,3

11,4

19,2

Jedina marka kamiona koja nam pruža željenu potrošnju je Citroen.

Štrebsy Logistics još mora servisirati postojeća vozila u svome voznom parku koja odstupaju previše od prosjeka u prosječnoj potrošnji u jedinicama standardnih devijacija. Pošto nam je to već poznata populacija koristimo formulu za standardiziranu vrijednost uzorka.

z1=6,56

z2=2,13

z3=2,14

Deklariranu prosječnu potrošnju tretiramo kao xi dok su parametri stvarna prosječna potrošnja i stvarna standardna devijacija zapravo parametri za standardiziranu vrijednost populacije u ovom slučaju (jer su nam poznata sa vozila našeg voznog parka). Dakle µ=stvarna potrošnja i σ=stvarna standardna devijacija.

Prema rezultatima prosječne potrošnje, možemo zaključiti da KIA-ina vozila prikazuju nerealnu, odnosno iznad prosječno visoku potrošnju (izvan intervala -3;3) s obzirom na deklariranu potrošnju. Prema tome, potrebno je servisirati KIA-ina vozila u sklopu voznog parka.

KRATAK SAŽETAK POGLAVLJA

Kao što smo se dogovorili na početku poglavlja, ako si pažljivo čitao i pratio sve primjere, sada bi ti već trebalo biti jasnije što su to srednje vrijednosti kako ih računamo i zašto su korisne, odnosno njihove varijacije/odstupanja, te kako komentirati oblik distribucije i procijeniti je li neki podatak izdvojenica odnosno je li netipičan. Kako bi nadopunio sve do sada naučeno, posluži se zadacima i pitalicama u nastavku

Zadovoljstvo korisnika uslugama Štrebsy Infographic

333467889991010

Uzorak Varijanca (n-1)Varijanca (n)Razlika

480,0060,0020,00

648,0040,008,00

1026,6724,002,67

2012,6312,000,63

504,904,800,10

1202,022,000,02

Prosječna

potrošnja goriva

Standardna

devijacija

Oblik

distribucije

Renault 15,81,9nepoznat

Peugeot 14,52,8nepoznat

Citroen 15,31,3nepoznat

Deklarirana

potrošnja

Stvarna

potrošnja

Stvarna

devijacija

Kia17,5281,6

Renault1519,92,3

Man18,5232,1