27
ALFA UNIVERZITET FAKULTET ZA MENADŽMENT U SPORTU SEMINARSKI RAD “STATISTIČKA OBRADA REZULTATA ” Mentor: Student: Prof. dr Banđur Miloš Milojević Selena 17/10

Seminarski rad - Statistička obrada rezultata

Embed Size (px)

Citation preview

ALFA UNIVERZITET FAKULTET ZA MENADMENT U SPORTU

SEMINARSKI RAD

STATISTIKA OBRADA REZULTATA

Mentor: Prof. dr Banur Milo

Student: Milojevi Selena 17/10

Beograd, 2011.

Seminarski rad Statistika obrada rezultata

Milojevi Selena 17/10

SADRAJUVOD..............................................................................................................................................2 SREDNJE VREDNOSTI......................................................................................................................3 ARITMETIKA SREDINA ..............................................................................................................4 POZICIONE SREDNJE VREDNOSTI.............................................................................................7 MODUS (Mo).......................................................................................................................................7 MEDIJANA (Me).................................................................................................................................7 MERE DISPERZIJE.............................................................................................................................9 STANDARDNA DEVIJACIJA.........................................................................................................9 KOEFICIJENT VARIJACIJE (Kv).................................................................................................10 PROCENA ARITMETIKE SREDINE OSNOVNOG SKUPA...................................................10 TEORIJA HI-KVADRAT TESTA (2)............................................................................................12 REGRESIONA ANALIZA................................................................................................................13 OSNOVNI OBLICI POVEZANOSTI POJAVA.........................................................................14 REGRESIJA-POJAM I ZNAENJE..........................................................................................15 STANDARDNA GREKA REGRESIJE.....................................................................................15 KORELACIJA POJAM I ZNAENJE......................................................................................16 KOEFICIJENT KORELACIJE.....................................................................................................16 ZAKLJUAK................................................................................................................................17 LITERATURA...............................................................................................................................18

UVODStatistika je metodologija kojom se istrauju masovne pojave radi otkrivanja zakonitisti koje u njima vladaju. Statistika, metodologija istraivanja masovnih pojava, skuplja bitne injenice o tim pojavama, kvanticifira ih i sreuje na nain koji omoguuje stvaranje teorije i ispitivanja zakonitosti. Odgovarajuom metodom se, na bazi kvanticifiranih uzoraka, sagledavaju, ili preciznije pokuavaju da sagledaju posledice. Predmet prouavanja statistike su varijabilni (promenljive) pojave koje se ispoljavaju u masi sluajeva i zovu se masovne pojave. Varijabilitet je univerzalana karakteristika prirodnih i drutvenih zbivanja. Svaka pojava nastaje pod uticajem nekih faktora, pa ponaanje pojave zavisi od prirode, broja i naina kombinovanja tih faktora. Poto su faktori koji deluju na pojavu varijabilni, to e i pojava pokazivati manje ili vie izraen varijabilitet. Elementarne pojave pokazuju najmanji varijabilitet individualnih sluajeva i rezultat su delovanja malog broja faktora. Odnos izmeu ovih pojava i faktora meusobno uslovljenih ponavljaju se na priblino isti nain u svim konkretnim sluajevima. Kod takvih pojava primenjuje se metod pojedinanog posmatranja, ispituje se jedan ili nekoliko sluajeva. Kod pojava koje ispoljavaju veu varijabilnost (drutveno-ekonomske pojave) tek posmatranjem veeg broja sluajeva dolazio se do odreenih zakonitosti u njihovom ponaanju. Zato statistika istaruje masovne pojave a to istraivanje ima kvantitativni karakter. Pod statistikom se danas podrazumeva: Deskriptivna statistika prikuplja, obrauje i povezuje podatke.

2

Seminarski rad Statistika obrada rezultata

Milojevi Selena 17/10

Statistika analiza omoguuje pribavljanje numerikih informacija, njihovu kvalitativnu interpretaciju, donoenje zakljuaka i formiranje zakonitosti ponaanja posmatranih pojava. Statistika teorija iznalazi statistie metode, objanjava ih, dokazuje i usavrava.1 Sve u svetu je meusobno zavisno, a broj je samo nekakav vor veza. Statistika je put do tog vora. Zadatak statistike je u tome da pomae da sluajnosti bude svakog dana sve manje. Odgovor na pitanje ta je statistika je: Statistika je metodologija istraivanja masovnih pojava brojanim nainom izraavanja. Statitika je potrebna psiholozima i psihijatrima, lekarima, spotistima, agronomima, pravnicima i ininjerima. Svima njima su potrebni menaderi koji doprinose da njihova struna znanja budu koriena na pravi nain, koji im pomau da se timski organizuju u reavanju neizbenih interdisciplinarnih problema. Menaderi reaguju brzo, odluuju bez odlaganja, vode timove ka sopstvenim vizijama, a za to su im je pored intuicije neohodni i odreeni podaci. Jedan professor sa Univerziteta iz Floride je rekao: Statistiki rad je esencijalan u biznisu i industriji i zadire u sve oblasti menadmenta, razvoja i proizvodnje. Zbog svoje iroke primenljivosti, statistika je interdisciplinarna i inherentna za sve naune oblasti gde se zahteva kvantitativna informacija za donoenje odluka.2 Tema ovog rada je statistika obrada rezultata FC Barselone u toku sezona 2010/2011, 2009/2010, 2008/2009, 2007/2008, 2006/2007, 2005/2006. Za ostvarivanje ovog zadatka obradicemo rezultate u toku est uzastopnih sezona pomou aritmetike sredine, standardne devijacije, koeficijenta varijacije, medijane i moda. Takoe, na osnovu aritmetike sredine uzorka proceniemo aritmetiku sredinu osnovnog skupa sa verovatnoom greke od 5% i 1%. Izloiemo teoriju regresione analize i teoriju hi-kvadrat testa.

SREDNJE VREDNOSTIStatistiki skupovi imaju mnotvo elemenata, a to je skup vei to je tee da se shvate koliinski odnosi vrednosti obeleja tog skupa, tee je stvoriti sliku pojave na osnovu originalnih podataka. Srednjom vrednou se karakterie serija razliitih brojeva, ona je prosek mnotva razliitih individualnih veliina i rauna se samo za vei broj vrednosti. Srednjim vrednostima se podaci uoptavaju, a svako uoptavanje preti prikrivanjem prave slike koja se posmatra. Sama re srednja, uz re vrednost, kae da ona uvek mora da se nalazi izmeu najmanje I najvee veliine u seriji za koju se izraunava. Osnovne karakteristike srednjih vrednosti su sledee: na njih utiu ekstremne vrednosti na njih utiu frekvencije u distribuciji frekvencija na njih utiu svi modaliteti obeleja za koje se rauna srednja vrednost. Zahtevi kojima moraju da odgovore srednje vrednosti: mogunost utvrivanja objektivnim raunskim pravilom na jedinstven nain srednja vrednost mora biti vrednost izmeu ekstrema1 2

Prof. dr ekari Mirjana, Kosti-Kovaevi Ivana, Kvantitativne metode, Beograd 2005, Prof. dr Gordana Ajdukovi, Poslovna statistika, Beograd 2003,

3

Seminarski rad Statistika obrada rezultata

Milojevi Selena 17/10

ako su sve vrednosti obeleja jednake I srednja vrednost mora da bude jednaka toj vrednosti.

Srednje vrednosti se dele na dve osnovne grupe: izraunate srednje vrednosti pozicione srednje vrednosti Izraunate srednje vrednosti se raunskim putem dobijaju iz podataka serije. U izraunate srednje vrednosti spadaju: aritmetika sredina harmonijska sredina geometrijska sredina Pozicione srednje vrednosti se odreuju pozicijom koju zauzimaju u datoj seriji podataka. U pozicione srednje vrednosti spadaju: modus ili mod medijana Srednje vrednosti nalazi primenu u svim oblastima statistike analize.3 ARITMETIKA SREDINA Aritmetika sredina je poznata pod imenom prosek. Izraunava se tako da se sve vrednosti numerikog obeleja saberu, pa se zatim zbir podeli s brojem podataka. ARITMETIKA SREDINA= Suma vrednosti numerikog obeleja Broj podataka Polazna taka za izraunavanje aritmetike sredine je zbir svih vrednosti numerikog obeleja elemenata statisistikog skupa. Taj zbir se zove total. Total razdeljen na onoliko delova koliko skup ima elemenata je aritmetika sredina. Oznaimo li vrednosti numerikog obeleja sa:

x1, x2 , x3, x4, ........... xionda je aritmetika sredina za tih N vrednosti numerikog obeleja N-ti deo totala X = x1 + x 2 + x3 + x 4 + ...... + xi n ili

3

Prof. dr Gordana Ajdukovi, Poslovna statistika, Beograd 2003,

4

Seminarski rad Statistika obrada rezultatan

Milojevi Selena 17/10

X

x =i =1

i

n PRIMER: Broj ostvarenih bodova, pobeda, poraza,nereenog rezultata i gol razlika FC Barselona po sezonama su sledei: Tabela br. 1: Broj ostvarenih bod.,pobeda, poraza, nereenog rezultata i gol razlika FC Barselona Broj ostvarenih Gol Sezone bodova po Pobede Porazi Nereeno razlika xi sezoni 2010/2011 96 30 2 6 74 X1 2009/2010 99 31 1 6 74 X2 2008/2009 87 27 5 6 70 X3 2007/2008 67 19 9 10 33 X4 2006/2007 76 22 6 10 45 X5 2005/2006 82 25 6 7 45 X6 Ukupno 507 154 29 45 341100 80 60 40 20 0 2010/2011 2008/2007 2 006/2007 Bod p sezon ovi o i P ed ob e P orazi Nereen o Razlika u g ol.

Grafik br. 1: Broj ostvarenih bod.,pobeda, poraza, nereenog rezultata i gol razlika FC Barselona Koliki je bio proseni broj bodova, pobeda, poraza, nereenih i gol razlika po sezonama? x1 + x 2 + x3 + x 4 + x5 + x6 X= 6X = 96 + 99 +87 + 67 + 76 + 82 = 507 6 6 X = 84,5 bodova

5

Seminarski rad Statistika obrada rezultata

Milojevi Selena 17/10

Tabela br. 2: Aritmetika sredina broja bodova, pobeda, poraza, nereenih i gol razlika po sezonama Obeleja Broj ostvarenih bodova po sezoni Pobede Porazi Nereeno Gol razlika

X 84,50 25,67 4,83 7,50 53,83

Br. Ost. Bod . P ed ob e P orazi Nereen o Gol razlika

Grafik 2: Aritmetika sredina broja bodova, pobeda, poraza, nereenih i gol razlika po sezonama Prosean broj bodova u posmatranih 6 sezona bio je 84,50 (bodova), prosean broj pobeda bio je 25,67; prosean broj poraza bio je 4,83; prosean broj nereenih rezultata je 7,50; a prosena gol razlika u posmatranih 6 sezona bila je 53,83 (gola). Najvanije osobine aritmetike sredine su: 1. Zbir odstupanja pojedinanih obeleja od aritmetike sredine jednak je nuli.(od svake individualne vrednosti obeleja oduzima se vrednost aritmetike sredine). Za negrupisane podatke: ( xi- X )=0 Za grupisane podatke: fi( xi- X )=0 2. Aritmetika sredina se uvek nalazi izmeu najmanje i najvee vrednosti obeleja. Xmin < X < Xmax 3. Ako su vrednosti obeleja meusobno jednake, onda je aritmetika sredina jednaka tim vrednostima: X1=X2=X3=........=Xn 6

Seminarski rad Statistika obrada rezultata

Milojevi Selena 17/10

X =X1=X2=...........Xn 4. Zbir kvadrata odstupanja podataka od aritmetike sredine jeste linijski.4 (xi- X )2=min

POZICIONE SREDNJE VREDNOSTINaziv pozicione srednje vrednosti dobile su zato to se one uglavnom ne izraunavaju kao sredine, nego se odreuje njihova pozicija, mesto u datoj seriji. One se nalaze, po pravilu, na onom mestu koje zauzima bilo dominantan (najznaajniji), bilo centralni (sredinji) poloaj u seriji. Pre nego to se pristupi iznalaenju srednjih brojeva brojeva, potrebno je da datu seriju sredimo po veliini modaliteta. U grupu srednjih brojeva spadaju: modus (Mo) i medijana (Me): MODUS (Mo) To je onaj podatak (modalitet) koji se najee javlja tj. koji ima najveu frekvenciju. To je, dakle podatak koji zauzima dominantan poloaj i koji na poligonu frekvencija ima najveu ordinatu. Zbog toga se modus esto naziva jo i dominanta ili normala. To je na primer, najea cena, najea visina,itd.Zbog toga kaemo da se modus kao srednja vrednost koristi najee kada se radi o proceni stanja ili karakteristika neke pojave. U praksi se moe traiti modus kod neintervalnih serija ili kod intervalnih serija. IZRAUNAVANJE MODUSA KOD NEINTERVALNIH SERIJA PRIMER1:Iz sledee serije podataka odrediti Mo. Broj poraza u sezonama je sledei: 1,2,5,6,6,9. Broj koji se najee pojavljuje je 6 .Znai Mo =6. MEDIJANA (Me) Medijana je takva poziciona srednja vrednost koja se u seriji nalazi na sredinjoj poziciji ukupnog broja frekvencija (sluajeva). To je najvea vrednost modaliteta posmatranog obeleja u nekoj seriji, njena vrednost ne mora da se podudara sa veliinama (vrednostima) modaliteta koji su navedeni u seriji, nego ona predstavlja najviu (maksimalnu) veliinu posmatranog obleja za prvih 50% svih frekvencija ili sluajeva. Odreivanje i izraunavanje medijane vri se u serijama koje su prethodno sreene po veliini modaliteta, zato se vrednost medijane uvek nalazi oko sredine raspona intervala varijacije izmeu minimalne i maksimalne vrednosti modaliteta. Medijana se koristi za analizu statistikih serija po segmentima (delovima) a pasebno u komparativnoj analizi istorodnih pojava. Medijana se izraunava iz prostih serija ali se to najee vri kod serija distribucije frekvencija. IZRAUNAVANJE MEDIJANE KOD PROSTIH SERIJA4

Prof. dr ekari Mirjana, Kosti-Kovaevi Ivana, Kvantitativne metode, Beograd 2005,

7

Seminarski rad Statistika obrada rezultata

Milojevi Selena 17/10

Kod prostih serija,kada se svaki modalitet javlja samo po jedanput, medijana e zauzimati mesto sredinjeg modaliteta, odnosno medijana e biti upravo onaj modalitet koji se nalazi na sredinjoj poziciji. Kod svih prostih serija mesto medijane se nalazi po obascu: n +1 2 Mora se voditi rauna da li to prosta serija ima neparan ili paran broj podataka pomou ovog obrasca neposredno nalazimo mesto i vrednost medijane. PRIMER1: Izraunaj medijanu iz sledee serije: Gol razlika je: 74,74,70,33,45,45. Prvo emo poreati seriju po redu: 33,45,45,70,74,74. Serija ima paran broj podataka (n=6) pa se medijana nalazi izmeu dva sedinja podatka. n +1 6 +1 7 = = = 3,5 Mesto Me = 2 2 2 Medijana se nalzi na sredini izmeu treeg i etvrtog mesta u seriji. Prostom aritmetikom sredinom izraunavamo medijanu. Tabela br.3: Gol razlika FCBarselona po sezonama Redni broj obeleja Obeleje 1 33 2 45 3 45 Poloaj medijana Medijana 4 70 5 74 6 74 45 + 70 115 = 2 2 Me= 57,5 Me= Medijana je 57,5.

8

Seminarski rad Statistika obrada rezultata

Milojevi Selena 17/10

80 70 60 50 40 30 20 10 0 1 2 3 4 5 6

Gol razlika

Me Grafik br.3: Gol razlika FCBarselona po sezonama

MERE DISPERZIJESTANDARDNA DEVIJACIJA Linearni oblik varijanse naziva se standardna devijacija. To je kvadratni koren iz varijanse. Tu meru varijacije takoe izraunavamo i kod prostih serija i kod serija distribucije frekvencija. STANDARDNA DEVIJACIJA KOD PROSTIH SERIJA () Izraunava se po obrascu: n Tabela br. 4: Broj ostvarenih bodova FC Barselona po sezonama Broj ostvarenih Sezone bodova po sezoni xi- X xi 2010/2011 96 11,5 2009/2010 99 14,5 2008/2009 87 2,5 2007/2008 67 -17,5 2006/2007 76 -8,5 2005/2006 82 -2,5 507 / =

( xi X )

2

(xi- X )2 132,25 210,25 6,25 306,25 72,25 6,25 882

9

Seminarski rad Statistika obrada rezultata

Milojevi Selena 17/10

882 = 147 n 6 Iz prethodnog primera varijansa je: 2=147 a standardna devijacija bie: = 147 = 12,12 bodova2

(xi X ) =

X= n

xi

=

507 = 84.5 prosean broj bodova 62

=

Od svih mera varijabiliteta najznaajnija je standardna devijacija. Njen naziv potie od toga to ona predstavlja neku standardnu prihvaenu meru u statistikoj analizi, pa e se ona javiti u reprezentativnoj analizi i kod raznih testiranja sudova i rezultata pod nazivo Standardne greke koja nije nita drugo nego standardna devijacija,tj. mera varijabiliteta kod uzoraka. KOEFICIJENT VARIJACIJE (Kv) . Koeficijent varijacije (Kv) predstavlja kolinik izmeu standardne devijacije i aritmetike sredine jedne iste pojave. Izraava se kao prost kolinik (koeficijent) ili kao procentni broj. Obrazac po kome se izraunava koeficijent varijacije glasi: Kv= ili kao procentni izraz: Kv= 100 5 X X Iz predhodnoh primera preuzeemo podatke, tako da dobijamo da je: : Kv=

12.12 100 = 100 =14,34% 84.5 X

Proseno odstupanje od proseka je 14,34%. PROCENA ARITMETIKE SREDINE OSNOVNOG SKUPA Aritmetiku sredinu osnovnog skupa procenjujemo na osnovu aritmetike sredine njegovog uzorka. Procena aritmetike sredine nee nikada biti donoena jednim brojem, nego emo je uvek davati u nekom rasponu, intervalu uz tano utvren stepen verovatnoe ili pouzdanosti sa kojim smo taj interval izraunali. Veliina tog interval ili raspona menja se i zavisi od stepena verovatnoe ili pouzdanosti koju smo uzeli ili koja nam je zadata. Taj raspon naziva se interval poverenja ili pouzdanosti. Izraunava se po obrascu:

( X tS )x

X - aritmetika sredina uzorka t stepen verovatnoe (vrednost iz tablice) S x - standardna greka aritmetike sredine

5

Prof. dr ekari Mirjana, Kosti-Kovaevi Ivana, Kvantitativne metode, Beograd 2005,

10

Seminarski rad Statistika obrada rezultata

Milojevi Selena 17/10

Sx =

X

n( n 1)

2 f

nX

2

Interval poveranja u kome se procenjuje vrednost aritmetike sredine osnovnog skupa glasi: X tS x x X + tS x 6

(

) (

)

Primer: Iz skupa sezona jednog kluba na sluajan nain izabrane su etiri u kojoj je klub ostvario 26 poraza. I dobijeni su sledeci podaci: Sezone 2008/2009 2007/2008 2006/2007 2005/2006 Broj utakmica 5 9 6 6

a) Sa pouzdanou od 95% oceniti prosean broj poraza. b) Sa pouzdanou od 99% oceniti prosean broj poraza. a) Xi = 5 + 9 + 6 + 6 = 26 = 6,5 X = n 4 4 Prosean broj poraza po sezoni bio je 6.5. Sx =

X2 f

n( n 1)

2 f

nX

2

XSx =

= 5 2 + 9 2 + 6 2 + 6 2 = 178 7 =0,76 12

178 4 6.5 2 178 4 42.25 178 169 = = = 4( 4 1) 43 12

Ocena srednje mere odstupanja aritmetikih sredina uzorka od aritmetike sredine osnovnog skupa iznosi 0,76 poraza. X tS x x X + tS x

(

) (

)

6

Prof. dr ekari Mirjana, Statistike metode, Beograd 2010,

11

Seminarski rad Statistika obrada rezultata

Milojevi Selena 17/10

(Vrednost t oitava se iz tablice; prvo se izraunava stepen slobode r=n-1, r =4-1=3, a rizik greje je =0,05% za verovatnou od 95% (Studentov raspored ili t distribucija vrednosti za t=2.353) (6,5 2,353 x 0,76) x (6,5 + 2,353 x 0,76) 4,712 x 8,288 Uz rizik greke od 5% moe se oekivati da e prosean broj poraza tokom sezone biti u intervalu od 4,7 do 8,2. Xi b) X = = 5 + 9 + 6 + 6 = 26 = 6,5 n 4 4 Prosean broj poraza po sezoni bio je 6.5. Sx =

X2 f

n( n 1)

2 f

nX

2

XSx =

= 5 2 + 9 2 + 6 2 + 6 2 = 178 7 =0,76 12

178 4 6.5 2 178 4 42.25 178 169 = = = 4( 4 1) 43 12

Ocena srednje mere odstupanja aritmetikih sredina uzorka od aritmetike sredine osnovnog skupa iznosi 0,76 poraza. X tS x x X + tS x

(

) (

)

(Vrednost t oitava se iz tablice; prvo se izraunava stepen slobode r=n-1, r =4-1=3, a rizik greje je =0,01% za verovatnou od 99% (Studentov raspored ili t distribucija vrednosti za t=4.541) (6,5 4,541 x 0,76) x (6,5 + 4,541 x 0,76) 3,049 x 9,951 Uz rizik greke od 1% moe se oekivati da e prosean broj poraza tokom sezone biti u intervalu od 4,04 do 9,95.

TEORIJA HI-KVADRAT TESTA (2)To je jedan od najpoznatijih neparametrijskih testova. Poznat je i pod nazivom Pearson-ov 2 test, jer ga je razradio K. Pearson 1900. godine. 2 testom se izraunava da li postoji statistiki znaajna povezanost u frekvencijama dva atributivna obeleja ili izmeu dobijenih (opaenih) frekvencija i frekvencija koje oekujemo kod odreene hipoteze. Dobijene frekvencije su frekvencije dobijene empirijskim istraivanjem ili eksperimentom. 12

Seminarski rad Statistika obrada rezultata

Milojevi Selena 17/10

Oekivane frekvencije su teorijskog karaktera ili oekivane na osnovu hipoteze koju elimo da proverimo. Hi kvadrat test se upotrebljava za testiranje znaajnosti razlike izmeu dobijenih (fd) i oekivanih (fo) frekvencija. Definie se formulom:

( f 2=

d

fo ) fo

2

Pri izradi ovog testa: - Zbir dobijenih i oekivanih frekvencija mora uvek biti jednak - Zbir razlike dobijenih i oekivanih frekvencija uvek je jednak nuli Ako ova dva uslova nisu ispunjena, postoji negde greka u raunu ili problem nema smisla, nije 2 test adekvatan za taj problem. Vrednost 2 testa ne moe da bude negativna jer ona predstavlja sumu kvadrata. Stepen slobode se izraunava po obrascu: S.S. = (R-1) x (K-1), gde je K - broj kolona, a R broj redova. Tumaenje dobijene vrednosti bazira se na teorijskom 2 rasporedu: a) Raspored je definisan u oblasti od 0 do +, b) Kriva rasporeda nije simetrina, meutim, s poveanjem broja modaliteta posmatranog obeleja (sa poveanjem broja stepena slobode) 2 kvadrat raspored se pribliava normalnom rasporedu, c) Za svaki broj stepeni slobode postoji i odreen 2 kvadrat raspored i kritine oblasti prihvatanja ili odbacivanja nulte hipoteze. Tri su najvanija uslova za primenu 2 kvadrat testa: 1. 2 kvadrat test se izraunava iskljuivo is apsolutnih frekvencija, ili iz podataka ako mogu da se svedu na apsolutne frekvencije; 2. Nijedna od apsolutnih frekvencija ne sme da ima vrednost manju od 5 jedinica i 3. Kada su uzorci manji od 200 jedinica (n1+n2