46
STATISTIKA 3. predavanje Doc.dr. Tadeja Kraner Šumenjak

STATISTIKA 3. predavanje - fk.uni-mb.si · posreduje matematična statistika. Vzorčna varianca je le ocena za populacijsko varianco, rečemo ji nepristranska ocena variance. aritmetiþUa

Embed Size (px)

Citation preview

STATISTIKA

3. predavanje

Doc.dr. Tadeja Kraner Šumenjak

SREDNJE VREDNOSTI(MERE CENTRALNE

TENDENCE)

V tem delu bomo iskali eno samo vrednost, ki bi

bila najboljši predstavnik množice vseh vrednosti

neke spremenljivke na opazovani populaciji.

Lastnosti spremenljivk, da se gostijo okrog neke

vrednosti imenujemo centralna tendenca.

Merimo jo s srednjimi vrednostimi:

mediana - Me

modus - Mo

aritmetična sredina - M

geometrijska sredina- G

harmonična sredina-H

MERE VARIABILNOSTI

V nadaljevanju bomo merili razpršenost ali

disperzijo posameznih vrednosti spremenljivke od

mere centralne tendence:

variacijski razmik - R

kvartilni odklon- Q

povprečni absolutni odklon - AD

standardni odklon -

varianca- 2

RELATIVNE MERE VARIABILNOSTI

Koeficient variabilnosti – KV%

MOMENTI, MERE ASIMETRIJE IN

SPLOŠČENOSTI

Centralni momenti

Koeficient asimetrije

Koeficient sploščenosti

ARITMETIČNA SREDINA

Aritmetična sredina je najpogosteje uporabljana

srednja vrednost. Izračunamo jo tako, da vsoto

vseh vrednosti enot v statistični množici delimo s

številom enot. Aritmetično sredino M

izračunamo s pomočjo obrazca:

N

i

iN xN

xxxxN

M1

321

1)(

1

PRIMER

Če ima populacija naslednje vrednosti enot:

izračunamo njihovo aritmetično sredino tako:

34 25 29 31 28 25 33 32 23 29

MN

x ii n

N

1 1

1034 25 29 31 28 25 33 32 23 29

289

1028 9( ) ,

V primeru, da imamo opravka z grupiranimi

podatki, vzamemo za reprezentanta enot v

razredu sredino razreda in izračunamo

aritmetično sredino s pomočjo obrazca:

Tu smo upoštevali, da je vsota vseh frekvenc

posameznih razredov enaka številu enot v

populaciji. Torej je:

Mf x

f Nf x

k k

k

k k

1

kfN

PRIMER

Masa piščancev

(g)

Število piščancev -

fk

xk fkxk

nad 1700 do 1800 98

nad1800 do 1900 296

nad 1900 do 2000 523

nad 2000 do 2100 434

nad 2100 do 2200 211

nad 2200 do 2300 88

Skupaj 1650

Za dano frekvenčno porazdelitev izračunajte

aritmetično sredino.

Masa piščancev (g) Število piščancev - fk xk fkxk

nad 1700 do 1800 98 1750 171500

nad1800 do 1900 296 1850 547600

nad 1900 do 2000 523 1950 1019850

nad 2000 do 2100 434 2050 889700

nad 2100 do 2200 211 2150 453650

nad 2200 do 2300 88 2250 198000

Skupaj 1650 3280300

MN

f xk k 1 3280300

16501988 06,

Oglejmo si, katere so lastnosti aritmetične sredine. Ugotovimo

lahko, da je vsota odklonov od aritmetične sredine enaka nič.

Dokaz:

( )M x M x N M NN

x N M N Mii

N

i

N

ii

N

ii

N

1 1 1 1

10

Vsota kvadratov odklonov individualnih vrednosti od poljubnega

števila a je minimalna, če je to število M.

Dokaz:

2

1

1 1

1

( ) ( ) iščemo minimum te funkcije

( ) 2( ) 2 ( )

( ) 0 ( ) 0

N

i

i

N N

i i

i i

N

i

i

f a a x

f a a x a x

f a a x a M

MODUS

Modus (gostiščnica) Mo prikazuje tisto

vrednost, okoli katere so vrednosti populacije

najbolj goste. Modus je torej najpogostejša

vrednost v populaciji. Modus lahko računamo le,

če imamo razmeroma obsežne populacije. Pri

majhnih rezultat ni vedno smiseln.

V posebnih primerih se zgodi, da spremenljivka

nima nobenega modusa, ali pa ima več modusov.

PRIMER

Za 16 družin imamo podatke o številu otrok v

družini.

1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 5, 6, 7, 7, 10.

Mo1=2

Mo2=3

Največ opazovanih družin ima 2 ali pa 3 otroke.

HARMONIČNA SREDINA

Harmonična sredina ali harmonično povprečje je

srednja vrednost, ki je enaka recipročni vrednosti

aritmetične sredine izračunane iz recipročnih

vrednosti:

Nxxx

NH

1...

11

21

PRIMER

Peljemo se na izlet iz Celja na Primorsko in nazaj.

Pot je v eno smer dolga 160 kilometrov. Proti

Primorski se peljemo s hitrostjo 90 km/h, nazaj s

hitrostjo 130 km/h. Izračunajmo povprečno hitrost

vožnje v obe smeri.

Seveda ni dovolj, da upoštevamo le obe hitrosti in

izračunamo njuno povprečje ter dobimo 110 km/h. To ni

pravilno razmišljanje, saj smo se dlje časa vozili z nižjo od

obeh hitrosti in je zato tudi povprečna hitrost bližje 90

km/h kot pa 130 km/h.

Uporabimo obrazec za izračun harmonične sredine in

dobimo

V obe smeri smo vozili s povprečno hitrostjo približno 106

km/h.

36,106

130

1

90

1

2

H

GEOMETRIJSKA SREDINA

V posebnih primerih, kadar iščemo srednje

vrednosti za statistične podatke izražene z

odstotki, (verižnimi) indeksi, koeficienti rasti itd.,

uporabljamo geometrijsko sredino ali

geometrijsko povprečje.

To je tista srednja vrednost, ki je enaka N-temu

korenu iz produkta N pozitivnih vrednosti:

NNxxxG ...21

VARIACIJSKI RAZMIK

To je najenostavnejša, pa tudi najbolj problematična mera variacije. Dobimo jo tako, da od največje vrednosti spremenljivke odštejemo najmanjšo vrednost. Torej je

R = xmax - xmin

V primeru, da ima en element populacije zelo majhno vrednost spremenljivke drugi pa zelo veliko, je variacijski razmik zelo velik (vpliva osamelec). Ob tem pa lahko velika večina vrednosti leži tesno ob aritmetični sredini. To mero zato uporabljamo le izjemoma.

KVARTILNI ODKLON

Kvartilni odklon je definiran kot

Na kvartilni odklon ne vplivajo skrajne, običajno

netipične, vrednosti statistične spremenljivke. Zato

je kvartilni odklon primernejše merilo

variabilnosti kot variacijski razmik.

)(2

113 QQQ

POVPREČNI ABSOLUTNI ODKLON OD

ARITMETIČNE SREDINE

Z odkloni posameznih vrednosti od ustrezne

sredine merimo jakost posamičnih vplivov.

Vendar, če vzamemo kot sredino aritmetično

sredino dobimo, da je to povprečje enako nič, saj

je

( )M x i

i

N

1

0

Zato vzamemo kot merilo variabilnosti

povprečje absolutnih odklonov:

N

i

iM MxN

AD1

1

VARIANCA IN STANDARDNI ODKLON

Varianca je povprečje kvadratov odklonov od aritmetične sredine. Podana je z obrazcem:

Ker srečujemo varianco pri mnogih statističnih analizah, je to najpomembnejša mera variabilnosti. Ker je enota mere kvadrat enote mere osnovne spremenljivke, uporabljamo običajno kvadratni koren variance:

ki ga imenujemo standardni odklon.

N

i

i MxN 1

22 )(1

2

2 2

1

2 2

1

1 12

N

x MN

x x M Mi

i

N

i i

i

N

( ) ( )

2 2

1 1

21 2 1

N

xM

Nx

NN Mi

i

N

i

i

N

MN

x ii

N

1

1

2 2

1

2 212

N

x M Mi

i

N

2

1

22 1Mx

N

N

i

i

Preoblikujmo izraz za varianco:

VZORČNI STANDARDNI ODKLON IN

VARIANCA

Če imamo podatke iz vzorca in ne iz celotne

populacije, izračunamo t.i. vzorčno varianco

Dokaz, da je bolj primerno deliti z (n-1) kot n

posreduje matematična statistika.

Vzorčna varianca je le ocena za populacijsko

varianco, rečemo ji nepristranska ocena

variance.

vzorcasredina aaritmeti čr

vzorcuenot v število

)(1

1 2

1

2

x

n

xxn

sN

i

i

vzorcasredina aaritmeti čr

vzorcuenot v število

1)(

1

1 2

1

22

x

n

n

nxx

ns

N

i

i

Izpeljemo formulo, ki jo bomo uporabljali:

PRIMER

Za primer izračunajmo varianco in standardni

odklon za pridelke krompirja z desetih poskusnih

parcel (t/ha).

Pridelek (x)

27

43

36

20

22

37

17

28

40

26

296

PRIMER

Ocene 6 študentov pri izpitu so: 84, 91, 72, 68, 87

in 78 procentov. Aritmetična sredina je 80

procentov. Izračunajmo oceno variance.

Varianco in standardni odklon lahko izračunamo

tudi iz grupiranih podatkov. V tem primeru je

obrazec za izračun tak:

2 2 21 N

f x Mk k

frekvenca

razreda sredina

razreda

Denimo, da smo opazovali pridelek jabolk na

drevesih z zelo vitkim vretenom in pri tem dobili

frekvenčno porazdelitev prikazano v preglednici.

Izračunajmo aritmetično sredino, varianco in

standardni odklon.

Masa plodov Število dreves - fk

nad 7,4 do 8,0 11

nad 8,0 do 8,6 32

nad 8,6 do 9,2 56

nad 9,2 do 9,8 24

nad 9,8 do 10,4 7

Skupaj 130

Mere variacije, ki smo jih pravkar opisali lahko le

redkokdaj direktno medsebojno primerjamo, čeprav so

pojavi lahko vsebinsko povezani. Če na primer

primerjamo dve skupini piščancev, ki smo jih v enakih

življenjskih pogojih različno krmili in izračunali v prvi

populaciji

M1 = 2100 g in 1 = 100 g

v drugi populaciji pa

M1 = 1950 g in 1 = 80 g

se bomo zelo težko odločili, katera populacija je

variabilnejša.

Da lahko primerjamo variabilnosti različnih

populacij, moramo vpeljati relativno mere variacije.

Koeficient variabilnosti v procentih je definiran:

Ugotovi, katera populacija iz prejšnjega diapozitiva

je variabilnejša?

KVM

% 100

Momenti, mere asimetrije in sploščenosti

Izraz r = 1, 2, 3, ....

imenujemo centralni moment stopnje r.

Centralni moment prve stopnje je podan z izrazom

1

1( )

Nr

r i

i

x MN

1

1

1( ).

N

i

i

x MN

Je enak 0.

Centralni moment druge stopnje (varianca) je podan z izrazom

Centralni moment tretje stopnje je podan z izrazom

2 2

2

1

1( ) .

N

i

i

x MN

3 3 2 3

3

1 1

1 1( ) 3 .

N N

i i

i i

x M x M MN N

Da se dokazati, da je centralni moment tretje stopnje enak 0,

če je porazdelitev simetrična, pozitiven, če je asimetrična v

desno in negativen, če je porazdelitev asimetrična v levo.

simetrične asimetrične v levo asimetrične v desno

3 0 3 0 3 0

MERE ASIMETRIJE

Predznak in velikost tretjega momenta sta

odvisna od asimetričnosti frekvenčne

porazdelitve. Zato bi lahko vzeli centralni

moment tretje stopnje za mero asimetrije. Ker pa

je tretji moment odvisen tudi od variabilnosti, le-

to izločimo tako, da vzamemo za merilo

asimetrije izraz:

1

3

2

2

3

3 1

3

2

3

3

3 Skewness

PRIMER

Izračunajte za spodnje podatke Skewness.

Pridelek

(x)

27

43

36

20

22

37

17

28

40

26

296

MERE SPLOŠČENOSTI

Sploščenost merimo:

42 2

2 2 3

Za normalno porazdelitev

je enak 3.

2

Kurtosis

Koeficient

sploščenosti s

centralnimi momenti

<0 sploščena

=0 normalna

>0 koničasta

PRIMER

Izračunajte za spodnje podatke Kurtosis.

Pridelek

(x)

27

43

36

20

22

37

17

28

40

26

296

Koeficient asimetrije

s centralnimi

momenti

<0 as. v levo

=0 simetrične

>0 as. v desno

Koeficient

sploščenosti s

centralnimi momenti

<0 sploščena

=0 normalna

>0 koničasta

Poglejmo si še enkrat frekvenčno porazdelitev za število zaposlenih

po podjetjih

V praksi se pokaže, da se nekatere oblike

frekvenčnih porazdelitev pogosteje pojavljajo kot

druge. Tako zelo pogosto srečamo frekvenčne

porazdelitve, ki so prikazane na sliki:

simetrične asimetrične v levo asimetrične v desno

unimodalne bimodalne polimodalne

sploščene koničaste

ODNOSI MED POSAMEZNIMI SREDINAMI

Med aritmetično sredino, mediano in modusom

opazimo določene stalne odnose. Za simetrične

unimodalne porazdelitve velja, da je

M = Me = Mo

Torej so vse tri srednje vrednosti v tem primeru

enake. Za unimodalne porazdelitve, ki so

asimetrične v desno veljajo odnosi

M > Me > Mo.

za porazdelitve, ki so asimetrične v levo pa

M < Me < Mo.

KOEFICIENT ASIMETRIJE

Na osnovi oddaljenosti od aritmetične sredine imamo dva

koeficienta asimetrije. Pri prvem vzamemo za osnovo

oddaljenost modusa od aritmetične sredine:

Pri drugem koeficientu pa vzamemo za osnovo oddaljenost

mediane od aritmetične sredine:

MoxKAMo

KAx Me

Me 3 ( )

Koeficienta asimetrije na osnovi oddaljenosti od

aritmetične sredine lažje in hitreje izračunamo kot

koeficient na osnovi tretjega momenta in ju zato

uporabljamo v primerih, ko nimamo na voljo

računalnika z ustreznim programom.

Pri primerjavi dane krivulje z normalno se držimo

naslednjega:

.0 ali 0

,0 ali 0

,0 ali 0

MeMo

MeMo

MeMo

KAKA

KAKA

KAKA asimetrična v desno

simetrična

asimetrična v levo

Za mero sploščenosti lahko vzamemo tudi razmerje

med kvartilnim in decilnim razmikom. Ustrezen

koeficient sploščenosti je enak:

KSQ Q

D D

1 9 3 1

9 1

,

Tako določen koeficient sploščenosti je za normalne

porazdelitve enak 1, za koničaste porazdelitve je

manjši od ena za sploščene pa večji od ena.

Tudi ta koeficient lažje izračunamo kot koeficient na

osnovi četrtega momenta in ga uporabljamo

namesto mere na osnovi četrtega momenta, če

nimamo na voljo računalnika.

KOEFICIENT SPLOŠČENOSTI