Author
vuongnguyet
View
226
Download
1
Embed Size (px)
STATISTIKA
3. predavanje
Doc.dr. Tadeja Kraner Šumenjak
SREDNJE VREDNOSTI(MERE CENTRALNE
TENDENCE)
V tem delu bomo iskali eno samo vrednost, ki bi
bila najboljši predstavnik množice vseh vrednosti
neke spremenljivke na opazovani populaciji.
Lastnosti spremenljivk, da se gostijo okrog neke
vrednosti imenujemo centralna tendenca.
Merimo jo s srednjimi vrednostimi:
mediana - Me
modus - Mo
aritmetična sredina - M
geometrijska sredina- G
harmonična sredina-H
MERE VARIABILNOSTI
V nadaljevanju bomo merili razpršenost ali
disperzijo posameznih vrednosti spremenljivke od
mere centralne tendence:
variacijski razmik - R
kvartilni odklon- Q
povprečni absolutni odklon - AD
standardni odklon -
varianca- 2
RELATIVNE MERE VARIABILNOSTI
Koeficient variabilnosti – KV%
MOMENTI, MERE ASIMETRIJE IN
SPLOŠČENOSTI
Centralni momenti
Koeficient asimetrije
Koeficient sploščenosti
ARITMETIČNA SREDINA
Aritmetična sredina je najpogosteje uporabljana
srednja vrednost. Izračunamo jo tako, da vsoto
vseh vrednosti enot v statistični množici delimo s
številom enot. Aritmetično sredino M
izračunamo s pomočjo obrazca:
N
i
iN xN
xxxxN
M1
321
1)(
1
PRIMER
Če ima populacija naslednje vrednosti enot:
izračunamo njihovo aritmetično sredino tako:
34 25 29 31 28 25 33 32 23 29
MN
x ii n
N
1 1
1034 25 29 31 28 25 33 32 23 29
289
1028 9( ) ,
V primeru, da imamo opravka z grupiranimi
podatki, vzamemo za reprezentanta enot v
razredu sredino razreda in izračunamo
aritmetično sredino s pomočjo obrazca:
Tu smo upoštevali, da je vsota vseh frekvenc
posameznih razredov enaka številu enot v
populaciji. Torej je:
Mf x
f Nf x
k k
k
k k
1
kfN
PRIMER
Masa piščancev
(g)
Število piščancev -
fk
xk fkxk
nad 1700 do 1800 98
nad1800 do 1900 296
nad 1900 do 2000 523
nad 2000 do 2100 434
nad 2100 do 2200 211
nad 2200 do 2300 88
Skupaj 1650
Za dano frekvenčno porazdelitev izračunajte
aritmetično sredino.
Masa piščancev (g) Število piščancev - fk xk fkxk
nad 1700 do 1800 98 1750 171500
nad1800 do 1900 296 1850 547600
nad 1900 do 2000 523 1950 1019850
nad 2000 do 2100 434 2050 889700
nad 2100 do 2200 211 2150 453650
nad 2200 do 2300 88 2250 198000
Skupaj 1650 3280300
MN
f xk k 1 3280300
16501988 06,
Oglejmo si, katere so lastnosti aritmetične sredine. Ugotovimo
lahko, da je vsota odklonov od aritmetične sredine enaka nič.
Dokaz:
( )M x M x N M NN
x N M N Mii
N
i
N
ii
N
ii
N
1 1 1 1
10
Vsota kvadratov odklonov individualnih vrednosti od poljubnega
števila a je minimalna, če je to število M.
Dokaz:
2
1
1 1
1
( ) ( ) iščemo minimum te funkcije
( ) 2( ) 2 ( )
( ) 0 ( ) 0
N
i
i
N N
i i
i i
N
i
i
f a a x
f a a x a x
f a a x a M
MODUS
Modus (gostiščnica) Mo prikazuje tisto
vrednost, okoli katere so vrednosti populacije
najbolj goste. Modus je torej najpogostejša
vrednost v populaciji. Modus lahko računamo le,
če imamo razmeroma obsežne populacije. Pri
majhnih rezultat ni vedno smiseln.
V posebnih primerih se zgodi, da spremenljivka
nima nobenega modusa, ali pa ima več modusov.
PRIMER
Za 16 družin imamo podatke o številu otrok v
družini.
1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 5, 6, 7, 7, 10.
Mo1=2
Mo2=3
Največ opazovanih družin ima 2 ali pa 3 otroke.
HARMONIČNA SREDINA
Harmonična sredina ali harmonično povprečje je
srednja vrednost, ki je enaka recipročni vrednosti
aritmetične sredine izračunane iz recipročnih
vrednosti:
Nxxx
NH
1...
11
21
PRIMER
Peljemo se na izlet iz Celja na Primorsko in nazaj.
Pot je v eno smer dolga 160 kilometrov. Proti
Primorski se peljemo s hitrostjo 90 km/h, nazaj s
hitrostjo 130 km/h. Izračunajmo povprečno hitrost
vožnje v obe smeri.
Seveda ni dovolj, da upoštevamo le obe hitrosti in
izračunamo njuno povprečje ter dobimo 110 km/h. To ni
pravilno razmišljanje, saj smo se dlje časa vozili z nižjo od
obeh hitrosti in je zato tudi povprečna hitrost bližje 90
km/h kot pa 130 km/h.
Uporabimo obrazec za izračun harmonične sredine in
dobimo
V obe smeri smo vozili s povprečno hitrostjo približno 106
km/h.
36,106
130
1
90
1
2
H
GEOMETRIJSKA SREDINA
V posebnih primerih, kadar iščemo srednje
vrednosti za statistične podatke izražene z
odstotki, (verižnimi) indeksi, koeficienti rasti itd.,
uporabljamo geometrijsko sredino ali
geometrijsko povprečje.
To je tista srednja vrednost, ki je enaka N-temu
korenu iz produkta N pozitivnih vrednosti:
NNxxxG ...21
VARIACIJSKI RAZMIK
To je najenostavnejša, pa tudi najbolj problematična mera variacije. Dobimo jo tako, da od največje vrednosti spremenljivke odštejemo najmanjšo vrednost. Torej je
R = xmax - xmin
V primeru, da ima en element populacije zelo majhno vrednost spremenljivke drugi pa zelo veliko, je variacijski razmik zelo velik (vpliva osamelec). Ob tem pa lahko velika večina vrednosti leži tesno ob aritmetični sredini. To mero zato uporabljamo le izjemoma.
KVARTILNI ODKLON
Kvartilni odklon je definiran kot
Na kvartilni odklon ne vplivajo skrajne, običajno
netipične, vrednosti statistične spremenljivke. Zato
je kvartilni odklon primernejše merilo
variabilnosti kot variacijski razmik.
)(2
113 QQQ
POVPREČNI ABSOLUTNI ODKLON OD
ARITMETIČNE SREDINE
Z odkloni posameznih vrednosti od ustrezne
sredine merimo jakost posamičnih vplivov.
Vendar, če vzamemo kot sredino aritmetično
sredino dobimo, da je to povprečje enako nič, saj
je
( )M x i
i
N
1
0
Zato vzamemo kot merilo variabilnosti
povprečje absolutnih odklonov:
N
i
iM MxN
AD1
1
VARIANCA IN STANDARDNI ODKLON
Varianca je povprečje kvadratov odklonov od aritmetične sredine. Podana je z obrazcem:
Ker srečujemo varianco pri mnogih statističnih analizah, je to najpomembnejša mera variabilnosti. Ker je enota mere kvadrat enote mere osnovne spremenljivke, uporabljamo običajno kvadratni koren variance:
ki ga imenujemo standardni odklon.
N
i
i MxN 1
22 )(1
2
2 2
1
2 2
1
1 12
N
x MN
x x M Mi
i
N
i i
i
N
( ) ( )
2 2
1 1
21 2 1
N
xM
Nx
NN Mi
i
N
i
i
N
MN
x ii
N
1
1
2 2
1
2 212
N
x M Mi
i
N
2
1
22 1Mx
N
N
i
i
Preoblikujmo izraz za varianco:
VZORČNI STANDARDNI ODKLON IN
VARIANCA
Če imamo podatke iz vzorca in ne iz celotne
populacije, izračunamo t.i. vzorčno varianco
Dokaz, da je bolj primerno deliti z (n-1) kot n
posreduje matematična statistika.
Vzorčna varianca je le ocena za populacijsko
varianco, rečemo ji nepristranska ocena
variance.
vzorcasredina aaritmeti čr
vzorcuenot v število
)(1
1 2
1
2
x
n
xxn
sN
i
i
vzorcasredina aaritmeti čr
vzorcuenot v število
1)(
1
1 2
1
22
x
n
n
nxx
ns
N
i
i
Izpeljemo formulo, ki jo bomo uporabljali:
PRIMER
Za primer izračunajmo varianco in standardni
odklon za pridelke krompirja z desetih poskusnih
parcel (t/ha).
Pridelek (x)
27
43
36
20
22
37
17
28
40
26
296
PRIMER
Ocene 6 študentov pri izpitu so: 84, 91, 72, 68, 87
in 78 procentov. Aritmetična sredina je 80
procentov. Izračunajmo oceno variance.
Varianco in standardni odklon lahko izračunamo
tudi iz grupiranih podatkov. V tem primeru je
obrazec za izračun tak:
2 2 21 N
f x Mk k
frekvenca
razreda sredina
razreda
Denimo, da smo opazovali pridelek jabolk na
drevesih z zelo vitkim vretenom in pri tem dobili
frekvenčno porazdelitev prikazano v preglednici.
Izračunajmo aritmetično sredino, varianco in
standardni odklon.
Masa plodov Število dreves - fk
nad 7,4 do 8,0 11
nad 8,0 do 8,6 32
nad 8,6 do 9,2 56
nad 9,2 do 9,8 24
nad 9,8 do 10,4 7
Skupaj 130
Mere variacije, ki smo jih pravkar opisali lahko le
redkokdaj direktno medsebojno primerjamo, čeprav so
pojavi lahko vsebinsko povezani. Če na primer
primerjamo dve skupini piščancev, ki smo jih v enakih
življenjskih pogojih različno krmili in izračunali v prvi
populaciji
M1 = 2100 g in 1 = 100 g
v drugi populaciji pa
M1 = 1950 g in 1 = 80 g
se bomo zelo težko odločili, katera populacija je
variabilnejša.
Da lahko primerjamo variabilnosti različnih
populacij, moramo vpeljati relativno mere variacije.
Koeficient variabilnosti v procentih je definiran:
Ugotovi, katera populacija iz prejšnjega diapozitiva
je variabilnejša?
KVM
% 100
Momenti, mere asimetrije in sploščenosti
Izraz r = 1, 2, 3, ....
imenujemo centralni moment stopnje r.
Centralni moment prve stopnje je podan z izrazom
1
1( )
Nr
r i
i
x MN
1
1
1( ).
N
i
i
x MN
Je enak 0.
Centralni moment druge stopnje (varianca) je podan z izrazom
Centralni moment tretje stopnje je podan z izrazom
2 2
2
1
1( ) .
N
i
i
x MN
3 3 2 3
3
1 1
1 1( ) 3 .
N N
i i
i i
x M x M MN N
Da se dokazati, da je centralni moment tretje stopnje enak 0,
če je porazdelitev simetrična, pozitiven, če je asimetrična v
desno in negativen, če je porazdelitev asimetrična v levo.
simetrične asimetrične v levo asimetrične v desno
3 0 3 0 3 0
MERE ASIMETRIJE
Predznak in velikost tretjega momenta sta
odvisna od asimetričnosti frekvenčne
porazdelitve. Zato bi lahko vzeli centralni
moment tretje stopnje za mero asimetrije. Ker pa
je tretji moment odvisen tudi od variabilnosti, le-
to izločimo tako, da vzamemo za merilo
asimetrije izraz:
1
3
2
2
3
3 1
3
2
3
3
3 Skewness
PRIMER
Izračunajte za spodnje podatke Skewness.
Pridelek
(x)
27
43
36
20
22
37
17
28
40
26
296
MERE SPLOŠČENOSTI
Sploščenost merimo:
42 2
2 2 3
Za normalno porazdelitev
je enak 3.
2
Kurtosis
Koeficient
sploščenosti s
centralnimi momenti
<0 sploščena
=0 normalna
>0 koničasta
PRIMER
Izračunajte za spodnje podatke Kurtosis.
Pridelek
(x)
27
43
36
20
22
37
17
28
40
26
296
Koeficient asimetrije
s centralnimi
momenti
<0 as. v levo
=0 simetrične
>0 as. v desno
Koeficient
sploščenosti s
centralnimi momenti
<0 sploščena
=0 normalna
>0 koničasta
Poglejmo si še enkrat frekvenčno porazdelitev za število zaposlenih
po podjetjih
V praksi se pokaže, da se nekatere oblike
frekvenčnih porazdelitev pogosteje pojavljajo kot
druge. Tako zelo pogosto srečamo frekvenčne
porazdelitve, ki so prikazane na sliki:
simetrične asimetrične v levo asimetrične v desno
unimodalne bimodalne polimodalne
sploščene koničaste
ODNOSI MED POSAMEZNIMI SREDINAMI
Med aritmetično sredino, mediano in modusom
opazimo določene stalne odnose. Za simetrične
unimodalne porazdelitve velja, da je
M = Me = Mo
Torej so vse tri srednje vrednosti v tem primeru
enake. Za unimodalne porazdelitve, ki so
asimetrične v desno veljajo odnosi
M > Me > Mo.
za porazdelitve, ki so asimetrične v levo pa
M < Me < Mo.
KOEFICIENT ASIMETRIJE
Na osnovi oddaljenosti od aritmetične sredine imamo dva
koeficienta asimetrije. Pri prvem vzamemo za osnovo
oddaljenost modusa od aritmetične sredine:
Pri drugem koeficientu pa vzamemo za osnovo oddaljenost
mediane od aritmetične sredine:
MoxKAMo
KAx Me
Me 3 ( )
Koeficienta asimetrije na osnovi oddaljenosti od
aritmetične sredine lažje in hitreje izračunamo kot
koeficient na osnovi tretjega momenta in ju zato
uporabljamo v primerih, ko nimamo na voljo
računalnika z ustreznim programom.
Pri primerjavi dane krivulje z normalno se držimo
naslednjega:
.0 ali 0
,0 ali 0
,0 ali 0
MeMo
MeMo
MeMo
KAKA
KAKA
KAKA asimetrična v desno
simetrična
asimetrična v levo
Za mero sploščenosti lahko vzamemo tudi razmerje
med kvartilnim in decilnim razmikom. Ustrezen
koeficient sploščenosti je enak:
KSQ Q
D D
1 9 3 1
9 1
,
Tako določen koeficient sploščenosti je za normalne
porazdelitve enak 1, za koničaste porazdelitve je
manjši od ena za sploščene pa večji od ena.
Tudi ta koeficient lažje izračunamo kot koeficient na
osnovi četrtega momenta in ga uporabljamo
namesto mere na osnovi četrtega momenta, če
nimamo na voljo računalnika.
KOEFICIENT SPLOŠČENOSTI