Click here to load reader

STATISTIKAvaljhun.fmf.uni-lj.si/~raicm/Poucevanje/BPSt/Predavanja.pdf · 2012-08-12 · Uvod Statistika je veda, ki preučuje bolj ali manj množične podatke (pojave) ali pa tudi

  • View
    218

  • Download
    0

Embed Size (px)

Text of STATISTIKAvaljhun.fmf.uni-lj.si/~raicm/Poucevanje/BPSt/Predavanja.pdf · 2012-08-12 · Uvod...

STATISTIKA

UP FAMNIT, Biopsihologija

Zapiski s predavanj

Martin Rai

N E P O P O L N A P U B L I K A C I J A

Kazalo

1. Opisna statistika 7

1.1 Tipi statistinih spremenljivk . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2 Povzemanje ene statistine spremenljivke univariatna analiza . . . . . . . 10

1.2.1 Imenske spremenljivke . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.2.2 Urejenostne spremenljivke . . . . . . . . . . . . . . . . . . . . . . . 11

1.2.3 Intervalske spremenljivke: interpolacija . . . . . . . . . . . . . . . . 16

1.2.4 Intervalske spremenljivke: mere centralne tendence . . . . . . . . . 18

1.2.5 Intervalske spremenljivke: mere razprenosti . . . . . . . . . . . . . 20

1.2.6 Zdruevanje vrednosti v razrede . . . . . . . . . . . . . . . . . . . . 26

1.2.7 Primerjanje vrednosti razmernostnih spremenljivk . . . . . . . . . . 29

1.3 Mere povezanosti dveh statistinih spremenljivk bivariatna analiza . . . . 31

1.3.1 Povezanost dveh imenskih spremenljivk . . . . . . . . . . . . . . . . 31

1.3.2 Povezanost dveh intervalskih spremenljivk . . . . . . . . . . . . . . 35

1.3.3 Povezanost intervalske in dihotomne spremenljivke . . . . . . . . . 42

1.3.4 Povezanost intervalske in imenske spremenljivke . . . . . . . . . . . 45

1.3.5 Povezanost dveh urejenostnih spremenljivk . . . . . . . . . . . . . . 47

1.3.6 Povezanost urejenostne in dihotomne spremenljivke . . . . . . . . . 50

1.3.7 Povezanost urejenostne in imenske spremenljivke . . . . . . . . . . 52

2. Teorija verjetnosti 55

2.1 Verjetnostni prostori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.1.1 Osnovni pojmi verjetnosti . . . . . . . . . . . . . . . . . . . . . . . 55

2.1.2 Diskretna verjetnost . . . . . . . . . . . . . . . . . . . . . . . . . . 57

2.1.3 Relacije in operacije na dogodkih . . . . . . . . . . . . . . . . . . . 61

2.1.4 Aksiomi Kolmogorova . . . . . . . . . . . . . . . . . . . . . . . . . 63

3

4 M. RAI: STATISTIKA

2.2 Pogojna verjetnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

2.2.1 Definicija pogojne verjetnosti . . . . . . . . . . . . . . . . . . . . . 66

2.2.2 Relejni poskusi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

2.3 Sluajne spremenljivke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

2.3.1 Osnovni pojmi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

2.3.2 Navzkrine porazdelitve . . . . . . . . . . . . . . . . . . . . . . . . 71

2.3.3 Bernoullijeva zaporedja poskusov . . . . . . . . . . . . . . . . . . . 76

2.3.4 Funkcije sluajnih spremenljivk . . . . . . . . . . . . . . . . . . . . 82

2.3.5 Porazdelitve urejenostnih sluajnih spremenljivk . . . . . . . . . . . 83

2.3.6 Porazdelitve intervalskih sluajnih spremenljivk . . . . . . . . . . . 86

2.3.7 Centralni limitni izrek . . . . . . . . . . . . . . . . . . . . . . . . . 92

3. Inferenna statistika 99

3.1 Verjetnost uspeha poskusa . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

3.2 Frekvenna porazdelitev . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

3.3 Sredina pri znanem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

3.4 Sredina pri neznanem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

Uvod

Statistika je veda, ki preuuje bolj ali manj mnoine podatke (pojave) ali pa tudi pojme,ki so motivirani z njimi. Med drugim zajema:

Zbiranje podatkov, torej kako (pri doloenih praktinih, npr. finannih omejitvah)pravilno zbrati podatke, od katerih lahko priakujemo im natannejo informacijoo zadevi, ki nas zanima. Pomemben del te veje je teorija vzorenja (angl. sampling).

Povzemanje podatkov temu pravimo opisna statistika (angl. descriptive statistics).Tudi povzetku podatkov (npr. povpreju) pravimo kar statistika.

Vrednotenje podatkov temu pravimo inferenna statistika. Njeni najpomembnejiveji sta statistino sklepanje (dajanje sklepov izjav na podlagi dobljenih podatkov,angl. statistical inference) in statistino odloanje (dajanje navodil, kako ravnati,da bomo v povpreju imeli najvejo mono korist, angl. decision theory).

Matematina podlaga za teorijo vzorenja in inferenno statistiko je verjetnostni raun.

5

6 M. RAI: STATISTIKA

1.

Opisna statistika

Podatki so v statistiki vrednosti ene ali ve statistinih spremenljivk na statistini mnoici.Statistino mnoico sestavljajo enote. Primeri statistinih mnoic:

e delamo anketo, mnoica anketirancev;

e gledamo vreme po razlinih krajih, nabor vremenskih postaj;

e gledamo spreminjanje cen razlinih artiklov s asom, nabor asov (enote so takonpr. 15. januar, 15. februar, 15. marec . . . );

tevilo enot imenujemo numerus in ga navadno oznaujemo z n, tudi N .

Statistina spremenljivka je predpis, ki vsaki enoti (potem ko jo pomerimo) priredidoloeno vrednost. Mnoico vrednosti posamezne spremenljivke imenujemo zaloga vredno-sti. Statistine spremenljivke navadno oznaujemo z velikimi tiskanimi rkami s koncaabecede, npr. X, Y , Z, njihove vrednosti pa z malimi rkami. Vrednosti statistine spre-menljivke X tako navadno oznaimo z x1, x2, . . . xn. Tako je xi vrednost spremenljivke Xna i-ti enoti statistine mnoice.

Primer : vreme po Sloveniji v ponedeljek, 20. februarja 2012, ob 17. uri:

7

8 M. RAI: STATISTIKA

Postaja oblanost padavinetemperatura(C)

smervetra

hitrostvetra(km/h)

Kredarica v oblakihposameznesneinke

13 4LetalieEdvarda RusjanaMaribor

pretenooblano

2 11

LetalieJoeta PunikaLjubljana

oblano 1 4

Letalie Portoro oblanorahlodeuje

5 22

Ljubljana oblanorahlodeuje

2 4

Tukaj postaja predstavlja enoto, padavine, oblanost, temperatura ter smer in hitrostvetra pa so spremenljivke.

1.1 Tipi statistinih spremenljivk

Statistine spremenljivke delimo glede na njihove zaloge vrednosti oziroma glede na to,katere operacije lahko izvajamo na zalogah vrednosti. Loimo opisne (kvalitativne, atri-butivne) in tevilske (kvantitativne, numerine) spremenljivke. Opisne spremenljivke senadalje delijo na:

Imenske (nominalne), pri katerih gledamo le gole vrednosti, na katerih ni defini-ranih nobenih operacij. Primeri: barva, politina stranka, rasa, pasma, skupina.Vasih lahko povemo, katere vrednosti so si blizu oz. sosedne to je pomembno prizdruevanju vrednosti v razrede.

Urejenostne (ordinalne), pri katerih lahko povemo, katera vrednost je veja in kateramanja. Primeri: kakovost razpoloenja, in, stopnja izobrazbe, trdota minerala,odtenek sivine (kadar ocenjujemo na oko).

tevilske spremenljivke pa se delijo na:

Intervalske, pri katerih lahko definiramo razlike med posameznima vrednostma injih setevamo, odtevamo ali delimo, medtem ko setevanje, mnoenje in deljenjesamih vrednosti a priori ni definirano oz. smiselno. Intervalske spremenljivke nimajovnaprej doloenega izhodia (nile). Lahko torej recimo povemo, da je razlika medvrednostma a in b dvakratnik razlike med b in c, ni pa recimo smiselno rei, daje vrednost b dvakratnik vrednosti a. Primeri intervalskih spremenljivk: letnica,nadmorska viina (v obiajnih okoliinah), temperatura (v obiajnih okoliinah,

M. RAI: STATISTIKA 9

ko jo je smiselno gledati v Celzijevih stopinjah, recimo ko je ne povezujemo z energijomolekul).

Razmernostne, pri katerih lahko vrednosti same setevamo, odtevamo in delimo.Le-te imajo naravno izhodie (nilo) in lahko recimo povemo, da je vrednost bdvakratnik vredosti a. Primeri: mo motorja, dohodek, odtenek sivine (e jo merimoz instrumentom ali doloimo raunalniko) in tudi temperatura, kadar jo je smiselnogledati v kelvinih, recimo pri fiziki nizkih temperatur (blizu absolutne nile), prikinetini teoriji plinov in pri preuevanju zvezd.

Vsako razmernostno spremenljivko lahko gledamo tudi kot intervalsko, vsako intervalskokot urejenostno in vsako urejenostno kot imensko.

Poseben primer statistinih spremenljivk so dihotomne ali tudi binarne, to so take,ki lahko zavzemajo le dve vrednosti, recimo da/ne, za/proti, pravilno/nepravilno, kon-trolna/eksperimentalna skupina. Tudi e je dihotomna spremenljivka opisna, jo lahkovasih naravno obravnavamo kot tevilsko, navadno tako, da vrednostma priredimo te-vili 0 in 1.

Pri primeru z vremenom so padavine, oblanost in smer vetra imenske spremenljivke,pri katerih lahko povemo, katere vrednosti so si blizu. Temperatura je intervalska, hitrostvetra pa je razmernostna spremenljivka.

Smer in hitrost vetra lahko zdruimo v razmernostno vektorsko spremenljivko. Tudite so pomembne, a se z njimi ne bomo ukvarjali.

e bi pri oblanosti gledali le, koliko neba ni vidnega (meglo bi torej izenaili z oblano-stjo) in tega ne bi kvantitativno merili (recimo v odstotkih), temve bi le loili npr. medjasnim, delno oblanim, preteno oblanim in oblanim vremenom, bi bila oblanost ure-jenostna spremenljivka. Dele neba v odstotkih, ki ga zakrivajo oblaki, pa bi bil razmer-nostna spremenljivka.

Iz padavin je malo teje narediti urejenostno spremenljivko, ki ne bi mogla biti tudirazmernostna: teko je namre primerjati de in sneg. Najbolj objektivno bi bilo meriti,koliko milimetrov padavin pade recimo na uro: to bi bila razmernostna spremenljivka.

Glavna razlika med urejenostnimi in intervalskimi spremenljivkami je ta, da ne mo-remo primerjati razkorakov med posameznimi vrednostmi. Zato tudi ne moremo raunatipovpreij. Dostikrat sicer urejenostno spremenljivko poviamo v intervalsko, tako davrednostim priredimo tevilske vrednosti. Rezultati nadaljnje obdelave pa so lahko zava-jajoi. V nekem podjetju bi lahko imeli naslednjo strukturo izobrazbe:

Nedokonana osnovna ola 70Osnovna ola 5Poklicna srednja ola 2Gimnazija 1Fakulteta 22

10 M. RAI: STATISTIKA

in lahko bi izraunali, da je povprena izobrazba osnovnoolska. e pa bi li fakultetnoizobrazbo podrobneje razlenjevat, bi recimo dobili:

Nedokonana osnovna ola 70Osnovna ola 5Poklicna srednja ola 2Gimnazija 1Visoka strokovna izobrazba 2Univerzitetna diploma bolonjske 1. stopnje 0Univerzitetna diploma po starih programih 0Univerzitetna diploma bolonjske 2. stopnje 0Magisterij po starem programu 0Doktorat 20

in izraunali, da je povprena izobrazba poklicna srednja ola.

1.2 Povzemanje ene statistine spremenljivke uni-

variatna analiza

1.2.1 Imenske spremenljivke

Pri imenski (torej vsaki) statistini spremenljivki lahko povemo, kolikokrat se je pojaviladoloena vrednost. Temu pravimo frekvenca. Relativna frekvenca je frekvenca, deljenas tevilom enot. Zapis vseh vrednosti skupaj z (relativnimi) frekvencami imenujemofrekvenna porazdelitev, ki jo lahko predstavimo v obliki tabele:

vrednosti frekvence relativne frekvencea1 f1 f

1

a2 f2 f2

......

...ak fk f

k

Frekvenca fi je torej tevilo enot, na katerih ima spremenljivka vrednost ai. tevilo enotz doloeno lastnostjo bomo oznaevali z znakom . Tako lahko s formulo zapiemo:

fi = (X = ai) ; i = 1, 2, . . . k .

Velja e:

f1 + f2 + + fk = n , f i =fin, f 1 + f

2 + + f k = 1 .

Frekvenno porazdelitev imenskih spremenljivk grafino predstavimo s tortnim diagra-mom (angl. pie chart ali circle graph) ali s histogramom.

M. RAI: STATISTIKA 11

Za roni izris tortnega diagrama potrebujemo kotomer. Kot, ki pripada i-ti vrednosti,je enak f i 360.Modus je vrednost z najvijo frekvenco. Oznaevali ga bomo z M , pogosta oznaka pa

je tudi Mo ali Mo. Modusov je lahko ve.

Modus je ena od mer centralne tendence.

e vemo, katere vrednosti so si blizu oz. sosedne, lahko definiramo tudi lokalne moduse.Porazdelitev je bimodalna, e ima dva izrazita lokalna modusa, pri emer enake frekvencena sosednih vrednostih obravnavamo kot en lokalni modus. Porazdelitev je multimodalna,e ima ve kot dva izrazita lokalna modusa v prejnjem smislu.

Vasih modusi, posebej lokalni, za prvotne vrednosti ne odraajo realne slike. To sezgodi takrat, ko je vrednosti veliko, frekvence pa majhne. e vemo, katere vrednosti so siblizu oz. sosedne, jih lahko zdruimo v razrede in na njih gledamo frekvenno porazdelitev.Grobo pravilo je, naj bo razredov priblino

n (korensko pravilo). Ve o zdruevanju v

razrede kasneje.

1.2.2 Urejenostne spremenljivke

Vrednosti urejenostne spremenljivke lahko uredimo po velikosti razvrstimo v ranirnovrsto:

x(1) x(2) x(n) .Ranirna vrsta je natanno doloena z zgornjim pogojem in s tem, da se njena frekvennaporazdelitev ujema s frekvenno porazdelitvijo statistine spremenljivke. Elementu x(i)pravimo i-ta vrstilna statistika (angl. order statistics).

Rang dane vrednosti je njen poloaj v ranirni vrsti: rang vrednosti x je enak i, e jex = x(i).

e so vse vrednosti spremenljivke X razline in je vrednost x zavzeta, je njen rangnatanno doloen. Oznaimo ga z R(x). V tem primeru velja:

R(x) = (X x) = (X < x) + 1 .

Primer : e izmerjene vrednosti:

4, 2, 75, 42, 15, 63

razvrstimo v ranirno vrsto, dobimo:

2, 4, 15, 42, 63, 75

in velja:

R(2) = 1 , R(4) = 2 , R(15) = 3 , R(42) = 4 , R(63) = 5 , R(75) = 6 .

Rangi ostalih vrednosti (e) niso definirani.

12 M. RAI: STATISTIKA

e vrednosti spremenljivke niso vse razline, govorimo o vezeh (angl. ties): vez jeskupek dveh ali ve enot, na katerih ima spremenljivka enako vrednost. e so prisotnevezi, rang ni nujno natanno doloen.

Primer : naj bo A < B < C < D < E in naj bo dana ranirna vrsta podatkov:

A, B, B, B, B, C, D, D, D, E .

Oitno je R(A) = 1, R(C) = 6 in R(E) = 10. Rang vrednosti B je lahko 2, 3, 4 ali 5,rang vrednosti D pa 7, 8 ali 9.

Vsem monim rangom vrednosti x pravimo surovi rangi. Spodnji rang je najniji,zgornji rang pa najviji moni surovi rang. Velja:

spodnji rang = (X < x) + 1 ,

zgornji rang = (X x) .Spodnji in zgornji rang lahko definiramo za poljubno, ne le zavzeto vrednost. Vezanirang je aritmetina sredina spodnjega in zgornjega ranga in oznaka R(x) bo zadevala totevilo:

R(x) =spodnji rang+ zgornji rang

2=

(X < x) + (X x) + 12

.

Tako je v zgornjem primeru R(A) = 1, R(B) = 3.5, R(C) = 6, R(D) = 8 in R(E) = 10.e bi namesto A, . . . E imeli tevila, npr.:

21, 27, 27, 27, 27, 28, 29, 29, 29, 32 ,

bi veljalo npr. R(27) = 3.5, R(30) = 9.5, R(20) = 0.5 in R(40) = 10.5.

Relativni ali tudi kvantilni rang je definiran po predpisu:

r(x) =R(x) 1

2

n.

in ne glede na vezi velja:

r(x) =(X < x) + (X x)

2n.

V prejnjem primeru bi tako veljalo r(27) = 0.3, r(30) = 0.9, r(20) = 0 in r(40) = 1.

Relativni rang pove poloaj posamezne vrednosti v skupini.

Primer : oglejmo si rezultate dveh kolokvijev:

Ambro 83Bla 22Cvetka 61Darja 45Emil 49

Florjan 84Gal 86Helena 71Iva 67Jana 67Karmen 88Lev 89Mojca 64

M. RAI: STATISTIKA 13

in se vpraajmo, kdo je glede na svoje kolege pisal bolje: Cvetka ali Gal?

Cvetka ima rang 4 in relativni rang 3.5/5 = 0.7, Gal pa ima rang 6 in relativni rang5.5/8 = 0.6875, kar je skoraj enako.

Pri zapisu frekvenne porazdelitve urejenostne spremenljivke vrednosti uredimo povelikosti:

a1 < a2 < < akter dodamo e kumulativne frekvence in relativne kumulativne frekvence:

vrednosti frekvencerelativnefrekvence

kumulativnefrekvence

relativnekumulativnefrekvence

F0 = 0 F0 = 0

a1 f1 f1 F1 = f1 F

1 = f

1

a2 f2 f2 F2 = F1 + f2 F

2 = F

1 + f

2

a3 f3 f3 F3 = F2 + f3 F

3 = F

2 + f

3

......

......

...ak fk f

k Fk = Fk1 + fk = n F

k = F

k1 + f

k = 1

Seveda velja tudi:

F i =Fin

.

Primer : ocene s kolokvijev pri predmetu Verjetnost in statistika na univerzitetnem tudijumatematike na UL FMF v tudijskem letu 2010/11:

ocena fi Fi F ineg. 25 25 0.3916 13 38 0

.594

7 12 50 0.781

8 7 57 0.891

9 3 60 0.938

10 4 64 1

Iz frekvenne porazdelitve lahko oditamo vrstilne statistike, in sicer velja:

x(i) = aj , e je 1 + Fj1 i Fj .

Pri doloanju i-te vrstilne statistike moramo torej pogledati prvo kumulativno frekvenco,ki je enaka vsaj i.

Nekaj vrstilnih karakteristik iz prejnjega primera: x(40) = 7, x(60) = 9, x(61) = 10.

Iz kumulativnih frekvenc lahko oditamo tudi range: vrednost aj ima surove range od1 + Fj1 do Fj in vezani rang:

R(aj) =Fj1 + Fj + 1

2.

14 M. RAI: STATISTIKA

Seveda so vezani rangi definirani tudi za vrednosti, ki niso zavzete: e je a < a1, jeR(a) = 1/2; e je a > ak, je R(a) = n+ 1/2. Za aj1 < a < aj pa je R(a) = Fj1 + 1/2.

Rangi ocen pri prejnjem primeru:

R(neg.) = 13 , R(6) = 32 , R(7) = 44.5 , R(8) = 54 , R(9) = 59 , R(10) = 62.5 .

Vrednost q je kvantil statistine spremenljivke X za dele p, e velja:

(X < q)

n p in (X q)

n p .

Primer : dana je ranirna vrsta:

10, 10, 20, 30, 50, 80, 130, 210, 340, 550 .

Kvantil q0.49 mora izpolnjevati pogoja:

(X < q0.49) 4.9 in (X q0.49) 4.9 .

Prvi pogoj izpolnjujejo vrednosti do vkljuno 50, drugega pa vrednosti od vkljuno 50naprej. Torej je 50 edini moni kvantil za dele 0.49.

Kvantil q0.5 mora izpolnjevati pogoja:

(X < q0.5) 5 in (X q0.5) 5 .

Prvi pogoj izpolnjujejo vrednosti do vkljuno 80, drugega pa vrednosti od vkljuno 50naprej. Torej je vsako tevilo iz intervala [50, 80] lahko kvantil za dele 0.5. To je kvantilniinterval za ta dele.

Kvantil q0.1 mora izpolnjevati pogoja:

(X < q0.1) 1 in (X q0.1) 1 .

Prvi pogoj izpolnjujejo vrednosti do vkljuno 10, drugega pa vrednosti od vkljuno 10naprej. Torej je 10 edini moni kvantil za dele 0.1.

Lastnosti kvantilov:

Za vsak p [0, 1] obstaja kvantil dane spremenljivke za dele p.

Kvantili niso nujno enolino doloeni.

e sta q in q kvantila za isti dele p in velja q q q, je tudi q kvantil za tadele.

Kvantil za dele p je vrednost s kvantilnim rangom priblino p. Velja tudi, da je vrednost,ki ima kvantilni rang p, kvantil za dele p. Sicer pa lahko kvantile (za delee, ki nisonujno kvantilni rangi) dobimo iz vrstilnih karakteristik, in sicer:

M. RAI: STATISTIKA 15

Kvantil za dele 0 je katero koli tevilo iz (, x(1)].

Kvantil za dele 1 je katero koli tevilo iz [x(n),).

e je 0 < p < 1 in je np celo tevilo, je kvantil za dele p katero koli tevilo izintervala [x(np), x(np+1)].

e je 0 < p < 1 in np ni celo tevilo, je kvantil za dele p enolino doloen, in sicerje enak x(np).

Kvantil za dele p navadno oznaimo s qp. Pomembni kvantili:

Kvantilu za dele 1/2 pravimo mediana in jo bomo oznaevali z m. Pogosta oznakaje tudi Me ali Me. Mediani pravimo tudi srednja vrednost in je mera centralnetendence. Pri dihotomnih spremenljivkah je mediana enaka modusu.

Kvantila za delea 1/3 in 2/3 sta prvi in drugi tercil.

Kvantili za delee 1/4, 1/2 in 3/4 so kvartili. Drugi kvartil je torej mediana.

Kvantilom za delee 0.1, 0.2, . . . 0.9 pravimo decili.

Kvantilom za delee 0.01, 0.02, . . . 0.99 pravimo centili ali tudi percentili. 1., 5., 95.in 99. percentil so pomembni v inferenni statistiki, ker na njih temeljijo dogovorjenipojmi. Pomembni so tudi q0.005, q0.025, q0.975 in q0.995.

Primer : pri ranirni vrsti:

10, 10, 20, 30, 50, 80, 130, 210, 340, 550

je mediana kar koli iz [x(5), x(6)] = [50, 80] (kar smo e ugotovili), tretji kvartil pa jex(8) = 210.

Vrednost 20 ima kvantilni rang 0.25 in je zato tudi kvantil za dele 0.25; kvantil zata dele je enolino doloen. Prav tako pa je enolino doloen tudi kvantil za dele 0.26,prav tako je enak 20, vendar 0.26 ni kvantilni rang vrednosti 20.

Pri sodem tevilu podatkov mediana tipino ni natanno doloena:

b b b b b b b b

pri lihem pa je:

b b b b b b b b b

16 M. RAI: STATISTIKA

e en primer z rezultati 50 meritev, kjer je s sivo oznaen interval za 9. decil :

Primer : pri ocenah s kolokvijev so vsi kvartili natanno doloeni. Prvi kvartil je sicerres na intervalu [x(16), x(17)], mediana na [x(32), x(33)] in tretji kvartil [x(48), x(49)], todax(16) = x(17) = neg., x(32) = x(33) = 6 in x(48) = x(49) = 7, zato lahko zapiemo q1/4 = neg.,m = 6 in q3/4 = 7.

Vrstilne karakteristike lahko grafino predstavimo s katlo z brki (angl. box plot).Navadno nariemo minimalno vrednost, kvartile in maksimalno vrednost, lahko pa tudikakne druge karakteristike.

Primer : rezultati kolokvijev iz matematike na univerzitetnem tudiju gozdarstva naUL BTF v tudijskem letu 2004/05:

0

18

36

54

72

1.2.3 Intervalske spremenljivke: interpolacija

Intervalske spremenljivke lahko vselej degradiramo v urejenostne in na njih gledamonpr. kvantile. Kot smo spoznali, le-ti niso vselej enolino doloeni. Vasih pa se pokaepotreba, da doloimo eno samo vrednost. Pri intervalskih spremenljivkah imamo za todosti ve manevrskega prostora. Eden od prijemov, ki so tukaj na voljo, je interpolacija.

Denimo, da opazujemo spreminjanje ene spremenljivke v odvisnosti od druge, npr. odasa. Ob asih t1 < t2 < . . . tn naj ima spremenljivka x vrednosti x1, x2, . . . xn. Kaknovrednost pa bi imela ob asu t, ki ni zajet v asih t1, t2, . . . tn (vozlih)?

M. RAI: STATISTIKA 17

Interpoliramo lahko za tk t tk+1 (kar je izven tega, je ekstrapolacija). Primeriinterpolacij:

a) interpolacija z vrednostjo v prejnjem vozlu: x = xk;

b) interpolacija z vrednostjo v naslednjem vozlu: x = xk+1;

c) interpolacija z minimalno vrednostjo: x = min{xk, xk+1};

d) interpolacija z maksimalno vrednostjo: x = max{xk, xk+1};

e) interpolacija z aritmetino sredino: x = (xk + xk+1)/2;

f) linearna interpolacija:

x = xk +xk+1 xktk+1 tk

(t tk) .

Primer :tk xk1 53 96 910 7

Interpolirane vrednosti za manjkajoe vmesne cele ase:

tk xk a) b) c) d) e) f)1 5 5 5 5 5 5 5

2 5 9 5 9 7 73 9 9 9 9 9 9 9

4 9 9 9 9 9 95 9 9 9 9 9 96 9 9 9 9 9 9 9

7 9 7 7 9 8 8.5

8 9 7 7 9 8 89 9 7 7 9 8 7

.5

10 7 7 7 7 7 7 7

Interpolacije a)e) so zelo grobe. Graf za linearno interpolacijo:

18 M. RAI: STATISTIKA

t

x

1 2 3 4 5 6 7 8 9 10

2

4

6

8

10

b

b b

b

Tako lahko interpoliramo range. rtnemu grafikonu (angl. line chart, line graph)iz linearno interpoliranih relativnih rangov zavzetih vrednosti pravimo ogiva, tudi oiva(angl., fr. ogive, v prvotnem pomenu gotski lok). Pri podatkih:

21, 27, 27, 27, 27, 28, 29, 29, 29, 32 ,

dobimo:

x

r

21 27 28 29 32

0.5

1

b

b

b

b

b

relativni rangi

ogiva

Interpoliramo tudi kvantile, in sicer na mnogo nainov. Interpolirani kvantili imajopomembno vlogo v inferenni statistiki. Iz ogive dobimo interpolirane range in eno vrstointerpoliranih kvantilov.

1.2.4 Intervalske spremenljivke: mere centralne tendence

Mera centralne tendence za dano statistino spremenljivko nam grobo povedani da vre-dnost, proti kateri se nagibajo vrednosti te spremenljivke na statistini mnoici.

Dve meri centralne tendence smo e spoznali: pri imenskih spremenljivkah je bil tomodus, pri urejenostnih pa mediana. Pri intervalskih lahko mediano e interpoliramo.

Pri intervalskih spremenljivkah pa kot mero centralne tendence najpogosteje gledamoaritmetino sredino (angl. arithmetic mean):

=x1 + x2 + + xn

n.

M. RAI: STATISTIKA 19

Primer : temperature po Sloveniji v ponedeljek, 20. februarja 2012, ob 17. uri (v Celzijevihstopinjah):

13, 2, 1, 5, 2 .Aritmetina sredina:

=13 + 2 + 1 + 5 + 2

5= 0.6

To seveda ni verodostojna ocena za povpreno temperaturo vseh naseljenih krajev vSloveniji, ker vzorec ni reprezentativen, a ve o tem kasneje. Verodostojneja ocena jemediana: m = 2. e bi temperaturo 13 stopinj, ki je bila izmerjena na Kredarici,zamenjali npr. s temperaturo 0 stopinj, izmerjeno v kaknem nije leeem kraju, bi zapovpreje dobili 2 stopinji, mediana pa se ne bi spremenila.

Vasih je aritmetino sredino laje izraunati po u-metodi : za poljubno izhodie uvelja:

= u+(x1 u) + (x2 u) + + (xn u)

n.

Razlikam xi u pravimo tudi odkloni (angl. deviations).

Primer :876, 879, 878, 878, 877 .

e za izhodie vzamemo u = 876, dobimo:

= 876 +0 + 3 + 2 + 2 + 1

5= 876 + 1

.6 = 877

.6 .

e spremenljivko linearno transformiramo, se enako zgodi tudi z vsemi omenjenimimerami centralne tendence:

Koliina Na stari spremenljivki Na novi spremenljivkiVrednost na i-ti enoti xi axi + bModus M aM + bMediana m am+ bAritmetina sredina a+ b

Pravimo, da mere centralne tendence komutirajo z linearnimi transformacijami. To veljatudi za vrstilne statistike in kvantile, e je a > 0:

Koliina Na stari spremenljivki Na novi spremenljivkiVrednost na i-ti enoti xi axi + bi-ta vrstilna statistika x(i) ax(i) + bKvantil za dele p qp aqp + b

Pri a < 0 pa se vrstilne statistike in kvantili zamenjajo:

Koliina Na stari spremenljivki Na novi spremenljivkiVrednost na i-ti enoti xi axi + bi-ta vrstilna statistika x(i) ax(n+1i) + bKvantil za dele p qp aq1p + b

20 M. RAI: STATISTIKA

Primer : e podatkom876, 879, 878, 878, 877 ,

ki imajo aritmetino sredino 877.6, odtejemo 870, dobimo podatke:

6, 9, 8, 8, 7 ,

ki imajo aritmetino sredino 7.6. e slednje pomnoimo z 10, dobimo podatke:

60, 90, 80, 80, 70 ,

ki imajo aritmetino sredino 76.

Primer : v anglosaksonskih dravah uporabljajo Fahrenheitove stopinje. Zveza med obo-jimi je:

xC = yF x = 5(y 32)9

y = 9x5

+ 32

(0F.= 17.78C ustreza hudemu mrazu, 100F .= 37.78C pa hudi vroini v zmerno

toplem podnebju). Temperature po Sloveniji v ponedeljek, 20. februarja 2012, ob 17. urilahko torej zapiemo takole:

Postaja temperatura (C) temperatura (F)Kredarica 13 8.6Letalie Edvarda Rusjana Maribor 2 35.6Letalie Joeta Punika Ljubljana 1 33.8Letalie Portoro 5 41.0Ljubljana 2 35.6

Kot smo e izraunali, je povprena temperatura v stopinjah Celzija:

13 + 2 + 1 + 5 + 25

= 0.6 ,

v stopinjah Fahrenheita pa:

8.6 + 35

.6 + 33

.8 + 41

.0 + 35

.6

5=

154.6

5= 30

.92

in to lahko dobimo tudi kot 95 (0.6) + 32.

1.2.5 Intervalske spremenljivke: mere razprenosti

Mere razprenosti povedo, za koliko se posamezne vrednosti med seboj razlikujejo. Ena odpreprostih mer razprenosti je interkvartilni razmik (angl. interquartile range, midspread,middle fifty):

IQR = q3/4 q1/4 .

M. RAI: STATISTIKA 21

(e kvartila nista natanno doloena, ju interpoliramo). Lahko gledamo tudi povpreniabsolutni odklon (average absolute deviation) od primerne mere centralne tendence. ele-to zaasno oznaimo z u, dobimo koliino:

AADu =|x1 u|+ |x2 u|+ + |xn u|

n.

Ta koliina je najmanja, e za u vzamemo mediano. Zato je smiselno gledati povpreniabsolutni odmik od mediane:

AADm =|x1 m|+ |x2 m|+ + |xn m|

n.

eprav mediana ni natanno doloena, je zgornja koliina vedno natanno doloena. Do-stikrat se gleda tudi povpreni absolutni odklon od aritmetine sredine:

AAD =|x1 |+ |x2 |+ + |xn |

n.

Najlepe raunske lastnosti pa imajo mere razprenosti, ki temeljijo na varianci alidisperziji :

var =(x1 )2 + (x2 )2 + + (xn )2

n.

Varianca je torej povpreni kvadratni odklon od aritmetine sredine. Lahko jo izraunamotudi po u-metodi:

var =(x1 u)2 + (x2 u)2 + + (xn u)2

n ( u)2 .

Od tod se vidi tudi, da je povpreni kvadratni odklon od u najmanji, e je u = .

Primer :8, 8, 9, 11, 11, 13, 14, 14, 14, 37 .

Prvi in tretji kvartil sta natanno doloena: q1/4 = 9, q3/4 = 14, torej je IRQ = 5.

Mediana ni natanno doloena je namre kar koli iz intervala [11, 13]. Toda kar koliiz tega intervala vzamemo za izraun AADm, dobimo isto:

2 |8 11|+ |9 11|+ 2 |11 11|+ |13 11|+ 3 |14 11|+ |37 11|10

= 4.5

2 |8 13|+ |9 13|+ 2 |11 13|+ |13 13|+ 3 |14 13|+ |37 13|10

= 4.5 .

Nadalje velja:

= 14 +2 (6) + (5) + 2 (3) + (1) + 23

10= 13

.9 ,

AAD =1

10

[

2 |8 13.9|+ |9 13.9|+ 2 |11 13.9|+ |13 13.9|+

+ 3 |14 13.9|+ |37 13.9|]

= 4.68 .

22 M. RAI: STATISTIKA

Konno je e:

var =2 (8 14)2 + (9 14)2 + 2 (11 14)2 + (13 14)2 + (37 14)2

10

(13.9 14)2 == 64

.49 .

Interkvartilni razmik in povpreni absolutni odklon sta neposredno primerljiva s po-datki oz. njihovimi razlikami, varianca pa ne. e podatke linearno transformiramo, se tetri koliine transformirajo takole:

Koliina Na stari spremenljivki Na novi spremenljivkiVrednost na i-ti enoti xi axi + bInterkvartilni razmik IQR |a| IQRPovpr. abs. odklon od mediane AADm |a| AADmPovpr. abs. odklon od aritm. sredine AAD |a| AADVarianca var a2 var

Primer : zamislimo si, da so podatki iz prejnjega primera doline v centimetrih. e bijih podali v metrih:

0.08, 0

.08, 0

.09, 0

.11, 0

.11, 0

.13, 0

.14, 0

.14, 0

.14, 0

.37 ,

bi dobili:

m [0.11, 0.13] , = 0.139 , AADm = 0.045 , AAD = 0.0468 , var = 0.006449 .

To so zdaj vse doline, razen variance, ki je v resnici ploina. Varianca ni neposrednoprimerljiva s podatki.

Zato raunamo standardni odklon (angl. standard deviation), ki je kvadratni korenvariance:

=var .

Varianco zato namesto z var navadno oznaimo kar s 2. Standardni odklon je neposrednoprimerljiv s podatki. Pri prejnjih podatkih bi, e bi raunali v centimetrih, dobili:

=64.49

.= 8.03 ,

e bi raunali v metrih, pa bi dobili:

=0.006449

.= 0.0803 .

e podatke linearno transformiramo, se standardni odklon transformira tako kot in-terkvartilni razmik ali povpreni absolutni odklon:

Koliina Na stari spremenljivki Na novi spremenljivkiVrednost na i-ti enoti xi axi + bStandardni odklon |a|

M. RAI: STATISTIKA 23

Vse zgoraj omenjene koliine preprosto dobimo iz frekvennih porazdelitev. Za zgledomenimo izraavo aritmetine sredine:

=1

n

(

f1a1 + f2a2 + + fkak)

=

= f 1a1 + f2a2 + + f kak =

= u+1

n

(

f1(a1 u) + f2(a2 u) + + fk(ak u))

=

= u+ f 1 (a1 u) + f 2 (a2 u) + + f k (ak u)in variance:

2 =1

n

(

f1(a1 )2 + f2(a2 )2 + + fk(ak )2)

=

= f 1 (a1 )2 + f 2 (a2 )2 + + f k (ak )2 =

=1

n

(

f1(a1 u)2 + f2(a2 u)2 + + fk(ak u)2)

(u )2 == f 1 (a1 u)2 + f 2 (a2 u)2 + + f k (ak u)2 ( u)2 .

Pravimo, da je tehtana sredina vrednosti a1, a2, . . . ak z utemi f 1 , f2 , . . . f

k . V splonem

je tehtana sredina vsak izraz zgornje oblike, pri katerem so utei nenegativne, njihovavsota pa je 1.

Primer : pozitivne ocene s kolokvijev pri predmetu Verjetnost in statistika na univerzite-tnem tudiju matematike na UL FMF v tudijskem letu 2010/11:

ocena fi6 137 128 79 310 4

Velja:

=13 6 + 12 7 + 7 8 + 3 9 + 4 10

39=

285

39.= 7.31 .

Lahko raunamo tudi po u-metodi:

= 8 +13 (2) + 12 (1) + 7 0 + 3 1 + 4 2

39= 8 27

39.= 7.31 .

Za izraun standardnega odklona je navadno potreben kalkulator. Lahko raunamo tako,da damo v spomin in vtipkamo:

var =13 (6 )2 + 12 (7 )2 + 7 (8 )2 + 3 (9 )2 + 4 (10 )2

39.= 1.649 ,

=var

.= 1.284 ,

lahko raunamo tudi po u-metodi:

var =13 (2)2 + 12 12 + 7 02 + 3 12 + 422

39 (8 )2 .= 1.649 .

24 M. RAI: STATISTIKA

Veina kalkulatorjev ima vgrajene posebne funkcije za izraun povpreja, variance instandardnega odklona, biti pa moramo previdni, saj obstaja tudi popravljena varianca,ki je pomembna v inferenni statistiki:

s2 =(x1 )2 + (x2 )2 + + (xn )2

n 1 .

Posebej preprosti so izrauni za dihotomne spremenljivke:

e spremenljivka zavzame le vrednosti 0 in 1, je aritmetina sredina enaka karrelativni frekvenci vrednosti 1.

e spremenljivka zavzame vrednost a z relativno frekvenco q, vrednost b pa z rela-tivno frekvenco p, velja:

AADm = min{p, q}|b a| , AAD = 2pq|b a| , = |b a|pq .

Standardizacija je postopek, pri katerem od vrednosti odtejemo aritmetine sredinein jih delimo s standardnim odklonom. Dobimo standardizirane vrednosti :

zi =xi

.

Standardizirane vrednosti nam omogoajo primerjavo razlinih spremenljivk, recimo naisti enoti. So invariantne za linearne transformacije s pozitivno strmino, t. j. le-te jihohranjajo. Natanneje:

KoliinaNa stari

spremenljivkiNa novi

spremenljivki(a > 0)

Na novispremenljivki

(a < 0)Vrednost na i-ti enoti xi axi + b axi + bStandardizirana vrednost zi zi zi

Primer :

Xstandardiziranavrednost

83 1.5522 1.5061 0.4545 0.3549 0.15

52 0 20 1

e podatkom odtejemo 22, dobimo:

M. RAI: STATISTIKA 25

Xstandardiziranavrednost

61 1.550 1.5039 0.4523 0.3527 0.15

30 0 20 1

in e te vrednosti podvojimo, dobimo:

Xstandardiziranavrednost

122 1.550 1.5078 0.4546 0.3554 0.15

60 0 40 1

Standardizirane vrednosti so ostale enake.

Primer : temperature po Sloveniji v ponedeljek, 20. februarja 2012, ob 17. uri:

Postaja/karakteristikatemperatura(C)

temperatura(F)

standardiziranavrednost

Kredarica 13 8.6 1.95Letalie Maribor 2 35.6 0.41Letalie Ljubljana 1 33.8 0.25Letalie Portoro 5 41.0 0.88Ljubljana 2 35.6 0.41 0.6 30.92 0var 40

.24 130

.38 1

6.34 11

.42 1

Standardizirane vrednosti so enake, najsi jih raunamo v Celzijevih ali Fahrenheitovihstopinjah.

Standardizirana vrednost podobno kot relativni rang pove, kje v skupini je doloenpodatek (pri dnu, v sredini, pri vrhu . . . )

e en primer : spet si oglejmo rezultate dveh kolokvijev:

26 M. RAI: STATISTIKA

Ambro 83Bla 22Cvetka 61Darja 45Emil 49

Florjan 84Gal 86Helena 71Iva 67Jana 67Karmen 88Lev 89Mojca 64

in se vpraajmo, kdo je glede na svoje kolege pisal bolje: Cvetka ali Gal?

Pri prvem kolokviju je = 52 in = 20, torej je Cvetkina standardizirana vrednost:

61 5220

= 0.45 .

Pri drugem kolokviju pa je = 77 in = 10, torej je Galova standardizirana vrednost:

86 7710

= 0.9 .

1.2.6 Zdruevanje vrednosti v razrede

Kadar je vrednosti veliko, frekvence pa so majhne (e so vrednosti zelo natanno izmerjene,se vsaka od njih tipino pojavi le enkrat), se splaa vrednosti zdruevati v razrede. Pritem obstajajo doloena pravila:

Razredi se ne smejo prekrivati.

Pri imenskih spremenljivkah, pri katerih vemo, katere vrednosti so blinje, morajorazredi obsegati blinje vrednosti.

Pri urejenostnih spremenljivkah mora vsak razred zajemati vrednosti iz doloenegaintervala. Paziti moramo na enoten dogovor, katera krajia intervalov (spodnja,zgornja) razred vkljuuje in katerih ne.

Pri intervalskih spremenljivkah lahko doloamo irine razredov. Kadar to delamo,se morajo sosedni intervali stikati: zgornja meja prejnjega razreda se mora ujematis spodnjo mejo naslednjega. Izbiramo imbolj realistine meje: e so podatki, kiso na voljo, zaokroeni, poskusimo predvideti, iz katerih realnih vrednosti je lahkobila dobljena posamezna zaokroena vrednost. Ne gre vedno za najblijo vrednost starost se zaokrouje navzdol.

Ni enotnega pravila, koliko razredov narediti oziroma kako iroki naj bodo.

V splonem se lahko drimo e omenjenega korenskega pravila, ki ga lahko zdajinterpretiramo tudi tako, da je v posameznem razredu priblino

n enot (kar nanese

priblinon razredov). Le-ti so lahko zelo razlinih irin.

M. RAI: STATISTIKA 27

e elimo dobiti enako iroke razrede, FreedmanDiaconisovo pravilo pravi, naj boirina posameznega razreda priblino 2 IQR/ 3n.

Primer : razporeditev tok svetovnem pokalu v alpskem smuanju za enske do7. 3. 2012. V kombinaciji tekmuje 39 smuark. Toke:

180, 125, 120, 110, 79, 63, 62, 56, 55, 50,

47, 45, 40, 39, 36, 32, 31, 28, 24, 22,

21, 20, 18, 18, 17, 16, 14, 13, 13, 9,

8, 6, 5, 4, 3, 3, 2, 1, 1 .

Po korenskem pravilu bi moralo biti v posamezni skupini priblino 6 smuark. Takobi bila morda smiselna naslednja razporeditev:

Toke Frekvenca Gostota Rel. gostota[0, 5) 6 1

.200 0

.03077

[5, 15) 7 0.700 0

.01795

[15, 25) 8 0.800 0

.02051

[25, 40) 5 0.333 0

.00855

[40, 60) 6 0.300 0

.00769

[60, 180) 7 0.058 0

.00150

,

Pri razlino irokih razredih je smiselno narediti histogram iz gostot frekvenc (angl.frequency densities). e je fi frekvenca, di pa irina i-tega razreda, je gostota frekvencenjun kvocient, lahko pa definiramo tudi relativno gostoto:

gi =fidi

, gi =f idi

.

Dele enot, katerih vrednosti spremenljivke se nahajajo v doloenih razredih, je tako enakploini ustreznih pravokotnikov v histogramu iz relativnih gostot frekvenc.

Histogram za prejnjo razdelitev smuark:

28 M. RAI: STATISTIKA

x

gi

20 40 60 80 100 120 140 160 180

0.2

0.4

0.6

0.8

1

1.2

Nazorneje pa bi bilo, e bi zadnjo (najvijo) skupino razdelili e glede na 100 tok,smuarko z najvijim rezultatom pa sploh prikazali posebej. Na primer:

Toke Frekvenca Gostota Rel. gostota[0, 5) 6 1

.200 0

.03077

[5, 15) 7 0.700 0

.01795

[15, 25) 8 0.800 0

.02051

[25, 40) 5 0.333 0

.00855

[40, 60) 6 0.300 0

.00769

[60, 100) 3 0.075 0

.00192

[100, 150) 3 0.060 0

.00154

180 1

,

Histogram:

x

gi

20 40 60 80 100 120 140 160 180

0.2

0.4

0.6

0.8

1

1.2 b

M. RAI: STATISTIKA 29

Po FreedmanDiaconisovem pravilu pa bi morala biti irina razreda priblino:

2 (50 9)339

.= 24

.18 ,

kar pomeni, da je smiselno, e je irina razredov 25. Dobili bi:

Toke Frekvenca[0, 25) 21[25, 50) 8[50, 75) 5[75, 100) 1[100, 125) 2[125, 150) 1[150, 175) 0[175, 200) 1

.

Histogram:

x

fi

25 50 75 100 125 150 175 200

5

10

15

20

25

1.2.7 Primerjanje vrednosti razmernostnih spremenljivk

Razmernostne spremenljivke se odlikujejo po tem, da lahko poljubni dve vrednosti delimo.e npr. delimo dva razlina decila, dobimo interdecilni kolinik. Pogosto je v uporabirazmerje q0.9/q0.1.

30 M. RAI: STATISTIKA

Primer : razporeditev tok svetovnem pokalu v alpskem smuanju za enske do7. 3. 2012. V kombinaciji tekmuje 39 smuark. Toke:

180, 125, 120, 110, 79, 63, 62, 56, 55, 50,

47, 45, 40, 39, 36, 32, 31, 28, 24, 22,

21, 20, 18, 18, 17, 16, 14, 13, 13, 9,

8, 6, 5, 4, 3, 3, 2, 1, 1 .

Iz q0.9 = 110 in q0.1 = 3 dobimo interdecilni kolinik 36.7.

Koeficient dinamike je razmerje med vrednostma razmernostne spremenljivke na dvehstatistinih enotah:

Ks/t =xsxt

.

indeks pa je koeficient dinamike, pomnoen s 100:

Is/t = 100Ks/t = 100xsxt

.

Koeficiente dinamike in indekse navadno uporabljamo takrat, ko so enote asi.

Vasih doloeno enoto, recimo t0, vzamemo za izhodie. Takrat koeficientom dina-mike Kt/t0 oziroma indeksom It/t0 pravimo bazni koeficienti dinamike oz. indeksi ali patudi koeficienti dinamike oz. indeksi s stalno osnovo. Vse koeficiente dinamike in indekselahko izpeljemo iz tistih s stalno osnovo:

Ks/t =Ks/s0Kt/t0

, Is/t = 100Is/s0It/t0

.

e so enote urejene po velikosti:

t0 < t1 < t2 < < tn(recimo e gre za ase), pa lahko gledamo verine koeficiente dinamike:

Kt1/t0 , Kt2/t1 , Kt3/t2 , . . . Ktn/tn1

oz. indekse:It1/t0 , It2/t1 , It3/t2 , . . . Itn/tn1

Velja:Ktn/t0 = Kt1/t0 Kt2/t1 Ktn/tn1 .

e so asi enakomerno razmaknjeni, ima smisel raunati povpreni koeficient dinamike,ki je geometrina sredina verinih koeficientov dinamike:

Ktn/t0 =n

Kt1/t0 Kt2/t1 Ktn/tn1 .Njegov pomen je, da, e bi vse verine koeficiente dinamike zamenjali s povprenim, sebazni koeficient dinamike Ktn/t0 ne bi spremenil. Podobno velja tudi za povpreni veriniindeks :

I tn/t0 =n

It1/t0 It2/t1 Itn/tn1 .

M. RAI: STATISTIKA 31

Primer :xi Kti/t0 Iti/t0 Kti/ti1 Iti/ti120 1 100 25 1

.25 125 1

.25 125

30 1.5 150 1

.2 120

27 1.35 135 0

.9 90

Povpreni koeficient dinamike: 31.35

.= 1.105

Povpreni verini indeks: 110.5.

1.3 Mere povezanosti dveh statistinih spremenljivk

bivariatna analiza

Gre za to, da elimo za dve statistini spremenljivki, definirani na isti statistini mnoici,izmeriti, koliko sta odvisni druga od druge.

POZOR! Povezanost dveh statistinih spremenljivk e ne pomeni, da ena od njijuneposredno vpliva na drugo povezanost ne implicira vzronosti. Navadno povezanostnastane zaradi tega, ker na obe spremenljivki vpliva neka tretja spremenljivka (lahko zeloposredno), le-to pa je dostikrat teko doloiti.

Kvantitativno (tevilsko) opredeljevanje odvisnosti je odvisno od tipa spremenljivk.

1.3.1 Povezanost dveh imenskih spremenljivk

Porazdelitev dveh imenskih spremenljivk predstavimo s kontingenno tabelo:

b1 b2 bla1 f11 f12 f1l f1a2 f21 f22 f2l f2...

....... . .

......

ak fk1 fk2 fkl fkf1 f2 fl n

Pri tem so:

a1, a2, . . . ak vrednosti prve spremenljivke, npr. X;

b1, b2, . . . bl vrednosti druge spremenljivke, npr. Y ;

fij navzkrine frekvence (angl. joint frequencies, cross-frequencies): navzkrina fre-kvenca fij pove, na koliko enotah je X = ai in hkrati Y = bj ali s formulo:

fij = (X = ai, Y = bj) ;

32 M. RAI: STATISTIKA

fi in fj robne frekvence (angl. marginal frequencies): robne frekvence:

fi = fi1 + fi2 + + fil = (X = ai)

tvorijo frekvenno porazdelitev spremenljivke X, robne frekvence:

fj = f1j + f2j + + flj = (Y = bj)

pa tvorijo frekvenno porazdelitev spremenljivke Y . Seveda velja:

n = f1 + f2 + + fk = f1 + f2 + + fl .

Definiramo lahko tudi relativne navzkrine frekvence in relativne robne frekvence:

f ij =fijn

, f i =fin

=l

j=1

fij , fj =

fjn

=l

i=k

fij .

Primer : barva oi in barva las

Absolutne frekvence:

oi\lasje blond rdei rjavi, rni Skupajmodre 7 2 2 11zelene 4 0 2 6rjave 0 0 9 9

Skupaj 11 2 13 26

Relativne frekvence:

oi\lasje blond rdei rjavi, rni Skupajmodre 0.269 0.077 0.077 0.423zelene 0.154 0.000 0.077 0.231rjave 0.000 0.000 0.346 0.346

Skupaj 0.423 0.077 0.500 1.000

Obstaja veliko tevilskih mer (pokazateljev) povezanosti. Eden najboljih je Cramr-jev koeficient asociiranosti, osnova za njegov izraun pa so teoretine relativne navzkrinefrekvence:

f ij = fi f

j ,

Teoretine relativne frekvence v naem primeru:

oi\lasje blond rdei rjavi, rni Skupajmodre 0.179 0.033 0.212 0.423zelene 0.098 0.018 0.115 0.231rjave 0.146 0.027 0.173 0.346

Skupaj 0.423 0.077 0.500 1.000

M. RAI: STATISTIKA 33

Cramrjev koeficient asociiranosti pa je definiran s formulo:

V :=

1

min{k, l} 1

k

i=1

l

j=1

(

f ij f ij)2

f ij.

Pri naem primeru izraunamo:

V =

[(

(0.269 0.179)2

0.179

+(0.077 0.033)2

0.033

+(0.077 0.212)2

0.212

+

+(0.154 0.098)2

0.098

+(0.000 0.018)2

0.018

+(0.077 0.115)2

0.115

+

+(0.000 0.146)2

0.146

+(0.000 0.027)2

0.027

+(0.346 0.173)2

0.173

)]1/2.=

.= 0.55 .

Cramrjev koeficient asociiranosti lahko izraunamo tudi iz (absolutnih) frekvenc. Za tanamen najprej izraunamo teoretine (absolutne) frekvence:

fij = nfij =

fifjn

in velja:

V =

2

n(

min{k, l} 1) ,

kjer je 2 Pearsonova statistika hi kvadrat (angl. chi-squared):

2 = nk

i=1

l

j=1

(

f ij f ij)2

f ij=

k

i=1

l

j=1

(fij fij)2fij

Teoretine absolutne frekvence pri prejnji tabeli barv oi in las so:

oi\lasje blond rdei rjavi, rni Skupajmodre 4.65 0.84 5.50 11zelene 2.54 0.46 3.00 6rjave 3.81 0.69 4.50 9

Skupaj 11 2 13 26

Velja 2.= 15

.62.

Lastnosti Cramrjevega koeficienta asociiranosti:

Velja 0 V 1.

e staX in Y neodvisni in je dovolj podatkov, je V blizu 0: ve kot je podatkov, boljnatanno to velja. Kasneje pri inferenni statistiki se bomo nauili, kako postavitimejo.

34 M. RAI: STATISTIKA

Koeficient V je maksimalen (enak 1) natanko tedaj, ko spremenljivki natannodoloata druga drugo (sta popolnoma povezani).

Kvalitativno opredeljevanje koeficienta asociiranosti je precej subjektivne narave. Tu sebomo drali naslednjih dogovorov:

do 0.2: neznatna povezanost; od 0.2 do 0.4: nizka povezanost; od 0.4 do 0.7: zmerna povezanost; od 0.7 do 0.9: visoka povezanost; od 0.9 do 1: zelo visoka povezanost.

Pri primeru z barvo oi in las sta torej spremenljivki zmerno povezani.

e sta obe spremenljivki dihotomni (lahko zavzameta le dve vrednosti) in je njunaporazdelitev podana s kontingenno tabelo:

b1 b2

a1 A Ba2 C D

,

je izraava Cramrjevega koeficienta asociiranosti preprosteja:

V =|AD BC|

(A+ B)(C +D)(A+ C)(B +D).

Ve informacije pa nam da predznaena vrednost:

=AD BC

(A+ B)(C +D)(A+ C)(B +D).

e je > 0, to pomeni, da se enote, na katerih prva spremenljivka zavzame prvovrednost, nagibajo k temu, da tudi druga spremenljivka zavzame prvo vrednost;nasprotno se enote, na katerih prva spremenljivka zavzame drugo vrednost, nagibajok temu, da tudi druga spremenljivka zavzame drugo vrednost.

e je < 0, to pomeni, da se enote, na katerih prva spremenljivka zavzame prvovrednost, nagibajo k temu, da druga spremenljivka zavzame drugo vrednost; na-sprotno se enote, na katerih prva spremenljivka zavzame drugo vrednost, nagibajok temu, da tudi druga spremenljivka zavzame prvo vrednost.

Primer : rezultati ankete z dvema vpraanjema:

1. Ali verjamete v horoskop?

2. Ali verjamete v NLP-je?

M. RAI: STATISTIKA 35

so zbrani v naslednji tabeli:

Horoskop\NLP vsaj malo ne Skupajvsaj malo 5 7 12ne 6 9 15

Skupaj 11 16 27

Velja =5 9 7 612 15 11 16

.= 0.017.

Gre torej za neznatno pozitivno povezanost.

1.3.2 Povezanost dveh intervalskih spremenljivk

Povezanost dveh intervalskih spremenljivk lahko merimo s Pearsonovim korelacijskimkoeficientom. e vrednosti prve oznaimo z x1, . . . xn, vrednosti druge pa z y1, . . . yn,najprej izraunamo kovarianco:

K = K x,y :=(x1 x)(y1 y) + (x2 x)(y2 y) + + (xn x)(yn y)

n,

kjer sta x in y aritmetini sredini naih spremenljivk:

x =x1 + x2 + + xn

n, y =

y1 + y2 + + ynn

.

e je kovarianca pozitivna, pravimo, da sta spremenljivki pozitivno korelirani. e jenegativna, sta negativno korelirani. e je enaka ni, sta nekorelirani.

Kovarianco lahko raunamo tudi po u-metodi: za poljubna u in v velja:

K x,y =(x1 u)(y1 v) + (x2 u)(y2 v) + + (xn u)(yn v)

n (x u)(y v) .

Lahko jo raunamo tudi iz kontingenne tabele:

K x,y =1

n

k

i=1

l

j=1

fij(ai x)(bj y) =

=k

i=1

l

j=1

f ij(ai x)(bj y) =

=1

n

k

i=1

l

j=1

fij(ai u)(bj v) (x u)(y v) =

=k

i=1

l

j=1

f ij(ai x)(bj y) (x u)(y v)

36 M. RAI: STATISTIKA

Varianca statistine spremenljivke je njena kovarianca same s seboj.

e preuujemo ve spremenljivk hkrati (multivariatna analiza), je pomembna kovari-anna matrika:

K =

K11 K12 . . . K1nK21 K22 . . . K2n...

.... . .

...Kn1 Kn2 . . . Knn

S Kij smo tu oznaili kovarianco i-te in j-te spremenljivke. V multivariatni analizi jeanaliza matrik (ki temelji na linearni algebri) kljunega pomena.

Pearsonov korelacijski koeficient je definiran s formulo:

r = rx,y =K x,y

x y,

kjer sta x in y standardna odklona naih spremenljivk:

x =

(x1 x)2 + (x2 x)2 + + (xn x)2n

,

y =

(y1 y)2 + (y2 y)2 + + (yn y)2n

.

Lastnosti Pearsonovega korelacijskega koeficienta:

Definiran je, e nobena od spremenljivk ni konstantna.

Velja 1 r 1.

e sta X in Y neodvisni in je dovolj podatkov, je r blizu 0 (kasneje pri inferennistatistiki se bomo nauili, kako postaviti mejo).

Pearsonov korelacijski koeficient je maksimalen (enak 1), e je katera koli od spre-menljivk naraajoa linearna funkcija druge.

Pearsonov korelacijski koeficient je minimalen (enak 1), e je katera koli od spre-menljivk padajoa linearna funkcija druge.

Pearsonov korelacijski koeficient meri stopnjo linearne povezanosti med statistinima spre-menljivkama.

Absolutna vrednost Pearsonovega korelacijskega koeficienta (|r|) je v grobem primer-ljiva s Cramrjevim koeficientom asociiranosti. e ve, za par dihotomnih spremenljivkse to dvoje celo ujema, ne glede na to, kateri dve (razlini) tevili priredimo vrednostmaposamezne spremenljivke (ki nista nujno tevilski lahko sta le imenski). e gledamopar urejenostnih dihotomnih spremenljivk in e tevilske vrednosti priredimo v skladu zurejenostjo, velja r = .

M. RAI: STATISTIKA 37

Zato je smiselno, e tudi Pearsonov korelacijski koeficient enako kvalitativno oprede-ljujemo kot pri Cramrjev koeficient, s tem da lahko sedaj povemo tudi smer povezanosti:vrednost r = 0.6 torej pomeni zmerno negativno koreliranost.Kvadratu korelacijskega koeficienta (r2) pravimo determinacijski koeficient. Njegovo

kvalitativno opredeljevanje je torej naslednje:

do 0.04: neznatna povezanost; od 0.04 do 0.16: nizka povezanost; od 0.16 do 0.49: zmerna povezanost; od 0.49 do 0.81: visoka povezanost; od 0.81 do 1: zelo visoka povezanost.

Primer : vremenska napoved temperatur za naslednjih nekaj dni

dan jutranja dnevnapetek 14 19sobota 12 20nedelja 10 21ponedeljek 11 22torek 12 21

Grafino lahko to ponazorimo z diagramom razprenosti (tudi razsevni diagram, angl.scatter plot, scattergraph):

jutranja

dnevna

10 11 12 13 14

19

20

21

22

b

b

b

b

b

b

Izraun Pearsonovega korelacijskega koeficienta:

xi yi xi 10 yi 20 (xi 10)2 (yi 20)2 (xi 10)(yi 20)14 19 4 1 16 1 412 20 2 0 4 0 210 21 0 1 0 1 011 22 1 2 1 4 012 21 2 1 4 1 2

Vsota 9 3 25 7 2Povpreje 1.8 0.6 5 1.4 0.4

38 M. RAI: STATISTIKA

Kovarianca: K.= 0 1.8 0.6 = 1.08.

Standardna odklona: x =5 1.82 .= 1.327, y =

1.4 0.62 .= 1.020

Pearsonov korelacijski koeficient: r.=

1.081.327 1.020

.= 0.80.

Determinacijski koeficient: 0.64.Jutranja in dnevna temperatura sta torej visoko negativno povezani: pri viji jutranjitemperaturi lahko priakujemo nijo dnevno.

Pri takni napovedi, kot je ta (za nekaj zaporednih dni) ima pri korelaciji verjetnonejvejo teo vpliv oblanosti, ki via jutranjo, a nia dnevno temperaturo. Pri napovediza dalje obdobje bi bila korelacija bistveno drugana.

e en primer : med 20 tudenti izvedemo anketo z dvema vpraanjema:

1. Koliko ur na dan preivi na raunalniku?

2. Koliko ur na dan preivi zunaj s prijatelji?

Rezultati ankete so zbrani v naslednji kontingenni tabeli (vrstice so ure na raunalniku,stolpci pa ure s prijatelji):

X \ Y 1 2 3 4 5 fi1 1 1 0 0 1 32 2 2 2 0 1 73 3 1 1 0 0 54 0 1 1 1 0 35 1 1 0 0 0 2fj 7 6 4 1 2 20

Gre za intervalski spremenljivki, zato je smiselno gledati Pearsonov korelacijski koeficient.Najprej izraunamo povpreja:

x =1 3 + 2 7 + 3 5 + 4 3 + 5 2

20= 2.7 ,

y =1 7 + 2 6 + 3 4 + 4 1 + 5 2

20= 2.25 .

Anketiranci so, kot trdijo, torej v povpreju na dan preiveli 2.7 ure za raunalnikom in2.25 ure s prijatelji.

Kot naslednji korak bomo izraunali standardna odklona. e gremo raunat po u-metodi in vzamemo u = 3 (za x) in v = 2 (za y), dobimo:

2x =1

20

[

(1 3)2 3 + (2 3)2 7 + (3 3)2 5 + (4 3)2 3 + (5 3)2 2]

(2.7 3)2 = 1.41 ,

2y =1

20

[

(1 2)2 7 + (2 2)2 6 + (3 2)2 4 + (4 2)2 1 + (5 2)2 2]

(2.25 2)2 = 1.5875 ,

M. RAI: STATISTIKA 39

od koder dobimo x.= 1.1874 in y

.= 1.2600.

Kovarianca:

K x,y =1

20

[

(2) (1) 1 + (2) 0 1 + (2) 1 0 + (2) 2 0 + (2) 3 1 +

+ (1) (1) 2 + (1) 0 2 + (1) 1 2 + (1) 2 0 + (1) 3 1 ++ 0 (1) 3 + 0 0 1 + 0 1 1 + 0 2 0 + 0 2 0 ++ 1 (1) 0 + 1 0 1 + 1 1 1 + 1 2 1 + 1 2 0 +

+ 2 (1) 1 + 2 0 1 + 2 1 0 + 2 2 0 + 2 2 0]

(2.7 3) (2.25 2) == 0.225 .

Pearsonov korelacijski koeficient: r.=

0.2251.1874 1.2600

.= 0.15. Gre torej za neznatno

negativno povezanost.

e nekaj primerov diagramov razprenosti z razlinimi korelacijskimi koeficienti :

To so rezultati tistih 52 tudentov, ki so v tudijskem letu 2010/11 na biopsihologijipisali oba kolokvija iz statistike:

x

y

r = 0.58

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

bb

b

b

bb

b

b

b b

b

b

b

b

b

b

b

b

b

b

b

b

bb

b

b

To so nakljuno generirani podatki, a nakljunost je nastavljena tako, da so nekoreli-rani.

40 M. RAI: STATISTIKA

x

y

r = 0

b

b

b

b

b

b

b

b

b

b

bbb

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

bb

b

bb

b

b

b bb

b

b

b

b

b

bb

b

bb

b

b

bbb

bb

b

b

b

b

bb

b

b

bb

bb

b

b

bbb

b

bb

b

b

b

bbb

b

b

bb bb

b

b

b

b

Ti podatki so visoko pozitivno korelirani.

x

y

r = 0.9

b

b

b

bb

b

b

b

b

b

b

b

b

b

bb

b

b b

b

b

b

b

b

b

b

b

b

bb

b

b

bb

b

b

bb

b

b

b

b

b

b

b

bb

b

bb

b

bb

b

b

b

bbb

bb

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b bbb

b

b

bb

b b

b

b

bb

b

b

b

b

Skrajni primer je korelacija 1, ko gre za linearno odvisnost.

x

y

r = 1b

bb bb

b

b

b

b

b b

b

bbb

b

b b

bbb

b

b

b

b

b

bb

b

b

Korelacija je lahko tudi negativna:

x

y

r = 0.5

b

b

b

b

b

b

b b

b

b

b

b

b

b

b

b

b

b

b

bb

b

b b

b

b

b

b

b

b

b

b

b

b

b

bb

bb

b

b

b

b

b

bb

b

b

b

b

b

b

b

b

b

b

b

b

b

bb

b

b

b

b

bb

b

b

bb

b

b

b

b

b

b

b

b

b

b

b

b b

b

b

b

b bb

b

bb

bbb

bb

b

b

M. RAI: STATISTIKA 41

Tukaj je korelacija enaka 1:

x

y

r = 1

bb b bb

b

bbb

bbb b bb

bb

bbb b

bb

b

b

b

bb

bb

e en primer nekoreliranih podatkov:

x

y

r = 0

bb

b

b

b

b

b

b

b

b

b

b

b b

b

b

b

bb

b

b

bb

b

b

b

b

b

b

bb

b

bb

b

b

b

bb b

b

b

b

b

bb

b

b

b

b b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

bb

b

b

b

b

b

bb

b

b

b

b

b

b b

b

b

b

b

bb

b

b

b

b

bb

bb

b

b

Tukaj se y deterministino izraa z x, podatki pa so nekorelirani.

x

y

r = 0

bbbbbbbbbbbbb bb bb bb b bb b b b b b b b b b b b b b b b b b

bbbbbbbbbbbbbbbbbbbbbbbb b b b b b b b b b b b b b b b b b

b b bb bb bb bbbbbbbbbbbb

42 M. RAI: STATISTIKA

1.3.3 Povezanost intervalske in dihotomne spremenljivke

Podatke, kjer sta na isti statistini mnoici definirani intervalska spremenljivka (recimoU) in dihotomna spremenljivka (recimo S), lahko predstavimo bodisi kot:

u1, u2, . . . uN

s1, s2, . . . sN

bodisi podatke razdelimo glede na vrednost dihotomne spremenljivke. e le-ta zavzamevrednosti a in b, lahko podatke, na katerih druga spremenljivka zavzame vrednost a,predstavimo z:

x1, x2, . . . xm ,

podatke, na katerih druga spremenljivka zavzame vrednost b, pa z:

y1, y2, . . . yn .

e drugae, gledati dve spremenljivki, od katerih je druga dihotomna, na eni statistinimnoici, je ekvivalentno gledanju prve spremenljivke na dveh razlinih statistinih mnoi-cah (dihotomna spremenljivka nam statistino mnoico razdeli na dve skupini).

Primer : pri nekem izpitu gledamo rezultat in spol:

Ime Rezultat (ui) Spol (si)Jan 22 MKarmen 39 Barbara 73 Kristina 34 Domen 52 MKatja 34 Alja 39 MRok 52 MSabina 38 Diana 53 Jerica 59 Tilen 43 M

Rezultate lahko loimo po spolih:

enske: x1 = 39 , x2 = 73 , x3 = 34 , x4 = 34 , x5 = 38 , x6 = 53 , x7 = 59 .

Moki: y1 = 22 , y2 = 52 , y3 = 39 , y4 = 52 , y5 = 43 .

Prikaz s pikami:

enske: b bbb

b b b

Moki: b bbb

b

M. RAI: STATISTIKA 43

e sta a in b numerini vrednosti, lahko izraunamo Pearsonov korelacijski koeficient.Br ko je a > b, je le-ta enak:

rpb =x y

mn

m+ n,

ne glede na to, koliko sta vrednosti a in b dejansko enaki. Zato ni nujno, da je dihotomnaspremenljivka numerina, lahko je le imenska. Koeficient za ta primer imenujemo tokovnibiserialni korelacijski koeficient (angl. point biserial correlation coefficient).

Oznaka se tu nanaa na celostni standardni odklon, t. j. standardni odklon spre-menljivke U :

=

(u1 )2 + (u2 )2 + + (uN )2N

=

=

(x1 )2 + (x2 )2 + + (xm )2 + (y1 )2 + (y2 )2 + + (yn )2N

,

pa je aritmetina sredina vseh podatkov:

=u1 + u2 + + uN

N,

Pri naem primeru je:

x.= 47

.14 , y = 41

.6 ,

.= 44

.83 , 2

.= 169

.8 ,

.= 13

.03 ,

torej je:

rpb.=

47.14 41.613.03

7 5

7 + 5.= 0.2097 .

Kvalitativno opredeljevanje tokovnega biserialnega koeficienta je enako kot pri Pear-sonovem: gre torej za nizko povezanost v korist ensk. Ali drugae, enske so pisale malobolje kot moki.

Aritmetina sredina vseh podatkov je enaka tehtani sredini aritmetinih sredin posa-meznih skupin:

=m

m+ nx +

n

m+ ny .

z uteema, ki sta sorazmerni z velikostma skupin, ki ju predstavljata.

Kvadrat celostnega standardnega odklona, torej celostno (celotno, totalno) varianco,pa lahko zapiemo kot vsoto:

2 = 2W + 2B ,

kjer je:

2W =m

m+ n2x +

n

m+ n2y

varianca znotraj skupin (angl. within groups) ali tudi nepojasnjena varianca (angl. une-xplained variance, pooled variance) in:

2B =mn

(m+ n)2(x y)2

44 M. RAI: STATISTIKA

varianca med skupinama (angl. between groups ali tudi pojasnjena varianca (angl. ex-plained variance). To je tisti del variance, ki jo pojasnjuje skupina, v kateri je podatek.

Na zgornji in splonejih razlenitvah variance temelji analiza variance (angl. analysisof variance, ANOVA), ki je pomemben del inferenne statistike. Malo kasneje bomoomenili posploitev na ve skupin.

Kvadrat tokovnega biserialnega korelacijskega koeficienta (tokovni biserialni deter-minacijski koeficient) predstavlja dele pojasnjene variance ali tudi mo uinka (angl.strength of effect, effect size), saj velja:

r2pb =2B2

=2B

2W + 2B

.

Njegovo kvalitativno opredeljevanje je torej enako kot pri determinacijskem koeficientu.

Pri naem primeru je recimo:

.= 44

.83

.=

7

12 47.14 + 5

12 41.6 .

Varianca med skupinama (varianca, pojasnjena s spolom), je enaka:

2B =7 5

(7 + 5)2(47.14 41.6)2 .= 7.5 .

Nadalje je:2x

.= 191

.3 , x

.= 13

.83 , 2y

.= 121

.8 , y

.= 11

.04 .

in varianca znotraj skupin (nepojasnjena varianca) je enaka:

2W.=

7

12 191.3 + 5

12 121.8 .= 162.3 .

Opazimo, da je res 2.= 169

.8 = 7

.5 + 121

.8

.= 2B +

2W. Dele pojasnjene variance je

enak:7.5

169.8

.= 0.04398

.= 0.20972 .

e sta obe spremenljivki dihotomni, velja rpb = .

Kot mero za povezanost intervalske in dihotomne spremenljivke lahko gledamo tudistandardizirano razliko povpreij (angl. standardized mean difference) ali tudi Cohenovkoeficient :

d =x yW

Tokovni biserialni in Cohenov koeficient nam dajeta isto informacijo, saj se izraata drugz drugim:

rpb =d

d2 + (m+n)2

mn

, d =m+ n

mn

r1 r2

.

M. RAI: STATISTIKA 45

Nudita pa dva razlina pogleda: tokovni biserialni korelacijski koeficient je osredotoenbolj na povezanost, Cohenov koeficient pa bolj na razliko.

V naem primeru je:

d.=

47.14 41.6162.3

.= 0.435 .

1.3.4 Povezanost intervalske in imenske spremenljivke

Podatke, kjer sta na isti statistini mnoici definirani intervalska spremenljivka (recimoX) in imenska spremenljivka (recimo S), lahko spet predstavimo bodisi kot:

x1, x2, . . . xn

s1, s2, . . . sn

bodisi podatke razdelimo glede na vrednost imenske spremenljivke. e le-ta zavzamevrednosti a1, a2, . . . ak, podatke preindeksiramo v:

x11, x12, . . . x1n1 : vrednosti spremenljivke X, kjer je S = a1x21, x22, . . . x2n2 : vrednosti spremenljivke X, kjer je S = a2

...

xk1, xk2, . . . xkn2 : vrednosti spremenljivke X, kjer je S = ak

Seveda velja n1 + n2 + + nk = n.e drugae, na eni statistini mnoici gledati dve spremenljivki, od katerih je druga

imenska, ki zavzame k vrednosti, je ekvivalentno gledanju prve spremenljivke na k razli-nih statistinih mnoicah (imenska spremenljivka nam statistino mnoico razdeli na kskupin).

Merjenje povezanosti med intervalsko in imensko spremenljivko temelji na analizi va-riance (natanneje, v naem kontekstu je to analiza variance z enojno klasifikacijo). Spetoznaimo z aritmetino sredino na celotni statistini mnoici:

=x1 + x2 + + xn

n,

z 1, 2, . . . k pa aritmetine sredine na posameznih skupinah:

i =xi1 + xi2 + + xini

ni,

Tedaj je tehtana sredina aritmetinih sredin i:

=n1n

1 +n2n

2 + +nkn

k .

Celostna varianca:

2 =(x1 )2 + (x2 )2 + + (xn )2

n

46 M. RAI: STATISTIKA

spet razpade na nepojasnjeno in pojasnjeno varianco:

2 = 2W + 2B ,

kjer je nepojasnjena varianca ali varianca znotraj skupin tehtana sredina posameznihvarianc v skupinah:

2i =(xi1 i)2 + (xi2 i)2 + + (xini i)2

ni,

2W =n1n

21 +n2n

22 + +nkn

2k ,

pojasnjena varianca ali varianca med skupinami pa je tehtana sredina kvadratov odklonovaritmetinih sredin posameznih skupin od celostne aritmetine sredine:

2B =n1n

(1 )2 +n2n

(2 )2 + +nkn

(k )2 .

Lahko jo izraunamo tudi po u-metodi:

2B =n1n

(1 u)2 +n2n

(2 u)2 + +nkn

(k u)2 ( u)2 .

Zgoraj definirane variance so posploitve varianc, ki smo jih gledali pri povezanosti inter-valske in dihotomne spremenljivke. Tako povezanost intervalske in imenske spremenljivkespet merimo z deleem pojasnjene variance oz. mojo uinka:

2 =2B2

,

Dele pojasnjene variance kvalitativno opredeljujemo enako kot determinacijski koeficient:e je pojasnjenih 25% variance (2 = 0.25), to pomeni zmerno povezanost.

e je intervalska spremenljivka dihotomna, se dele pojasnjene variance ujema s kva-dratom Cramrjevega koeficienta asociiranosti: 2 = V 2. e sta torej obe spremenljivkidihotomni, velja 2 = 2.

Primer : elimo izmeriti povezavo med pogostnostjo zahajanja v kino in najbolj prilju-bljeno zvrstjo filma. Za ta namen izvedemo anketo z dvema vpraanjema:

1. Kolikokrat na mesec gre v kino?

2. Katera zvrst filma ti je najbolj ve?

(a) Komedija.

(b) Akcija.

(c) Romantini film.

(d) Drama.

(e) Grozljivka.

M. RAI: STATISTIKA 47

Pogostnost zahajanja v kino je intervalska, zvrst filma pa imenska spremenljivka. Rezul-tati ankete so naslednji:

zvrst filma\t. obiskov kina 0 1 2 Skupaj Povprejekomedija 4 2 2 8 0.75akcija 0 1 0 1 1

romantini 0 3 1 4 1.25drama 4 1 2 7 0.7143grozljivka 0 0 0 0

Skupaj 8 7 5 20 0.85

Celostna varianca:

2 =8 (0 0.85)2 + 7 (1 0.85)2 + 5 (2 0.85)2

20= 0.6275 .

Varianca med skupinami (pojasnjena varianca):

2B =8 (0.75 0.85)2 + 1 (1 0.85)2 + 4 (1.25 0.85)2 + 7 (0.7143 0.85)2

20.=

.= 0.0436 .

Dele pojasnjene variance:

2.=

0.0436

0.6275

.= 0.069 .

Razlinost najljubih zvrsti filma torej pojasni 6.9% variance tevila obiskov kina. Topomeni nizko povezanost.

1.3.5 Povezanost dveh urejenostnih spremenljivk

Povezanost dveh urejenostnih spremenljivk merimo s Spearmanovim ali Kendallovim ko-relacijskim koeficientom. Raunanje slednjega je nekoliko bolj zapleteno, zato se bomoposvetili le prvemu.

Sploni pristop pri urejenostnih spremenljivkah je, da uporabimo metode za intervalskespremenljivke na rangih. Spearmanov korelacijski koeficient je definiran natanko v temduhu: to je Pearsonov koeficient, izraunan za vezane range. e z R(x)1 , R

(x)2 , . . . R

(x)n ozna-

imo vezane range spremenljivke X, z R(y)1 , R(y)2 , . . . R

(y)n pa vezane range spremenljivke Y

po enotah, se kovarianca rangov izraa s formulo:

KR(x),R(y) =

(

R(x)1 R

)(

R(y)1 R

)

+(

R(x)2 R

)(

R(y)2 R

)

+ +(

R(x)n R

)(

R(y)n R

)

n

kjer je:

R =n+ 1

2

48 M. RAI: STATISTIKA

povpreni rang (ker je le-ta celo tevilo ali pa celo tevilo in pol, u-metoda tu ni tolikosmiselna). Nato izraunamo e standardna odklona rangov:

R(x) =

(

R(x)1 R

)2+(

R(x)2 R

)2+ +

(

R(x)n R

)2

n,

R(y) =

(

R(y)1 R

)2+(

R(y)2 R

)2+ +

(

R(y)n R

)2

n,

e ni vezi, velja kar:

R(x) = R(y) =

n2 112

.

Spearmanov korelacijski koeficient torej definiramo po formuli:

= x,y :=KR(x),R(y)

R(x) R(y)

Seveda lahko zgornje koliine izraunamo tudi iz kontingenne tabele. e z R(x)(a) ozna-imo vezani rang vrednosti a glede na spremenljivko X, z R(y)(b) oznaimo vezani rangvrednosti b glede na spremenljivko Y , velja:

KR(x),R(y) =1

n

k

i=1

l

j=1

fij(

R(x)(ai) R)(

R(y)(bj) R)

,

R(x) =

1

n

k

i=1

fi(

R(x)(ai) R)2

,

R(y) =

1

n

l

j=1

fj(

R(y)(bj) R)2

.

Spearmanov korelacijski koeficient je primerljiv s Pearsonovim in ga tudi enako kvali-tativno opredeljujemo. e sta obe spremenljivki dihotomni, se Spearmanov in Pearsonovkoeficient ujemata. Nasploh ima Spearmanov korelacijski koeficient podobne lastnosti kotPearsonov:

Definiran je, e nobena od spremenljivk ni konstantna.

Velja 1 1.

e sta X in Y neodvisni in je dovolj podatkov, je blizu 0 (kasneje pri inferennistatistiki se bomo nauili, kako postaviti mejo).

Spearmanov korelacijski koeficient je maksimalen (enak 1), e je katera koli odspremenljivk strogo naraajoa (a ne nujno linearna) funkcija druge.

M. RAI: STATISTIKA 49

Spearmanov korelacijski koeficient je minimalen (enak 1), e je katera koli odspremenljivk strogo padajoa (a ne nujno linearna) funkcija druge.

Spearmanov korelacijski koeficient torej meri stopnjo monotone povezanosti.

Tudi Kendallov korelacijski koeficient () je primerljiv s Spearmanovim.

Primer : elimo izmeriti povezavo med zadovoljstvom s telesno teo in subjektivnim vpli-vom medijev. Za ta namen izvedemo anketo z dvema vpraanjema, pri katerih imamonaslednje izbire:

1. Ali ste zadovoljni s svojo teo?

(a) Da.

(b) Srednje.

(c) Ne.

2. V kolikni meri mediji vplivajo na vao samopodobo?

(a) Sploh ne vplivajo.

(b) Srednje vplivajo, z njimi se primerjam.

(c) Mono vplivajo, sam(a) sebi se zdim grd(a).

Obe spremenljivki (zadovoljstvo s telesno teo in vpliv medijev) sta tako urejenostni.Rezultati ankete so predstavljeni v naslednji kontingenni tabeli:

Zad. s teo\Vpliv medijev ga ni srednji moan Skupajda 8 1 0 9srednje 2 1 0 3ne 2 4 2 8

Skupaj 12 6 2 20

Povpreni rang: R = 10.5.

Rangi posameznih odgovorov in njihovi odmiki od povprenega:

ai R(x)(ai) R

(x)(ai) Rda 5 -5.5srednje 11 0.5ne 16.5 6

bj R(y)(bj) R

(y)(bj) Rda 6.5 -4srednje 15.5 5ne 19.5 9

Standardna odklona rangov:

R(x) =

1

20

(

9 (5.5)2 + 3 0.52 + 8 62)

= 5.296 ,

R(y) =

1

20

(

12 (4)2 + 6 52 + 2 92)

= 5.020 .

50 M. RAI: STATISTIKA

Kovarianca rangov:

KR(x),R(y) =1

20

[

8 (5.5) (4) + 1 (5.5) 5 + 0 (5.5) 9 +

+ 2 0.5 (4) + 1 0.5 5 + 0 0.5 9 +

+ 2 6 (4) + 4 6 5 + 2 6 9]

=

= 16.35 .

Spearmanov korelacijski koeficient:

.=

16.35

5.296 5.020

.= 0.615 .

Gre torej za zmerno povezanost.

1.3.6 Povezanost urejenostne in dihotomne spremenljivke

Povezanost urejenostne in dihotomne spremenljivke se da meriti s Spearmanovim korela-cijskim koeficientom (izbrani vrstni red vrednosti dihotomne spremenljivke vpliva le napredznak). Vendar pa je navadno bolja mera povezanosti HerrnsteinVarghaDelaneyjevkoeficient.

Za izraun tega koeficienta potrebujemo ranirno vrsto vseh vrednosti prve (urejeno-stne) spremenljivke. Oznaimo z R(a) vezani rang vrednosti a glede na to ranirno vrsto.Nato podatke razdelimo glede na vrednosti druge (dihotomne spremenljivke), nastanetadve skupini. e so:

x1, x2, . . . xm

vrednosti prve spremenljivke v prvi skupini,

y1, y2, . . . yn

pa vrednosti prve spremenljivke v drugi skupini, je HerrnsteinVarghaDelaneyjev koefi-cient definiran s predpisom:

A :=R(x1) +R(x2) + +R(xm) m(m+1)2

mn=

= 1 R(y1) +R(y2) + +R(yn)n(n+1)

2

mn.

(navadno raunamo po tisti razliici, kjer je treba seteti manj rangov).

Lastnosti HerrnsteinVarghaDelaneyjevega korelacijskega koeficienta:

Definiran je vedno.

Velja 0 A 1.

M. RAI: STATISTIKA 51

e sta vrednost urejenostne spremenljivke in skupina neodvisni ter je dovolj podat-kov, je A blizu 1/2 (kasneje pri inferenni statistiki se bomo nauili, kako postavitimejo).

Koeficient A je minimalen (enak 0), e so vse vrednosti iz prve skupine(x1, . . . xm) strogo manje od vseh vrednosti iz druge skupine (y1, . . . yn).

Koeficient A je maksimalen (enak 1), e so vse vrednosti iz prve skupine(x1, . . . xm) strogo veje od vseh vrednosti iz druge skupine (y1, . . . yn).

HerrnsteinVarghaDelaneyjev koeficient A ni neposredno primerljiv s Spearmanovimkoeficientom (t. j. Spearmanovim koeficientom urejenostne spremenljivke in skupine,e prvo skupino postavimo na prvo, drugo pa na drugo mesto), pa pa je v grobemprimerljiv z 2A 1, A pa je v grobem primerljiv z (+ 1)/2. Zato je smiselno naslednjekvalitativno opredeljevanje:

od 0 do 0.05: vrednosti iz prve skupine so skoraj vse manje od vrednosti iz drugeskupine; od 0.05 do 0.15: vrednosti iz prve skupine so precej manje od vrednosti iz drugeskupine; od 0.15 do 0.3: vrednosti iz prve skupine so zmerno manje od vrednosti iz drugeskupine; od 0.3 do 0.4: vrednosti iz prve skupine so malo manje od vrednosti iz drugeskupine; od 0.4 do 0.5: vrednosti iz prve skupine so neznatno manje od vrednosti iz drugeskupine; od 0.5 do 0.6: vrednosti iz prve skupine so neznatno veje od vrednosti iz drugeskupine; od 0.6 do 0.7: vrednosti iz prve skupine so malo veje od vrednosti iz druge skupine; od 0.7 do 0.85: vrednosti iz prve skupine so zmerno veje od vrednosti iz drugeskupine; od 0.85 do 0.95: vrednosti iz prve skupine so precej veje od vrednosti iz drugeskupine; od 0.95 do 1: vrednosti iz prve skupine so skoraj vse veje od vrednosti iz drugeskupine.

Koeficienta A in ne nudita iste informacije:

Koeficient A opisuje, v kolikni meri skupina doloa nabor surovih rangov znotrajnje: skrajni vrednosti pomenita, da so vrednosti v eni skupini vse na eni strani, vdrugi skupini pa vse na drugi strani ranirne vrste, medtem ko so vrednosti znotrajposamezne skupine lahko razline.

Koeficient pa opisuje, v kolikni meri skupina doloa vezane range znotraj nje:skrajni vrednosti pomenita, da so vse vrednosti znotraj posamezne skupine enake(vendar v obeh skupinah razline, sicer ni definiran).

52 M. RAI: STATISTIKA

Primer : gledamo povezavo med konnim uspehom v 4. letniku srednje ole in spolom.Rezultati so naslednji:

uspeh\spol moki enski Skupaj Kumulativno Vezani rangnezadosten 0 0 0 0 zadosten 2 1 3 3 2dober 4 2 6 9 6.5

prav dober 4 4 8 17 13.5odlien 2 1 3 20 19

Skupaj 12 8 20

Povpreni rang: 10.5.

e A vzamemo v korist mokih, dobimo:

A =2 2 + 4 6.5 + 4 13.5 + 2 19 1213

2

12 8 =

= 1 1 2 + 2 6.5 + 4 13.5 + 1 19 89

2

12 8 =.= 0.458 .

Moki so bili torej neznatno slabi od ensk.

1.3.7 Povezanost urejenostne in imenske spremenljivke

Povezanost urejenostne in imenske spremenljivke merimo s KruskalWallisovim deleempojasnjene variance. V skladu s splono filozofijo obravnave urejenostnih spremenljivk jeto dele pojasnjene variance za vezane range. Gre torej za vrsto analize variance.

e torej imenska spremenljivka S zavzame vrednosti a1, a2, . . . ak, lahko range ureje-nostne spremenljivke indeksiramo takole:

R11, R12, . . . R1n1 : rangi na enotah, kjer je S = a1R21, R22, . . . R2n2 : rangi na enotah, kjer je S = a2

...

Rk1, Rk2, . . . Rkn2 : rangi na enotah, kjer je S = ak

Seveda velja n1 + n2 + + nk = n.

Spet je povpreni rang vedno enak R =n+ 1

2, celostna varianca pa je enaka:

2 =1

n

k

i=1

ni

j=1

(Rij R)2

M. RAI: STATISTIKA 53

in e ni vezi, je 2 =n2 112. e zdaj z R1, R2, . . . Rk oznaimo povprene range na

posameznih skupinah:

Ri =Ri1 +Ri2 + +Rini

ni,

je pojasnjena varianca rangov enaka:

2B =n1n

(R1 R)2 +n2n

(R2 R)2 + +nkn

(Rk R)2 .

KruskalWallisov dele pojasnjene variance (mo uinka) pa je enak:

2KW =2B2

,

Primer : elimo izmeriti povezavo med poutjem in barvo zgornjega dela oblaila. Za tanamen vzamemo 20 anketirancev in:

Jih povpraamo, kako se poutijo, pri emer jim damo na voljo 5-stopenjsko lestvico.To je urejenostna spremenljivka.

Si ogledamo barvo njihovega zgornjega oblaila. Barve razdelimo v tiri kategorije:temne (rna, rjava, siva, temno modra, vijoliasta), bela, svetle (rumena, rdea,roza, oranna, zelena, svetlo modra), pisane. To je imenska spremenljivka.

Rezultati ankete:

poutje\barva temna bela svetla pisana Skupaj Kum. Rangzelo slabo 0 0 0 0 0 0 slabo 2 0 1 0 3 3 2nevtralno 4 1 1 4 10 13 8.5kar dobro 4 1 0 1 6 19 16.5odlino 1 0 0 0 1 20 20

Skupaj 11 2 2 5 20Povpreje 11.27 12.5 5.25 10.1

Celostni povpreni rang:20 + 1

2= 10

.5.

Povpreni rangi po skupinah v zadnji vrstici tabele so dobljeni na naslednji nain:

R1 =1

11

[

2 2 + 4 8.5 + 4 16.5 + 1 20]

.= 11

.27 ,

R2 =1

2

[

1 8.5 + 1 16.5]

.= 12

.5 ,

R3 =1

2

[

1 2 + 1 8.5]

.= 5.25 ,

R4 =1

5

[

4 8.5 + 1 16.5]

.= 10

.1 .

54 M. RAI: STATISTIKA

Celostna varianca:

2 =1

20

[

3 (2 10.5)2 + 10 (8.5 10.5)2 + 6 (16.5 10.5)2 + 1 (20 10.5)2]

= 28.15 .

Varianca znotraj skupin (pojasnjena varianca):

2B.=

1

20

[

11(11.2710.5)2+2(12.510.5)2+2(5.2510.5)2+5(10.110.5)2]

.= 3.525 .

KruskalWallisov dele pojasnjene variance:

2KW.=

3.525

28.15

.= 0.125 .

Gre torej za nizko povezanost.

2.

Teorija verjetnosti

2.1 Verjetnostni prostori

2.1.1 Osnovni pojmi verjetnosti

Pojem verjetnost (angl. probability) v praksi navadno interpretiramo kot predvideni (oce-njeni, priakovani) dele poskusov, pri katerih se zgodi doloen dogodek.

Primer : stavek:

Verjetnost, da boste pri statistiki dobili oceno 10, je 9%

si navadno razlagamo kot:

Ocenjujemo, da bo 9% takih, kot ste vi, pri statistiki dobilo oceno 10.

Take ocene dostikrat temeljijo na podatkih iz preteklosti, vasih pa tudi na simetrijiali fizikalnih dejstvih.

Primer : e je kovanec simetrien, domnevamo, da je poten, kar pomeni, da cifra in grbpadeta z enako verjetnostjo, t. j. 1/2. Niso pa vsi kovanci vedno poteni, e zlasti ne, ekovanec zavrtimo in akamo, da se prevrne. Bolje je, e kovanec vremo v zrak, tako dase velikokrat zavrti.

Zapiimo zdaj to malo sploneje. Poskus je realizacija natanno doloenih pogojev,pri katerih opazujemo enega ali ve dogodkov. Po realizaciji poskusa mora biti za vsakdogodek jasno, ali se je zgodil ali ne. To ponazorimo z diagramom:

poskus dogodek

55

56 M. RAI: STATISTIKA

pri emer pikasta puica pomeni, da je to, na kar kae, znano ele po realizaciji poskusa.

Pri prejnjih dveh primerih je bil poskus opravljen izpit (v tiste, ki odnehajo, se tu nebomo spuali) in met kovanca. Pri kovancu je smiselno obravnavati dogodka pade grbin pade cifra, pri izpitu pa je dogodkov, ki jih je smiselno obravnavati, ve, npr. dobimo10, dobimo 6, dobimo ve kot 7 itd.

Ali se je dani dogodek zgodil ali ne, izvemo ele po realizaciji poskusa. Navadno paelimo kaj izraunati, e preden izvedemo poskuse. Zato je smiselno vzpostaviti pojem, napodlagi katerega lahko a priori (e pred izvedbo poskusa) opredelimo, ali se je posamezendogodek zgodil ali ne. To vlogo igra pojem izida: e poznamo izid, moramo za vsakdogodek vedeti, ali se je zgodil ali ne. Po realizaciji poskusa pa moramo vedeti tudi,kateri izid se je zgodil (kako se je izel poskus). To prikaemo z diagramom:

poskus izid dogodek

pri emer pikasta puica spet pomeni, da je to, na kar kae, znano ele po realizacijiposkusa, neprekinjena puica pa, da je znano a priori, e vnaprej.

Teorija verjetnosti se gradi od izidov naprej: vsi moni izidi sestavljajo mnoico, do-godki pa so njene podmnoice. Mnoico izidov bomo oznaevali z .

Primer : pri metu kovanca je mnoica izidov = {c, g}, moni dogodki pa so tirje: = {}, {c}, {g} in {c, g} = . Prvi dogodek je nemogo, drugi pa gotov.

Primer : pri metu standardne kocke je smiselno postaviti:

= { b , b b , b b b , bb bb , bb bbb , bbb bbb } .

Monih dogodkov je 26 = 64 (za vsak izid imamo dve monosti ali je v izbranem dogodkuali pa ga ni notri). Oglejmo si naslednjih est:

A = {pade natanko est pik } = { bbb bbb } ,B = {pade najmanj pet pik} = { bb bbb , bbb bbb } ,C = {pade liho tevilo pik} = { b , b b b , bb bbb } ,D = {pade manj kot est pik} = { b , b b , b b b , bb bb , bb bbb } ,E = {pade najve est pik} = { b , b b , b b b , bb bb , bb bbb , bbb bbb } = D = {pade ve kot est pik} = {} = .

(2.1.1)

Dogodek F je nemogo, dogodek E pa je gotov.

Pripomnimo naj, da za dogodke ne moremo vedno proglasiti vseh podmnoic prostoraizidov, temve le doloeno druino podmnoic, ki mora imeti posebne lastnosti. Ve otem v nadaljevanju.

V teoriji je verjetnost preslikava, ki vsakemu dogodku A priredi tevilo P(A) iz in-tervala [0, 1], njegovo verjetnost. Omenili smo, da verjetnost navadno interpretiramo kot

M. RAI: STATISTIKA 57

oceno za dele poskusov. V teoriji zahtevamo, da ima verjetnost doloene lastnosti, kijih ima tudi dele. To so tako imenovani aksiomi Kolmogorova, ki jih bomo predstavili vnadaljevanju.

Primer : pri potenem kovancu so verjetnosti vseh monih dogodkov enake:

P() = 0 , P({c}) = 12, P({g}) = 1

2, P({c, g}) = 1 .

Primer verjetnosti pri nepotenem (pristranskem) kovancu:

P() = 0 , P({c}) = 0.7 , P({g}) = 0.3 , P({c, g}) = 1 .

2.1.2 Diskretna verjetnost

Omenili smo e, da je v teoriji verjetnost nekaj, kar se obnaa podobno kot dele. No, everjetnost izida (dogodka) kar definiramo kot dele poskusov, ki se izidejo na predpisaninain (pri katerih se zgodi dani dogodek), velja:

Verjetnost vsakega izida je tevilo iz intervala [0, 1].

Verjetnost vsakega dogodka je vsota verjetnosti izidov, ki jih dani dogodek zajema.

Vsota verjetnosti vseh izidov je enaka 1.

e torej v tem primeru poznamo verjetnosti posameznih izidov, poznamo tudi verjetnostidogodkov. To nam da navdih za naslednjo splonejo, bolj teoretino definicijo verjetnosti.

Verjetnostna funkcija (angl. probability mass function, pmf ) na danem prostoru izidov je predpis, ki vsakemu izidu priredi tevilo iz intervala [0, 1], ki ga bomo navadnooznaevali s p() in mu rekli verjetnost izida. Vsota verjetnosti vseh izidov mora biti 1:

p() = 1 .

e je = {1, 2, . . . n}, kjer so vsi izidi 1, . . . n razlini, zgornji zapis pomeni:

p(1) + p(2) + + p(n) = 1 .

Primer : pri potenem kovancu je p(c) = p(g) = 12, pri prejnjem primeru pristranskega

kovanca pa je p(c) = 0.7 in p(g) = 0.3.

Verjetnostno funkcijo lahko zapiemo z verjetnostno shemo, ki je zapis oblike:(

1 2 np1 p2 pn

)

,

58 M. RAI: STATISTIKA

kjer so 1, 2, . . . n vsi moni izidi, t. j. = {1, 2, . . . n}. Verjetnostna shema je vkanonini obliki, e so vse vrednosti 1, 2, . . . n razline. Tako zapisana verjetnostnashema definira verjetnostno funkcijo po predpisu:

p(1) = p1, p(2) = p2, . . . p(n) = pn .

Verjetnostna shema potenega kovanca:

(

c g1/2 1/2

)

.

Primer verjetnostne sheme pristranskega kovanca:

(

c g0.7 0.3

)

.

Primer :

(

c g0.5 0.3

)

,

(

c g0.8 0.3

)

in

(

c g1.2 0.2

)

niso verjetnostne sheme: pri prvi je

vsota verjetnosti manja od 1, pri drugi veja od 1, pri tretji pa je sicer enaka 1, averjetnosti niso iz intervala [0, 1].

Vasih ima smisel, da se vrednosti v verjetnostni shemi ponavljajo. V tem primeruvrednost verjetnostne funkcije dobimo s setevanjem:

p() =

i;i=

pi .

in tako lahko vsako verjetnostno shemo zapiemo v kanonini obliki.

Primer : verjetnostna shema:(

a b a c b0.1 0.2 0.3 0.1 0.3

)

je ekvivalentna verjetnostni shemi v kanonini obliki:(

a b c0.4 0.5 0.1

)

.

Diskretni verjetnostni prostor je mnoica izidov skupaj z verjetnostno funkcijo.Verjetnost dogodka A z verjetnostno funkcijo definiramo kot:

P(A) :=

A

p() .

Za enostavne dogodke (t. j. tiste, ki vsebujejo en sam izid) velja:

P({}) = p() .

e je verjetnostna funkcija podana z verjetnostno shemo (v kanonini ali nekanoniniobliki), velja:

P(A) =

i;iA

pi .

M. RAI: STATISTIKA 59

Torej za vsako verjetnostno shemo velja p1+p2+ +pn = 1. Velja tudi, da vsaka shemazgornje oblike, v kateri je 0 pi 1 za vse i in e p1 + p2 + + pn = 1, predstavljaverjetnostno shemo neke verjetnostne funkcije.

Primer : potena kocka ima verjetnostno shemo:(

bb

b

bbb

b

b

b

b

b

b

b

bb

bbb

bbb

1/6 1/6 1/6 1/6 1/6 1/6

)

.

in verjetnosti dogodkov iz (2.1.1) so enake:

P(A) =1

6, P(B) =

2

6=

1

3, P(C) =

3

6=

1

2, P(D) =

5

6, P(E) = 1 , P(F ) = 0 .

Pri poteni kocki so vsi izidi enako verjetni. V splonem, e verjetnostni prostorvsebuje n enako verjetnih izidov, je p() = 1/n za vse . Verjetnosti dogodkov se potemizraajo kot razmerja:

P(A) =(A)

n=

(A)

().

Pri poteni kocki lahko reemo tudi, da je tevilo pik izbrano na slepo iz mnoice{1, 2, 3, 4, 5, 6}. Splono, slepa izbira (angl. by chance, uniformly at random) pomeni, daso vse monosti, ki jih lahko izberemo, enako verjetne.

Pri slepi izbiri je torej verjetnost dogodka kar dele izidov, ki so zajeti v tem dogodku.To spomninja na motivacijo za verjetnost iz podrazdelka 2.1.1, kjer je verjetnost ocena zadele poskusov, pri katerih se zgodi dani dogodek. No, e verjetnost dejansko definiramokar kot dele poskusov, to pomeni, da smo privzeli, da je poskus izbran na slepo.

Seveda pa ni nujno, da so vsi izidi enako verjetni.

Primer : pri nepoteni kocki z verjetnostno shemo:(

bb

b

bbb

b

b

b

b

b

b

b

bb

bbb

bbb

0.05 0

.15 0

.15 0

.15 0

.15 0

.35

)

(2.1.2)

so verjetnosti prej omenjenih dogodkov enake:

P(A) = p( bbb

bbb

) = 0.35 , P(B) = p( bb bbb ) + p( bb

b

bbb

) = 0.5 ,

P(C) = p( b ) + p( b b b ) + p( bb bbb ) = 0.35 ,

P(D) = p( b ) + p( b b ) + p( b b b ) + p( bb bb ) + p( bb bbb ) = 0.65 ,

P(E) = 1 , P(F ) = 0 .

Posvetimo se zdaj e malo slepi izbiri. Pomembna primera sta slepo vleenje z vraa-njem in brez vraanja. Slepo vleenje r elementov z vraanjem iz dane mnoice pomeni,da so vse urejene r-terice (a1, a2, . . . ar) izvleenih elementov enako verjetne (loimo to-rej razline vrstne rede vleenja). Slepo vleenje brez vraanja pa pomeni, da so enakoverjetne vse tiste r-terice, ki imajo vse elemente razline.

60 M. RAI: STATISTIKA

Primer : Iz mnoice kart {as, kralj, dama, fant} na slepo izvleemo dve karti. Kolikna jeverjetnost, da bo med njima vsaj ena dama?

Odgovor je odvisen od tega, ali vleemo z vraanjem ali brez. e vleemo z vraanjem,verjetnostni prostor sestavlja naslednjih 16 enako verjetnih izidov:

AA AK AQ AJKA KK KQ KJQA QK QQ QJJA JK JQ JJ

kjer prva rka pomeni prvo, druga pa drugi izvleeno karto, in kjer se drimo standardnihkratic A za asa, K za kralja, Q za damo in J za fanta. Vsaj eno damo izvleemo prinatanko pri natanko 7 izidih. Verjetnost tega dogodka je torej 7/16 = 0.4375.

e pa vleemo brez vraanja, verjetnostni prostor sestavlja le naslednjih 12 enakoverjetnih izidov:

AK AQ AJKA KQ KJQA QK QJJA JK JQ

in vsaj eno damo izvleemo pri natanko 6 izidih (in v tem primeru je to isto kot rei, daizvleemo natanko eno damo). Verjetnost tega dogodka je zdaj torej 6/12 = 1/2 = 0.5.

Slepo vleenje je pomembno v statistiki, kjer mu pravimo enostavno sluajno vzorenjes ponavljanjem ali brez, naboru izvleenih elementov pa vzorec. Na statistini mnoicivelikosti n obstaja nr monih vzorcev s ponavljanjem in:

n(n 1)(n 2) (n r + 1)

vzorcev brez ponavljanja.