Aplikovaná statistika 2. seminář

Aplikovaná statistika2. seminář

Popisná statistika

Jeden mrtvý je tragédie. Desítka mrtvých je masakr. Tisíce mrtvých je statistikastatistika..

Základní pojmy:

• Statistický soubor - je množina všech prvků, které jsou předmětem daného statistického zkoumání.

Podle druhu hodnot dělíme sledované (statistické) znaky na:

Kvantitativní a kvalitativnídiskrétní spojité ordinální nominální

Jednoduché třídění četností

Tarifní třída (xi)

Počet pracovník

ů (ni)

Relativní četnosti

(pi)

Kumulativní

absolutní četnosti

Kumulativní relativní

četnosti

3 2 0,027 2 0,027

4 11 0,147 13 0,174

5 19 0,253 32 0,427

6 27 0,360 59 0,787

7 16 0,213 75 1

Celkem 75 1 x x

Intervalové třídění četností

Intervaly počtu odpracovaných hodin

Počet pracovníků (ni) Střed intervalu (xi)

100 – 120 1 110

120 – 140 3 130

140 – 160 2 150

160 – 180 19 170

180 – 200 22 190

200 – 220 22 210

220 – 240 4 230

240 – 260 2 250

Celkem 75 x

Na počet intervalů (tříd) a jejich délku neexistuje jednotný názor, ani obecný předpis. Používá se řada pravidel pro stanovení počtu tříd, z nichž uvedeme tzv. Yulesovo pravidlo

Pro stanovení délky intervalu d se používá tzv. Sturgesovo pravidlo

4/1)(5,2 nk

n

xxd

log322,31minmax

Statistické grafy

Histogram a polygon

• Výsečový graf

pomer = [1, 3, 7, 0.9, 0.5]; pie(pomer);

• Krabičkový graf (vousatá krabička)

X1 = normrnd(5, 1, 100,1);

X2 = normrnd(6, 1, 100,1);

Boxplot([x1,x2],‘notch‘,‘on‘)

• Paretův graf

Příčina závady Počet [Ks]

Chyba navažování 211

Špatné vstupní suroviny 124

Míchání 42

Špatný filtr 20

Nedodržení teplotního režimu 35

Špatné pracovní prostředí 15

Situace, kdy 80% následků způsobuje 20 % příčin. Zdůraňuje fakt, že není nutné zabývat se všemi příčinami, nýbrž že pro dostatečný efekt stačí postihnout pouze nejdůležitější z nich. Např. seřadíme-li ve výrobě všechny příčiny zmetkovosti dle počtu jimi způsobených zmetků, zjistíme, že zhruba prvních 20 % příčin nám způsobuje zhruba 80 % všech zmetků, stačí se tedy obvykle zabývat jimi.

Tvary rozdělení

Základní statistické charakteristiky

úroveňx variabilita

Střední hodnoty

průměry ostatní střední hodnoty

aritmetický

geometrický

kvadratický

harmonický

chronologický

modus

medián

variační rozpětí

rozptyl

směrodatná odchylka

variační koeficient

průměrná odchylka

míra variability hodnot kardinální proměnné

variabilita hodnot kategoriální proměnné

KvantilyKvantil je hodnota, která rozděluje soubor hodnot

určitého statistického znaku na dvě části, jedna obsahuje ty hodnoty, které jsou menší (nebo stejné) než tento kvantil, druhá část naopak obsahuje hodnoty, které jsou větší (nebo stejné) než kvantil.

Výpočet kvantilu z intervalového rozdělení:

ppp

p ahn

nzx

2

1~ , kde

5,0npz p

zp je pořadové číslo jednotky, jejíž hodnota bude hledaný kvantil,

n je počet pozorování,

p udává relativní četnosti nižších hodnot, jejíž horní mez je hledaný kvantil,

n1 je kumulativní četnost jednotek ležících před kvantilovým intervalem,

n2 je četnost intervalu, v němž leží hledaný kvantil,

h je délka kvantilového intervalu,

ap je hodnota, která tvoří dolní hranici kvantilového intervalu.

Medián, modus

• Medián (padesátiprocentní kvantil), x̃�50

- extrémní hodnoty, robustnost

• Soubor: 20 20 20 20 20 20 30 30 35 35 70 84 95Počet dat v souboru je 13, tedy liché číslo: medián je tudíž roven (13+1)/2=7 (sedmá hodnota uspořádané posloupnosti, tedy číslo 30)

Soubor: 20 20 20 20 20 30 30 35 84 95Počet dat v datovém souboru je 10, tedy sudé číslo: medián je tudíž roven (20+30)/2=25

• Modus (hodnota s nejvyšší četností)

Soubor: 10 15 20 20 25 38 40Nejvyšší četnost v tomto datovém souboru zastává hodnota 20.

Př.: Výpočet mediánu z intervalového rozdělení četností

Interval měsíčních

příjmů

Počet pracovníků (ni)

Kumulativní součty

- 7 000 8 8

7 001 – 7 400 25 33

7 401 – 7 800 32 65

7 801 – 8 200 26 91

8 201 – 8 600 15 106

8 601 – 9 000 6 112

9 001 – 9 400 3 115

9 401 a více 1 116

Celkem 116 x

1. Zjistíme pořadové číslo jednotek, z jejichž hodnot medián vypočteme

Medián tedy leží v intervalu, který obsahuje prvek s pořadovým číslem 58,5. Z posledního sloupce tabulky, jenž obsahuje kumulativní součty, zjistíme, že nejbližší vyšší číslo, obsahující v sobě hodnotu z0,50 je 65. Hledaný medián bude tedy ležet v intervalu 7 401 – 7 800. Chceme-li znát konkrétní hodnotu mediánu, dosadíme do

5,585,05,01165,0 npz p

75,7719740140032

335,58~

2

1

ppp

p ahn

nzx

Odpověď: Střední mzda tedy činí 7 719,75.

Míry polohy

n

ii

i

n

ii

n

nn

w

wx

www

wxwxwxx

1

1

21

2211

...

...

k

ii

i

k

ii

n

nxx

1

1

Vážený aritmetický průměr Vahou např. četnost (ni) z rozdělení četností pro nespojitou proměnnou s k variantami hodnot

Tarifní třída (xi) Počet pracovníků (ni)

xini

3 2 6

4 11 44

5 19 95

6 27 162

7 16 112

Celkem 75 419

Př.: Z následující tabulky vypočteme průměrnou tarifní třídu v souboru 75 provozních pracovníků. (Vážený aritmetický průměr)

6,575

419

1

1

k

ii

k

iii

n

nxx

Průměrné tarifní zařazení provozních pracovníků je tedy 5,6.

Geometrický průměr:

uplatnění v případech, kdy hodnoty tvoří alespoň přibližně geometrickou řadu

analýza časových řad, výpočty tempa růstu atd.

Příklad: Meziroční indexy cen jistého zboží jsou uvedeny v tabulce. Vypočítejte průměrný cenový index. (je tedy nutné vypočítat geometrický průměr)

Rok Cena Index

88 100 -

89 105 1,050

90 110 1,048

91 116 1,054

92 130 1,121

nng xxxx ...21

_

0678,1121,1054,1048,1050,14_

gx

Harmonický průměr

n

i i

h

x

nx

1

1

Harmonický průměr z nenulových hodnot statistického souboru je definován jako podíl rozsahu souboru (počtu členů) a součtu převrácených hodnot znaků. Jinými slovy je to převrácená hodnota aritmetického průměru převrácených hodnot zadaných členů.

Používá se, jsou-li hodnoty znaku nerovnoměrně rozloženy kolem aritmetického průměru, nebo když jsou hodnoty extrémně nízké či vysoké.

Př.: Z údajů v následující tabulce vypočítáme vážený harmonický průměr.

xi ni ni/xi

4 5 1,25

6 10 1,67

8 12 1,50

11 15 1,36

12 8 0,67

Součet 50 6,45

75,745,6

50

1

1

k

i i

i

k

ii

H

x

n

nx

Harmonický průměr se převážně používá v teorii indexů (výpočet průměrových tvarů souhrnných indexů)

Kvadratický průměr:

n

x

n

xxxx

n

ii

nk

1

222

221 ...

Diskrétní verze kvadratického průměru je použita například při výpočtu směrodatné odchylky.

Spojitý kvadratický průměr je použit při výpočtu efektivní hodnoty střídavého napětí nebo střídavého proudu.

Chronologický průměr

12

1...

2

1121

n

yyyyy

nn

Druh váženého průměru, užívaný ve statistice k výpočtu průměru z časových řad.

Prostý chronologický průměr: prostý chronologický průměr při

konstantní vzdálenosti mezi okamžiky měření

Vážený chronologický průměr: nestejné vzdálenosti mezi okamžiky o

velikosti tw (pro vzdálenost mezi t–tým a (t–1) okamžikem).

Pořadí jednotlivých typů průměrů vypočtených ze stejného souboru: Pro harmonický a geometrický průměr musí být všechny počítané hodnoty kladné.

Vlastnosti aritmetického průměru:

• Součet jednotlivých odchylek od průměru je nulový.• Aritmetický průměr konstanty je opět roven konstantě.• Přičteme-li k jednotlivým hodnotám znaku konstantu, zvýší se o

tuto konstantu i aritmetický průměr.• Násobíme-li jednotlivé hodnoty znaku konstantou, je touto

konstantou násoben i průměr.• Násobíme-li váhy aritmetického průměru konstantou, průměr se

nezmění.

xh xg x xk

Další odhady polohy rozdělení

• Useknutý (uřezaný) průměr- desetiprocentní uřezaný průměr - vynechá se 10% nejnižších výsledků - 10% nejvyšších výsledků - ze zbytku se počítá průměr.- volí se 5%, 10% nebo 25%- robustní

• Polosuma - citlivá na odlehlé hodnoty

2minmax xx

x

Vzájemná poloha průměru a mediánu

Míry variability

Dva různé soubory

Rozdělení s různými polohami

0

100

200

300

400

500

0 5 10 15 20

hodnota znaku

če

tno

st

Míry absolutní variability

Variační rozpětí

Rozptyl

Směrodatná odchylka

Interkvartilové rozpětí

Kvartilová odchylka• Kvartilová odchylka je tedy průměrem kladných sousedních kvartilů.

minmax xxR

n

xxn

ii

1

2

2

)(

1

)(1

2

2

n

xxs

n

ii

nebo (výběrový)

2575~~ xxRF

2xS

2

~~

2

)~~()~~( 25752575 xxxxxxQ

Viz příklad ve cvičebnici

• Výpočet rozptylu ve váženém tvaru:

Počet pracovníků

Počet prodejen

(ni)

xi xini xi2ni

1 – 5 9 3 27 81

6 – 10 8 8 64 512

11 – 15 8 13 104 1352

16 – 20 5 18 90 1620

21 – 25 2 23 46 1058

26 – 30 1 28 28 784

Celkem 33 X 359 5407

5,4533

359

33

54072

2

1

1

1

1

2

2

k

ii

k

iii

k

ii

k

iii

x

n

nx

n

nxS

Vlastnosti rozptylu:

• Rozptyl konstanty je roven nule.• Přičteme-li ke všem hodnotám znaku konstantu, rozptyl se

nezmění.• Násobíme-li všechny hodnoty znaku konstantou, rozptyl je

násoben čtvercem této konstanty.• Rozptyl součtu (rozdílu) dvou proměnných, kde

je roven součtu rozptylů obou proměnných zvětšenému (+) nebo zmenšenému (-) o dvojnásobek tzv. kovariance, tj.

• Předpokládejme, že statistický soubor o rozsahu n statistických jednotek je rozdělen do k dílčích podsouborů, kde známe dílčí rozptyly, dílčí průměry a četnosti i-tého podsouboru ni. Potom rozptyl celého souboru je dán součtem rozptylu dílčích (skupinových) průměrů a průměru z dílčích (skupinových) rozptylů.

iii yxz

xyyxyxz sssss 22222

222 sss xx

Míry relativní variability

• Variační koeficient

• Relativní kvartilové odchylky

• Relativní decilové odchylky

• Relativní percentilové odchylky

x

SV xx

2575

2575~~

~~

xx

xxQrel

Viz příklad ve cvičebnici

Charakteristiky šikmosti a špičatosti

Šikmost

• jak jsou hodnoty symetricky či asymetricky rozloženy kolem středu naměřených hodnot

• Symetrické - koeficient nula • sešikmení k vyšším hodnotám - koeficient kladný • sešikmení k nižším hodnotám - koeficient záporný

• Asymetrických rozdělení - pořadí průměru, mediánu a modu

• sešikmení k vyšším hodnotám < x̃� 50 < x̃

• sešikmení k nižším hodnotám > x̃� 50 > x̃

3

1

3

sn

xxn

ii

koeficient šikmosti

x̂x̂

Špičatost

• jak je rozdělení špičaté (strmé) nebo naopak ploché • koeficient špičatosti:

4

1

4

sn

xxn

ii

normální (Gausovo) rozdělení vychází β=3

Rozdělení s různými špičatostmi

0

50

100

150

200

250

2 7 12 17 22

hodnota znaku

četn

ost

Praktický příklad

Úvod do teorie pravděpodobnosti

• Házení hrací kostkou,

• statistické průzkumy,

• otázky spojené s řízením jakosti,

• čekání na obsluhu.

Definice pravděpodobnosti náhodného jevu

statistická

klasická

geometrická

axiomatická

Základní pojmy

Náhodný jev• jev, který za daných podmínek nastat může a nemusí; jeho

nastání je věc náhody• výsledek náhodného pokusu• je to výchozí pojem počtu pravděpodobnosti a označujeme

ho A, B, C, …

Jev jistý• jev, který za daných podmínek nastane vždy

Jev nemožný• jev, který za daných podmínek nastat nemůže

Elementární náhodný jev• jev, který se nedá dále rozdělit na podrobnější jevy• konečný jev

Operace s náhodnými jevy

• Jestliže při každé realizaci jevu A nastává i jev B, pak říkáme, že jev A má za následek jev B neboli jev A je částí jevu B.A B

• Jevy A a B jsou rovnocenné, jestliže pokaždé, kdy nastal jev A, nastal také jev B a naopak.A = B

• Jev spočívající v nastoupení jak jevu A, tak jevu B nazýváme průnikem jevů A a B.A B (A * B)

• Jev spočívající v nastoupení alespoň jednoho z jevů A a B nazýváme sjednocení jevů A a B.A B (A + B)

• Rozdílem jevů A a B nazýváme jev spočívající v nastoupení jevu A a současném nenastoupení jevu B.A - B

• Jev, který spočívá v nenastoupení jevu A, je jevem opačným k jevu A.

• Jevy A a B se nazývají neslučitelné, jestliže výskyt jednoho z nich bude vylučovat možnost výskytu druhého jevu, tj. jejich průnik je jev nemožný.A B =

Definice pravděpodobnosti

Klasická definice pravděpodobnosti

• Podle klasické definice pravděpodobnosti nastání jevu A je dáno poměrem m ku n, kde m je počet všech situací příznivých jevu A a n je počet všech možných situací, přičemž n musí být konečné číslo a předpokládá se, že každá z celkového počtu situací má stejnou šanci nastat.

Uvažujme tabulku četností a relativních četností stáří 40 studentů v jednom ročníku na nějaké univerzitě. Předpokládejme, že jsme vybrali jednoho studenta náhodně, míněno tím, že každý student měl stejnou možnost, že bude vybrán. a) Určete pravděpodobnost, že náhodně vybranému studentovi je 20 let.

Stáří 18 19 20 21 22 23 24 26 35 36

Četnost 2 9 7 7 5 3 4 1 1 1

Relativní č.

0,050 0,225 0,175 0,175 0,125 0,075 0,100 0,025 0,025 0,025

Řešení: Z druhého řádku tabulky je vidět, že 7 ze 40 studentů je ve věku 20 let. Tudíž je šance 7 ku 40, že náhodně vybranému studentovi bude 20 let. Pravděpodobnost je tudížpočet 20 let starých studentů/celkový počet studentů = 7/40Všimněme si, že pravděpodobnost, že náhodně vybranému studentovi je 20 let, je stejná jako relativní četnost studentů, kterým je 20 let (7/40 = 0,175).

b) Určete pravděpodobnost, že náhodně vybraný student bude mladší než 21 let.Řešení: Z tabulky je vidět, že 18 (2+9+7) studentům je méně než 21 let. Takže f = 18 a pravděpodobnost je rovna

450,040

18

N

f

Statistická definice pravděpodobnosti

• V některých případech není splněn základní požadavek klasické definice pravděpodobnosti, tj. předpoklad stejné možnosti všech jevů.

• U statistické definice je pravděpodobnost nastání jevu A přibližně rovna poměru m / n, přičemž m je počet situací, v nichž reálně nastal jev A a n je počet všech uskutečněných pokusů.

Př.: pravděpodobnost narození syna• dle klasické definice: 50 %• dle statistické definice: 52 % (rodí se více mužů)

Pravidla pro počítání s pravděpodobností

Náhodné jevy

neslučitelné (nemohou nastat současně)P(A B) = 0 … průnikP(A B) = P(A) + P(B) … sjednocení

slučitelné• nezávislé … s opakováním

– P(A B) = P(A) * P(B) … průnik– P(A B) = P(A) + P(B) - P(A B) … sjednocení

• závislé … bez opakováníP(A B) = P(A) * P(B/A) … průniknebo = P(B) * P(A/B)P(A B) = P(A) + P(B) - P(A B) … sjednocení

Jevy nezávislé• jevy A a B jsou nezávislé, jestliže

pravděpodobnosti nastoupení nebo nenastoupení jednoho z jevů neovlivňuje pravděpodobnost nastoupení nebo nenastoupení jevu druhého

Jevy závislé• nastoupení jevu A ovlivňuje jevy další

Průzkum sledovanosti televizního pořadu Aréna manželskými páry ukázal, že pravidelně tento pořad sleduje 30% všech manželek a 50% všech manželů. Zároveň se ukázalo, že tento pořad sleduje 18% manželských párů. Náhodně vybereme manželský pár. Jaká je pravděpodobnost, že pořad bude sledovat alespoň jeden z manželů.

Řešení: Označme A = [pořad sleduje manželka] a B = [pořad sleduje manžel]. Ze zadání příkladu plyne, že P(A) = 0,30 a P(B) = 0,50 a P(A ∩ B) = 0,18. Je zřejmé, že jev [pořad sleduje alespoň jeden z manželů] je roven sjednocení jevů A a B. Podle vzorce pro výpočet pravděpodobnosti sjednocení dvou jevů dostaneme

Tudíž pravděpodobnost, že náhodně vybraný manželský pár sleduje TV pořad Aréna, je rovna 0,62.

62,018,050,030,0)()()()( BAPBPAPBAP

Náhodný jev určujeme vždy k určitým podmínkám. Nejsou-li na výskyt daného jevu A kladeny žádné další podmínky, potom pravděpodobnost P(A) jevu A označujeme jako nepodmíněnou pravděpodobnost. Pokud se jev A může vyskytnout pouze tehdy, vyskytl-li se jev B, jehož pravděpodobnost je P(B) > 0, pak hovoříme o podmíněné pravděpodobnosti jevu A a označujeme ji P(A | B). Při P(B) > 0 lze pravděpodobnost jevu A, která je podmíněna výskytem jevu B vyjádřit jako

Podmíněná pravděpodobnost

Máme-li náhodné jevy A1,A2,...,An, pak pravděpodobnost jejich průniku je

Speciálním případem tohoto vztahu je pravděpodobnost průniku dvou jevů A,B, tedy pravděpodobnost, že jevy A,B nastanou současně. Podle tohoto vztahu je tato pravděpodobnost rovna součinu pravděpodobnosti jednoho jevu a podmíněné pravděpodobnosti jevu druhého, tzn.

Hodíme-li jedenkrát pravidelnou hrací kostkou, pak může nastat 6 stejně možných výsledků, tj. 6,5,4,3,2,1

Nechť A = [padne číslo 5] a L = [padne liché číslo]. Určete následující pravděpodobnosti: a) Pravděpodobnost, že padlo číslo 5. b) Podmíněnou pravděpodobnost, že padne číslo 5, za podmínky, že padlo liché číslo.

Řešení:a)Vzhledem k tomu, že je šest možných výsledků při hodu jednou kostkou a jev A nastane jen pokud padne číslo 5, je

167,06

1)( AP

b) V tomto případě nastal jev L, že padlo liché číslo, tudíž už není šest možných výsledků, ale pouze 3 možné výsledky. Prostor elementárních jevů je nyní 5,3,11

Tudíž podmíněná pravděpodobnost je 333,03

1)|( LAP

Porovnáme-li tuto pravděpodobnost s pravděpodobností vypočtenou v a) vidíme, že )()|( APLAP

to znamená, víme-li, že padlo liché číslo, pak to má vliv na pravděpodobnost, že padne číslo 5.

Formule úplné pravděpodobnosti a Bayesův vzorec

n

iii BAPBPAP

1

)/()()( formule úplné pravděpodobnosti

V případě, že jsou známy nejen nepodmíněné pravděpodobnosti P(Bi) a podmíněné pravděpodobnosti P(A/Bi), ale je také známo, že výsledkem pokusu je nastoupení jevu A, lze podmíněné pravděpodobnosti P(Bi/A) vypočítat pomocí Bayesova vzorce, který vyplývá z věty o násobění pravděpodobností a z formule úplné pravděpodoobnosti

n

iii

iii

BAPBP

BAPBPABP

1

)/()(

)/()()/( pro i = 1, 2, …, n.

Příklad:

Je známo, že 90% výrobků odpovídá standardu. Byla vypracována zjednodušená kontrolní zkouška, která u standardního výrobku dá kladný výsledek s pravděpodobností 0,95, zatímco u výrobku nestandardního s pravděpodobností 0,20. Jaká je pravděpodobnost, že výrobek, u něhož zkouška dopadla kladně je standardní?

Označme:• Jev A – zkouška u výrobku dopadla kladně,

• Jev B1 – výrobek je standardní,

• Jev B2 – výrobek je nestandardní.

• Pravděpodobnost obou hypotéz B1 a B2 je

P(B1) = 0,9 a P(B2) = 0,1.

Podmíněné pravděpodobnosti jevu A vzhledem k hypotézám B1 a B2 nabývají hodnot P(A/B1) = 0,95 a P(A/B2) = 0,2.

Pak pravděpodobnost, že výrobek, u něhož zkouška dala kladný výsledek, je standardní, dostaneme

98,020,010,095,090,0

95,090,0

)/()(

)/()()/(

1

n

iii

iii

BAPBP

BAPBPABP

Documents

Aplikovaná statistika 2. seminář