Upload
sinead
View
82
Download
4
Embed Size (px)
DESCRIPTION
Aplikovaná statistika 2. seminář. Popisná statistika. Jeden mrtvý je tragédie. Desítka mrtvých je masakr. Tisíce mrtvých je statistika. Základní pojmy : Statistický soubor - je množina všech prvků, které jsou předmětem daného statistického zkoumání. - PowerPoint PPT Presentation
Citation preview
Aplikovaná statistika2. seminář
Popisná statistika
Jeden mrtvý je tragédie. Desítka mrtvých je masakr. Tisíce mrtvých je statistikastatistika..
Základní pojmy:
• Statistický soubor - je množina všech prvků, které jsou předmětem daného statistického zkoumání.
Podle druhu hodnot dělíme sledované (statistické) znaky na:
Kvantitativní a kvalitativnídiskrétní spojité ordinální nominální
Jednoduché třídění četností
Tarifní třída (xi)
Počet pracovník
ů (ni)
Relativní četnosti
(pi)
Kumulativní
absolutní četnosti
Kumulativní relativní
četnosti
3 2 0,027 2 0,027
4 11 0,147 13 0,174
5 19 0,253 32 0,427
6 27 0,360 59 0,787
7 16 0,213 75 1
Celkem 75 1 x x
Intervalové třídění četností
Intervaly počtu odpracovaných hodin
Počet pracovníků (ni) Střed intervalu (xi)
100 – 120 1 110
120 – 140 3 130
140 – 160 2 150
160 – 180 19 170
180 – 200 22 190
200 – 220 22 210
220 – 240 4 230
240 – 260 2 250
Celkem 75 x
Na počet intervalů (tříd) a jejich délku neexistuje jednotný názor, ani obecný předpis. Používá se řada pravidel pro stanovení počtu tříd, z nichž uvedeme tzv. Yulesovo pravidlo
Pro stanovení délky intervalu d se používá tzv. Sturgesovo pravidlo
4/1)(5,2 nk
n
xxd
log322,31minmax
Statistické grafy
Histogram a polygon
• Výsečový graf
pomer = [1, 3, 7, 0.9, 0.5]; pie(pomer);
• Krabičkový graf (vousatá krabička)
X1 = normrnd(5, 1, 100,1);
X2 = normrnd(6, 1, 100,1);
Boxplot([x1,x2],‘notch‘,‘on‘)
• Paretův graf
Příčina závady Počet [Ks]
Chyba navažování 211
Špatné vstupní suroviny 124
Míchání 42
Špatný filtr 20
Nedodržení teplotního režimu 35
Špatné pracovní prostředí 15
Situace, kdy 80% následků způsobuje 20 % příčin. Zdůraňuje fakt, že není nutné zabývat se všemi příčinami, nýbrž že pro dostatečný efekt stačí postihnout pouze nejdůležitější z nich. Např. seřadíme-li ve výrobě všechny příčiny zmetkovosti dle počtu jimi způsobených zmetků, zjistíme, že zhruba prvních 20 % příčin nám způsobuje zhruba 80 % všech zmetků, stačí se tedy obvykle zabývat jimi.
Tvary rozdělení
Základní statistické charakteristiky
úroveňx variabilita
Střední hodnoty
průměry ostatní střední hodnoty
aritmetický
geometrický
kvadratický
harmonický
chronologický
modus
medián
variační rozpětí
rozptyl
směrodatná odchylka
variační koeficient
průměrná odchylka
míra variability hodnot kardinální proměnné
variabilita hodnot kategoriální proměnné
KvantilyKvantil je hodnota, která rozděluje soubor hodnot
určitého statistického znaku na dvě části, jedna obsahuje ty hodnoty, které jsou menší (nebo stejné) než tento kvantil, druhá část naopak obsahuje hodnoty, které jsou větší (nebo stejné) než kvantil.
Výpočet kvantilu z intervalového rozdělení:
ppp
p ahn
nzx
2
1~ , kde
5,0npz p
zp je pořadové číslo jednotky, jejíž hodnota bude hledaný kvantil,
n je počet pozorování,
p udává relativní četnosti nižších hodnot, jejíž horní mez je hledaný kvantil,
n1 je kumulativní četnost jednotek ležících před kvantilovým intervalem,
n2 je četnost intervalu, v němž leží hledaný kvantil,
h je délka kvantilového intervalu,
ap je hodnota, která tvoří dolní hranici kvantilového intervalu.
Medián, modus
• Medián (padesátiprocentní kvantil), x̃�50
- extrémní hodnoty, robustnost
• Soubor: 20 20 20 20 20 20 30 30 35 35 70 84 95Počet dat v souboru je 13, tedy liché číslo: medián je tudíž roven (13+1)/2=7 (sedmá hodnota uspořádané posloupnosti, tedy číslo 30)
Soubor: 20 20 20 20 20 30 30 35 84 95Počet dat v datovém souboru je 10, tedy sudé číslo: medián je tudíž roven (20+30)/2=25
• Modus (hodnota s nejvyšší četností)
Soubor: 10 15 20 20 25 38 40Nejvyšší četnost v tomto datovém souboru zastává hodnota 20.
Př.: Výpočet mediánu z intervalového rozdělení četností
Interval měsíčních
příjmů
Počet pracovníků (ni)
Kumulativní součty
- 7 000 8 8
7 001 – 7 400 25 33
7 401 – 7 800 32 65
7 801 – 8 200 26 91
8 201 – 8 600 15 106
8 601 – 9 000 6 112
9 001 – 9 400 3 115
9 401 a více 1 116
Celkem 116 x
1. Zjistíme pořadové číslo jednotek, z jejichž hodnot medián vypočteme
Medián tedy leží v intervalu, který obsahuje prvek s pořadovým číslem 58,5. Z posledního sloupce tabulky, jenž obsahuje kumulativní součty, zjistíme, že nejbližší vyšší číslo, obsahující v sobě hodnotu z0,50 je 65. Hledaný medián bude tedy ležet v intervalu 7 401 – 7 800. Chceme-li znát konkrétní hodnotu mediánu, dosadíme do
5,585,05,01165,0 npz p
75,7719740140032
335,58~
2
1
ppp
p ahn
nzx
Odpověď: Střední mzda tedy činí 7 719,75.
Míry polohy
n
ii
i
n
ii
n
nn
w
wx
www
wxwxwxx
1
1
21
2211
...
...
k
ii
i
k
ii
n
nxx
1
1
Vážený aritmetický průměr Vahou např. četnost (ni) z rozdělení četností pro nespojitou proměnnou s k variantami hodnot
Tarifní třída (xi) Počet pracovníků (ni)
xini
3 2 6
4 11 44
5 19 95
6 27 162
7 16 112
Celkem 75 419
Př.: Z následující tabulky vypočteme průměrnou tarifní třídu v souboru 75 provozních pracovníků. (Vážený aritmetický průměr)
6,575
419
1
1
k
ii
k
iii
n
nxx
Průměrné tarifní zařazení provozních pracovníků je tedy 5,6.
Geometrický průměr:
uplatnění v případech, kdy hodnoty tvoří alespoň přibližně geometrickou řadu
analýza časových řad, výpočty tempa růstu atd.
Příklad: Meziroční indexy cen jistého zboží jsou uvedeny v tabulce. Vypočítejte průměrný cenový index. (je tedy nutné vypočítat geometrický průměr)
Rok Cena Index
88 100 -
89 105 1,050
90 110 1,048
91 116 1,054
92 130 1,121
nng xxxx ...21
_
0678,1121,1054,1048,1050,14_
gx
Harmonický průměr
n
i i
h
x
nx
1
1
Harmonický průměr z nenulových hodnot statistického souboru je definován jako podíl rozsahu souboru (počtu členů) a součtu převrácených hodnot znaků. Jinými slovy je to převrácená hodnota aritmetického průměru převrácených hodnot zadaných členů.
Používá se, jsou-li hodnoty znaku nerovnoměrně rozloženy kolem aritmetického průměru, nebo když jsou hodnoty extrémně nízké či vysoké.
Př.: Z údajů v následující tabulce vypočítáme vážený harmonický průměr.
xi ni ni/xi
4 5 1,25
6 10 1,67
8 12 1,50
11 15 1,36
12 8 0,67
Součet 50 6,45
75,745,6
50
1
1
k
i i
i
k
ii
H
x
n
nx
Harmonický průměr se převážně používá v teorii indexů (výpočet průměrových tvarů souhrnných indexů)
Kvadratický průměr:
n
x
n
xxxx
n
ii
nk
1
222
221 ...
Diskrétní verze kvadratického průměru je použita například při výpočtu směrodatné odchylky.
Spojitý kvadratický průměr je použit při výpočtu efektivní hodnoty střídavého napětí nebo střídavého proudu.
Chronologický průměr
12
1...
2
1121
n
yyyyy
nn
Druh váženého průměru, užívaný ve statistice k výpočtu průměru z časových řad.
Prostý chronologický průměr: prostý chronologický průměr při
konstantní vzdálenosti mezi okamžiky měření
Vážený chronologický průměr: nestejné vzdálenosti mezi okamžiky o
velikosti tw (pro vzdálenost mezi t–tým a (t–1) okamžikem).
Pořadí jednotlivých typů průměrů vypočtených ze stejného souboru: Pro harmonický a geometrický průměr musí být všechny počítané hodnoty kladné.
Vlastnosti aritmetického průměru:
• Součet jednotlivých odchylek od průměru je nulový.• Aritmetický průměr konstanty je opět roven konstantě.• Přičteme-li k jednotlivým hodnotám znaku konstantu, zvýší se o
tuto konstantu i aritmetický průměr.• Násobíme-li jednotlivé hodnoty znaku konstantou, je touto
konstantou násoben i průměr.• Násobíme-li váhy aritmetického průměru konstantou, průměr se
nezmění.
xh xg x xk
Další odhady polohy rozdělení
• Useknutý (uřezaný) průměr- desetiprocentní uřezaný průměr - vynechá se 10% nejnižších výsledků - 10% nejvyšších výsledků - ze zbytku se počítá průměr.- volí se 5%, 10% nebo 25%- robustní
• Polosuma - citlivá na odlehlé hodnoty
2minmax xx
x
Vzájemná poloha průměru a mediánu
Míry variability
Dva různé soubory
Rozdělení s různými polohami
0
100
200
300
400
500
0 5 10 15 20
hodnota znaku
če
tno
st
Míry absolutní variability
Variační rozpětí
Rozptyl
Směrodatná odchylka
Interkvartilové rozpětí
Kvartilová odchylka• Kvartilová odchylka je tedy průměrem kladných sousedních kvartilů.
minmax xxR
n
xxn
ii
1
2
2
)(
1
)(1
2
2
n
xxs
n
ii
nebo (výběrový)
2575~~ xxRF
2xS
2
~~
2
)~~()~~( 25752575 xxxxxxQ
Viz příklad ve cvičebnici
• Výpočet rozptylu ve váženém tvaru:
Počet pracovníků
Počet prodejen
(ni)
xi xini xi2ni
1 – 5 9 3 27 81
6 – 10 8 8 64 512
11 – 15 8 13 104 1352
16 – 20 5 18 90 1620
21 – 25 2 23 46 1058
26 – 30 1 28 28 784
Celkem 33 X 359 5407
5,4533
359
33
54072
2
1
1
1
1
2
2
k
ii
k
iii
k
ii
k
iii
x
n
nx
n
nxS
Vlastnosti rozptylu:
• Rozptyl konstanty je roven nule.• Přičteme-li ke všem hodnotám znaku konstantu, rozptyl se
nezmění.• Násobíme-li všechny hodnoty znaku konstantou, rozptyl je
násoben čtvercem této konstanty.• Rozptyl součtu (rozdílu) dvou proměnných, kde
je roven součtu rozptylů obou proměnných zvětšenému (+) nebo zmenšenému (-) o dvojnásobek tzv. kovariance, tj.
• Předpokládejme, že statistický soubor o rozsahu n statistických jednotek je rozdělen do k dílčích podsouborů, kde známe dílčí rozptyly, dílčí průměry a četnosti i-tého podsouboru ni. Potom rozptyl celého souboru je dán součtem rozptylu dílčích (skupinových) průměrů a průměru z dílčích (skupinových) rozptylů.
iii yxz
xyyxyxz sssss 22222
222 sss xx
Míry relativní variability
• Variační koeficient
• Relativní kvartilové odchylky
• Relativní decilové odchylky
• Relativní percentilové odchylky
x
SV xx
2575
2575~~
~~
xx
xxQrel
Viz příklad ve cvičebnici
Charakteristiky šikmosti a špičatosti
Šikmost
• jak jsou hodnoty symetricky či asymetricky rozloženy kolem středu naměřených hodnot
• Symetrické - koeficient nula • sešikmení k vyšším hodnotám - koeficient kladný • sešikmení k nižším hodnotám - koeficient záporný
• Asymetrických rozdělení - pořadí průměru, mediánu a modu
• sešikmení k vyšším hodnotám < x̃� 50 < x̃
• sešikmení k nižším hodnotám > x̃� 50 > x̃
3
1
3
sn
xxn
ii
koeficient šikmosti
x̂x̂
Špičatost
• jak je rozdělení špičaté (strmé) nebo naopak ploché • koeficient špičatosti:
4
1
4
sn
xxn
ii
normální (Gausovo) rozdělení vychází β=3
Rozdělení s různými špičatostmi
0
50
100
150
200
250
2 7 12 17 22
hodnota znaku
četn
ost
Praktický příklad
Úvod do teorie pravděpodobnosti
• Házení hrací kostkou,
• statistické průzkumy,
• otázky spojené s řízením jakosti,
• čekání na obsluhu.
Definice pravděpodobnosti náhodného jevu
statistická
klasická
geometrická
axiomatická
Základní pojmy
Náhodný jev• jev, který za daných podmínek nastat může a nemusí; jeho
nastání je věc náhody• výsledek náhodného pokusu• je to výchozí pojem počtu pravděpodobnosti a označujeme
ho A, B, C, …
Jev jistý• jev, který za daných podmínek nastane vždy
Jev nemožný• jev, který za daných podmínek nastat nemůže
Elementární náhodný jev• jev, který se nedá dále rozdělit na podrobnější jevy• konečný jev
Operace s náhodnými jevy
• Jestliže při každé realizaci jevu A nastává i jev B, pak říkáme, že jev A má za následek jev B neboli jev A je částí jevu B.A B
• Jevy A a B jsou rovnocenné, jestliže pokaždé, kdy nastal jev A, nastal také jev B a naopak.A = B
• Jev spočívající v nastoupení jak jevu A, tak jevu B nazýváme průnikem jevů A a B.A B (A * B)
• Jev spočívající v nastoupení alespoň jednoho z jevů A a B nazýváme sjednocení jevů A a B.A B (A + B)
• Rozdílem jevů A a B nazýváme jev spočívající v nastoupení jevu A a současném nenastoupení jevu B.A - B
• Jev, který spočívá v nenastoupení jevu A, je jevem opačným k jevu A.
• Jevy A a B se nazývají neslučitelné, jestliže výskyt jednoho z nich bude vylučovat možnost výskytu druhého jevu, tj. jejich průnik je jev nemožný.A B =
Definice pravděpodobnosti
Klasická definice pravděpodobnosti
• Podle klasické definice pravděpodobnosti nastání jevu A je dáno poměrem m ku n, kde m je počet všech situací příznivých jevu A a n je počet všech možných situací, přičemž n musí být konečné číslo a předpokládá se, že každá z celkového počtu situací má stejnou šanci nastat.
Uvažujme tabulku četností a relativních četností stáří 40 studentů v jednom ročníku na nějaké univerzitě. Předpokládejme, že jsme vybrali jednoho studenta náhodně, míněno tím, že každý student měl stejnou možnost, že bude vybrán. a) Určete pravděpodobnost, že náhodně vybranému studentovi je 20 let.
Stáří 18 19 20 21 22 23 24 26 35 36
Četnost 2 9 7 7 5 3 4 1 1 1
Relativní č.
0,050 0,225 0,175 0,175 0,125 0,075 0,100 0,025 0,025 0,025
Řešení: Z druhého řádku tabulky je vidět, že 7 ze 40 studentů je ve věku 20 let. Tudíž je šance 7 ku 40, že náhodně vybranému studentovi bude 20 let. Pravděpodobnost je tudížpočet 20 let starých studentů/celkový počet studentů = 7/40Všimněme si, že pravděpodobnost, že náhodně vybranému studentovi je 20 let, je stejná jako relativní četnost studentů, kterým je 20 let (7/40 = 0,175).
b) Určete pravděpodobnost, že náhodně vybraný student bude mladší než 21 let.Řešení: Z tabulky je vidět, že 18 (2+9+7) studentům je méně než 21 let. Takže f = 18 a pravděpodobnost je rovna
450,040
18
N
f
Statistická definice pravděpodobnosti
• V některých případech není splněn základní požadavek klasické definice pravděpodobnosti, tj. předpoklad stejné možnosti všech jevů.
• U statistické definice je pravděpodobnost nastání jevu A přibližně rovna poměru m / n, přičemž m je počet situací, v nichž reálně nastal jev A a n je počet všech uskutečněných pokusů.
Př.: pravděpodobnost narození syna• dle klasické definice: 50 %• dle statistické definice: 52 % (rodí se více mužů)
Pravidla pro počítání s pravděpodobností
Náhodné jevy
neslučitelné (nemohou nastat současně)P(A B) = 0 … průnikP(A B) = P(A) + P(B) … sjednocení
slučitelné• nezávislé … s opakováním
– P(A B) = P(A) * P(B) … průnik– P(A B) = P(A) + P(B) - P(A B) … sjednocení
• závislé … bez opakováníP(A B) = P(A) * P(B/A) … průniknebo = P(B) * P(A/B)P(A B) = P(A) + P(B) - P(A B) … sjednocení
Jevy nezávislé• jevy A a B jsou nezávislé, jestliže
pravděpodobnosti nastoupení nebo nenastoupení jednoho z jevů neovlivňuje pravděpodobnost nastoupení nebo nenastoupení jevu druhého
Jevy závislé• nastoupení jevu A ovlivňuje jevy další
Průzkum sledovanosti televizního pořadu Aréna manželskými páry ukázal, že pravidelně tento pořad sleduje 30% všech manželek a 50% všech manželů. Zároveň se ukázalo, že tento pořad sleduje 18% manželských párů. Náhodně vybereme manželský pár. Jaká je pravděpodobnost, že pořad bude sledovat alespoň jeden z manželů.
Řešení: Označme A = [pořad sleduje manželka] a B = [pořad sleduje manžel]. Ze zadání příkladu plyne, že P(A) = 0,30 a P(B) = 0,50 a P(A ∩ B) = 0,18. Je zřejmé, že jev [pořad sleduje alespoň jeden z manželů] je roven sjednocení jevů A a B. Podle vzorce pro výpočet pravděpodobnosti sjednocení dvou jevů dostaneme
Tudíž pravděpodobnost, že náhodně vybraný manželský pár sleduje TV pořad Aréna, je rovna 0,62.
62,018,050,030,0)()()()( BAPBPAPBAP
Náhodný jev určujeme vždy k určitým podmínkám. Nejsou-li na výskyt daného jevu A kladeny žádné další podmínky, potom pravděpodobnost P(A) jevu A označujeme jako nepodmíněnou pravděpodobnost. Pokud se jev A může vyskytnout pouze tehdy, vyskytl-li se jev B, jehož pravděpodobnost je P(B) > 0, pak hovoříme o podmíněné pravděpodobnosti jevu A a označujeme ji P(A | B). Při P(B) > 0 lze pravděpodobnost jevu A, která je podmíněna výskytem jevu B vyjádřit jako
Podmíněná pravděpodobnost
Máme-li náhodné jevy A1,A2,...,An, pak pravděpodobnost jejich průniku je
Speciálním případem tohoto vztahu je pravděpodobnost průniku dvou jevů A,B, tedy pravděpodobnost, že jevy A,B nastanou současně. Podle tohoto vztahu je tato pravděpodobnost rovna součinu pravděpodobnosti jednoho jevu a podmíněné pravděpodobnosti jevu druhého, tzn.
Hodíme-li jedenkrát pravidelnou hrací kostkou, pak může nastat 6 stejně možných výsledků, tj. 6,5,4,3,2,1
Nechť A = [padne číslo 5] a L = [padne liché číslo]. Určete následující pravděpodobnosti: a) Pravděpodobnost, že padlo číslo 5. b) Podmíněnou pravděpodobnost, že padne číslo 5, za podmínky, že padlo liché číslo.
Řešení:a)Vzhledem k tomu, že je šest možných výsledků při hodu jednou kostkou a jev A nastane jen pokud padne číslo 5, je
167,06
1)( AP
b) V tomto případě nastal jev L, že padlo liché číslo, tudíž už není šest možných výsledků, ale pouze 3 možné výsledky. Prostor elementárních jevů je nyní 5,3,11
Tudíž podmíněná pravděpodobnost je 333,03
1)|( LAP
Porovnáme-li tuto pravděpodobnost s pravděpodobností vypočtenou v a) vidíme, že )()|( APLAP
to znamená, víme-li, že padlo liché číslo, pak to má vliv na pravděpodobnost, že padne číslo 5.
Formule úplné pravděpodobnosti a Bayesův vzorec
n
iii BAPBPAP
1
)/()()( formule úplné pravděpodobnosti
V případě, že jsou známy nejen nepodmíněné pravděpodobnosti P(Bi) a podmíněné pravděpodobnosti P(A/Bi), ale je také známo, že výsledkem pokusu je nastoupení jevu A, lze podmíněné pravděpodobnosti P(Bi/A) vypočítat pomocí Bayesova vzorce, který vyplývá z věty o násobění pravděpodobností a z formule úplné pravděpodoobnosti
n
iii
iii
BAPBP
BAPBPABP
1
)/()(
)/()()/( pro i = 1, 2, …, n.
Příklad:
Je známo, že 90% výrobků odpovídá standardu. Byla vypracována zjednodušená kontrolní zkouška, která u standardního výrobku dá kladný výsledek s pravděpodobností 0,95, zatímco u výrobku nestandardního s pravděpodobností 0,20. Jaká je pravděpodobnost, že výrobek, u něhož zkouška dopadla kladně je standardní?
Označme:• Jev A – zkouška u výrobku dopadla kladně,
• Jev B1 – výrobek je standardní,
• Jev B2 – výrobek je nestandardní.
• Pravděpodobnost obou hypotéz B1 a B2 je
P(B1) = 0,9 a P(B2) = 0,1.
Podmíněné pravděpodobnosti jevu A vzhledem k hypotézám B1 a B2 nabývají hodnot P(A/B1) = 0,95 a P(A/B2) = 0,2.
Pak pravděpodobnost, že výrobek, u něhož zkouška dala kladný výsledek, je standardní, dostaneme
98,020,010,095,090,0
95,090,0
)/()(
)/()()/(
1
n
iii
iii
BAPBP
BAPBPABP