27
Jak statistika dokazuje z ávislost (Pardubice 04091 6) 1 Jak statistika dokazuje závislost Karel Zvára katedra pravděpodobnosti a matematické statistiky MFF UK Karel. Zvara @ mff . cuni . cz http:// www.karlin.mff.cuni.cz/ ~zvara

Jak statistika dokazuje závislost

  • Upload
    hubert

  • View
    62

  • Download
    9

Embed Size (px)

DESCRIPTION

Jak statistika dokazuje závislost. Karel Zvára katedra pravděpodobnosti a matematické statistiky MFF UK [email protected] http: // www.karlin.mff.cuni.cz / ~zvara. teorie pravděpodobnosti  matematická statistika.  - pravděpodobnost šestky na hrací kostce TP:  =1 / 6 (symetrie) - PowerPoint PPT Presentation

Citation preview

Page 1: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

1

Jak statistika dokazuje závislost

Karel Zvára

katedra pravděpodobnosti a matematické statistiky MFF UK

[email protected]

http://www.karlin.mff.cuni.cz/~zvara

Page 2: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

2

teorie pravděpodobnosti matematická statistika

- pravděpodobnost šestky na hrací kostce

TP: =1/6 (symetrie) MS: na základě pokusu odhadnout

pst nebo rozhodnout o tvrzení, např. =1/6

např. 15 šestek z 60 hodů: bodový odhad je 0,25, 95% intervalový odhad (0,147; 0,379)

Page 3: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

3

příklad 1

Šestnáctileté slečny nosí náušnice častěji než stejně staří hoši

náušnice bez náušnic

celkem

hoši 2 8 10

dívky 8 3 11

celkem 10 11 21

Page 4: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

4

příklad 2

IQ souvisí se školním prospěchem

1.0 1.5 2.0 2.5 3.0

70

80

90

10

01

10

12

01

30

14

0

Závislost IQ na známkách

známky

iq

dívkahoch

Page 5: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

5

princip statistického usuzování (indukce) na základě dat (výběru) soudíme o

všech možných datech (populaci) populaci si zpravidla jen

představujeme výběr je podmnožinou populace,

má být reprezentativní nejlépe to zaručí náhodný výběr rozsah výběru ~ přesnost odhadu

Page 6: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

6

možné populace (náušnice) všechny šestnáctileté dívky (hoši)

u nás všechny šestnáctileté studentky

(studenti) u nás všechny šestnáctileté studentky

(studenti) gymnázií u nás všechny šestnáctileté studentky

(studenti) dané třídy dané školy

Page 7: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

7

možné výběry

náhodný výběr ze seznamu všech náhodný výběr školy, tam náhodný

výběr ze seznamu všech (riziko nereprezentativnosti)

informace u účastnících celostátního kola ... olympiády (riziko nereprezentativnosti)

Page 8: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

8

populace vers. výběrpopulace výběr

pravděpodobnost relativní četnost

populační průměr výběrový průměr

parametr statistika

platnost nulové hypotézy H0

rozhodnutí o nulové hypotéze

neznámé, pevné známé, náhodné

Page 9: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

9

statistické rozhodování

H0 – tvrzení o populaci, jehož popřením něco dokážeme, (nulová) hypotéza

H1 – alternativa, zpravidla (vědecky) dokazované tvrzení o populaci

nechceme příliš často něco falešně dokázat (prokázat)

předem zvolíme pravděpodobnost takové chyby (hladinu , zpravidla =5%)

Page 10: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

10

schéma rozhodování

rozhodnutí H0 platí H0 neplatí

zamítnout H0 chyba 1. druhu

(pst )

správné rozhodnutí (pst … síla testu)

nezamítnout H0 (přijmout)

správné rozhodnutí

chyba 2. druhu

Page 11: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

11

příklad s náušnicemi

d – pst náušnic u dívek

h – pst náušnic u hochů

H1: d > h

H0: d = h (pro d h bychom dostali stejná pravidla rozhodování)

Page 12: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

12

náušnice bez náušnic

celkem

hoši a b a+b

dívky c d c+d

celkem a+c b+d n

hypotéze H0 svědčí, když podíly osob s náušnicemi jsou podobné:

dcc

baa

tj. 1bcad

OROR – poměr šancí (odds ratio)

Page 13: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

13

náušnice bez náušnic

celkem

hoši a b a+b

dívky c d c+d

celkem a+c b+d n

alternativě svědčí, když podíl hochů s náušnicemi je podst. menší než u dívek:

dcc

baa

tj.1

bcad

OR

Page 14: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

14

úvaha

nutno zachovat hladinu nechť hypotéza platí

fixujme počty hochů, dívek, náušnic

(marginální četnosti) pa – pst, že a hochů má náušnice (při

pevných marginálních četnostech jsou b, c, d volbou a určeny také)

výpočet pravděpodobnosti pa kombinatorickou úvahou

Page 15: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

15

kolika způsoby lze rozdělit a+c náušnic mezi n osob:

ca

nm

kolik z nich dá a náušnic u hochů

c

dc

a

bama

pa = počet příznivých/počet možných

(klasická pravděpodobnost)

mm

p aa

kombinatorický výpočet

Page 16: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

16

původní tabulka (a = 2)

+ -

hoši 2 8 10

dívky 8 3 11

10 11 21

p2 = 0,02105

ln OR = –2,367

021051,0352716

16545

10

21

8

11

2

10

2

p

Page 17: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

17

tabulka a = 1

+ -

hoši 2 8 10

dívky 8 3 11

10 11 21

p1 = 0,00156

ln OR = –3,701

1 9

9 2

p2 = 0,02105

ln OR = –2,367

Page 18: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

18

tabulka a = 0

+ -

hoši 2 8 10

dívky 8 3 11

10 11 21

p = 0,00003

ln OR = –

0 10

10 1

p2 = 0,02105

ln OR = –2,367

Page 19: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

19

tabulka a = 10

+ -

hoši 2 8 10

dívky 8 3 11

10 11 21

p = 0,00000

ln OR =

10 0

0 11

p2 = 0,02105

ln OR = –2,367

Page 20: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

20

tabulka a = 9

+ -

hoši 2 8 10

dívky 8 3 11

10 11 21

p = 0,0031

ln OR = 4,500

9 1

1 10

p2 = 0,02105

ln OR = –2,367

Page 21: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

21

tabulka a = 8

+ -

hoši 2 8 10

dívky 8 3 11

10 11 21

p = 0,00702

ln OR = 2,890

8 2

2 9

p2 = 0,02105

ln OR = –2,367

Page 22: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

22

tabulka a = 7

+ -

hoši 2 8 10

dívky 8 3 11

10 11 21

p = 0,05614

ln OR = 1,828

7 3

3 8

p2 = 0,02105

ln OR = –2,367

Page 23: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

23

shrnutí (Fisherův test)

a pa OR ln OR0 0,00003 0,000 -

1 0,00156 0,025 -3,701

2 0,02105 0,094 -2,367

3 0,11227 0,245 -1,410

7 0,05614 2,625 1,828

8 0,00702 6,222 2,890

9 0,00031 18,000 4,500

10 0,00000 90,000

p2+p1+p0=0,02264

na 5% hladině zamítáme H0

p2+p1+p0+p8+p9

+p10=0,02997

zamítli bychom pro oboustrannou alternativu

Page 24: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

24

poznámky

pro jakou populaci lze zjištění zobecnit?

jiný postup – chí-kvadrát test příklad s IQ – zcela jiný postup,

neboť data jsou ve spojitém měřítku, použije se regrese

Page 25: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

25

chí-kvadrát test

porovnává empirické četnosti nij (skutečně nastaly) s teoretickými četnostmi oij (očekávané na H0)

počítá statistiku

kde

i j ij

ijij

o

on 2

2

n

nno ji

ij

Page 26: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

26

hodnocení

H0 zamítá, je-li 2 příliš velké vlastnosti 2 asymptoticky,

použitelné, pokud oij dost velké (aspoň 5)

jinak Yatesova korekce zmenšením abs. hodnoty každého čitatele před umocněním o 0,5

Page 27: Jak statistika dokazuje závislost

Jak statistika dokazuje závislost (Pardubice 040916)

27

náušnice

0157,0

838,524,5

)24,58(76,4

)76,42( 222

p

0478,0

916,376,4

5,076,422

2

p

Yates