Valószínűségszámítás és Statisztika

Valószínűségszámítás és Statisztika

9. előadás

2021. április 27.

Hipotézisvizsgálat

◼ H0 nullhipotézis (jelezni akarjuk, ha nem igaz)

0.

◼ H1 ellenhipotézis 1.

◼ Elsőfajú hiba: H0 igaz, de elutasítjuk

◼ Másodfajú hiba: H0 hamis, de elfogadjuk

Lehetséges döntések táblázata

Aktuális helyzet

A nullhipotézis

igaz

A nullhipotézis

hamis

Döntés

:

Elfogadjuk a

nullhipotézist Helyes döntés Másodfajú hiba

Elutasítjuk a

nullhipotézist Elsőfajú hiba Helyes döntés

Alapfogalmak◼ Emlékeztető: X mintatér: a minta lehetséges értékeinek

halmaza.

◼ X = Xe U Xk

◼ Xk : azon lehetséges értékek halmaza, amelyek megfigyelése

esetén elutasítjuk a nullhipotézist.

◼ Gyakran statisztika segítségével határozzuk meg:

1 , ( )

0 ,

k

k

T

=

x Xx

x X

Elsőfajú hiba valószínűsége

( )

( )0

0 a próba terjedelme, ha minden -ra

X

a próba szignifikanciaszintje

(másképp: a próba pontos terjedelme),

sup X

k

k

P

P

=

ξ

ξ

Erőfüggvény

( ) ( ) 1

A próba erőfüggvénye

( )= X 1- X ,k eP P = ξ ξ

Próbák a normális eloszlás várható értékére: u-próba.◼ 𝐻0: 𝑚 = 𝑚0 , 𝐻1: 𝑚𝑚0 . Ha ismert a szórás (u-

próba):

◼ Kritikus tartomány: 𝑢 > 𝑢1−𝛼/2. (𝑢1−𝛼/2 a standard

normális eloszlás 1 − /2 kvantilise)

◼ Ha egyoldali az ellenhipotézis, akkor a kritikus tartomány 𝑢 > 𝑢1−𝛼(𝑚 > 𝑚0), illetve

𝑢 < −𝑢1−𝛼alakú (𝑚 < 𝑚0). Ezek legerősebb próbák!

𝑈 = 𝑛ሜ𝑋 −𝑚0

𝜎

Próbák a normális eloszlás várható értékére: t próba.

◼ 𝐻0: 𝑚 = 𝑚0 , 𝐻1 ∶ 𝑚𝑚0 . Ha nem ismert a szórás (t-próba):

◼ ahol

◼ Kritikus tartomány: 𝑡 > 𝑡1− Τ𝛼 2.𝑛−1.

◼ H0 esetén a próbastatisztika n-1 szabadságfokú, t-eloszlású.

0mX

nt−

=

( ) )1/(ˆ1

2

−−= =

nXXn

i

i

Megjegyzések

◼ Ha egyoldali az ellenhipotézis, akkor a kritikus tartomány

𝑡 > 𝑡1−𝛼.𝑛−1(𝑚 > 𝑚0),

◼ illetve

𝑡 < −𝑡1−𝛼.𝑛−1alakú (𝑚 < 𝑚0).

Megjegyzések

◼ Ezek is legerősebb próbák!

◼ A kétoldali esetre kapott próba nem a legerősebb (ilyenkor nincs is ilyen).

◼ Ha a minta elemszáma nagy, a t-próba helyett az u-próba is használható (ekkor még a normális eloszlásúságra sincs szükség a centrális határeloszlás tétel miatt).

Példa

◼ A butitizmus elleni védőoltás hatásos, ha az oltás után 2 héttel az antitestek száma meghaladja az 5 purc szintet.

◼ 37 beteget oltottak be. 2 héttel az oltás után az átlagos antitest szintjük 5,7 purc volt, a mérések korrigált tapasztalati szórása pedig 1,3 volt.

◼ Hatásos-e az oltás?

Példa (folyt.)

◼ Ez így nem jó! Kellenének az egyedi adatok!

◼ Feltételezzük, hogy 𝑋1, 𝑋2, … , 𝑋37~𝑁 𝑚, 𝜎2

◼ 𝐻0: 𝑚 = 5,𝐻1: 𝑚 > 5

◼ 𝑡 = 375,7−5

1,3= 3,275334

◼ 𝑡1−5%.37−1 = 1,688298

◼ 𝑃 𝑡36 < 3,275334 = 0,9988308

Kétoldali próbák és konfidencia intervallumok

◼ A normális eloszlásnál a várható értékre vonatkozó terjedelmű próbánál láttuk, hogy a

𝐻0: 𝑚 = 𝑚0

hipotézist a𝐻1: 𝑚𝑚0

hipotézissel szemben pontosan akkor fogadjuk el, ha 𝑚0 benne van az 1 − megbízhatóságú konfidencia intervallumban.

Kétmintás eset: párosított megfigyelések

◼ Példa: Van-e különbség Budapest és Cegléd napi átlaghőmérséklete között?

𝐻0: 𝑚1 = 𝑚2 a nullhipotézis.

◼ Ha ugyanazon napokról van megfigyelésünk mindkét helyen: nem függetlenek a minták. Ekkor a párok tagjai közötti különbséget vizsgálva, az előző egymintás esetre vezethető vissza a feladat.

𝐻0

∗: 𝑚 = 0 ,𝐻1

∗:𝑚0 az új hipotézisek.

Kétmintás eset: független minták

𝑡𝑛+𝑘−2 =𝑛𝑘(𝑛 + 𝑘 − 2)

𝑛 + 𝑘

ሜ𝑋 − ሜ𝑌

σ(𝑋𝑖 − ሜ𝑋)2 +σ(𝑌𝑖 − ሜ𝑌)2

Ha ismert a szórás: (𝑋 𝑛 elemű, 𝜎1 szórású, 𝑌 𝑘 elemű, 𝜎2 szórású), alkalmazható a kétmintás u-próba

𝑢 =ሜ𝑋 − ሜ𝑌

𝜎12/𝑛 + 𝜎2

2/𝑘

Kritikus tartomány: mint az egymintás esetben

Ha ismeretlenek, de azonosak a szórások:

A szórás vizsgálata kétmintás esetben: F-próba◼ 𝐻0: 1 = 2

◼ Két független, 𝑛, illetve 𝑘 elemű normális eloszlású minta alapján a próbastatisztika:

(a korrigált tapasztalati

szórásnégyzetek hányadosa)

◼ Kritikus érték: az 𝑛 − 1, 𝑘 − 1 szabadságfokú F eloszlás 1 − /2 kvantilise

(𝑛 a számlálóbeli, 𝑘 pedig a nevezőbeli minta elemszáma).

),max(2

1

2

2

2

2

2

1

s

s

s

sF =

Kétmintás t-próba ismét

◼ Alkalmazható, ha az F-próba elfogadja a szórások azonosságát.

◼ Ha nem, akkor Welch-próba:

◼ H0 esetén közelítőleg 𝑡 eloszlású 𝑓szabadságfokkal, ahol

2

2

21

2

1 //'

nsns

YXt

+

−=

1

)1(

1

1 22

−

−+

−=

m

c

n

c

f msns

nsc

//

/2

2

2

1

2

1

+=

-négyzet próba

◼ H0 hipotézis: az 𝐴1, 𝐴2 , … , 𝐴𝑟 teljes eseményrendszerre teljesül 𝑃(𝐴1) = 𝑝1, 𝑃(𝐴2) = 𝑝2, … , 𝑃(𝐴𝑟) = 𝑝𝑟

◼ A tesztstatisztika:

ami aszimptotikusan 𝑟 − 1 szabadságfokú -négyzet eloszlású, ha igaz a nullhipotézis.

◼ Kritikus tartomány: ha a statisztika értéke nagyobb, mint az 𝑟 − 1 szabadságfokú -négyzet eloszlás 1 − kvantilise, elutasítjuk a nullhipotézist.

( )

=

−r

i i

ii

np

np

1

2

-négyzet próba (folytatás)

◼ Miért is ez a határeloszlás?

0

2 2 2 2 22

2

1

2

2, : ( ) , : gyakorisága kísérletből

( ) (( ) (1 )) ( ) ( ) ( )

(1 ) (1 ) (1 )

1,ha az .kísérletnél bekövetkezik,0 különben

, , (1 ) ,

i

n

i i i

i

i

i

r H P A p A n

np n n p np np np

np n p np n p np p

i A

E p D p p

=

=

= =

− − − − − − −= + = + =

− − −

=

= = = −

=

2

1211,eloszlásban

1

n

n

nE

nD

→

−

⎯⎯⎯⎯⎯⎯→

Példa (kockadobás)◼ 36 kockadobás eredménye

Szám Megfigyelt npi

1 8 6 0.667

2 5 6 0.167

3 9 6 1.500

4 2 6 2.667

5 7 6 0.167

6 5 6 0.167

( )2

i i

i

np

np

−

( )

( )

( )

26

2

5

1

26

1

2

5

36, 6

~

5.333

5.333 0.377

Nem tudjuk a szabályosság hipotézisét elutasítani!

i i

i i

i i

i i

n r

np

np

np

np

P

=

=

= =

−

−=

=

Példa (számítógépek népszerűsége)

◼ 100 amerikai diák

Számí-

tógép Megfigyelt npi

IBM 47 33.333 5.604

Macintosh 36 33.333 0.213

Egyéb 17 33.333 8.003

( )2

i i

i

np

np

−

( )

( )

( )

23

2

2

1

23

1

2

2

100, 3

~

13.820

5.99 0.05

Elutasítjuk az egyforma kedveltség hipotézisét!

i i

i i

i i

i i

n r

np

np

np

np

P

=

=

= =

−

−=

=

-négyzet próba illeszkedésvizsgálatra

◼ Illeszkedésvizsgálat:

0 1: ,..., eloszlásfüggvényűeknH F

o Visszavezetjük az előző esetre

, 1, 2,..., ,

Diszkrét esetben gyakran: , 1,2,...,

i i i

i

i i

A C i r C

A x i r

= = =

= = =

R

Példa◼ Mi lehet egy vezető által okozott károk számának

eloszlása?

◼ Poisson eloszlású-e?

Kár-szám

0 1 2 3 4 5 6 7 >7 Össze-sen

Veze-tők száma

129524 16267 1966 211 31 5 1 1 0 148006

Becsléses -négyzet próba

◼ H0 hipotézis: az A1, A2 , ..., Ar teljes eseményrendszerre teljesül:

( )

1

1

2

2 2

1

1

1

( ) ( ,..., ), 1,2,...,

,..., ismeretlen paraméterek.

A tesztstatisztika:

ˆ,

ˆ

ahol

ˆ ˆˆ ( ,..., ).

i i s

s

ri i

r sni i

i i s

P A p i r

np

np

p p

− −→=

= =

−= ⎯⎯⎯→

=

Példa (folyt.)

Kár-szám

0 1 2 3 4 5 6 7 >7 Össze-sen

Veze-tők száma

129524 16267 1966 211 31 5 1 1 0 148006

npi

Poisson

128 433 18 218 1 292 61 2,2 0,06 0,001 3E-05 5E-07

Npi

Neg. bin.

129 541 16 237 1 962 234 28 3,3 0,39 0,05 0,006

( )

( )

( )

4

24

2

5 1 1

0

24

0

2

3

148006, 5

, 0,1,2,3

4

Poisson eset:

ˆ=0.709

ˆ~

ˆ

ˆ200

ˆ

17.7 0.05%

Elutasítjuk Poisson eloszlás hipotézisét!

i

i i

i i

i i

i i

n r

A i i

A

np

np

np

np

P

− −

=

=

= =

= = =

=

−

−

=

Documents

Valószínűségszámítás és Statisztika