Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
Valószínűségszámítás és Statisztika
9. előadás
2021. április 27.
Hipotézisvizsgálat
◼ H0 nullhipotézis (jelezni akarjuk, ha nem igaz)
0.
◼ H1 ellenhipotézis 1.
◼ Elsőfajú hiba: H0 igaz, de elutasítjuk
◼ Másodfajú hiba: H0 hamis, de elfogadjuk
Lehetséges döntések táblázata
Aktuális helyzet
A nullhipotézis
igaz
A nullhipotézis
hamis
Döntés
:
Elfogadjuk a
nullhipotézist Helyes döntés Másodfajú hiba
Elutasítjuk a
nullhipotézist Elsőfajú hiba Helyes döntés
Alapfogalmak◼ Emlékeztető: X mintatér: a minta lehetséges értékeinek
halmaza.
◼ X = Xe U Xk
◼ Xk : azon lehetséges értékek halmaza, amelyek megfigyelése
esetén elutasítjuk a nullhipotézist.
◼ Gyakran statisztika segítségével határozzuk meg:
1 , ( )
0 ,
k
k
T
=
x Xx
x X
Elsőfajú hiba valószínűsége
( )
( )0
0 a próba terjedelme, ha minden -ra
X
a próba szignifikanciaszintje
(másképp: a próba pontos terjedelme),
sup X
k
k
P
P
=
ξ
ξ
Erőfüggvény
( ) ( ) 1
A próba erőfüggvénye
( )= X 1- X ,k eP P = ξ ξ
Próbák a normális eloszlás várható értékére: u-próba.◼ 𝐻0: 𝑚 = 𝑚0 , 𝐻1: 𝑚𝑚0 . Ha ismert a szórás (u-
próba):
◼ Kritikus tartomány: 𝑢 > 𝑢1−𝛼/2. (𝑢1−𝛼/2 a standard
normális eloszlás 1 − /2 kvantilise)
◼ Ha egyoldali az ellenhipotézis, akkor a kritikus tartomány 𝑢 > 𝑢1−𝛼(𝑚 > 𝑚0), illetve
𝑢 < −𝑢1−𝛼alakú (𝑚 < 𝑚0). Ezek legerősebb próbák!
𝑈 = 𝑛ሜ𝑋 −𝑚0
𝜎
Próbák a normális eloszlás várható értékére: t próba.
◼ 𝐻0: 𝑚 = 𝑚0 , 𝐻1 ∶ 𝑚𝑚0 . Ha nem ismert a szórás (t-próba):
◼ ahol
◼ Kritikus tartomány: 𝑡 > 𝑡1− Τ𝛼 2.𝑛−1.
◼ H0 esetén a próbastatisztika n-1 szabadságfokú, t-eloszlású.
0mX
nt−
=
( ) )1/(ˆ1
2
−−= =
nXXn
i
i
Megjegyzések
◼ Ha egyoldali az ellenhipotézis, akkor a kritikus tartomány
𝑡 > 𝑡1−𝛼.𝑛−1(𝑚 > 𝑚0),
◼ illetve
𝑡 < −𝑡1−𝛼.𝑛−1alakú (𝑚 < 𝑚0).
Megjegyzések
◼ Ezek is legerősebb próbák!
◼ A kétoldali esetre kapott próba nem a legerősebb (ilyenkor nincs is ilyen).
◼ Ha a minta elemszáma nagy, a t-próba helyett az u-próba is használható (ekkor még a normális eloszlásúságra sincs szükség a centrális határeloszlás tétel miatt).
Példa
◼ A butitizmus elleni védőoltás hatásos, ha az oltás után 2 héttel az antitestek száma meghaladja az 5 purc szintet.
◼ 37 beteget oltottak be. 2 héttel az oltás után az átlagos antitest szintjük 5,7 purc volt, a mérések korrigált tapasztalati szórása pedig 1,3 volt.
◼ Hatásos-e az oltás?
Példa (folyt.)
◼ Ez így nem jó! Kellenének az egyedi adatok!
◼ Feltételezzük, hogy 𝑋1, 𝑋2, … , 𝑋37~𝑁 𝑚, 𝜎2
◼ 𝐻0: 𝑚 = 5,𝐻1: 𝑚 > 5
◼ 𝑡 = 375,7−5
1,3= 3,275334
◼ 𝑡1−5%.37−1 = 1,688298
◼ 𝑃 𝑡36 < 3,275334 = 0,9988308
Kétoldali próbák és konfidencia intervallumok
◼ A normális eloszlásnál a várható értékre vonatkozó terjedelmű próbánál láttuk, hogy a
𝐻0: 𝑚 = 𝑚0
hipotézist a𝐻1: 𝑚𝑚0
hipotézissel szemben pontosan akkor fogadjuk el, ha 𝑚0 benne van az 1 − megbízhatóságú konfidencia intervallumban.
Kétmintás eset: párosított megfigyelések
◼ Példa: Van-e különbség Budapest és Cegléd napi átlaghőmérséklete között?
𝐻0: 𝑚1 = 𝑚2 a nullhipotézis.
◼ Ha ugyanazon napokról van megfigyelésünk mindkét helyen: nem függetlenek a minták. Ekkor a párok tagjai közötti különbséget vizsgálva, az előző egymintás esetre vezethető vissza a feladat.
𝐻0
∗: 𝑚 = 0 ,𝐻1
∗:𝑚0 az új hipotézisek.
Kétmintás eset: független minták
𝑡𝑛+𝑘−2 =𝑛𝑘(𝑛 + 𝑘 − 2)
𝑛 + 𝑘
ሜ𝑋 − ሜ𝑌
σ(𝑋𝑖 − ሜ𝑋)2 +σ(𝑌𝑖 − ሜ𝑌)2
Ha ismert a szórás: (𝑋 𝑛 elemű, 𝜎1 szórású, 𝑌 𝑘 elemű, 𝜎2 szórású), alkalmazható a kétmintás u-próba
𝑢 =ሜ𝑋 − ሜ𝑌
𝜎12/𝑛 + 𝜎2
2/𝑘
Kritikus tartomány: mint az egymintás esetben
Ha ismeretlenek, de azonosak a szórások:
A szórás vizsgálata kétmintás esetben: F-próba◼ 𝐻0: 1 = 2
◼ Két független, 𝑛, illetve 𝑘 elemű normális eloszlású minta alapján a próbastatisztika:
(a korrigált tapasztalati
szórásnégyzetek hányadosa)
◼ Kritikus érték: az 𝑛 − 1, 𝑘 − 1 szabadságfokú F eloszlás 1 − /2 kvantilise
(𝑛 a számlálóbeli, 𝑘 pedig a nevezőbeli minta elemszáma).
),max(2
1
2
2
2
2
2
1
s
s
s
sF =
Kétmintás t-próba ismét
◼ Alkalmazható, ha az F-próba elfogadja a szórások azonosságát.
◼ Ha nem, akkor Welch-próba:
◼ H0 esetén közelítőleg 𝑡 eloszlású 𝑓szabadságfokkal, ahol
2
2
21
2
1 //'
nsns
YXt
+
−=
1
)1(
1
1 22
−
−+
−=
m
c
n
c
f msns
nsc
//
/2
2
2
1
2
1
+=
-négyzet próba
◼ H0 hipotézis: az 𝐴1, 𝐴2 , … , 𝐴𝑟 teljes eseményrendszerre teljesül 𝑃(𝐴1) = 𝑝1, 𝑃(𝐴2) = 𝑝2, … , 𝑃(𝐴𝑟) = 𝑝𝑟
◼ A tesztstatisztika:
ami aszimptotikusan 𝑟 − 1 szabadságfokú -négyzet eloszlású, ha igaz a nullhipotézis.
◼ Kritikus tartomány: ha a statisztika értéke nagyobb, mint az 𝑟 − 1 szabadságfokú -négyzet eloszlás 1 − kvantilise, elutasítjuk a nullhipotézist.
( )
=
−r
i i
ii
np
np
1
2
-négyzet próba (folytatás)
◼ Miért is ez a határeloszlás?
0
2 2 2 2 22
2
1
2
2, : ( ) , : gyakorisága kísérletből
( ) (( ) (1 )) ( ) ( ) ( )
(1 ) (1 ) (1 )
1,ha az .kísérletnél bekövetkezik,0 különben
, , (1 ) ,
i
n
i i i
i
i
i
r H P A p A n
np n n p np np np
np n p np n p np p
i A
E p D p p
=
=
= =
− − − − − − −= + = + =
− − −
=
= = = −
=
2
1211,eloszlásban
1
n
n
nE
nD
→
−
⎯⎯⎯⎯⎯⎯→
Példa (kockadobás)◼ 36 kockadobás eredménye
Szám Megfigyelt npi
1 8 6 0.667
2 5 6 0.167
3 9 6 1.500
4 2 6 2.667
5 7 6 0.167
6 5 6 0.167
( )2
i i
i
np
np
−
( )
( )
( )
26
2
5
1
26
1
2
5
36, 6
~
5.333
5.333 0.377
Nem tudjuk a szabályosság hipotézisét elutasítani!
i i
i i
i i
i i
n r
np
np
np
np
P
=
=
= =
−
−=
=
Példa (számítógépek népszerűsége)
◼ 100 amerikai diák
Számí-
tógép Megfigyelt npi
IBM 47 33.333 5.604
Macintosh 36 33.333 0.213
Egyéb 17 33.333 8.003
( )2
i i
i
np
np
−
( )
( )
( )
23
2
2
1
23
1
2
2
100, 3
~
13.820
5.99 0.05
Elutasítjuk az egyforma kedveltség hipotézisét!
i i
i i
i i
i i
n r
np
np
np
np
P
=
=
= =
−
−=
=
-négyzet próba illeszkedésvizsgálatra
◼ Illeszkedésvizsgálat:
0 1: ,..., eloszlásfüggvényűeknH F
o Visszavezetjük az előző esetre
, 1, 2,..., ,
Diszkrét esetben gyakran: , 1,2,...,
i i i
i
i i
A C i r C
A x i r
= = =
= = =
R
Példa◼ Mi lehet egy vezető által okozott károk számának
eloszlása?
◼ Poisson eloszlású-e?
Kár-szám
0 1 2 3 4 5 6 7 >7 Össze-sen
Veze-tők száma
129524 16267 1966 211 31 5 1 1 0 148006
Becsléses -négyzet próba
◼ H0 hipotézis: az A1, A2 , ..., Ar teljes eseményrendszerre teljesül:
( )
1
1
2
2 2
1
1
1
( ) ( ,..., ), 1,2,...,
,..., ismeretlen paraméterek.
A tesztstatisztika:
ˆ,
ˆ
ahol
ˆ ˆˆ ( ,..., ).
i i s
s
ri i
r sni i
i i s
P A p i r
np
np
p p
− −→=
= =
−= ⎯⎯⎯→
=
Példa (folyt.)
Kár-szám
0 1 2 3 4 5 6 7 >7 Össze-sen
Veze-tők száma
129524 16267 1966 211 31 5 1 1 0 148006
npi
Poisson
128 433 18 218 1 292 61 2,2 0,06 0,001 3E-05 5E-07
Npi
Neg. bin.
129 541 16 237 1 962 234 28 3,3 0,39 0,05 0,006
( )
( )
( )
4
24
2
5 1 1
0
24
0
2
3
148006, 5
, 0,1,2,3
4
Poisson eset:
ˆ=0.709
ˆ~
ˆ
ˆ200
ˆ
17.7 0.05%
Elutasítjuk Poisson eloszlás hipotézisét!
i
i i
i i
i i
i i
n r
A i i
A
np
np
np
np
P
− −
=
=
= =
= = =
=
−
−
=