Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
STATYSTYKA MATEMATYCZNA
WYKŁAD 4
Testowanie hipotez
Estymacja parametrów
WSTĘP
1. Testowanie hipotez
• Błędy związane z testowaniem hipotez
• Etapy testowana hipotez
• Testowanie wielokrotne
2. Estymacja parametrów
• Błąd standardowy
• Przedział ufności
Copyright ©2010, Joanna Szyda
WNIOSKOWANIE STATYSTYCZNE
TESTOWANIE HIPOTEZ ESTYMACJA PARAMETRÓW
Copyright ©2010, Joanna Szyda
WNIOSKOWANIE STATYSTYCZNE
Omułek słodkowodny
Hyridella menziesi
n=30
25.0 mg/g
n=30
22.9 mg/g1.„Na oko” – różnica
2.UWAGA !!!
3.Błąd próbkowania
4.Estymatory różne
5.Parametry różne/równe
6.???
7.Wnioskowanie statystyczne Copyright ©2010, Joanna Szyda
WNIOSKOWANIE STATYSTYCZNE
Copyright ©2010, Joanna Szyda
WNIOSKOWANIE STATYSTYCZNE
PRÓBA DANYCH
POPULACJA
WNIOSKOWANIE STATYSTYCZNE
statistical inference
TESTOWANIE HIPOTEZ
H0 - hipoteza zerowa
H1 - hipoteza alternatywna
H0 + H1 = 1
• H1 jest odwrotnością H0
• Testowanie hipotez dotyczy przyjęcia lub odrzucenia H0
Copyright ©2010, Joanna Szyda
TESTOWANIE HIPOTEZ
np. 1 PARAMETR
H0: koncentracja lipidów w gr. doświadczalnej wynosi 25.0 mg/g
H1: koncentracja lipidów w gr. doświadczalnej jest inna
H1 H0 H1 H0: k = 25.0 H1: k 25.0
H0H1 H0: k > 25.0 H1: k ≤ 25.0
H0: koncentracja lipidów w gr. doświadczalnej przekracza 25.0 mg/g
H1: koncentracja lipidów w gr. doś. jest mniejsza lub równa 25.0 mg/g
Copyright ©2010, Joanna Szyda
TESTOWANIE HIPOTEZ
H0: k1 = k2 H1: k1 k2
k1
k2 H0
H1
H1
np. 2 PARAMETRY
H0: koncentracja lipidów w gr.
doświadczalnej jest równa
koncentracji w gr. kontrolnej
H1: koncentracja lipidów w gr.
doświadczalnej i kontrolnej
są różne
H0: k1 > k2 H1: k1 ≤ k2
k1
k2
H0
H1
H0: koncentracja lipidów w gr.
doświadczalnej jest wyższa
niż w gr. kontrolnej
H1: koncentracja lipidów w gr.
doświadczalnej jest niższa
lub równa gr. kontrolnej
Copyright ©2010, Joanna Szyda
BŁĘDY ZWIĄZANE Z TESTOWANIEM HIPOTEZ
BŁĘDY
PRAWDZIWA
HIPOTEZA
H0 H1
PRZYJĘTA
HIPOTEZA
H0
H1
- błąd I-go rodzaju (type I error)
- błąd II-go rodzaju (type II error)
Copyright ©2010, Joanna Szyda
BŁĘDY ZWIĄZANE Z TESTOWANIEM HIPOTEZ
BŁĘDY
PRAWDZIWA
HIPOTEZA
H0 H1
PRZYJĘTA
HIPOTEZA
H0
H1
• prawdopodobieństwo błędnego odrzucenie prawdziwej H0
• poziom istotności testu (significance level)
• P wartość (P value)
• np. jeżeli =0.05 to na 100 testów w 5 niepotrzebnie odrzucono H0
• kontrolujemy w czasie testowania
BŁĄD I-go RODZAJU
Copyright ©2010, Joanna Szyda
BŁĘDY ZWIĄZANE Z TESTOWANIEM HIPOTEZ
BŁĘDY
PRAWDZIWA
HIPOTEZA
H0 H1
PRZYJĘTA
HIPOTEZA
H0
H1
• prawdopodobieństwo odrzucenie prawdziwej H1
• 1-β – moc testu (power)
BŁĄD II-go RODZAJU
Copyright ©2012 Joanna Szyda
ETAPY TESTOWANA HIPOTEZ
1. Określenie hipotez H0 i H1
2. Ustalenie poziomu istotności
3. Wybór i obliczenie wartości testu statystycznego
4. Wyznaczenie obszaru krytycznego
5. Decyzja dotycząca przyjęcia lub odrzucenia H0;
sformułowanie wniosków
METODA TRADYCYJNA
ETAPY TESTOWANA HIPOTEZ
1. Określenie hipotez H0 i H1
H0: u = 23
H1: u ≠ 30
H1: u < 30
H1: u > 30
METODA TRADYCYJNA
ETAPY TESTOWANA HIPOTEZ
1. Określenie hipotez H0 i H1
2. Ustalenie poziomu istotności
=0.1 lub =0.05 lub =0.01
METODA TRADYCYJNA
ETAPY TESTOWANA HIPOTEZ
1. Określenie hipotez H0 i H1
2. Ustalenie poziomu istotności
3. Wybór i obliczenie wartości testu statystycznego
Rozkład normalny
Znany parametr
METODA TRADYCYJNA
ETAPY TESTOWANA HIPOTEZ
1. Określenie hipotez H0 i H1
2. Ustalenie poziomu istotności
3. Wybór i obliczenie wartości testu statystycznego
4. Wyznaczenie obszaru krytycznego
H1: u ≠ 30
H2: u < 30
H3: u > 30
METODA TRADYCYJNA
ETAPY TESTOWANA HIPOTEZ
1. Określenie hipotez H0 i H1
2. Ustalenie poziomu istotności
3. Wybór i obliczenie wartości testu statystycznego
4. Wyznaczenie obszaru krytycznego
5. Decyzja dotycząca przyjęcia lub odrzucenia H0;
sformułowanie wniosków
Czy wartość statystyki testowej znajduje się w przedziale
krytycznym?
Tak odrzucamy H0
Nie nie mamy podstaw do odrzucenia H0
METODA TRADYCYJNA
ETAPY TESTOWANA HIPOTEZ - PRZYKŁAD
Baterie alkaliczne do samochodu zabawki zostały
zaprojektowane tak, aby działały przez 30 godzin, ze znanym
odchyleniem standardowym równym 2,95. Klienci narzekali
jednak, iż baterie działają krócej niż 30 godzin. Losowo,
wybrano próbę 38 baterii. Ich średnia długość działania
wynosiła 29,3 godziny. Czy czas działania baterii jest
znacząco niższy niż 30 godzin?
Rozważ problem dla poziomu istotności =0.05
ETAPY TESTOWANA HIPOTEZ
1. Określenie hipotez H0 i H1
H0: u = 30 H1: u < 30
2. Ustalenie poziomu istotności
=0.05
3. Wybór i obliczenie wartości testu statystycznego
Z =𝟐𝟗,𝟑−𝟑𝟎
𝟐,𝟗𝟓𝟑𝟖 = -1,46
4. Wyznaczenie obszaru krytycznego
5. Decyzja dotycząca przyjęcia lub odrzucenia H0;
sformułowanie wniosków
STATYSTYKA Z
C: (-∞, -1,64]
-1,64
Wartość statystyki testowej nie mieści się w przedziale
krytycznym. Nie mamy podstaw do odrzucenia H0 WNIOSEK?
ETAPY TESTOWANA HIPOTEZ
1. Określenie hipotez H0 i H1
2. Ustalenie poziomu istotności
3. Wybór i obliczenie wartości testu statystycznego
4. Wyznaczenie P –value (T) i porównanie z ustalonym
poziomem istotności
5. Decyzja dotycząca przyjęcia lub odrzucenia H0
im niższa wartość P tym większe przesłanki do
odrzucenia H0
P-value
np. = 0.05 T = P = 0.02 H0 H1 ??
np. = 0.05 T = P = 0.21 H0 H1 ??
TESTOWANIE WIELOKROTNE
…
H0: k1≤k2 / H1: k1>k2 → MAX=0.05 → t → T → H0/H1 → 5%
H0: k1≤k2 / H1: k1>k2 → MAX=0.05 → t → T → H0/H1 → 5%
H0: k1≤k2 / H1: k1>k2 → MAX=0.05 → t → T → H0/H1 → 5%
H0: k1≤k2 / H1: k1>k2 → MAX=0.05 → t → T → H0/H1 → 5%
1
2
3
10
CAŁKOWITY BŁĄD Igo RODZAJU MAX 0.05*10 = 50%Copyright ©2010, Joanna Szyda
TESTOWANIE WIELOKROTNE
Jak temu zaradzić ?
KOREKTA BONFERRONIEGO → testy niezależne od siebie
…
MAX* = MAX / N → MAX* = 0.05 / 10 → MAX* = 0.005 1
2
10
CAŁKOWITY BŁĄD Igo RODZAJU MAX 0.005*10 = 5%
MAX* = MAX / N → MAX* = 0.05 / 10 → MAX* = 0.005
MAX* = MAX / N → MAX* = 0.05 / 10 → MAX* = 0.005
Copyright ©2010, Joanna Szyda
WNIOSKOWANIE STATYSTYCZNE
TESTOWANIE HIPOTEZ ESTYMACJA PARAMETRÓW
Copyright ©2010, Joanna Szyda
Estymacja punktowa
Estymacja przedziałowa
WNIOSKOWANIE STATYSTYCZNE
ESTYMACJA PARAMETRÓW
Copyright ©2010, Joanna Szyda
n=30
średnia koncentracja
lipidów
22.9 ± 0.7 mg/g
WNIOSKOWANIE STATYSTYCZNE
ESTYMACJA PARAMETRÓW
Copyright ©2010, Joanna Szyda
n=100
średnia długość ogona
ryjówki
23 ± 15 mm
JAK DOKŁADNY JEST DANY ESTYMATOR ???
BŁĄD STANDARDOWY
Jaka jest średnia długość ogona w populacji ryjówek?
Aby uzyskać dokładną wartość średniej badacz musiałby zmierzyć
wszystkie ogony ryjówek. Z praktycznego punktu widzenia jest to
niemożliwe i nieopłacalne. Badacz chciał estymować prawdziwą
wartość średniej długości ogona w tej populacji na podstawie próby
100 ryjówek. Stwierdził, że średnia długość w jego próbie wyniósł 23
mm Czy jest to faktyczna średnia wartość długości ogona w całej
populacji?
JAK DOKŁADNY JEST DANY ESTYMATOR ???
BŁĄD STANDARDOWY
Jaka jest średnia długość ogona w populacji ryjówek?
Aby uzyskać dokładną wartość średniej badacz musiałby zmierzyć
wszystkie ogony ryjówek. Z praktycznego punktu widzenia jest to
niemożliwe i nieopłacalne. Badacz chciał estymować prawdziwą
wartość średniej długości ogona w tej populacji na podstawie próby
100 ryjówek. Stwierdził, że średnia długość w jego próbie wyniósł 23
mm Czy jest to faktyczna średnia wartość długości ogona w całej
populacji?
Jest to wartość zbliżona do faktycznej wartości, ale
najprawdopodobniej nie jest ona identyczna. Średnia z próby (z
jednego badania) stanowi estymator (przybliżenie) wartości
prawdziwej w populacji.
JAK DOKŁADNY JEST DANY ESTYMATOR ???
BŁĄD STANDARDOWY
Jaka jest średnia długość ogona w populacji ryjówek?
Estymator średniej = 23 mm
Jeżeli badacz przeprowadziłby wielokrotnie takie badanie, dla każdej z
prób (dla każdego z badania) otrzymałby jakiś średni wynik. Za
każdym razem ten wynik byłby "przybliżeniem" prawdziwej średniej
wartości długości ogona.
Błąd standardowy jest miarą zróżnicowania tych średnich z prób, z
kolejnych badań, czyli na ile nasz estymowany (w populacji) średni
wynik zmienia się w poszczególnych próbach.
21x 26x 23x23x24x 23x
23
BŁĄD STANDARDOWY ŚREDNIEJ ARYTMETYCZNEJ
Błąd standardowy estymatora średniej: odchylenie standardowe
rozkładu estymatora średniej
x
Jaki jest rozkład ?x Jak obliczyć ?xs
Copyright ©2010, Joanna Szyda
BŁĄD STANDARDOWY ŚREDNIEJ ARYTMETYCZNEJ
Jaki rozkład ma estymator średniej?
Dla dużych prób danych (N):
• rozkład estymatora średniej zbliża się do rozkładu
Normalnego
• estymator średniej zbliża się do prawdziwej wartości
parametru próby
• niezależnie od rozkładu obserwacji w próbie danych ☺
Copyright ©2010, Joanna Szyda
BŁĄD STANDARDOWY ŚREDNIEJ ARYTMETYCZNEJ
Błąd standardowy estymatora średniej (standard error):
odchylenie standardowe rozkładu estymatora średniej
Jaki jest rozkład ? Jak obliczyć ?x xsCopyright ©2010, Joanna Szyda
x
BŁĄD STANDARDOWY ŚREDNIEJ ARYTMETYCZNEJ
Jak obliczyć odchylenie standardowe rozkładu średniej (bez
konieczności pobierania wielu prób danych) ?
N
SS x
x
1N
xx
S
N
1i
2
i
x
Odchylenie standardowe w próbie danych:
Liczebność próby danych
BŁĄD STANDARDOWY ŚREDNIEJ
Copyright ©2010, Joanna Szyda
Błąd standardowy estymatora prawdopodobieństwa
N
ppS p
ˆ1ˆˆ
Copyright ©2013. Joanna Szyda
BŁĄD STANDARDOWY INNYCH ESTYMATORÓW
Błąd standardowy współczynnika regresji
2
2
2
ˆ
1
xx
N
yy
S
i
ii
b
Na podstawie błędu standardowego estymatora możemy określić
przedziały ufności estymatora. Im większy błąd standardowy
oraz przedział ufności tym estymator mniej dokładnie określa
parametr populacji.
Przedział ufności dla estymatora średniej: przedział w jakim z
określonym prawdopodobieństwem znajduje się prawdziwa
wartość parametru
PRZEDZIAŁ UFNOŚCI ŚREDNIEJ ARYTMETYCZNEJ
Copyright ©2010, Joanna Szyda
Przedział ufności dla estymatora średniej: przedział w jakim z
określonym prawdopodobieństwem znajduje się prawdziwa
wartość parametru
x
maxxminx
granice przedziału ufności
PRZEDZIAŁ UFNOŚCI ŚREDNIEJ ARYTMETYCZNEJ
Copyright ©2010, Joanna Szyda
Jak obliczyć granice przedziału ufności ?
PRZEDZIAŁ UFNOŚCI ŚREDNIEJ ARYTMETYCZNEJ
xmaxxmin SzxxSzxx
1. Wariancja próby znana lub próba bardzo liczna
x1N,maxx1N,min StxxStxx
2. Wariancja próby nieznana = obliczana na podstawie
obserwacji w próbie
Copyright ©2010, Joanna Szyda
średnia - (błąd standardowy * wartość
kwantyla z danego rozkładu)średnia + (błąd standardowy * wartość
kwantyla z danego rozkładu)
Jak obliczyć granice przedziału ufności ?
PRZEDZIAŁ UFNOŚCI ŚREDNIEJ ARYTMETYCZNEJ
Copyright ©2010, Joanna Szyda
Przedział ufności dla średniej 10 i odchyleniu standardowym 3, w próbie złożonej z
50 obserwacji - rozkład normalny, z założonym prawdopodobieństwem 95%.
= 0,424
Jesteśmy na 95% pewni, że średnia wartość wynosi od 9,17 i 10,83
N
SS x
x
xmaxxmin SzxxSzxx = 10 − 1,96 ∗ 0,424 = 9.16
xmaxxmin SzxxSzxx = 10 + 1,96 ∗ 0,424 = 10.83
Jak obliczyć granice przedziału ufności ?
PRZEDZIAŁ UFNOŚCI ŚREDNIEJ ARYTMETYCZNEJ
xmaxxmin SzxxSzxx
1. Wariancja próby znana lub próba bardzo liczna
x1N,maxx1N,min StxxStxx
2. Wariancja próby nieznana = obliczana na podstawie
obserwacji w próbie
Copyright ©2010, Joanna Szyda
x
1. Przedział ufności 95%
Prawdopodobieństwo wystąpienia prawdziwej średniej w
przedziale ufności, a długość przedziału
95.0P
PRZEDZIAŁ UFNOŚCI ŚREDNIEJ ARYTMETYCZNEJ
2. Przedział ufności 99%
x
99.0P
Copyright ©2010, Joanna Szyda
WNIOSKOWANIE STATYSTYCZNE
Omułek słodkowodny
Hyridella menziesi
n=30
25.0 ± 0.9 mg/g
[23.2 , 26.8]
n=30
22.9 ± 0.7 mg/g
[ 21.5 , 24.3 ]
Copyright ©2010, Joanna Szyda