31
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez statystycznych 5. Testy parametryczne (na przykładzie testu t ) 6. Testy nieparametryczne 7. Korelacja i regresja liniowa i nieliniowa 8. Analiza wariancji Copyright ©2010, Joanna Szyda

STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Embed Size (px)

Citation preview

Page 1: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

STATYSTYKA MATEMATYCZNA

1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki2. Zmienne losowe i ich rozkłady3. Populacje i próby danych, estymacja parametrów4. Testowanie hipotez statystycznych5. Testy parametryczne (na przykładzie testu t )6. Testy nieparametryczne7. Korelacja i regresja liniowa i nieliniowa8. Analiza wariancji

Copyright ©2010, Joanna Szyda

Page 2: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

TESTY PARAMETRYCZNE

Copyright ©2010, Joanna Szyda

weryfikacja hipotez dotyczących parametrów

populacji (średnia, wariancja)

założenie: znany rozkład populacji (gł. cechy

ilościowe o rozkładzie normalnym)

hipotezy dotyczące średniej: test t (duże próby – test

średniej standaryzowanej, z)

hipotezy dotyczące wariancji: test F w analizie

wariancji i analizie regresji

Page 3: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

TEST T

1. Zakres stosowalności

2. Dla pojedynczej próby

3. Dla dwu niezależnych prób

4. Dla dwu sparowanych prób

5. Test Duncana

Copyright ©2010, Joanna Szyda

Page 4: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

2

0

,

1

2

21

21

2

kkxVar

xEtx

kx

kk

k

xf

k

k

ROZKŁAD t

Copyright ©2009, Joanna Szyda

• Kształt zależny od stopni swobody• Dla wielu stopni swobody zbliżony do rozkł. normalnego

Page 5: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

ZAKRES STOSOWALNOŚCI TESTU T

1. Test parametryczny

2. Dane o charakterze ciągłym

3. Wartości w próbie danych – rozkład normalny

4. Porównywane próby danych – podobne wariancje

Page 6: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

POJEDYNCZA PRÓBA

Page 7: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

TEST T – POJEDYNCZA PRÓBA

PRÓBA DANYCH

1. Badanie osteoporozy

2. Medical Research Council, Cambridge

3. Gęstość kości [g/cm2] 40 zdrowych osób dorosłych

BMD SEX0.97 10.73 10.87 10.94 11.02 10.76 10.78 11.01 10.82 10.76 10.87 10.72 1

…0.91 21.02 20.87 2

W próbie:

401040,085,0

n

x

Page 8: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

TEST T – POJEDYNCZA PRÓBA

1. Określenie hipotez H0 i H1

H0: średnia gęstość kości w populacji wynosi 1.0 g/cm2

H1: średnia gęstość kości w populacji różni się od 1.0 g/cm2

H0: = 1.0 H1: ≠ 1.0

(test dwustronny)

2. Ustalenie poziomu istotności

MAX = 0.05

Page 9: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Pojedyncza próba, nieznana wariancja

Copyright ©2010, Joanna Szyda

3. Wybór i określenie rozkładu statystyki testowej

Statystyka

gdzie:

s – standardowe odchylenie w próbie danych

ma rozkład t – Studenta o k = n -1 stopniach swobody

stopnie swobody (degrees of freedom):wielkość określająca kształt rozkładu statystyki testowej (testu) w zależności od liczby obserwacji w próbie

ns

xt

Page 10: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

TEST T – POJEDYNCZA PRÓBA

4. Obliczenie wartości testu

5. Obliczenie wartości t (lub odczyt t)

323120000000000,0T

6. Decyzjat < max H0 H1 (|t| > t)

średnia gęstość kości w populacji różni się od 1.0 g/cm2

122,9401040,0

0,185,00,10.12

ns

xs

xtxx

( t0,05;40-1 = 2,0227 )

Page 11: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

DWIE NIEZALEŻNE PRÓBY

Page 12: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

TEST T – DWIE NIEZALEŻNE PRÓBY

1. Badanie osteoporozy2. Medical Research Council,

Cambridge3. Gęstość kości [g/cm2] 40 zdrowych

osób dorosłych

4. Wartości znane dla mężczyzn i kobiet

PRÓBA DANYCHBMD SEX

0.97 10.73 10.87 10.94 11.02 10.76 10.78 11.01 10.82 10.76 10.87 10.72 1

…0.91 21.02 20.87 2

2088,082,0

MK

M

K

nnxx

Page 13: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

1. Określenie hipotez H0 i H1

H0: średnia gęstość kości kobiet jest taka sama jak mężczyzn H1: średnia gęstość kości kobiet jest różna niż mężczyznH0: K = MH1: K ≠ M

(test dwustronny)

2. Ustalenie poziomu istotności

MAX = 0.05

TEST T – DWIE NIEZALEŻNE PRÓBY

Page 14: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Dwie próby, nieznana wariancja

Copyright ©2010, Joanna Szyda

3. Wybór i określenie rozkładu statystyki testowej

Statystyka

s1, n1 – stand. odchylenie i liczebność w pierwszej próbie danych;

s2, n2 – stand. odchylenie i liczebność w drugiej próbie danych

ma rozkład t–Studenta o k = n1+n2 - 2 st. swob.

2

22

1

21 gdzie

ns

nssD

Dsxxt 21

Page 15: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

TEST T – DWIE NIEZALEŻNE PRÓBY

Copyright ©2010, Joanna Szyda

4. Obliczenie wartości statystyki testowej

8987,1

200076895,0

200122895,0

88,082,0

22

t

ns

ns

xxt

M

M

K

K

MK

Page 16: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

5. Obliczenie wartości t

0652.0t

6. Decyzjat > max H0 H1

TEST T – DWIE NIEZALEŻNE PRÓBY

Nie można odrzucić hipotezy zerowej!

TEST JEDNOSTRONNY: H0: K = M H1: K < M

Decyzja ??

0326.0t

Page 17: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

WNIOSKOWANIE STATYSTYCZNE

Omułek słodkowodny Hyridella menziesi

n=3025.0 ± 0.9 mg/g

[23.2 , 26.8]

n=3022.9 ± 0.7 mg/g[ 21.5 , 24.3 ]

Copyright ©2010, Joanna Szyda

H0: 1= 2

max=0,05

t = 1,84

H1: 1≠2 → T = 0,0709

H1: 1>2 → T = 0,0354

Wnioski?

Page 18: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

DWIE SPAROWANE PRÓBY

(pary skorelowane)

Page 19: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

TEST T – PARY SKORELOWANE

1. Badanie ciśnienia w gałce ocznej

2. Ciśnienie w 2 gałkach tej samej osoby

3. U każdego człowieka oko prawe i lewe ma różną grubość rogówki →podział oczu w parach pod tym względem (low CCT i high CCT)

PRÓBA DANYCH

Low CCT High CCT

20.0 14.3

13.9 13.8

18.3 15.8

21.1 33.4

20.1 20.3

24.4 19.9

20.2 14.3

11.6 11.4

28.8 25.1

18.5 24.1

Page 20: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

1. Określenie hipotez H0 i H1

H0: ciśnienie w gałce ocznej nie zależy od grubości rogówki H1: ciśnienie w gałce ocznej zależy od grubości rogówkiH0: L = HH1: L ≠ H

2. Ustalenie poziomu istotności

MAX = 0.05

TEST T – PARY SKORELOWANE

Page 21: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

3. Wybór i określenie rozkładu statystyki testowej

TEST T – DWIE SPAROWANE PRÓBY

1

1

2

1121

N

DDS

N

SS

N

D

N

xxD

SDt

N

ii

D

DD

N

ii

N

iii

D

i

i

Średnia arytmetyczna różnic (Di ) w parach obserwacji

Błąd standardowy średniej

Tak określona statystyka ma rozkład t-Studenta o N-1

stopniach swobody

(N – liczba par!)

Standardowe odchylenie różnic

Page 22: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

4. Obliczenie wartości statystyki

TEST T – DWIE SPAROWANE PRÓBY

25,07895,1

45,0

7895,110

6589,5

6589,5110

21.2881

45,010

5,4

1

2

121

D

DD

N

ii

D

N

iii

SDt

N

SS

N

DDS

N

xxD

i

i

Page 23: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

5. Obliczenie wartości t

8082.0t

6. Decyzjat > max H0 H1

TEST T – DWIE SPAROWANE PRÓBY

ciśnienie w gałce ocznej nie zależy od grubości rogówki

Page 24: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

KILKA PRÓB - TEST DUNCANA

Page 25: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

TEST T – KILKA PRÓB, TEST DUNCANA

1. Badanie frekwencji na zajęciach ze statystyki w USA

2. 4 grupy - atrakcyjność wykładowcy

3. Frekwencja na zajęciach w semestrze

PRÓBA DANYCH

poziom atrakcyjności

0 1 2 4

15 20 10 30

10 13 24 22

12 10 29 29

10 22 12 20

... ... ... ...

średnia

11.13 17.88 20.25 24.38

Page 26: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

TEST T – KILKA PRÓB, TEST DUNCANA

1. Próby uszeregowane od najniższej do najwyższej średniej

2. Sekwencja kilku testów t dla niezależnych prób

3. Zmodyfikowany poziom błędu istotności MAX

MAX* = 1 - (1 - MAX)n-1

0

1

2

3

* = 1 - (1 - 0.2722)2-1 = 0.2722

H0: 1 = 2 H1: 1 ≠ 2

pojedynczegotestu t

liczba prób

Page 27: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

TEST T – KILKA PRÓB, TEST DUNCANA

1. Próby uszeregowane od najniższej do najwyższej średniej

2. Sekwencja kilku testów t dla niezależnych prób

3. Zmodyfikowany poziom błędu istotności MAX

MAX* = 1 - (1 - MAX)n-1

0

1

2

3

* = 1 - (1 - 0.00000096)4-1 = 0.0000029

H0: 0 = 1 = 2 = 3 H1: 0 ≠ 1 ≠ 2 ≠ 3

Page 28: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

TEST T – KILKA PRÓB, TEST DUNCANA

1. Próby uszeregowane od najniższej do najwyższej średniej

2. Sekwencja kilku testów t dla niezależnych prób

3. Zmodyfikowany poziom błędu istotności MAX

MAX* = 1 - (1 - MAX)n-1

0

1

2

3

* = 1 - (1 - 0.0048)3-1 = 0.0097

* = 1 - (1 - 0.0002)3-1 = 0.0004

H0: 0 = 1 = 2 H1: 0 ≠ 1 ≠ 2 H0: 1 = 2 = 3 H1: 1 ≠ 2 ≠ 3

Page 29: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

TEST T – KILKA PRÓB, TEST DUNCANA

1. Próby uszeregowane od najniższej do najwyższej średniej

2. Sekwencja kilku testów t dla niezależnych prób

3. Zmodyfikowany poziom błędu istotności MAX

MAX* = 1 - (1 - MAX)n-1

0

1

2

3

* = 1 - (1 - 0.0036)2-1 = 0.0036

H0: 0 = 1 H1: 0 ≠ 1

* = 1 - (1 - 0.0625)2-1 = 0.0625

H0: 2 = 3 H1: 2 ≠ 3

Page 30: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Copyright ©2010, Joanna Szyda

TEST T – KILKA PRÓB, TEST DUNCANA

0

1 A

2 A B

3 B

1. Atrakcyjność wykładowcy wpływa na frekwencję

2. Frekwencja na zajęciach nie różni się istotnie (=0.05) w grupach 1 i 2 oraz 2 i 3

Page 31: STATYSTYKA MATEMATYCZNA - gen.up.wroc.plgen.up.wroc.pl/ddakt/statystyka/wyklad5.pdf · ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane o charakterze ciągłym 3. Wartości

Test t

1. Zakres stosowalności

2. Dla pojedynczej próby

3. Dla dwu niezależnych prób

4. Dla dwu sparowanych prób

5. Test Duncana