46
PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na przykładzie testu t) 6. Testy nieparametryczne (na przykładzie testu 2 ) 7. Zależność cech - korelacja liniowa i rangowa 8. Zależność cech - regresja prosta 9. Analiza wariancji

PODSTAWY STATYSTYKI - gen.up.wroc.plgen.up.wroc.pl/wprowstat/podstatNST_7i8.pdf · PODSTAWY STATYSTYKI 1. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich

  • Upload
    vuque

  • View
    250

  • Download
    1

Embed Size (px)

Citation preview

PODSTAWY STATYSTYKI

1. Teoria prawdopodobieństwa i elementy kombinatoryki2. Zmienne losowe i ich rozkłady3. Populacje i próby danych, estymacja parametrów4. Testowanie hipotez5. Testy parametryczne (na przykładzie testu t)

6. Testy nieparametryczne (na przykładzie testu 2)7. Zależność cech - korelacja liniowa i rangowa8. Zależność cech - regresja prosta9. Analiza wariancji

1. Co to jest korelacja?

2. Jak określić wielkość zależności cech?

3. Współczynnik korelacji liniowej (Pearsona)

• obliczanie

• testowanie

4. Współczynnik korelacji rang (Spearmana)

• obliczanie

• testowanie

Badanie zależności cech

Populacja i próba

PróbaPopulacja

pobieranie

wnioskowanie

Dotąd: Rozpatrywaliśmy POPULACJĘ jako zbiór wartości jednejcechy (badaliśmy jej rozkład, szacowaliśmy parametry, testowaliśmy hipotezy)

Ale: Populacja biologiczna to zbiór osobników mających wiele cech

Populacja

Osobnik

Cecha

wydajność mleka

zawartość tłuszczu

wysokość w kłębie

tempo wzrostu

przyrost dzienny

wydajność rzeźna

długość laktacji

skuteczność inseminacji

Populacja wielocechowa

Zależność cech

Populacja

Osobnik

Cecha X

Cecha Y

Poszczególne cechy mogą byćwspółzależne

Zależność cech można określićmatematycznie

Zależność cech – współczynnik korelacji

Zależność statystyczna zmiennych losowych nosi nazwęKORELACJI

Wielkość (siłę) zależności dwóch zmiennych losowych (np. cech) mierzy WSPÓŁCZYNNIK KORELACJI

Miarą zależności dwóch cech ilościowych jest najczęściej WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA

Karl Pearson (1857 -1936)

angielski matematyk, prekursor statystyki

matematycznej

Zależność cech – współczynnik korelacji liniowej

Wartości X

Wartości Y

Ten sam zbiór przedstawiony graficznie(na osiach x i y wartości cech X i Y)

7

10

13

16

19

22

25

10 15 20 25 30 35

20,037,51219,935,01115,232,51021,730,0916,727,5816,125,0717,622,5613,920,059,617,5414,515,0311,412,528,510,01

Wartośćcechy Y

Wartośćcechy X

Nr osobnika

Jak zbadać i określić korelację dwóch cech?

Przykładowy zbiór pomiarów(uporządkowany wg wartości cechy X)

nr 3

Zależność cech

Jeśli zależność wygląda na liniową, możemy określić jej wielkość przy pomocy współczynnika korelacji Pearsona

7

10

13

16

19

22

25

10 15 20 25 30 35

Czerwone punkty wskazują odpowiadające sobie wartości cechy X i cechy Y u każdego osobnika

Widzimy LINIOWY charakter zależności

yxyx

xyyxyxr

).cov(),cov(22

gdzie:

1)(

1)( 2

22

2

nyy

nxx i

yi

x ,

1))((

),cov(

nyyxx

yx

wariancje

kowariancja

(n – liczba par obserwacji w próbie)

Zależność cech – współczynnik korelacji liniowej

Współczynnik korelacji liniowej (Pearsona) - definicja

Zależność cech – współczynnik korelacji liniowej

Mierzy siłę zależności dwóch zmiennych losowych X i Y

Pod warunkiem, że:• zmienne są ciągłe• mają rozkład normalny• zależność jest liniowa

rxy przyjmuje wartości z przedziału [ -1, 1 ]

n

i

n

iii

n

iii

yxxy

yyxx

yyxxyxr

1 1

22

1),cov(

Współczynnik korelacji liniowej (Pearsona) - obliczanie

Zależność cech – współczynnik korelacji liniowej

Współczynnik korelacji przyjmuje wartości z przedziału [ -1, 1 ]

Wartości bliskie 0 – brak zależności; wartości bliskie 1 lub -1 –silna zależność dodatnia lub ujemna

r xy= -1

0

5

10

15

20

0 5 10 15 20

rxy= -0.9

0

5

10

15

20

0 5 10 15 20

rxy= -0.5

0

5

10

15

20

0 5 10 15 20

r xy= 1

0

5

10

15

20

0 5 10 15 20

WZROST (cm)

DŁ. STOPY (cm)

185 28

179 27

158 24

160 23

190 29

173 25

180 29

175 25

188 30

165 23

Zależność cech – współczynnik korelacji liniowej

Przykład:

Badamy zależność wzrostu i rozmiaru obuwia

Pomiary w próbie 10 osób (N =10)

92,0

10

1

10

1

22

10

1

i iii

iii

xy

yyxx

yyxxr

Obliczenia:

OBLICZANIE współczynnika korelacji liniowej

1. HipotezyH0: rxy = 0 (nie ma zależności); HA: rxy 0 (jest zależność)

2. Poziom istotności MAX = 0,05

3. Statystyka

(N – liczba par obserwacji)

4. Obliczenie w próbie: t = 6,64

5. Dla N – 2 = 8 stopni swobody, t = 0,00016

6. Odrzucamy H0 i przyjmujemy HA

(Występuje wysoka dodatnia korelacja między wzrostem a długościąstopy)

22~

12

Nt

rNrt

Zależność cech – współczynnik korelacji liniowej

TESTOWANIE współczynnika korelacji liniowej (bo otrzymaliśmy estymator r)

Zależność cech – współczynnik korelacji liniowej

22

23

24

25

26

27

28

29

30

31

158 160 165 173 175 179 180 185 188 190

Diagram zależności wzrostu i długości stopy w próbie:

A co robić, jeśli zależność nie jest liniowa?!

Zależność jest liniowa, więc można było „posłużyć sięPearsonem”

rxy = 0,816 rxy = 0,816

rxy = 0,816 rxy = 0,816

Na upartego można obliczać współczynniki korelacji liniowej, ale nie będą miarodajne…

Zależność cech – współczynnik korelacji liniowej

Zależność cech – współczynnik korelacji rang

Jeśli

zależność wartości zmiennych nie jest liniowa

w próbie są wartości odstające

rozkład nie przypomina normalnego

można wykorzystać nie wartości cech, tylko ich miejsce w próbie po uporządkowaniu (tzw. rangę). Siłę zależności takich zmiennych mierzy WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA

Charles Spearman (1863 - 1945)

angielski psycholog

16

1 21

2

NN

dn

ii

xy

d - różnica w rankingu według

zmiennej X i według zmiennej Y

Współczynnik korelacji rang (Spearmana)

Mierzy siłę zależności dwóch zmiennych losowych X i Y

Nie ma wymagań, co do ciągłości wartości i normalności rozkładu, a zwłaszcza – co do liniowej zależności zmiennych

W obliczeniach wykorzystuje się nie wartości zmiennych, lecz ich kolejny numer (rangę) w uporządkowanej próbie

xy przyjmuje wartości z przedziału [ -1, 1 ]

grecka literarho, czytamy

„ro”

Zależność cech – współczynnik korelacji rang

Zależność cech – współczynnik korelacji rang

1519W

1414T

99S

16R

195P

2017O

812N

51M

720L

23K

1613J

1110I

42H

1316G

1815F

177E

38D

1218C

64B

1011A

Miejsce wg sędziego 2

Miejsce wg sędziego 1Kot

Przykład:

Na wystawie kotów rasowych 20 kotów uzyskało oceny od dwóch sędziów

Liczba zdobytych punktów wyznaczała miejsce na liście zwycięzców

Czy oceny sędziów są podobne?

Zależność cech – współczynnik korelacji rang

646Suma

16913720L

1641519W

3661218C

9-32017O

931316G

9-31815F

001414T

9-31613J

164812N

111011A

1-11110I

0099S

25538D

100-10177E

25516R

196-14195P

4-264B

1123K

4-242H

16-451M

dkwadrat

różnica d

Miejsce wg s. 2

Miejsce wg s. 1Kot

49,0

)1400(206466

1

61 2

1

2

NN

dn

ii

xy

OBLICZANIE współczynnika korelacji rang (Spearmana)

1. HipotezyH0: xy = 0 (nie ma zależności) HA: xy 0 (jest zależność)

2. Poziom istotności MAX = 0,05

3. Jeśli próba jest liczna (N = 20 lub więcej) można użyć statystyki

4. Obliczenie dla próby t = 2,38

5. Dla N – 2 = 18 stopni swobody, t = 0,028

6. Odrzucamy H0 i przyjmujemy HA

(Test wykazał, że istnieje związek między ocenami sędziów)

22~

12

Nt

Nt

Zależność cech – współczynnik korelacji rang

TESTOWANIE współczynnika korelacji rang (bo otrzymaliśmy estymator)

rxy = 0,816

xy= 0,818

Zależność cech – współczynniki korelacji

rxy = 0,816

xy= 0,691

rxy = 0,816

xy= 0,991

rxy = 0,816

xy= 0,500

Poznane współczynniki korelacji przy zależności liniowej, nieliniowej i danych odstających (kwartet Anscombe’a)

1. Co to jest korelacja?

2. Jak określić wielkość zależności cech?

3. Współczynnik korelacji liniowej (Pearsona)

• obliczanie

• testowanie

4. Współczynnik korelacji rang (Spearmana)

• obliczanie

• testowanie

Badanie zależności cech - podsumowanie

PODSTAWY STATYSTYKI

1. Teoria prawdopodobieństwa i elementy kombinatoryki2. Zmienne losowe i ich rozkłady3. Populacje i próby danych, estymacja parametrów4. Testowanie hipotez5. Testy parametryczne (na przykładzie testu t)

6. Testy nieparametryczne (na przykładzie testu 2)7. Zależność cech - korelacja liniowa i rangowa8. Zależność cech - regresja prosta9. Analiza wariancji

Zależność zmiennych

KORELACJA → określanie siły zależności(podobieństwa) zmiennych zależnych (przy pomocy współczynnika korelacji)

Jeśli zmienne są zależne → można próbowaćprzewidzieć wartości jednej zmiennej na podstawie wartości przyjmowanych przez drugą

REGRESJA → (a) określanie modelu zależności zmiennych i (b) wykorzystanie tego modelu do przewidywania wartości nieznanych na podstawie wartości obserwowanych (zmierzonych)

Taki matematyczny model zależności nosi nazwęrównania regresji

1. Regresja liniowa (prosta)

• Równanie regresji

• Estymacja współczynników regresji

• Przykłady równań regresji

2. Regresja nieliniowa i wielokrotna

• (przykłady)

3. Dopasowanie równania regresji

Wykorzystanie zależności cech - regresja

22

23

24

25

26

27

28

29

30

31

158 160 165 173 175 179 180 185 188 190

Wykorzystanie zależności cech - regresja

WZROST X

STOPA Y

185 28

179 27

158 24

160 23

190 29

173 25

180 29

175 25

188 30

165 23

Zależność cech X i Y ma charakter liniowy

Czy można by odgadnąć (przewidzieć) długośćstopy człowieka, jeśli znamy jego wzrost?

22

23

24

25

26

27

28

29

30

31

158 160 165 173 175 179 180 185 188 190

Wykorzystanie zależności cech - regresja

Żeby przewidywać wartości Y na podstawie wartości X trzeba znaleźć linię prostąjak najlepiej dopasowaną do zbioru punktów

Wzór określający tę prostą w układzie współrzędnych to RÓWNANIE REGRESJI –matematyczny model zależności cechy Y od cechy X

22

23

24

25

26

27

28

29

30

31

158 160 165 173 175 179 180 185 188 190

Wykorzystanie zależności cech - regresja

RÓWNANIE REGRESJI określa kąt nachylenia prostej do osi X oraz punkt przecięcia z osią Y

NACHYLENIE

bxaybxxbyyxbbxyyxxbyy

)(

Wykorzystanie zależności cech - regresja

Równanie regresji

)( xxbyy Współczynnik regresji

Przekształcenie równania regresji

bxay

?bxbya

Wykorzystanie zależności cech - regresja

Równanie regresji

Współczynnik regresji musi być taki, żeby dopasowanie modelu (linii) było jak nalepsze!

„wyraz wolny”, punkt przecięcia z osią y

wsp. regresji, tangens kąta nachylenia prostej

22

23

24

25

26

27

28

29

30

31

158 160 165 173 175 179 180 185 188 190

Wykorzystanie zależności cech - regresja

A jak wybrać linię najlepiej dopasowaną do zbioru punktów?

METODĄ NAJMNIEJSZYCH KWADRATÓW

22

23

24

25

26

27

28

29

30

31

158 160 165 173 175 179 180 185 188 190

Wykorzystanie zależności cech - regresja

wartość rzeczywista y

wartość teoretyczna ŷ

Metoda najmniejszych kwadratów – taki sposób obliczeń, żeby suma kwadratów odchyleń wartości rzeczywistych od teoretycznych była minimalna (oparty na rachunku różniczkowym)

bxay

Wykorzystanie zależności cech - regresja

Prosta regresji będzie dopasowana metodą najmniejszych kwadratów, jeśli współczynnik regresji obliczymy według

wzoru:

N

ii

N

iii

x xx

yyxxyxb

1

2

12

),cov(

Definicja współczynnika regresji liniowej

22

23

24

25

26

27

28

29

30

31

158 160 165 173 175 179 180 185 188 190

Wykorzystanie zależności cech - regresja

WZROST X

STOPA Y

185 28

179 27

158 24

160 23

190 29

173 25

180 29

175 25

188 30

165 23

Skonstruujemy równanie regresji dla naszego przykladu

21,0

1

2

1

N

ii

N

iii

xx

yyxxb

Wykorzystanie zależności cech - regresja

WZROST X

STOPA Y

185 28

179 27

158 24

160 23

190 29

173 25

180 29

175 25

188 30

165 23

1. Obliczamy odchylenia poszczególnych wartości od średnich, obliczamy iloczyny i kwadraty odchyleń, sumujemy; obliczamy b:

2. Obliczamy wyraz wolny:

15,11 xbya

3,263,175

yx

3. Uzyskujemy równanie regresji:

xy 21,015,11

22

23

24

25

26

27

28

29

30

31

158 160 165 173 175 179 180 185 188 190

Wykorzystanie zależności cech - regresja

15,1121,0 xy

Wstawiając w równaniu różne wartości wzrostu (x) otrzymujemy odpowiadajace im teoretycznie długości stopy (y)

x

y

x

ryxb

2

),cov(

Współczynnik regresji informuje, o ile zmieni się wartośćzmiennej y, jeśli wartość zmiennej x zmieni się o 1

y – zmienna objaśniana, zmienna zależna, zmienna nieznana (niedostępna, niemierzona, nieobserwowana)

x – zmienna objaśniająca, zmienna niezależna (znana, dostępna, obserwowana, zmierzona)

Wykorzystanie zależności cech - regresja

Związek współczynników regresji i korelacji liniowej

yx

yxr

),cov(bo

Regresja nie musi być zawsze prostoliniowa – to najprostszy przypadek ogólnej regresji wielomianowej

Wielomian 1. stopnia

2. stopnia 3. stopnia

Wykorzystanie zależności cech - regresja

bxay

221 xbxbay 3

32

21 xbxbxbay

Regresja wielokrotna pozwala przewidywać y na podstawie kilku powiązanych zmiennych x1, x2 … xn

Wykorzystanie zależności cech - regresja

29190933018810028185892918082271798825175772517373231656723160592415866

Stopa Y

Wzrost X

Waga Z zbxbay 21

Żeby uzyskać współczynniki regresji cząstkowej tworzy sięmacierze zależności zmiennych

O, ja cież! Macierz!

Powiedz lepiej, jak sprawdzićdopasowanie naszej prostej

regresji!

22

23

24

25

26

27

28

29

30

31

158 160 165 173 175 179 180 185 188 190

Wykorzystanie zależności cech - regresja

wartość rzeczywista y

wartość teoretyczna ŷ15,1121,0ˆ xy

n

ii yy

1

n

ii yy

1

2

Ocena DOPASOWANIA regresji

zmienność wartości teoretycznych zmienność wartości rzeczywistych

n

ii yy

1

n

ii yy

1

2

n

ii

n

ii

yy

yyR

1

2

1

2

2

ˆ

zmienność wartości teoretycznych zmienność wartości rzeczywistych

Wykorzystanie zależności cech - regresja

Ocena DOPASOWANIA regresji

WSPÓŁCZYNNIK DETERMINACJI

informuje, jaka częśćobserwowanej zmienności została wyjaśniona przez

równanie regresji

przyjmuje wartości od 0 do 1;im bliższy 1 tym lepsze

dopasowanie modelu regresji

22

23

24

25

26

27

28

29

30

31

158 160 165 173 175 179 180 185 188 190

Wykorzystanie zależności cech - regresja

WZROST X

STOPA Y

185 28

179 27

158 24

160 23

190 29

173 25

180 29

175 25

188 30

165 23

15,1121,0ˆ xy

85,0

ˆ

1

2

1

2

2

n

ii

n

ii

yy

yyR

Ocena dopasowania regresji

Suuuper dopasowanie

Wykorzystanie zależności cech - regresja

Ocena dopasowania regresji – zawsze warto przedstawić dane graficznie!

xy 5,03

Niedopasowanie widać „gołym okiem”

Zależność zmiennych - podsumowanie

KORELACJA → określanie siły zależności(podobieństwa) zmiennych zależnych (przy pomocy współczynnika korelacji)

Jeśli zmienne są zależne → można próbowaćprzewidzieć wartości jednej zmiennej na podstawie wartości przyjmowanych przez drugą

REGRESJA → (a) określanie modelu zależności zmiennych i (b) wykorzystanie tego modelu do przewidywania wartości nieznanych na podstawie wartości obserwowanych (zmierzonych)

Taki matematyczny model zależności nosi nazwęrównania regresji

1. Co to jest korelacja?

2. Jak określić wielkość zależności cech?

3. Współczynnik korelacji liniowej (Pearsona)

• obliczanie

• testowanie

4. Współczynnik korelacji rang (Spearmana)

• obliczanie

• testowanie

Badanie zależności cech - podsumowanie

1. Regresja liniowa (prosta)

• Równanie regresji

• Estymacja współczynników regresji

• Przykłady równań regresji

2. Regresja nieliniowa i wielokrotna

• (przykłady)

3. Dopasowanie równania regresji

Wykorzystanie zależności cech - podsumowanie