Upload
vuque
View
250
Download
1
Embed Size (px)
Citation preview
PODSTAWY STATYSTYKI
1. Teoria prawdopodobieństwa i elementy kombinatoryki2. Zmienne losowe i ich rozkłady3. Populacje i próby danych, estymacja parametrów4. Testowanie hipotez5. Testy parametryczne (na przykładzie testu t)
6. Testy nieparametryczne (na przykładzie testu 2)7. Zależność cech - korelacja liniowa i rangowa8. Zależność cech - regresja prosta9. Analiza wariancji
1. Co to jest korelacja?
2. Jak określić wielkość zależności cech?
3. Współczynnik korelacji liniowej (Pearsona)
• obliczanie
• testowanie
4. Współczynnik korelacji rang (Spearmana)
• obliczanie
• testowanie
Badanie zależności cech
Populacja i próba
PróbaPopulacja
pobieranie
wnioskowanie
Dotąd: Rozpatrywaliśmy POPULACJĘ jako zbiór wartości jednejcechy (badaliśmy jej rozkład, szacowaliśmy parametry, testowaliśmy hipotezy)
Ale: Populacja biologiczna to zbiór osobników mających wiele cech
Populacja
Osobnik
Cecha
wydajność mleka
zawartość tłuszczu
wysokość w kłębie
tempo wzrostu
przyrost dzienny
wydajność rzeźna
długość laktacji
skuteczność inseminacji
Populacja wielocechowa
Zależność cech
Populacja
Osobnik
Cecha X
Cecha Y
Poszczególne cechy mogą byćwspółzależne
Zależność cech można określićmatematycznie
Zależność cech – współczynnik korelacji
Zależność statystyczna zmiennych losowych nosi nazwęKORELACJI
Wielkość (siłę) zależności dwóch zmiennych losowych (np. cech) mierzy WSPÓŁCZYNNIK KORELACJI
Miarą zależności dwóch cech ilościowych jest najczęściej WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA
Karl Pearson (1857 -1936)
angielski matematyk, prekursor statystyki
matematycznej
Zależność cech – współczynnik korelacji liniowej
Wartości X
Wartości Y
Ten sam zbiór przedstawiony graficznie(na osiach x i y wartości cech X i Y)
7
10
13
16
19
22
25
10 15 20 25 30 35
20,037,51219,935,01115,232,51021,730,0916,727,5816,125,0717,622,5613,920,059,617,5414,515,0311,412,528,510,01
Wartośćcechy Y
Wartośćcechy X
Nr osobnika
Jak zbadać i określić korelację dwóch cech?
Przykładowy zbiór pomiarów(uporządkowany wg wartości cechy X)
nr 3
Zależność cech
Jeśli zależność wygląda na liniową, możemy określić jej wielkość przy pomocy współczynnika korelacji Pearsona
7
10
13
16
19
22
25
10 15 20 25 30 35
Czerwone punkty wskazują odpowiadające sobie wartości cechy X i cechy Y u każdego osobnika
Widzimy LINIOWY charakter zależności
yxyx
xyyxyxr
).cov(),cov(22
gdzie:
1)(
1)( 2
22
2
nyy
nxx i
yi
x ,
1))((
),cov(
nyyxx
yx
wariancje
kowariancja
(n – liczba par obserwacji w próbie)
Zależność cech – współczynnik korelacji liniowej
Współczynnik korelacji liniowej (Pearsona) - definicja
Zależność cech – współczynnik korelacji liniowej
Mierzy siłę zależności dwóch zmiennych losowych X i Y
Pod warunkiem, że:• zmienne są ciągłe• mają rozkład normalny• zależność jest liniowa
rxy przyjmuje wartości z przedziału [ -1, 1 ]
n
i
n
iii
n
iii
yxxy
yyxx
yyxxyxr
1 1
22
1),cov(
Współczynnik korelacji liniowej (Pearsona) - obliczanie
Zależność cech – współczynnik korelacji liniowej
Współczynnik korelacji przyjmuje wartości z przedziału [ -1, 1 ]
Wartości bliskie 0 – brak zależności; wartości bliskie 1 lub -1 –silna zależność dodatnia lub ujemna
r xy= -1
0
5
10
15
20
0 5 10 15 20
rxy= -0.9
0
5
10
15
20
0 5 10 15 20
rxy= -0.5
0
5
10
15
20
0 5 10 15 20
r xy= 1
0
5
10
15
20
0 5 10 15 20
WZROST (cm)
DŁ. STOPY (cm)
185 28
179 27
158 24
160 23
190 29
173 25
180 29
175 25
188 30
165 23
Zależność cech – współczynnik korelacji liniowej
Przykład:
Badamy zależność wzrostu i rozmiaru obuwia
Pomiary w próbie 10 osób (N =10)
92,0
10
1
10
1
22
10
1
i iii
iii
xy
yyxx
yyxxr
Obliczenia:
OBLICZANIE współczynnika korelacji liniowej
1. HipotezyH0: rxy = 0 (nie ma zależności); HA: rxy 0 (jest zależność)
2. Poziom istotności MAX = 0,05
3. Statystyka
(N – liczba par obserwacji)
4. Obliczenie w próbie: t = 6,64
5. Dla N – 2 = 8 stopni swobody, t = 0,00016
6. Odrzucamy H0 i przyjmujemy HA
(Występuje wysoka dodatnia korelacja między wzrostem a długościąstopy)
22~
12
Nt
rNrt
Zależność cech – współczynnik korelacji liniowej
TESTOWANIE współczynnika korelacji liniowej (bo otrzymaliśmy estymator r)
Zależność cech – współczynnik korelacji liniowej
22
23
24
25
26
27
28
29
30
31
158 160 165 173 175 179 180 185 188 190
Diagram zależności wzrostu i długości stopy w próbie:
A co robić, jeśli zależność nie jest liniowa?!
Zależność jest liniowa, więc można było „posłużyć sięPearsonem”
rxy = 0,816 rxy = 0,816
rxy = 0,816 rxy = 0,816
Na upartego można obliczać współczynniki korelacji liniowej, ale nie będą miarodajne…
Zależność cech – współczynnik korelacji liniowej
Zależność cech – współczynnik korelacji rang
Jeśli
zależność wartości zmiennych nie jest liniowa
w próbie są wartości odstające
rozkład nie przypomina normalnego
można wykorzystać nie wartości cech, tylko ich miejsce w próbie po uporządkowaniu (tzw. rangę). Siłę zależności takich zmiennych mierzy WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA
Charles Spearman (1863 - 1945)
angielski psycholog
16
1 21
2
NN
dn
ii
xy
d - różnica w rankingu według
zmiennej X i według zmiennej Y
Współczynnik korelacji rang (Spearmana)
Mierzy siłę zależności dwóch zmiennych losowych X i Y
Nie ma wymagań, co do ciągłości wartości i normalności rozkładu, a zwłaszcza – co do liniowej zależności zmiennych
W obliczeniach wykorzystuje się nie wartości zmiennych, lecz ich kolejny numer (rangę) w uporządkowanej próbie
xy przyjmuje wartości z przedziału [ -1, 1 ]
grecka literarho, czytamy
„ro”
Zależność cech – współczynnik korelacji rang
Zależność cech – współczynnik korelacji rang
1519W
1414T
99S
16R
195P
2017O
812N
51M
720L
23K
1613J
1110I
42H
1316G
1815F
177E
38D
1218C
64B
1011A
Miejsce wg sędziego 2
Miejsce wg sędziego 1Kot
Przykład:
Na wystawie kotów rasowych 20 kotów uzyskało oceny od dwóch sędziów
Liczba zdobytych punktów wyznaczała miejsce na liście zwycięzców
Czy oceny sędziów są podobne?
Zależność cech – współczynnik korelacji rang
646Suma
16913720L
1641519W
3661218C
9-32017O
931316G
9-31815F
001414T
9-31613J
164812N
111011A
1-11110I
0099S
25538D
100-10177E
25516R
196-14195P
4-264B
1123K
4-242H
16-451M
dkwadrat
różnica d
Miejsce wg s. 2
Miejsce wg s. 1Kot
49,0
)1400(206466
1
61 2
1
2
NN
dn
ii
xy
OBLICZANIE współczynnika korelacji rang (Spearmana)
1. HipotezyH0: xy = 0 (nie ma zależności) HA: xy 0 (jest zależność)
2. Poziom istotności MAX = 0,05
3. Jeśli próba jest liczna (N = 20 lub więcej) można użyć statystyki
4. Obliczenie dla próby t = 2,38
5. Dla N – 2 = 18 stopni swobody, t = 0,028
6. Odrzucamy H0 i przyjmujemy HA
(Test wykazał, że istnieje związek między ocenami sędziów)
22~
12
Nt
Nt
Zależność cech – współczynnik korelacji rang
TESTOWANIE współczynnika korelacji rang (bo otrzymaliśmy estymator)
rxy = 0,816
xy= 0,818
Zależność cech – współczynniki korelacji
rxy = 0,816
xy= 0,691
rxy = 0,816
xy= 0,991
rxy = 0,816
xy= 0,500
Poznane współczynniki korelacji przy zależności liniowej, nieliniowej i danych odstających (kwartet Anscombe’a)
1. Co to jest korelacja?
2. Jak określić wielkość zależności cech?
3. Współczynnik korelacji liniowej (Pearsona)
• obliczanie
• testowanie
4. Współczynnik korelacji rang (Spearmana)
• obliczanie
• testowanie
Badanie zależności cech - podsumowanie
PODSTAWY STATYSTYKI
1. Teoria prawdopodobieństwa i elementy kombinatoryki2. Zmienne losowe i ich rozkłady3. Populacje i próby danych, estymacja parametrów4. Testowanie hipotez5. Testy parametryczne (na przykładzie testu t)
6. Testy nieparametryczne (na przykładzie testu 2)7. Zależność cech - korelacja liniowa i rangowa8. Zależność cech - regresja prosta9. Analiza wariancji
Zależność zmiennych
KORELACJA → określanie siły zależności(podobieństwa) zmiennych zależnych (przy pomocy współczynnika korelacji)
Jeśli zmienne są zależne → można próbowaćprzewidzieć wartości jednej zmiennej na podstawie wartości przyjmowanych przez drugą
REGRESJA → (a) określanie modelu zależności zmiennych i (b) wykorzystanie tego modelu do przewidywania wartości nieznanych na podstawie wartości obserwowanych (zmierzonych)
Taki matematyczny model zależności nosi nazwęrównania regresji
1. Regresja liniowa (prosta)
• Równanie regresji
• Estymacja współczynników regresji
• Przykłady równań regresji
2. Regresja nieliniowa i wielokrotna
• (przykłady)
3. Dopasowanie równania regresji
Wykorzystanie zależności cech - regresja
22
23
24
25
26
27
28
29
30
31
158 160 165 173 175 179 180 185 188 190
Wykorzystanie zależności cech - regresja
WZROST X
STOPA Y
185 28
179 27
158 24
160 23
190 29
173 25
180 29
175 25
188 30
165 23
Zależność cech X i Y ma charakter liniowy
Czy można by odgadnąć (przewidzieć) długośćstopy człowieka, jeśli znamy jego wzrost?
22
23
24
25
26
27
28
29
30
31
158 160 165 173 175 179 180 185 188 190
Wykorzystanie zależności cech - regresja
Żeby przewidywać wartości Y na podstawie wartości X trzeba znaleźć linię prostąjak najlepiej dopasowaną do zbioru punktów
Wzór określający tę prostą w układzie współrzędnych to RÓWNANIE REGRESJI –matematyczny model zależności cechy Y od cechy X
22
23
24
25
26
27
28
29
30
31
158 160 165 173 175 179 180 185 188 190
Wykorzystanie zależności cech - regresja
RÓWNANIE REGRESJI określa kąt nachylenia prostej do osi X oraz punkt przecięcia z osią Y
NACHYLENIE
bxaybxxbyyxbbxyyxxbyy
)(
Wykorzystanie zależności cech - regresja
Równanie regresji
)( xxbyy Współczynnik regresji
Przekształcenie równania regresji
bxay
?bxbya
Wykorzystanie zależności cech - regresja
Równanie regresji
Współczynnik regresji musi być taki, żeby dopasowanie modelu (linii) było jak nalepsze!
„wyraz wolny”, punkt przecięcia z osią y
wsp. regresji, tangens kąta nachylenia prostej
22
23
24
25
26
27
28
29
30
31
158 160 165 173 175 179 180 185 188 190
Wykorzystanie zależności cech - regresja
A jak wybrać linię najlepiej dopasowaną do zbioru punktów?
METODĄ NAJMNIEJSZYCH KWADRATÓW
22
23
24
25
26
27
28
29
30
31
158 160 165 173 175 179 180 185 188 190
Wykorzystanie zależności cech - regresja
wartość rzeczywista y
wartość teoretyczna ŷ
Metoda najmniejszych kwadratów – taki sposób obliczeń, żeby suma kwadratów odchyleń wartości rzeczywistych od teoretycznych była minimalna (oparty na rachunku różniczkowym)
bxay
Wykorzystanie zależności cech - regresja
Prosta regresji będzie dopasowana metodą najmniejszych kwadratów, jeśli współczynnik regresji obliczymy według
wzoru:
N
ii
N
iii
x xx
yyxxyxb
1
2
12
),cov(
Definicja współczynnika regresji liniowej
22
23
24
25
26
27
28
29
30
31
158 160 165 173 175 179 180 185 188 190
Wykorzystanie zależności cech - regresja
WZROST X
STOPA Y
185 28
179 27
158 24
160 23
190 29
173 25
180 29
175 25
188 30
165 23
Skonstruujemy równanie regresji dla naszego przykladu
21,0
1
2
1
N
ii
N
iii
xx
yyxxb
Wykorzystanie zależności cech - regresja
WZROST X
STOPA Y
185 28
179 27
158 24
160 23
190 29
173 25
180 29
175 25
188 30
165 23
1. Obliczamy odchylenia poszczególnych wartości od średnich, obliczamy iloczyny i kwadraty odchyleń, sumujemy; obliczamy b:
2. Obliczamy wyraz wolny:
15,11 xbya
3,263,175
yx
3. Uzyskujemy równanie regresji:
xy 21,015,11
22
23
24
25
26
27
28
29
30
31
158 160 165 173 175 179 180 185 188 190
Wykorzystanie zależności cech - regresja
15,1121,0 xy
Wstawiając w równaniu różne wartości wzrostu (x) otrzymujemy odpowiadajace im teoretycznie długości stopy (y)
x
y
x
ryxb
2
),cov(
Współczynnik regresji informuje, o ile zmieni się wartośćzmiennej y, jeśli wartość zmiennej x zmieni się o 1
y – zmienna objaśniana, zmienna zależna, zmienna nieznana (niedostępna, niemierzona, nieobserwowana)
x – zmienna objaśniająca, zmienna niezależna (znana, dostępna, obserwowana, zmierzona)
Wykorzystanie zależności cech - regresja
Związek współczynników regresji i korelacji liniowej
yx
yxr
),cov(bo
Regresja nie musi być zawsze prostoliniowa – to najprostszy przypadek ogólnej regresji wielomianowej
Wielomian 1. stopnia
2. stopnia 3. stopnia
Wykorzystanie zależności cech - regresja
bxay
221 xbxbay 3
32
21 xbxbxbay
Regresja wielokrotna pozwala przewidywać y na podstawie kilku powiązanych zmiennych x1, x2 … xn
Wykorzystanie zależności cech - regresja
29190933018810028185892918082271798825175772517373231656723160592415866
Stopa Y
Wzrost X
Waga Z zbxbay 21
Żeby uzyskać współczynniki regresji cząstkowej tworzy sięmacierze zależności zmiennych
O, ja cież! Macierz!
Powiedz lepiej, jak sprawdzićdopasowanie naszej prostej
regresji!
22
23
24
25
26
27
28
29
30
31
158 160 165 173 175 179 180 185 188 190
Wykorzystanie zależności cech - regresja
wartość rzeczywista y
wartość teoretyczna ŷ15,1121,0ˆ xy
n
ii yy
1
2ˆ
n
ii yy
1
2
Ocena DOPASOWANIA regresji
zmienność wartości teoretycznych zmienność wartości rzeczywistych
n
ii yy
1
2ˆ
n
ii yy
1
2
n
ii
n
ii
yy
yyR
1
2
1
2
2
ˆ
zmienność wartości teoretycznych zmienność wartości rzeczywistych
Wykorzystanie zależności cech - regresja
Ocena DOPASOWANIA regresji
WSPÓŁCZYNNIK DETERMINACJI
informuje, jaka częśćobserwowanej zmienności została wyjaśniona przez
równanie regresji
przyjmuje wartości od 0 do 1;im bliższy 1 tym lepsze
dopasowanie modelu regresji
22
23
24
25
26
27
28
29
30
31
158 160 165 173 175 179 180 185 188 190
Wykorzystanie zależności cech - regresja
WZROST X
STOPA Y
185 28
179 27
158 24
160 23
190 29
173 25
180 29
175 25
188 30
165 23
15,1121,0ˆ xy
85,0
ˆ
1
2
1
2
2
n
ii
n
ii
yy
yyR
Ocena dopasowania regresji
Suuuper dopasowanie
Wykorzystanie zależności cech - regresja
Ocena dopasowania regresji – zawsze warto przedstawić dane graficznie!
xy 5,03
Niedopasowanie widać „gołym okiem”
Zależność zmiennych - podsumowanie
KORELACJA → określanie siły zależności(podobieństwa) zmiennych zależnych (przy pomocy współczynnika korelacji)
Jeśli zmienne są zależne → można próbowaćprzewidzieć wartości jednej zmiennej na podstawie wartości przyjmowanych przez drugą
REGRESJA → (a) określanie modelu zależności zmiennych i (b) wykorzystanie tego modelu do przewidywania wartości nieznanych na podstawie wartości obserwowanych (zmierzonych)
Taki matematyczny model zależności nosi nazwęrównania regresji
1. Co to jest korelacja?
2. Jak określić wielkość zależności cech?
3. Współczynnik korelacji liniowej (Pearsona)
• obliczanie
• testowanie
4. Współczynnik korelacji rang (Spearmana)
• obliczanie
• testowanie
Badanie zależności cech - podsumowanie