Upload
ngonhu
View
216
Download
0
Embed Size (px)
Citation preview
Statystyka Opisowa 2014 część 3
Katarzyna Lubnauer
Literatura: 1. „Statystyka w Zarządzaniu” ‚ Admir D. Aczel 2. „Statystyka Opisowa od Podstaw” ‚ Ewa Wasilewska 3. „Statystyka” , Lucjan Kowalski. 4. „Statystyka opisowa”, Mieczysław Sobczyk
Są trzy rodzaje kłamstw: kłamstwa,
przeklęte kłamstwa i statystyki. Benjamin Disraeli - premier Wielkiej Brytanii (w latach 1868 i 1874-1880) Katarzyna Lubnauer 2
Katarzyna Lubnauer 3
0
1
2
3
4
5
6
0 2 4 6 8 10 12
Ce
cha
y
Cecha X
0
1
2
3
4
5
6
0 2 4 6 8 10 12
Ce
cha
Y
Cecha X
Zajmowaliśmy się korelacją, czyli miarą zależności między dwiema cechami mierzalnymi (a czasem niemierzalnymi, porządkowymi), teraz zastanowimy się jak dodatkowo można scharakteryzować i opisać taką zależność.
0,152901r
Liczymy współczynnik korelacji Pearsona, który wychodzi bliski 0. Oznacza to prawie brak korelacji, ale na wykresie widzimy zależność funkcyjną.
0,95033r
Silna korelacja, prawie liniowa, ale jak ją dodatkowo opisać?
Regresja liniowa
Katarzyna Lubnauer 4
0
1
2
3
4
5
6
0 2 4 6 8 10 12
Ce
cha
Y
Cecha X
0
1
2
3
4
5
6
0 2 4 6 8 10 12
Ce
cha
Y
Cecha X
0,95033r 0,152901r
Silna korelacja, prawie liniowa, Prosta dobrze przybliża zależność.
Mamy dwie różne funkcje, które próbują oddać zależność, widzimy, że prosta nie sprawdza się, ale krzywa wielomianowa dobrze przybliża zależność cech X i Y.
Katarzyna Lubnauer 5
Zależność między dwiema cechami często możemy opisać równaniem:
Y f X
Jeżeli jesteśmy w stanie znaleźć funkcję, która spełnia tę zależność z pewnym błędem E to możemy mówić o funkcji regresji. Wyróżniamy więc: • Regresję liniową – gdy najlepiej dopasowaną do punktów empirycznych jest linia
prosta • Regresję krzywoliniową – gdy najlepiej dopasowaną do punktów empirycznych jest
pewna linia krzywa(najczęściej funkcja wykładnicza, logarytmiczna czy wielomianowa)
Nas będzie interesować tylko regresja liniowa, ale Excel daje Państwu możliwość szukania bardziej zaawansowanych funkcji regresji.
Katarzyna Lubnauer 6
-1
0
1
2
3
4
5
6
0 10 20 30 40
Serie1
Log. (Serie1)
Wielob. (Serie1)
Liniowy (Serie1)
0
5
10
15
20
25
30
35
0 10 20 30
Serie1
Liniowy (Serie1)
-400
-200
0
200
400
600
800
1000
0 2 4 6 8 10
Serie1
Potęg. (Serie1)
Liniowy (Serie1)
Różne krzywe regresji z wykorzystaniem Excela.
Katarzyna Lubnauer 7
Liniowa funkcja regresji
Jeżeli wiemy, że nasze zmienne są silnie skorelowane, to możemy wyznaczyć prostą, która obrazuje, przybliża tę zależność.
Katarzyna Lubnauer 8
Regresja liniowa – w statystyce, metoda estymowania wartości cechy Y przy
znanych wartościach innej cechy X. Szukana cecha Y jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Cechę X nazywa się cechą objaśniającą lub niezależną.
Funkcja regresji – jest to analityczne przyporządkowanie średnich wartości
zmiennej zależnej konkretnym ustalonym wartościom zmiennej niezależnej
Nas interesuje regresja liniowa, czyli nasza funkcja ma mieć postać:
y x
Naszym celem będzie przybliżenie parametrów tej funkcji za pomocą wartości przybliżonych a i b.
Katarzyna Lubnauer 9
Przykładowe populacje dwucechowe, które przybliżone są tą samą, liniową funkcją regresji.
Katarzyna Lubnauer 10
y x
y a bx
Tak zachowuje się nasza populacja dwucechowa, x warianty cechy X (niezależnej, objaśniającej), y warianty cechy Y (zależnej, objaśnianej)
Funkcję powyższą nazywamy teoretyczną funkcją regresji. Do wyznaczenia współczynników a, b stosujemy metodę najmniejszych kwadratów.
Katarzyna Lubnauer 11
Metoda najmniejszych kwadratów polega na takim oszacowaniu parametrów a, b, żeby zminimalizować wartość wyrażenia:
2
1
ˆ minn
i i
i
y y
Gdzie:
ˆ
i
i
n
y
y
⁻ Liczba obserwacji
⁻ Warianty cechy Y
⁻ Wartości teoretyczne cechy Y wyznaczone na podstawie równania:
y a bx
Katarzyna Lubnauer 12
Jak znaleźć takie a, b, żeby wyrażenie
2
1
ˆn
i i
i
y y
było najmniejsze?
Zauważmy, że po wstawieniu z wzoru: Do powyższego wyrażenia, mamy funkcję dwóch zmiennych: dla której chcemy znaleźć minimum.
y a bx
2
1
( , )n
i i
i
f a b y a bx
Katarzyna Lubnauer 13
Jeżeli policzymy pochodne cząstkowe po a i po b, oraz przyrównamy je do zera, to otrzymamy następujące równości:
1 1
2
1 1 1
n n
i i
i i
n n n
i i i i
i i i
y a n b x
x y a x b x
Z powyższego układu równań możemy wyznaczyć wzory na współczynniki a, b równania funkcji liniowej regresji.
Katarzyna Lubnauer 14
Otrzymujemy następujące wzory na współczynniki a, b równania funkcji liniowej regresji:
1
2 2
1
1
1
n
i i
in
i
i
x y x yn
b
x xn
a y b x
Parametr b w teoretycznej linii regresji nosi nazwę współczynnika regresji.
Katarzyna Lubnauer 15
Przykład: Mamy następujące wyniki badania wzrostu (w cm) i wagi (w kg) dziesięciorga noworodków: (52, 3.2), (51, 2.9), (54, 4.5), (63, 4.6), (55, 3.2), (58, 3.9), (50, 3.7), (62, 4.3), (50, 2.8), (47, 2.4)
2
2,5
3
3,5
4
4,5
5
45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64
Katarzyna Lubnauer 16
1
2 2
1
1
0,11581
2,7267
n
i i
in
i
i
x y x yn
b
x xn
a y b x
Podstawiamy dane do wzorów i otrzymujemy wartości a i b:
Otrzymujemy w wyniku tego wzór teoretycznej funkcji regresji liniowej.
ˆ 2,7267 0,1158y x
Katarzyna Lubnauer 17
y = 0,1158x - 2,7267
2
2,5
3
3,5
4
4,5
5
45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64
Ce
cha
Y
Cecha X
Wykres teoretycznej funkcji liniowej regresji:
ˆ 2,7267 0,1158y x
Katarzyna Lubnauer 18
Wzór na parametr b można przedstawić w prostszej postaci:
2
cov ,
X
X Yb
s
Gdzie:
cov ,
X
X Y
S
- kowariancja cech X i Y.
- Odchylenie standardowe cechy X.
Katarzyna Lubnauer 19
Jak interpretujemy współczynnik regresji?
y = -4,3818x + 27,882 0
5
10
15
20
25
30
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5
y = 15,074x + 5,6644
0
10
20
30
40
50
60
70
80
90
100
1,5 2 2,5 3 3,5 4 4,5 5 5,5
Jeżeli współczynnik b jest dodatni, to mówimy, że wzrost o jednostkę cechy X skutkuje wzrostem cechy Y o b jednostek.
Jeżeli współczynnik b jest ujemny, to mówimy, że wzrost o jednostkę cechy X skutkuje spadkiem cechy Y o b jednostek.
Katarzyna Lubnauer 20
Uwaga: Mając wyznaczoną wartość współczynnika b oraz odchylenia standardowe cech X i Y możemy wyznaczyć współczynnik Pearsona ze wzoru:
cov ,X
X Y Y
X Y sr b
s s s
bo:
2
cov ,
X
X Yb
s
Katarzyna Lubnauer 21
Zauważmy, że są różnice między punktami empirycznymi, a teoretyczną linią regresji, różnice te nazywamy resztami modelu.
ˆi i ie y y
Katarzyna Lubnauer 22
Inny przykład z zaznaczonymi resztami modelu:
Zauważmy, że część punktów empirycznych jest pod, a część nad teoretyczną linią regresji. Te punkty, które są nad linią mają reszty dodatnie, a te które są pod - ujemne.
Katarzyna Lubnauer 23
Gdy punkty empiryczne odchylają się od teoretycznej prostej regresji, to jak zauważyliśmy, część reszt jest dodatnia, a część ujemna. Jeśli linia regresji jest przeprowadzona prawidłowo, to:
1
0n
i
i
e
Czyli wynika z tego, że
1
ˆ 0n
i i
i
y y
Katarzyna Lubnauer 24
Ważnym zagadnieniem związanym z badaniem regresji liniowej (i nie tylko
liniowej) jest wyznaczenie błędu modelu. Naturalnym kandydatem do
wyznaczania błędu modelu są reszty, jednak jak widzieliśmy z poprzedniego slajdu, suma reszt nie nadaje się do tego, bo zawsze jest równa 0.
Dlatego, błąd modelu liczymy jako wariancję z reszt:
2
2 1
ˆn
i i
ie
y y
Sn
Jednak ze względu na to, że wariacja ma miano równe kwadratowi miana cechy Y, więc lepiej korzystać z jej pierwiastka.
Katarzyna Lubnauer 25
Odchyleniem standardowym reszt nazywamy pierwiastek z
wariancji reszt:
2
1
ˆn
i i
ie
y y
Sn
Inne nazwy odchylenia standardowego, to średni błąd dopasowania, standardowy błąd dopasowania, przeciętna reszta.
Katarzyna Lubnauer 26
Przykład: Mamy następujące wyniki badania wzrostu (w cm) i wagi (w kg) dziesięciorga noworodków: (52, 3.2), (51, 2.9), (54, 4.5), (63, 4.6), (55, 3.2), (58, 3.9), (50, 3.7), (62, 4.3), (50, 2.8), (47, 2.4) Mieliśmy dla niego policzony wzór na prostą regresji liniowej:
ˆ 2,7267 0,1158y x
Teraz naszym celem będzie wyznaczenie odchylenia standardowego reszt.
2
2,5
3
3,5
4
4,5
5
45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64
Ce
chaY
– w
aga
no
wo
rod
ka
Cecha X – wzrost noworodka
Katarzyna Lubnauer 27
Wzrost noworodka
Waga noworodka
Wartość teoretyczna
47 2,4 2,7156
50 2,8 3,063
51 2,9 3,1788
52 3,2 3,2946
55 3,2 3,642
50 3,7 3,063
58 3,9 3,9894
62 4,3 4,4526
54 4,5 3,5262
63 4,6 4,5684
ix iy ˆ 2,7267 0,1158i iy x
Aby policzyć odchylenie standardowe reszt, potrzebujemy wartości:
ˆi iy a bx
2
2,5
3
3,5
4
4,5
5
45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64
Ce
chaY
– w
aga
no
wo
rod
ka
Cecha X – wzrost noworodka
Katarzyna Lubnauer 28
Wzrost noworodka
Waga noworodka
47 2,4 2,7156 0,099603
50 2,8 3,063 0,069169
51 2,9 3,1788 0,077729
52 3,2 3,2946 0,008949
55 3,2 3,642 0,195364
50 3,7 3,063 0,405769
58 3,9 3,9894 0,007992
62 4,3 4,4526 0,023287
54 4,5 3,5262 0,948286
63 4,6 4,5684 0,000999 Wariancja 0,18372
2
ˆi iy y Gdzie
ˆ 2,7267 0,1158y x
2
1
ˆ
0,429
n
i i
ie
y y
Sn
Czyli średni błąd dopasowania, standardowy błąd dopasowania, przeciętna reszta wyniósł 0,429
ixiy
ˆiy
Katarzyna Lubnauer 29
Miarą dopasowania wyznaczonej linii regresji do punktów empirycznych jest
współczynnik determinacji:
2 2
2
,
0 1
R r
R
Tą wartość znajdziemy też w opisie linii trendu uzyskanej w programie Excel.
Jeżeli wartość tę podamy w procentach, to informację tę możemy zinterpretować, jako poziom wpływu zmiennej X na zmienną Y. Współczynnik ten określa jaka część całkowitej zmienności cechy objaśnianej została wyjaśniona przez model regresji liniowej.
W przypadku regresji liniowej jednej zmiennej współczynnik determinacji równy jest kwadratowi współczynnika korelacji liniowej Pearsona.
2
2 1
2
1
ˆn
iin
ii
y y SSRR
SSTy y
Katarzyna Lubnauer 30
Przykład: Mamy następujące wyniki badania wzrostu (w cm) i wagi (w kg) dziesięciorga noworodków: (52, 3.2), (51, 2.9), (54, 4.5), (63, 4.6), (55, 3.2), (58, 3.9), (50, 3.7), (62, 4.3), (50, 2.8), (47, 2.4)
y = 0,1158x - 2,7267 R² = 0,6511
2
2,5
3
3,5
4
4,5
5
4546474849505152535455565758596061626364
Ce
cha
Y
Cecha X
2
2
0,65
65%
R
R
Możemy w tym przypadku powiedzieć, że w 65% wzrost noworodka ma wpływ na jego wagę, w pozostałych 35% to inne czynniki, takie jak genetyka, dieta matki itp.