30
Statystyka Opisowa 2014 część 3 Katarzyna Lubnauer

Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

  • Upload
    ngonhu

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Statystyka Opisowa 2014 część 3

Katarzyna Lubnauer

Page 2: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Literatura: 1. „Statystyka w Zarządzaniu” ‚ Admir D. Aczel 2. „Statystyka Opisowa od Podstaw” ‚ Ewa Wasilewska 3. „Statystyka” , Lucjan Kowalski. 4. „Statystyka opisowa”, Mieczysław Sobczyk

Są trzy rodzaje kłamstw: kłamstwa,

przeklęte kłamstwa i statystyki. Benjamin Disraeli - premier Wielkiej Brytanii (w latach 1868 i 1874-1880) Katarzyna Lubnauer 2

Page 3: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 3

0

1

2

3

4

5

6

0 2 4 6 8 10 12

Ce

cha

y

Cecha X

0

1

2

3

4

5

6

0 2 4 6 8 10 12

Ce

cha

Y

Cecha X

Zajmowaliśmy się korelacją, czyli miarą zależności między dwiema cechami mierzalnymi (a czasem niemierzalnymi, porządkowymi), teraz zastanowimy się jak dodatkowo można scharakteryzować i opisać taką zależność.

0,152901r

Liczymy współczynnik korelacji Pearsona, który wychodzi bliski 0. Oznacza to prawie brak korelacji, ale na wykresie widzimy zależność funkcyjną.

0,95033r

Silna korelacja, prawie liniowa, ale jak ją dodatkowo opisać?

Regresja liniowa

Page 4: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 4

0

1

2

3

4

5

6

0 2 4 6 8 10 12

Ce

cha

Y

Cecha X

0

1

2

3

4

5

6

0 2 4 6 8 10 12

Ce

cha

Y

Cecha X

0,95033r 0,152901r

Silna korelacja, prawie liniowa, Prosta dobrze przybliża zależność.

Mamy dwie różne funkcje, które próbują oddać zależność, widzimy, że prosta nie sprawdza się, ale krzywa wielomianowa dobrze przybliża zależność cech X i Y.

Page 5: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 5

Zależność między dwiema cechami często możemy opisać równaniem:

Y f X

Jeżeli jesteśmy w stanie znaleźć funkcję, która spełnia tę zależność z pewnym błędem E to możemy mówić o funkcji regresji. Wyróżniamy więc: • Regresję liniową – gdy najlepiej dopasowaną do punktów empirycznych jest linia

prosta • Regresję krzywoliniową – gdy najlepiej dopasowaną do punktów empirycznych jest

pewna linia krzywa(najczęściej funkcja wykładnicza, logarytmiczna czy wielomianowa)

Nas będzie interesować tylko regresja liniowa, ale Excel daje Państwu możliwość szukania bardziej zaawansowanych funkcji regresji.

Page 6: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 6

-1

0

1

2

3

4

5

6

0 10 20 30 40

Serie1

Log. (Serie1)

Wielob. (Serie1)

Liniowy (Serie1)

0

5

10

15

20

25

30

35

0 10 20 30

Serie1

Liniowy (Serie1)

-400

-200

0

200

400

600

800

1000

0 2 4 6 8 10

Serie1

Potęg. (Serie1)

Liniowy (Serie1)

Różne krzywe regresji z wykorzystaniem Excela.

Page 7: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 7

Liniowa funkcja regresji

Jeżeli wiemy, że nasze zmienne są silnie skorelowane, to możemy wyznaczyć prostą, która obrazuje, przybliża tę zależność.

Page 8: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 8

Regresja liniowa – w statystyce, metoda estymowania wartości cechy Y przy

znanych wartościach innej cechy X. Szukana cecha Y jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Cechę X nazywa się cechą objaśniającą lub niezależną.

Funkcja regresji – jest to analityczne przyporządkowanie średnich wartości

zmiennej zależnej konkretnym ustalonym wartościom zmiennej niezależnej

Nas interesuje regresja liniowa, czyli nasza funkcja ma mieć postać:

y x

Naszym celem będzie przybliżenie parametrów tej funkcji za pomocą wartości przybliżonych a i b.

Page 9: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 9

Przykładowe populacje dwucechowe, które przybliżone są tą samą, liniową funkcją regresji.

Page 10: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 10

y x

y a bx

Tak zachowuje się nasza populacja dwucechowa, x warianty cechy X (niezależnej, objaśniającej), y warianty cechy Y (zależnej, objaśnianej)

Funkcję powyższą nazywamy teoretyczną funkcją regresji. Do wyznaczenia współczynników a, b stosujemy metodę najmniejszych kwadratów.

Page 11: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 11

Metoda najmniejszych kwadratów polega na takim oszacowaniu parametrów a, b, żeby zminimalizować wartość wyrażenia:

2

1

ˆ minn

i i

i

y y

Gdzie:

ˆ

i

i

n

y

y

⁻ Liczba obserwacji

⁻ Warianty cechy Y

⁻ Wartości teoretyczne cechy Y wyznaczone na podstawie równania:

y a bx

Page 12: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 12

Jak znaleźć takie a, b, żeby wyrażenie

2

1

ˆn

i i

i

y y

było najmniejsze?

Zauważmy, że po wstawieniu z wzoru: Do powyższego wyrażenia, mamy funkcję dwóch zmiennych: dla której chcemy znaleźć minimum.

y a bx

2

1

( , )n

i i

i

f a b y a bx

Page 13: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 13

Jeżeli policzymy pochodne cząstkowe po a i po b, oraz przyrównamy je do zera, to otrzymamy następujące równości:

1 1

2

1 1 1

n n

i i

i i

n n n

i i i i

i i i

y a n b x

x y a x b x

Z powyższego układu równań możemy wyznaczyć wzory na współczynniki a, b równania funkcji liniowej regresji.

Page 14: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 14

Otrzymujemy następujące wzory na współczynniki a, b równania funkcji liniowej regresji:

1

2 2

1

1

1

n

i i

in

i

i

x y x yn

b

x xn

a y b x

Parametr b w teoretycznej linii regresji nosi nazwę współczynnika regresji.

Page 15: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 15

Przykład: Mamy następujące wyniki badania wzrostu (w cm) i wagi (w kg) dziesięciorga noworodków: (52, 3.2), (51, 2.9), (54, 4.5), (63, 4.6), (55, 3.2), (58, 3.9), (50, 3.7), (62, 4.3), (50, 2.8), (47, 2.4)

2

2,5

3

3,5

4

4,5

5

45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64

Page 16: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 16

1

2 2

1

1

0,11581

2,7267

n

i i

in

i

i

x y x yn

b

x xn

a y b x

Podstawiamy dane do wzorów i otrzymujemy wartości a i b:

Otrzymujemy w wyniku tego wzór teoretycznej funkcji regresji liniowej.

ˆ 2,7267 0,1158y x

Page 17: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 17

y = 0,1158x - 2,7267

2

2,5

3

3,5

4

4,5

5

45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64

Ce

cha

Y

Cecha X

Wykres teoretycznej funkcji liniowej regresji:

ˆ 2,7267 0,1158y x

Page 18: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 18

Wzór na parametr b można przedstawić w prostszej postaci:

2

cov ,

X

X Yb

s

Gdzie:

cov ,

X

X Y

S

- kowariancja cech X i Y.

- Odchylenie standardowe cechy X.

Page 19: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 19

Jak interpretujemy współczynnik regresji?

y = -4,3818x + 27,882 0

5

10

15

20

25

30

0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5

y = 15,074x + 5,6644

0

10

20

30

40

50

60

70

80

90

100

1,5 2 2,5 3 3,5 4 4,5 5 5,5

Jeżeli współczynnik b jest dodatni, to mówimy, że wzrost o jednostkę cechy X skutkuje wzrostem cechy Y o b jednostek.

Jeżeli współczynnik b jest ujemny, to mówimy, że wzrost o jednostkę cechy X skutkuje spadkiem cechy Y o b jednostek.

Page 20: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 20

Uwaga: Mając wyznaczoną wartość współczynnika b oraz odchylenia standardowe cech X i Y możemy wyznaczyć współczynnik Pearsona ze wzoru:

cov ,X

X Y Y

X Y sr b

s s s

bo:

2

cov ,

X

X Yb

s

Page 21: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 21

Zauważmy, że są różnice między punktami empirycznymi, a teoretyczną linią regresji, różnice te nazywamy resztami modelu.

ˆi i ie y y

Page 22: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 22

Inny przykład z zaznaczonymi resztami modelu:

Zauważmy, że część punktów empirycznych jest pod, a część nad teoretyczną linią regresji. Te punkty, które są nad linią mają reszty dodatnie, a te które są pod - ujemne.

Page 23: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 23

Gdy punkty empiryczne odchylają się od teoretycznej prostej regresji, to jak zauważyliśmy, część reszt jest dodatnia, a część ujemna. Jeśli linia regresji jest przeprowadzona prawidłowo, to:

1

0n

i

i

e

Czyli wynika z tego, że

1

ˆ 0n

i i

i

y y

Page 24: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 24

Ważnym zagadnieniem związanym z badaniem regresji liniowej (i nie tylko

liniowej) jest wyznaczenie błędu modelu. Naturalnym kandydatem do

wyznaczania błędu modelu są reszty, jednak jak widzieliśmy z poprzedniego slajdu, suma reszt nie nadaje się do tego, bo zawsze jest równa 0.

Dlatego, błąd modelu liczymy jako wariancję z reszt:

2

2 1

ˆn

i i

ie

y y

Sn

Jednak ze względu na to, że wariacja ma miano równe kwadratowi miana cechy Y, więc lepiej korzystać z jej pierwiastka.

Page 25: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 25

Odchyleniem standardowym reszt nazywamy pierwiastek z

wariancji reszt:

2

1

ˆn

i i

ie

y y

Sn

Inne nazwy odchylenia standardowego, to średni błąd dopasowania, standardowy błąd dopasowania, przeciętna reszta.

Page 26: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 26

Przykład: Mamy następujące wyniki badania wzrostu (w cm) i wagi (w kg) dziesięciorga noworodków: (52, 3.2), (51, 2.9), (54, 4.5), (63, 4.6), (55, 3.2), (58, 3.9), (50, 3.7), (62, 4.3), (50, 2.8), (47, 2.4) Mieliśmy dla niego policzony wzór na prostą regresji liniowej:

ˆ 2,7267 0,1158y x

Teraz naszym celem będzie wyznaczenie odchylenia standardowego reszt.

2

2,5

3

3,5

4

4,5

5

45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64

Ce

chaY

– w

aga

no

wo

rod

ka

Cecha X – wzrost noworodka

Page 27: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 27

Wzrost noworodka

Waga noworodka

Wartość teoretyczna

47 2,4 2,7156

50 2,8 3,063

51 2,9 3,1788

52 3,2 3,2946

55 3,2 3,642

50 3,7 3,063

58 3,9 3,9894

62 4,3 4,4526

54 4,5 3,5262

63 4,6 4,5684

ix iy ˆ 2,7267 0,1158i iy x

Aby policzyć odchylenie standardowe reszt, potrzebujemy wartości:

ˆi iy a bx

2

2,5

3

3,5

4

4,5

5

45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64

Ce

chaY

– w

aga

no

wo

rod

ka

Cecha X – wzrost noworodka

Page 28: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 28

Wzrost noworodka

Waga noworodka

47 2,4 2,7156 0,099603

50 2,8 3,063 0,069169

51 2,9 3,1788 0,077729

52 3,2 3,2946 0,008949

55 3,2 3,642 0,195364

50 3,7 3,063 0,405769

58 3,9 3,9894 0,007992

62 4,3 4,4526 0,023287

54 4,5 3,5262 0,948286

63 4,6 4,5684 0,000999 Wariancja 0,18372

2

ˆi iy y Gdzie

ˆ 2,7267 0,1158y x

2

1

ˆ

0,429

n

i i

ie

y y

Sn

Czyli średni błąd dopasowania, standardowy błąd dopasowania, przeciętna reszta wyniósł 0,429

ixiy

ˆiy

Page 29: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 29

Miarą dopasowania wyznaczonej linii regresji do punktów empirycznych jest

współczynnik determinacji:

2 2

2

,

0 1

R r

R

Tą wartość znajdziemy też w opisie linii trendu uzyskanej w programie Excel.

Jeżeli wartość tę podamy w procentach, to informację tę możemy zinterpretować, jako poziom wpływu zmiennej X na zmienną Y. Współczynnik ten określa jaka część całkowitej zmienności cechy objaśnianej została wyjaśniona przez model regresji liniowej.

W przypadku regresji liniowej jednej zmiennej współczynnik determinacji równy jest kwadratowi współczynnika korelacji liniowej Pearsona.

2

2 1

2

1

ˆn

iin

ii

y y SSRR

SSTy y

Page 30: Statystyka Opisowa 2014 część 3 - math.uni.lodz.plmath.uni.lodz.pl/~lubnauer/upload/materialy/Statystyka_Opisowa... · Silna korelacja, prawie liniowa, Prosta dobrze przybliża

Katarzyna Lubnauer 30

Przykład: Mamy następujące wyniki badania wzrostu (w cm) i wagi (w kg) dziesięciorga noworodków: (52, 3.2), (51, 2.9), (54, 4.5), (63, 4.6), (55, 3.2), (58, 3.9), (50, 3.7), (62, 4.3), (50, 2.8), (47, 2.4)

y = 0,1158x - 2,7267 R² = 0,6511

2

2,5

3

3,5

4

4,5

5

4546474849505152535455565758596061626364

Ce

cha

Y

Cecha X

2

2

0,65

65%

R

R

Możemy w tym przypadku powiedzieć, że w 65% wzrost noworodka ma wpływ na jego wagę, w pozostałych 35% to inne czynniki, takie jak genetyka, dieta matki itp.