32
Statystyka Opisowa 2014 część 2 Katarzyna Lubnauer

Statystyka Opisowa 2014 część 2 - | Wydział Matematyki ...math.uni.lodz.pl/.../upload/materialy/Statystyka_Opisowa_Wyklad4.pdf · „Statystyka” , Lucjan Kowalski. 4. „Statystyka

  • Upload
    trantu

  • View
    242

  • Download
    0

Embed Size (px)

Citation preview

Statystyka Opisowa 2014 część 2

Katarzyna Lubnauer

Literatura: 1. „Statystyka w Zarządzaniu” ‚ Admir D. Aczel 2. „Statystyka Opisowa od Podstaw” ‚ Ewa Wasilewska 3. „Statystyka” , Lucjan Kowalski. 4. „Statystyka opisowa”, Mieczysław Sobczyk

Są trzy rodzaje kłamstw: kłamstwa,

przeklęte kłamstwa i statystyki. Benjamin Disraeli - premier Wielkiej Brytanii (w latach 1868 i 1874-1880) Katarzyna Lubnauer 2

Katarzyna Lubnauer 3

Naszym celem jest odpowiedź na 4 pytania: • Czy między badanymi cechami występuje współzależność. • Jaki jest kształt zależności (liniowa, nieliniowa). • Jaka jest jej siła. • Jaki jest jej kierunek.

Badanie zależności między dwiema cechami – analiza korelacji.

Badając różnego rodzaju zjawiska, np. społeczne, ekonomiczne, psychologiczne, przyrodnicze itp. stwierdzamy, ze często jedno z nich jest uwarunkowane działaniem innych zjawisk. Zastanawiamy się nad charakterystyką tej zależności. Np. Czy cena lodów ma wpływ na ich sprzedaż? Czy temperatura powietrza ma wpływ na sprzedaż lodów?

Czy cena samochodów ma wpływ na cenę lodów?

Katarzyna Lubnauer 4

Głupi ludzie, nie zawsze pozorna zależność oznacza przyczynę i skutek.

Katarzyna Lubnauer 5

Katarzyna Lubnauer 6

Szeregi dwucechowe szczegółowe – szereg korelacyjny

Wiek żony X, Wiek męża Y,

19 19

20 24

21 22

23 23

24 26

27 26

28 30

30 34

33 32

35 37

ix iy

Otrzymujemy więc zbiór par postaci:

( , )i ix y

gdzie:

1,...,i n

Katarzyna Lubnauer 7

Prezentacja graficzna szeregów dwucechowych, diagram korelacyjny:

0

100

200

300

400

500

600

700

800

900

1000

0 2 4 6 8 10

1 1

3 26

3 30

4 66

5 124

6 220

7 345

7 350

8 490

9 880

ix iy

Katarzyna Lubnauer 8

Prezentacja graficzna szeregów dwucechowych, diagram korelacyjny:

1 880

3 490

3 350

4 345

5 220

6 124

7 66

7 30

8 26

9 1

ix iy

0

100

200

300

400

500

600

700

800

900

1000

0 2 4 6 8 10

Katarzyna Lubnauer 9

Szeregi dwucechowe rozdzielcze

1x

2x

3x

4x

5x

1y 2y 3y 4y

11n 12n

21n 22n 23n

32n

42n

52n

24n

31n

41n

51n

33n

23n

43n

53n 54n

44n34n

14n

Gdzie warianty cechy X, zaś warianty cechy Y oraz liczebność pary:

ixjy ijn

,i jx y

Katarzyna Lubnauer 10

Przykład: Niech X czas nauki studentów do testu ze SO wyrażony w godzinach, zaś Y ocena z testu. Przyjmujemy, że do testu podeszło 100 studentów

8 4 3 1

7 5 5 3

4 6 6 4

3 5 8 7

1 4 7 9

1 3x

2 5x

3 7x

4 9x

5 11x

1 2y 2 3y 3 4y 4 5y

Katarzyna Lubnauer 11

Do dalszych analiz potrzebne nam będą liczebności brzegowe:

1x

2x

3x

4x

5x

1y 2y 3y 4y

11n 12n

21n 22n 23n

32n

42n

52n

24n

31n

41n

51n

33n

13n

43n

53n 54n

44n

34n

14n 1n

2n

3n

4n

5n

1n 2n 3n 4n

,i ij j ij

j i

n n n n

Katarzyna Lubnauer 12

8 4 3 1 16

7 5 5 3 20

4 6 6 4 20

3 5 8 7 23

1 4 7 9 21

23 24 29 24 100

1 3x

2 5x

3 7x

4 9x

5 11x

1 2y 2 3y 3 4y 4 5y in

jn

Przykład: Niech X czas nauki studentów do testu ze SO wyrażony w godzinach, zaś Y ocena z testu. Przyjmujemy, że do testu podeszło 100 studentów, szukamy liczebności brzegowych.

Katarzyna Lubnauer 13

Wyróżniamy dwa rodzaje zależności między cechami są to:

• Zależność funkcyjna – polegająca na tym, że zmiana wartości cechy X powoduje zmianę wartości cechy Y

• Zależność statystyczna – polegająca na tym, że jednej wartości cechy X przypada kilka wartości cechy Y

Przykład: X podatek, Y cena, można się spodziewać zależności Y = aX+a

Przykład: X wiek dziecka w miesiącach, Y waga dzieci

Wiek w miesiącach X Waga w kg Y

1 3,8

4,8

5,2

2 4,9

5,9

6,4

3 6,0

7,2

7,4 0

1

2

3

4

5

6

7

8

0 1 2 3 4

Katarzyna Lubnauer 14

Katarzyna Lubnauer 15

Potrzebujemy miary, która pomogłaby wyrazić siłę zależności w sposób liczbowy.

W celu badania zależności między zmiennymi korzystamy ze współczynnika korelacji Pearsona zdefiniowany wzorem:

cov ,

X Y

X Yr

s s

cov(X,Y) w zależności od postaci w jakiej mamy dane liczy się z różnych wzorów.

Katarzyna Lubnauer 16

Dla szeregu szczegółowego (zależność podejrzewana o charakter funkcyjny) na policzenie kowariancji i odchylenia stosujemy wzory:

1cov ,

n

i i

i

x x y y

X Yn

2

1

2

1

1,

1

n

X i

i

n

Y i

i

s x xn

s y yn

X Y

1 1

3 26

3 30

4 66

5 124

6 220

7 345

7 350

8 490

9 880

Wg Excela

Katarzyna Lubnauer 17

X Y

1 1

3 26

3 30

4 66

5 124

6 220

7 345

7 350

8 490

9 880

cov ,

0,8917

X Y

X Yr

s s

Katarzyna Lubnauer 18

X Y

1 880

3 490

3 350

4 345

5 220

6 124

7 66

7 30

8 26

9 1

cov ,

0,9365

X Y

X Yr

s s

Katarzyna Lubnauer 19

Wiek w miesiącach X Waga w kg Y

1 3,8

4,8

5,2

2 4,9

5,9

6,4

3 6,0

7,2

7,4

0

1

2

3

4

5

6

7

8

0 1 2 3 4

cov ,

0,8347

X Y

X Yr

s s

Katarzyna Lubnauer 20

Dla szeregu rozdzielczego (zależność podejrzewana o charakter funkcyjny) na policzenie kowariancji stosujemy wzór:

8 4 3 1 16

7 5 5 3 20

4 6 6 4 20

3 5 8 7 23

1 4 7 9 21

23 24 29 24 100

1 3x

2 5x

3 7x

4 9x

5 11x

1 2y 2 3y 3 4y 4 5y in

jn

1 1cov ,

m k

ij i j

j i

n x x y y

X Yn

2

1

2

1

1,

1

k

X i i

i

m

Y j j

i

s n x xn

s n y yn

0,4321r

Katarzyna Lubnauer 21

Interpretacja współczynnika korelacji:

r - Współczynnik korelacji Pearsona jest miarą symetryczną. Oznacza to, że jest taki sam niezależnie, czy badamy zależność X od Y, czy odwrotnie.

1 1r Odpowiada na następujące pytania:

• Czy między badanymi cechami występuje współzależność

• Jaki jest kształt zależności (liniowa, nieliniowa)

1r oznacza zależność liniową

Jeśli jest bliski, lub równy zero to przyjmuje się, że między zmiennymi nie ma zależności.

Katarzyna Lubnauer 22

• Jaka jest jej siła

0,0.2r bardzo słaby związek

0.2,0.4r słaby związek

0.4,0.6r umiarkowany związek

0.6,0.8r silny związek

0.8,1.0r bardzo silny związek

• Jaki jest jej kierunek

0r

0r

korelacja ujemna, wzrost jednej zmiennej powodował spadek drugiej

korelacja dodatnia, wraz ze wzrostem jednej zmiennej wzrasta druga

Katarzyna Lubnauer 23

Przykładowe diagramy z podaną wartością korelacji Pearsona

Katarzyna Lubnauer 24

Współczynnik korelacji rang Spearmana

Współczynnik rang Spearmana jest miarą statystyczną służącą do

badania zależności, korelacji między dwiema cechami populacji, który stosujemy gdy: • Mamy do czynienia z sytuacją, gdy jedna z cech jest jakościowa

(niemierzalna), ale dająca się uporządkować (porządkowa), a druga cecha jest mierzalna.

• Gdy mamy dwie jakościowe (niemierzalne), ale dające się uporządkować • Gdy mamy dwie cechy mierzalne i niedużą liczebność próby, zaś

współczynnik korelacji Pearsona zakłócają wartości odskakujące

Musimy najpierw zdefiniować pojęcie rangowania – czyli przypisywania wariantom cechy X, oraz cechy Y rang wynikających z kolejności w uporządkowanym szeregu szczegółowym.

Katarzyna Lubnauer 25

Rangowanie odbywa się po uporządkowaniu wariantów cechy od najmniejszej do największej, następnie przypisujemy każdemu wariantowi numer, który zajmuje w ciągu. Jeśli kilka wariantów jest równe to rangą jest średnią arytmetyczną kolejnych numerów przypadających na ten wariant.

Przykład: 2,4; 3,5; 3,5; 5; 2,4; 2,4; 3,5; 4; 5; 2,4

Uporządkowane kolejno z przypisanymi rangami wyglądają tak, gdzie :

X

kolejność Rangi

2,4 1-4 2,5

2,4 1-4 2,5

2,4 1-4 2,5

2,4 1-4 2,5

3,5 5-7 6

3,5 5-7 6

3,5 5-7 6

4 8 8

5 9-10 9,5

5 9-10 9,5

ixrix

ixr

oznacza rangę wariantu:

ix

Katarzyna Lubnauer 26

Jeżeli teraz mamy dwie cechy odpowiednio X i Y mające warianty:

,i ix y

przypisujemy im odpowiednio rangi:

,i ix yr r

To współczynnik rang Spearmana liczymy ze wzoru

2

1

2

6

1( 1)

i

i i

n

is i x y

d

r gdzie d r rn n

Katarzyna Lubnauer 27

Uwaga, dla różnic rang zawsze zachodzi związek:

1

0n

i

i

d

Ponadto współczynnik

1 1sr

I co za tym idzie:

1sr

Katarzyna Lubnauer 28

Przykład Badamy zależność między wykształceniem, a dniami urlopu w czasie roku:

X Y

podstawowe 24

średnie 18

zasadnicze zawodowe 17

wyższe magisterskie 10

wyższe licencjackie 9

podstawowe 22

zasadnicze zawodowe 15

wyższe licencjackie 8

podstawowe 23

wyższe magisterskie 7

Katarzyna Lubnauer 29

Musimy teraz przypisać rangi, w tym celu najpierw porządkujemy warianty:

Warianty Rangi podstawowe 2

średnie 6 zasadnicze zawodowe 4,5 wyższe magisterskie 9,5 wyższe licencjackie 7,5

podstawowe 2 zasadnicze zawodowe 4,5

wyższe licencjackie 7,5 podstawowe 2

wyższe magisterskie 9,5

Warianty Numery podstawowe 1-3 podstawowe 1-3 podstawowe 1-3

zasadnicze zawodowe 4-5 zasadnicze zawodowe 4-5

średnie 6 wyższe licencjackie 7-8 wyższe licencjackie 7-8

wyższe magisterskie 9-10 wyższe magisterskie 9-10

Teraz przypisujemy wariantom rangi, zgodnie ze średnią arytmetyczną numerów.

Najpierw wyznaczymy rangi dla cechy jakościowej, porządkowej jaką jest wykształcenie.

Katarzyna Lubnauer 30

Musimy teraz przypisać rangi, w tym celu najpierw porządkujemy warianty:

Warianty Rangi 24 10 18 7 17 6 10 4 9 3

22 8 15 5 8 2

23 9 7 1

Warianty Numery 7 1 8 2 9 3

10 4 15 5 17 6 18 7 22 8 23 9 24 10

Teraz przypisujemy wariantom rangi, zgodnie ze średnią arytmetyczną numerów.

Teraz wyznaczymy rangi dla cechy ilościowej, jaką jest liczba dni wolnych.

Katarzyna Lubnauer 31

Cecha X

Rangi cechy X

Cecha Y

Rangi cechy Y

Różnica rang

Kwadrat różnicy rang

podstawowe 2 24 10 -8 64

średnie 6 18 7 -1 1

zasadnicze zawodowe 4,5 17 6 -1,5 2,25

wyższe magisterskie 9,5 10 4 5,5 30,25

wyższe licencjackie 7,5 9 3 4,5 20,25

podstawowe 2 22 8 -6 36

zasadnicze zawodowe 4,5 15 5 -0,5 0,25

wyższe licencjackie 7,5 8 2 5,5 30,25

podstawowe 2 23 9 -7 49

wyższe magisterskie 9,5 7 1 8,5 72,25

suma 0 305,5

ix iyixr iyr id 2

id

2

1

2

6

1 0,85152( 1)

i

n

is

d

rn n

Katarzyna Lubnauer 32

Japończycy jedzą bardzo mało tłuszczu i cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie. Z drugiej strony, Francuzi jedzą dużo tłuszczu, a także cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie. Japończycy piją bardzo mało czerwonego wina i cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie. Włosi piją nadmierne ilości czerwonego wina, a także cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie. Wnioski: Jedz i pij co chcesz. To mówienie po angielsku, że cię zabije.