Upload
trantu
View
242
Download
0
Embed Size (px)
Citation preview
Literatura: 1. „Statystyka w Zarządzaniu” ‚ Admir D. Aczel 2. „Statystyka Opisowa od Podstaw” ‚ Ewa Wasilewska 3. „Statystyka” , Lucjan Kowalski. 4. „Statystyka opisowa”, Mieczysław Sobczyk
Są trzy rodzaje kłamstw: kłamstwa,
przeklęte kłamstwa i statystyki. Benjamin Disraeli - premier Wielkiej Brytanii (w latach 1868 i 1874-1880) Katarzyna Lubnauer 2
Katarzyna Lubnauer 3
Naszym celem jest odpowiedź na 4 pytania: • Czy między badanymi cechami występuje współzależność. • Jaki jest kształt zależności (liniowa, nieliniowa). • Jaka jest jej siła. • Jaki jest jej kierunek.
Badanie zależności między dwiema cechami – analiza korelacji.
Badając różnego rodzaju zjawiska, np. społeczne, ekonomiczne, psychologiczne, przyrodnicze itp. stwierdzamy, ze często jedno z nich jest uwarunkowane działaniem innych zjawisk. Zastanawiamy się nad charakterystyką tej zależności. Np. Czy cena lodów ma wpływ na ich sprzedaż? Czy temperatura powietrza ma wpływ na sprzedaż lodów?
Czy cena samochodów ma wpływ na cenę lodów?
Katarzyna Lubnauer 6
Szeregi dwucechowe szczegółowe – szereg korelacyjny
Wiek żony X, Wiek męża Y,
19 19
20 24
21 22
23 23
24 26
27 26
28 30
30 34
33 32
35 37
ix iy
Otrzymujemy więc zbiór par postaci:
( , )i ix y
gdzie:
1,...,i n
Katarzyna Lubnauer 7
Prezentacja graficzna szeregów dwucechowych, diagram korelacyjny:
0
100
200
300
400
500
600
700
800
900
1000
0 2 4 6 8 10
1 1
3 26
3 30
4 66
5 124
6 220
7 345
7 350
8 490
9 880
ix iy
Katarzyna Lubnauer 8
Prezentacja graficzna szeregów dwucechowych, diagram korelacyjny:
1 880
3 490
3 350
4 345
5 220
6 124
7 66
7 30
8 26
9 1
ix iy
0
100
200
300
400
500
600
700
800
900
1000
0 2 4 6 8 10
Katarzyna Lubnauer 9
Szeregi dwucechowe rozdzielcze
1x
2x
3x
4x
5x
1y 2y 3y 4y
11n 12n
21n 22n 23n
32n
42n
52n
24n
31n
41n
51n
33n
23n
43n
53n 54n
44n34n
14n
Gdzie warianty cechy X, zaś warianty cechy Y oraz liczebność pary:
ixjy ijn
,i jx y
Katarzyna Lubnauer 10
Przykład: Niech X czas nauki studentów do testu ze SO wyrażony w godzinach, zaś Y ocena z testu. Przyjmujemy, że do testu podeszło 100 studentów
8 4 3 1
7 5 5 3
4 6 6 4
3 5 8 7
1 4 7 9
1 3x
2 5x
3 7x
4 9x
5 11x
1 2y 2 3y 3 4y 4 5y
Katarzyna Lubnauer 11
Do dalszych analiz potrzebne nam będą liczebności brzegowe:
1x
2x
3x
4x
5x
1y 2y 3y 4y
11n 12n
21n 22n 23n
32n
42n
52n
24n
31n
41n
51n
33n
13n
43n
53n 54n
44n
34n
14n 1n
2n
3n
4n
5n
1n 2n 3n 4n
,i ij j ij
j i
n n n n
Katarzyna Lubnauer 12
8 4 3 1 16
7 5 5 3 20
4 6 6 4 20
3 5 8 7 23
1 4 7 9 21
23 24 29 24 100
1 3x
2 5x
3 7x
4 9x
5 11x
1 2y 2 3y 3 4y 4 5y in
jn
Przykład: Niech X czas nauki studentów do testu ze SO wyrażony w godzinach, zaś Y ocena z testu. Przyjmujemy, że do testu podeszło 100 studentów, szukamy liczebności brzegowych.
Katarzyna Lubnauer 13
Wyróżniamy dwa rodzaje zależności między cechami są to:
• Zależność funkcyjna – polegająca na tym, że zmiana wartości cechy X powoduje zmianę wartości cechy Y
• Zależność statystyczna – polegająca na tym, że jednej wartości cechy X przypada kilka wartości cechy Y
Przykład: X podatek, Y cena, można się spodziewać zależności Y = aX+a
Przykład: X wiek dziecka w miesiącach, Y waga dzieci
Wiek w miesiącach X Waga w kg Y
1 3,8
4,8
5,2
2 4,9
5,9
6,4
3 6,0
7,2
7,4 0
1
2
3
4
5
6
7
8
0 1 2 3 4
Katarzyna Lubnauer 15
Potrzebujemy miary, która pomogłaby wyrazić siłę zależności w sposób liczbowy.
W celu badania zależności między zmiennymi korzystamy ze współczynnika korelacji Pearsona zdefiniowany wzorem:
cov ,
X Y
X Yr
s s
cov(X,Y) w zależności od postaci w jakiej mamy dane liczy się z różnych wzorów.
Katarzyna Lubnauer 16
Dla szeregu szczegółowego (zależność podejrzewana o charakter funkcyjny) na policzenie kowariancji i odchylenia stosujemy wzory:
1cov ,
n
i i
i
x x y y
X Yn
2
1
2
1
1,
1
n
X i
i
n
Y i
i
s x xn
s y yn
X Y
1 1
3 26
3 30
4 66
5 124
6 220
7 345
7 350
8 490
9 880
Wg Excela
Katarzyna Lubnauer 17
X Y
1 1
3 26
3 30
4 66
5 124
6 220
7 345
7 350
8 490
9 880
cov ,
0,8917
X Y
X Yr
s s
Katarzyna Lubnauer 18
X Y
1 880
3 490
3 350
4 345
5 220
6 124
7 66
7 30
8 26
9 1
cov ,
0,9365
X Y
X Yr
s s
Katarzyna Lubnauer 19
Wiek w miesiącach X Waga w kg Y
1 3,8
4,8
5,2
2 4,9
5,9
6,4
3 6,0
7,2
7,4
0
1
2
3
4
5
6
7
8
0 1 2 3 4
cov ,
0,8347
X Y
X Yr
s s
Katarzyna Lubnauer 20
Dla szeregu rozdzielczego (zależność podejrzewana o charakter funkcyjny) na policzenie kowariancji stosujemy wzór:
8 4 3 1 16
7 5 5 3 20
4 6 6 4 20
3 5 8 7 23
1 4 7 9 21
23 24 29 24 100
1 3x
2 5x
3 7x
4 9x
5 11x
1 2y 2 3y 3 4y 4 5y in
jn
1 1cov ,
m k
ij i j
j i
n x x y y
X Yn
2
1
2
1
1,
1
k
X i i
i
m
Y j j
i
s n x xn
s n y yn
0,4321r
Katarzyna Lubnauer 21
Interpretacja współczynnika korelacji:
r - Współczynnik korelacji Pearsona jest miarą symetryczną. Oznacza to, że jest taki sam niezależnie, czy badamy zależność X od Y, czy odwrotnie.
1 1r Odpowiada na następujące pytania:
• Czy między badanymi cechami występuje współzależność
• Jaki jest kształt zależności (liniowa, nieliniowa)
1r oznacza zależność liniową
Jeśli jest bliski, lub równy zero to przyjmuje się, że między zmiennymi nie ma zależności.
Katarzyna Lubnauer 22
• Jaka jest jej siła
0,0.2r bardzo słaby związek
0.2,0.4r słaby związek
0.4,0.6r umiarkowany związek
0.6,0.8r silny związek
0.8,1.0r bardzo silny związek
• Jaki jest jej kierunek
0r
0r
korelacja ujemna, wzrost jednej zmiennej powodował spadek drugiej
korelacja dodatnia, wraz ze wzrostem jednej zmiennej wzrasta druga
Katarzyna Lubnauer 24
Współczynnik korelacji rang Spearmana
Współczynnik rang Spearmana jest miarą statystyczną służącą do
badania zależności, korelacji między dwiema cechami populacji, który stosujemy gdy: • Mamy do czynienia z sytuacją, gdy jedna z cech jest jakościowa
(niemierzalna), ale dająca się uporządkować (porządkowa), a druga cecha jest mierzalna.
• Gdy mamy dwie jakościowe (niemierzalne), ale dające się uporządkować • Gdy mamy dwie cechy mierzalne i niedużą liczebność próby, zaś
współczynnik korelacji Pearsona zakłócają wartości odskakujące
Musimy najpierw zdefiniować pojęcie rangowania – czyli przypisywania wariantom cechy X, oraz cechy Y rang wynikających z kolejności w uporządkowanym szeregu szczegółowym.
Katarzyna Lubnauer 25
Rangowanie odbywa się po uporządkowaniu wariantów cechy od najmniejszej do największej, następnie przypisujemy każdemu wariantowi numer, który zajmuje w ciągu. Jeśli kilka wariantów jest równe to rangą jest średnią arytmetyczną kolejnych numerów przypadających na ten wariant.
Przykład: 2,4; 3,5; 3,5; 5; 2,4; 2,4; 3,5; 4; 5; 2,4
Uporządkowane kolejno z przypisanymi rangami wyglądają tak, gdzie :
X
kolejność Rangi
2,4 1-4 2,5
2,4 1-4 2,5
2,4 1-4 2,5
2,4 1-4 2,5
3,5 5-7 6
3,5 5-7 6
3,5 5-7 6
4 8 8
5 9-10 9,5
5 9-10 9,5
ixrix
ixr
oznacza rangę wariantu:
ix
Katarzyna Lubnauer 26
Jeżeli teraz mamy dwie cechy odpowiednio X i Y mające warianty:
,i ix y
przypisujemy im odpowiednio rangi:
,i ix yr r
To współczynnik rang Spearmana liczymy ze wzoru
2
1
2
6
1( 1)
i
i i
n
is i x y
d
r gdzie d r rn n
Katarzyna Lubnauer 27
Uwaga, dla różnic rang zawsze zachodzi związek:
1
0n
i
i
d
Ponadto współczynnik
1 1sr
I co za tym idzie:
1sr
Katarzyna Lubnauer 28
Przykład Badamy zależność między wykształceniem, a dniami urlopu w czasie roku:
X Y
podstawowe 24
średnie 18
zasadnicze zawodowe 17
wyższe magisterskie 10
wyższe licencjackie 9
podstawowe 22
zasadnicze zawodowe 15
wyższe licencjackie 8
podstawowe 23
wyższe magisterskie 7
Katarzyna Lubnauer 29
Musimy teraz przypisać rangi, w tym celu najpierw porządkujemy warianty:
Warianty Rangi podstawowe 2
średnie 6 zasadnicze zawodowe 4,5 wyższe magisterskie 9,5 wyższe licencjackie 7,5
podstawowe 2 zasadnicze zawodowe 4,5
wyższe licencjackie 7,5 podstawowe 2
wyższe magisterskie 9,5
Warianty Numery podstawowe 1-3 podstawowe 1-3 podstawowe 1-3
zasadnicze zawodowe 4-5 zasadnicze zawodowe 4-5
średnie 6 wyższe licencjackie 7-8 wyższe licencjackie 7-8
wyższe magisterskie 9-10 wyższe magisterskie 9-10
Teraz przypisujemy wariantom rangi, zgodnie ze średnią arytmetyczną numerów.
Najpierw wyznaczymy rangi dla cechy jakościowej, porządkowej jaką jest wykształcenie.
Katarzyna Lubnauer 30
Musimy teraz przypisać rangi, w tym celu najpierw porządkujemy warianty:
Warianty Rangi 24 10 18 7 17 6 10 4 9 3
22 8 15 5 8 2
23 9 7 1
Warianty Numery 7 1 8 2 9 3
10 4 15 5 17 6 18 7 22 8 23 9 24 10
Teraz przypisujemy wariantom rangi, zgodnie ze średnią arytmetyczną numerów.
Teraz wyznaczymy rangi dla cechy ilościowej, jaką jest liczba dni wolnych.
Katarzyna Lubnauer 31
Cecha X
Rangi cechy X
Cecha Y
Rangi cechy Y
Różnica rang
Kwadrat różnicy rang
podstawowe 2 24 10 -8 64
średnie 6 18 7 -1 1
zasadnicze zawodowe 4,5 17 6 -1,5 2,25
wyższe magisterskie 9,5 10 4 5,5 30,25
wyższe licencjackie 7,5 9 3 4,5 20,25
podstawowe 2 22 8 -6 36
zasadnicze zawodowe 4,5 15 5 -0,5 0,25
wyższe licencjackie 7,5 8 2 5,5 30,25
podstawowe 2 23 9 -7 49
wyższe magisterskie 9,5 7 1 8,5 72,25
suma 0 305,5
ix iyixr iyr id 2
id
2
1
2
6
1 0,85152( 1)
i
n
is
d
rn n
Katarzyna Lubnauer 32
Japończycy jedzą bardzo mało tłuszczu i cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie. Z drugiej strony, Francuzi jedzą dużo tłuszczu, a także cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie. Japończycy piją bardzo mało czerwonego wina i cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie. Włosi piją nadmierne ilości czerwonego wina, a także cierpią na mniej ataków serca niż Brytyjczycy czy Amerykanie. Wnioski: Jedz i pij co chcesz. To mówienie po angielsku, że cię zabije.