15
Wspólczynnik korelacji Statystyka opisowa. Wyklad III. Badanie zależności pomiędzy cechami Edward Kozlowski e-mail:[email protected] Edward Kozlowski Badanie zależności pomiędzy cechami

Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Embed Size (px)

Citation preview

Page 1: Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Wspólczynnik korelacji

Statystyka opisowa. Wykład III.

Badanie zależności pomiędzy cechami

Edward Kozłowski

e-mail:[email protected]

Edward Kozłowski Badanie zależności pomiędzy cechami

Page 2: Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Wspólczynnik korelacji

Niech dana jest populacja dwóch cech mierzalnych (X,Y ) które opisujązachowania zmiennych losowych X i Y . W oparciu o wyniki należyznaleźć związek pomiędzy tymi cechami. Przy badaniu dwóch cechpróbką stanowi n par liczb (xi, yi) dla i = 1, 2, ..., n. Jeżeli potraktujemyte pary (xi, yi) jako punkty na płaszczyźnie, to powyższą próbkęprzedstawiamy w postaci diagramu korelacyjnego.

Edward Kozłowski Badanie zależności pomiędzy cechami

Page 3: Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Wspólczynnik korelacji

Miarą korelacji liniowej zmiennych losowych X i Y jest współczynnikkorelacji liniowej

ρXY =cov (X,Y )σXσY

Dla nedużych populacji kowariancję z próbki (xi, yi) dla i = 1, 2, ..., nobliczamy

cov (X,Y ) =1n

n∑i=1

(xi − x) (yi − y) =1n

n∑i=1

xiyi − xy

Edward Kozłowski Badanie zależności pomiędzy cechami

Page 4: Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Wspólczynnik korelacji

natomiast odchylenia standardowe zmiennych losowych X i Y

σX =

√√√√ 1n

n∑i=1

(xi − x)2 =

√√√√ 1n

n∑i=1

x2i − x2

σY =

√√√√ 1n

n∑i=1

(yi − y)2 =

√√√√ 1n

n∑i=1

y2i − y2

Edward Kozłowski Badanie zależności pomiędzy cechami

Page 5: Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Wspólczynnik korelacji

Wartość współczynnika korelacji szacujemy jako

rXY =

n∑i=1

(xi − x) (yi − y)√n∑i=1

(xi − x)2n∑i=1

(yi − y)2=

1n

n∑i=1

xiyi − xy√(1n

n∑i=1

x2i − x2)(

1n

n∑i=1

y2i − y2)

Własności współczynnika:1. rXY = rY X (symetria)2. −1 ¬ rXY ¬ 1

Edward Kozłowski Badanie zależności pomiędzy cechami

Page 6: Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Wspólczynnik korelacji

Przykład 1.

Dla szeregu (3.2; 7.3) , (3.1; 8.1) , (4.3; 9.4) , (3.3; 4.3) , (3.7; 8.6) ,(4.3; 8.6) , (3.8; 9.2) , (3.6; 8.5) , (3.7; 9.1) , (4; 9.9) narysowaćdiagramkorelacyjny, utworzyć tablicę korelacyjną oraz wyznaczyć współczynnikkorelacji.

Rysunek: Diagram korelacyjny.

Edward Kozłowski Badanie zależności pomiędzy cechami

Page 7: Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Wspólczynnik korelacji

x y x − x y − y (x − x)2 (y − y)2 (x − x) (y − y) xy x2 y2

3.2 7.3 −0.5 −1 0.25 1 0.5 23.36 10.24 53.293.1 8.1 −0.6 −0.2 0.36 0.04 0.12 25.11 9.61 65.614.3 9.4 0.6 1.1 0.36 1.21 0.66 40.42 18.49 88.363.3 4.3 −0.4 −4 0.16 16 1.6 14.19 10.89 18.493.7 8.6 0 0.3 0 0.09 0 31.82 13.69 73.964.3 8.6 0.6 0.3 0.36 0.09 0.18 36.98 18.49 73.963.8 9.2 0.1 0.9 0.01 0.81 0.09 34.96 14.44 84.643.6 8.5 −0.1 0.2 0.01 0.04 −0.02 30.6 12.96 72.253.7 9.1 0 0.8 0 0.64 0 33.67 13.69 82.814 9.9 0.3 1.6 0.09 2.56 0.48 39.6 16 98.0137 83 1.6 22.48 3.61 310.71 138.5 711.38

Edward Kozłowski Badanie zależności pomiędzy cechami

Page 8: Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Wspólczynnik korelacji

Natomiast współczynnik korelacji wynosi

r =3.61√

1.6 · 22.48= 0.60193

lub

r =310.7110 − 3.7 · 8.3√(

138.510 − 3.72

) (711.3810 − 8.32

) = 0.60193

Edward Kozłowski Badanie zależności pomiędzy cechami

Page 9: Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Wspólczynnik korelacji

Dla dużych populacji dla każdej z badanych cech tworzymy szeregrozdzielczy przedziałowy, otrzymujemy w ten sposób tablicę korelacyjnącech X i Y na podstawie pobranej n−elementowej próbki. Niech m i loznaczają liczby klas cech X i Y odpowiednio.

m∑i=1

nik = n.k

l∑k=1

nik = ni.

wielkości xi oraz yk oznaczają środki klas cech X i Y , wielkość ni.oznacza liczność klasy przy badaniu cechy X bez uwzględnienia cechy Y ,wielkość n.k oznacza liczność klasy przy badaniu cechy Y bezuwzględnienia cechy X.

Edward Kozłowski Badanie zależności pomiędzy cechami

Page 10: Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Wspólczynnik korelacji

Dla próbki zgrupowanej w tablicę korelacyjną wielkość współczynnikakorelacji liniowej szacujemy

r =

1n

m∑i=1

l∑k=1

xiyknik − xy√(1n

m∑i=1

x2ini. − x2)(

1n

l∑k=1

y2kn.k − y2)

=

1n

m∑i=1

xi

(l∑k=1

yknik

)− xy√(

1n

m∑i=1

x2ini. − x2)(

1n

l∑k=1

y2kn.k − y2)

=

1n

l∑k=1

yk

(m∑i=1

xinik

)− xy√(

1n

m∑i=1

x2ini. − x2)(

1n

l∑k=1

y2kn.k − y2)

Edward Kozłowski Badanie zależności pomiędzy cechami

Page 11: Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Wspólczynnik korelacji

Przykład 2.

Dla szeregu (2.5; 21), (6.2; 29.8), (6; 28.7), (4.8; 26.9) , (4.2; 28.2),(5.2; 29), (6.9; 32.2), (8.1; 36.6), (6.3; 32), (6.1; 33.5), (7; 31), (3.7; 27),(7.9; 34.1), (6; 31.5), (5.9; 34), (4.2; 24.2), (6; 31.5), (5.4; 28), (7.1; 35),(5.9; 32.1), (5.2; 32), (7.2; 35), (3; 23), (6.2; 32), (9.2; 41.2), (5; 28.3),(7.2; 31.5), (6.9; 34.2), (5; 25), (8.3; 38.1), (5.8; 30), (3.2; 26.2), (7.8; 39),(4; 20.5), (7.1; 33.5), (8.2; 35.1), (3.7; 25), (5.1; 28.5), (6.1; 31.7),(5.; 29), (7.1; 38), (7.9; 37), (4.9; 27), (9.5; 37.7), (3.8; 26), (5; 29.1),(6.6; 33.9), (7.9; 38.1), (8.8; 41.5), (6; 32.2) utworzyć tablicę korelacyjną,diagram korelacyjny oraz wyznaczyć współczynnik korelacji.

Edward Kozłowski Badanie zależności pomiędzy cechami

Page 12: Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Wspólczynnik korelacji

Rysunek: Diagram korelacyjny.

Edward Kozłowski Badanie zależności pomiędzy cechami

Page 13: Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Wspólczynnik korelacji

Dla 50 elementowej populacji tworzymy po 7 klas dla każdej z cech(zmiennej).Dla cechy X mamy:xmin = 2.5 , xmax = 9.5Zatem rozstęp RX = 7, długość każdej klasy cechy X obieramy jakobX = 1.Dla cechy Y mamy:ymin = 20.5 , ymax = 41.5Zatem rozstęp RY = 21, długość każdej klasy cechy Y obieramy jakobY = 3.Następnie tworzymy tablicę korelacyjną ustalając liczebność każdej z 49klas krzyżowych ze względu na cechy X i Y .

Edward Kozłowski Badanie zależności pomiędzy cechami

Page 14: Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Wspólczynnik korelacji

Rysunek: Tablica korelacyjna.

Edward Kozłowski Badanie zależności pomiędzy cechami

Page 15: Statystyka opisowa. Wykład III. Badanie zależności pomiędzy cechami

Wspólczynnik korelacji

Współczynnik korelacji

r =

1n

l∑k=1

yk

(m∑i=1

xinik

)− xy√(

1n

m∑i=1

x2ini. − x2)(

1n

l∑k=1

y2kn.k − y2)

=967050 −

15505030150√(

193750 −

(30150

)2)( 4911250 −

(155050

)2) ≈ 6.787.286392

≈ 0.9305

Edward Kozłowski Badanie zależności pomiędzy cechami