16
Rangowanie Podstawowe charakterystyki rang Wspólczynnik korelacji Spearmana Statystyka opisowa. Wyklad VI. Analiza danych jakośiowych Edward Kozlowski e-mail:[email protected] Edward Kozlowski Analiza danych jakośiowych

Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:[email protected] Edward Kozłowski Analiza danych jakośiowych

  • Upload
    others

  • View
    21

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

Statystyka opisowa. Wykład VI.

Analiza danych jakośiowych

Edward Kozłowski

e-mail:[email protected]

Edward Kozłowski Analiza danych jakośiowych

Page 2: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

Spis treści

1 Rangowanie

2 Podstawowe charakterystyki rang

3 Współczynnik korelacji Spearmana

Edward Kozłowski Analiza danych jakośiowych

Page 3: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

Rangowanie

Badaniu statystycznemu czasami podlegają cechy niemierzalne(jakościowe), np. kolor włosów, stopień sympatii, pochodzenie itp.Powstaje problem opisania niemierzalnych atrybutów. W tym celuposłużymy się metodą rangową.

Definition

Ranga – numer kolejny obserwacji statystycznej w próbie pouporządkowaniu obserwacji według wartości jednej ze zmiennych.

Zwykle stosuje się uporządkowanie rosnące i numerowanie od 1.Zastąpienie zmiennej przez wyliczone według niej rangi jest operacjązwaną rangowaniem.

Edward Kozłowski Analiza danych jakośiowych

Page 4: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

Rangowanie jest zwykle stosowane w celu uniezależnienia się od rozkładuzmiennej niemierzalnej, co pozwala na stosowanie metod statystycznychw odniesieniu do zmiennych porządkowych, a nie tylko przedziałowych iilorazowych.Rangowanie jest też pierwszym krokiem wielu metod statystykinieparametrycznej.Rangi regularne.Rangowanie można zastosować do wielu zmiennych w próbie,porządkując każdą zmienną z osobna, nadając odpowiednie rangi, anastępnie wracając do pierwotnego ustawienia obserwacji.

Edward Kozłowski Analiza danych jakośiowych

Page 5: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

Rangi wiązane.W przypadku występowania obserwacji o równej wartości rangowanejzmiennej (tzw. rangi wiązane, ang. tied ranks), zwykle wszystkim tymobserwacjom przypisuje się identyczną rangę, równą średniej z ichnumerów kolejnych, stąd rangi mogą mieć wartości niecałkowite. Dlapopulacji n−elementowej tablicę rozdzielczą rang, ni oznacza liczebnośći-tej rangi, ni ­ 1 oraz n1 + n2 + ...+ nk = n, natomiast k− oznaczaliczbę różnych rang.

Edward Kozłowski Analiza danych jakośiowych

Page 6: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

Przykład 1.Pięciu uczniów w klasie uzyskało następujące wyniki: X1 =dst,X2 =ndst, X3 =ndst, X4 =dst, X5 =db.Po uporządkowaniu mamy: ndst, ndst, dst, dst, dbPrzypisujemy rangi:

Xi ndst dst dbRXi 1.5 3.5 5ni 2 2 1

lubXi ndst ndst dst dst dbRXi 1 2 3 4 5ni 1 1 1 1 1

Edward Kozłowski Analiza danych jakośiowych

Page 7: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

Rangi ułamkowe i procentoweRangi ułamkowe powstają przez podzielenie rang regularnych przez liczbęobserwacji danej zmiennej (z wyłączeniem brakujących danych), orazrangi procentowe czyli rangi ułamkowe wyrażone w procentach.Zastosowanie rang ułamkowych i procentowych ma sens w przypadkuzbiorów z brakami danych. Wówczas rangi ułamkowe i procentowezapewniają lepszą od rang regularnych porównywalność zmiennych oróżnym udziale brakujących danych.

Edward Kozłowski Analiza danych jakośiowych

Page 8: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

Podstawowe charakterystyki rang

Dla rang regularnych wartość średnia wynosi

RX =1n

n∑i=1

RXi =1n

n∑i=1

i =1n

(1 + 2 + ...+ n) =1n· n+ 1

2n =n+ 1

2

Edward Kozłowski Analiza danych jakośiowych

Page 9: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

Wariancja rang regularnych wynosi

V ar (RX) =1n

n∑i=1

(RXi −

n+ 12

)2=

1n

n∑i=1

(i− n+ 1

2

)2=

1n

n∑i=1

(i2 − 2i

n+ 12

+(n+ 1

2

)2)=

1n

n∑i=1

i2 − n+ 1n

n∑i=1

i+(n+ 1

2

)2=

1n· 1

6n (n+ 1) (2n+ 1)− n+ 1

n· n+ 1

2n+

(n+ 1

2

)2=

16

(n+ 1) (2n+ 1)−(n+ 1

2

)2=n2 − 1

12

Wsk. 1 + 22 + ...+ n2 = 16n (n+ 1) (2n+ 1)

Edward Kozłowski Analiza danych jakośiowych

Page 10: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

Dla rang ważonych

RX =1n

k∑i=1

RXini =n+ 1

2,

natomiast

V ar (RX) =1n

k∑i=1

(RXi −

n+ 12

)2ni =

1n

k∑i=1

RX2i ni −(n+ 1

2

)2=n2 − 1

12− TXn,

gdzie

TX =112

k∑i=1

(n3i − ni

).

Edward Kozłowski Analiza danych jakośiowych

Page 11: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

Współczynnik korelacji Spearmana

W praktyce współczynnik korelacji rang dla cech X i Y oblicza się napodstawie próby statystycznej. Używane do wyznaczenia współczynnikapowyżej wzory uważamy za estymatory korelacji rang (korelacji istniejącejw populacji statystycznej).

Wartość współczynnika obliczamy w następujący sposób:– Najpierw dla każdej porównywanej zmiennej X i Y dokonywane jestniezależnie rangowanie (czyli: zaobserwowane wartości danej zmiennejporządkowane są rosnąco; każdej wartości Xi przypisywana jest rangaRXirówna pozycji danej wartości w rosnącym porządku (najmniejszauzyskuje rangę 1, kolejna 2 itd.), a każdej wartości Yi przypisywana jestranga RYirówna pozycji danej wartości w rosnącym porządku; wprzypadku gdy dana wartość występuje wielokrotnie, każde z wystąpieńma przypisaną tę samą rangę równą średniej arytmetycznej pozycji wrosnącym porządku (tzw. ranga wiązana lub powiązana, ang. tied rank).tym samym mogą występować rangi ułamkowe, np. ranga 1,5)

Edward Kozłowski Analiza danych jakośiowych

Page 12: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

– Po powrocie do pierwotnego porządku wartości zmiennych obliczanajest korelacja rangowa ze wzoru

rS =cov (RX,RY )√

V ar (RX)√V ar (RY )

Dla rang regularnych mamy

rS =

1n

n∑i=1

(RXi − n+12

) (RYi − n+12

)√1n

n∑i=1

(RXi − n+12

)2√ 1n

n∑i=1

(RYi − n+12

)2

Edward Kozłowski Analiza danych jakośiowych

Page 13: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

Wyznaczmy najpierw

n∑i=1

(RXi −RYi)2 =n∑i=1

(RXi −

n+ 12−(RYi −

n+ 12

))2=n∑i=1

(RXi −

n+ 12

)2+n∑i=1

(RYi −

n+ 12

)2− 2

n∑i=1

(RXi −

n+ 12

)(RYi −

n+ 12

)

=n3 − n

12+n3 − n

12− 2

n∑i=1

(RXi −

n+ 12

)(RYi −

n+ 12

)zatem

n∑i=1

(RXi −

n+ 12

)(RYi −

n+ 12

)=n3 − n

12− 1

2

n∑i=1

(RXi −RYi)2

Edward Kozłowski Analiza danych jakośiowych

Page 14: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

Zatem mamy

rS =

n2−112 −

12n

n∑i=1

(RXi −RYi)2√n2−112

√n2−112

=

n2−112 −

12n

n∑i=1

(RXi −RYi)2

n2−112

.

Ostatecznie wartość współczynnika kerelacji Spearmana rang regularnychjest równa

rS = 1−6n∑i=1

(RXi −RYi)2

n3 − n

Edward Kozłowski Analiza danych jakośiowych

Page 15: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

Wartość współczynnika korelacji Spearmana dla rang wiązanychwyznaczamy za pomocą wzoru

rS =

16

(n3 − n

)−n∑i=1

(RXi −RYi)2 − TX − TY√16 (n3 − n)− 2TX

√16 (n3 − n)− 2TY

Edward Kozłowski Analiza danych jakośiowych

Page 16: Statystyka opisowa. Wykład VI. · Statystyka opisowa. Wykład VI. Analiza danych jakośiowych Edward Kozłowski e-mail:e.kozlovski@pollub.pl Edward Kozłowski Analiza danych jakośiowych

RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana

Przykład 2.Oszacować wartość średnia i wariancję rang z przykładu 1.

Przykład 3.Dwóch ekspertów dokonało rangowania 10 przedsiębiorstw odnośnieprognoz dotyczących przyszłych wynikow finansowych.RX = {1, 2, 3, 9, 4, 7, 8, 6, 5, 10}RY = {4, 3, 2, 5, 1, 9, 8, 7, 10, 6}Znaleźć współczynnik korelacji Spearmana pomiędzy wizjami dwóchekspertów.

Przykład 4.Dokonano opisu 10 osób ze względu na znajomość języka angielskiego imatematyki.

osoby 1 2 3 4 5 6 7 8 9 10j. obcy bdb dst bdb dst bdb db dst bdb bdb dstmatematyka dst bdb bdb db bdb dst dst db dst db

Dokonać rangowania w/w cech oraz oszacować współczynnik korelacjiSpearmana.

Edward Kozłowski Analiza danych jakośiowych