Upload
others
View
21
Download
0
Embed Size (px)
Citation preview
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
Statystyka opisowa. Wykład VI.
Analiza danych jakośiowych
Edward Kozłowski
e-mail:[email protected]
Edward Kozłowski Analiza danych jakośiowych
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
Spis treści
1 Rangowanie
2 Podstawowe charakterystyki rang
3 Współczynnik korelacji Spearmana
Edward Kozłowski Analiza danych jakośiowych
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
Rangowanie
Badaniu statystycznemu czasami podlegają cechy niemierzalne(jakościowe), np. kolor włosów, stopień sympatii, pochodzenie itp.Powstaje problem opisania niemierzalnych atrybutów. W tym celuposłużymy się metodą rangową.
Definition
Ranga – numer kolejny obserwacji statystycznej w próbie pouporządkowaniu obserwacji według wartości jednej ze zmiennych.
Zwykle stosuje się uporządkowanie rosnące i numerowanie od 1.Zastąpienie zmiennej przez wyliczone według niej rangi jest operacjązwaną rangowaniem.
Edward Kozłowski Analiza danych jakośiowych
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
Rangowanie jest zwykle stosowane w celu uniezależnienia się od rozkładuzmiennej niemierzalnej, co pozwala na stosowanie metod statystycznychw odniesieniu do zmiennych porządkowych, a nie tylko przedziałowych iilorazowych.Rangowanie jest też pierwszym krokiem wielu metod statystykinieparametrycznej.Rangi regularne.Rangowanie można zastosować do wielu zmiennych w próbie,porządkując każdą zmienną z osobna, nadając odpowiednie rangi, anastępnie wracając do pierwotnego ustawienia obserwacji.
Edward Kozłowski Analiza danych jakośiowych
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
Rangi wiązane.W przypadku występowania obserwacji o równej wartości rangowanejzmiennej (tzw. rangi wiązane, ang. tied ranks), zwykle wszystkim tymobserwacjom przypisuje się identyczną rangę, równą średniej z ichnumerów kolejnych, stąd rangi mogą mieć wartości niecałkowite. Dlapopulacji n−elementowej tablicę rozdzielczą rang, ni oznacza liczebnośći-tej rangi, ni 1 oraz n1 + n2 + ...+ nk = n, natomiast k− oznaczaliczbę różnych rang.
Edward Kozłowski Analiza danych jakośiowych
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
Przykład 1.Pięciu uczniów w klasie uzyskało następujące wyniki: X1 =dst,X2 =ndst, X3 =ndst, X4 =dst, X5 =db.Po uporządkowaniu mamy: ndst, ndst, dst, dst, dbPrzypisujemy rangi:
Xi ndst dst dbRXi 1.5 3.5 5ni 2 2 1
lubXi ndst ndst dst dst dbRXi 1 2 3 4 5ni 1 1 1 1 1
Edward Kozłowski Analiza danych jakośiowych
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
Rangi ułamkowe i procentoweRangi ułamkowe powstają przez podzielenie rang regularnych przez liczbęobserwacji danej zmiennej (z wyłączeniem brakujących danych), orazrangi procentowe czyli rangi ułamkowe wyrażone w procentach.Zastosowanie rang ułamkowych i procentowych ma sens w przypadkuzbiorów z brakami danych. Wówczas rangi ułamkowe i procentowezapewniają lepszą od rang regularnych porównywalność zmiennych oróżnym udziale brakujących danych.
Edward Kozłowski Analiza danych jakośiowych
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
Podstawowe charakterystyki rang
Dla rang regularnych wartość średnia wynosi
RX =1n
n∑i=1
RXi =1n
n∑i=1
i =1n
(1 + 2 + ...+ n) =1n· n+ 1
2n =n+ 1
2
Edward Kozłowski Analiza danych jakośiowych
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
Wariancja rang regularnych wynosi
V ar (RX) =1n
n∑i=1
(RXi −
n+ 12
)2=
1n
n∑i=1
(i− n+ 1
2
)2=
1n
n∑i=1
(i2 − 2i
n+ 12
+(n+ 1
2
)2)=
1n
n∑i=1
i2 − n+ 1n
n∑i=1
i+(n+ 1
2
)2=
1n· 1
6n (n+ 1) (2n+ 1)− n+ 1
n· n+ 1
2n+
(n+ 1
2
)2=
16
(n+ 1) (2n+ 1)−(n+ 1
2
)2=n2 − 1
12
Wsk. 1 + 22 + ...+ n2 = 16n (n+ 1) (2n+ 1)
Edward Kozłowski Analiza danych jakośiowych
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
Dla rang ważonych
RX =1n
k∑i=1
RXini =n+ 1
2,
natomiast
V ar (RX) =1n
k∑i=1
(RXi −
n+ 12
)2ni =
1n
k∑i=1
RX2i ni −(n+ 1
2
)2=n2 − 1
12− TXn,
gdzie
TX =112
k∑i=1
(n3i − ni
).
Edward Kozłowski Analiza danych jakośiowych
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
Współczynnik korelacji Spearmana
W praktyce współczynnik korelacji rang dla cech X i Y oblicza się napodstawie próby statystycznej. Używane do wyznaczenia współczynnikapowyżej wzory uważamy za estymatory korelacji rang (korelacji istniejącejw populacji statystycznej).
Wartość współczynnika obliczamy w następujący sposób:– Najpierw dla każdej porównywanej zmiennej X i Y dokonywane jestniezależnie rangowanie (czyli: zaobserwowane wartości danej zmiennejporządkowane są rosnąco; każdej wartości Xi przypisywana jest rangaRXirówna pozycji danej wartości w rosnącym porządku (najmniejszauzyskuje rangę 1, kolejna 2 itd.), a każdej wartości Yi przypisywana jestranga RYirówna pozycji danej wartości w rosnącym porządku; wprzypadku gdy dana wartość występuje wielokrotnie, każde z wystąpieńma przypisaną tę samą rangę równą średniej arytmetycznej pozycji wrosnącym porządku (tzw. ranga wiązana lub powiązana, ang. tied rank).tym samym mogą występować rangi ułamkowe, np. ranga 1,5)
Edward Kozłowski Analiza danych jakośiowych
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
– Po powrocie do pierwotnego porządku wartości zmiennych obliczanajest korelacja rangowa ze wzoru
rS =cov (RX,RY )√
V ar (RX)√V ar (RY )
Dla rang regularnych mamy
rS =
1n
n∑i=1
(RXi − n+12
) (RYi − n+12
)√1n
n∑i=1
(RXi − n+12
)2√ 1n
n∑i=1
(RYi − n+12
)2
Edward Kozłowski Analiza danych jakośiowych
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
Wyznaczmy najpierw
n∑i=1
(RXi −RYi)2 =n∑i=1
(RXi −
n+ 12−(RYi −
n+ 12
))2=n∑i=1
(RXi −
n+ 12
)2+n∑i=1
(RYi −
n+ 12
)2− 2
n∑i=1
(RXi −
n+ 12
)(RYi −
n+ 12
)
=n3 − n
12+n3 − n
12− 2
n∑i=1
(RXi −
n+ 12
)(RYi −
n+ 12
)zatem
n∑i=1
(RXi −
n+ 12
)(RYi −
n+ 12
)=n3 − n
12− 1
2
n∑i=1
(RXi −RYi)2
Edward Kozłowski Analiza danych jakośiowych
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
Zatem mamy
rS =
n2−112 −
12n
n∑i=1
(RXi −RYi)2√n2−112
√n2−112
=
n2−112 −
12n
n∑i=1
(RXi −RYi)2
n2−112
.
Ostatecznie wartość współczynnika kerelacji Spearmana rang regularnychjest równa
rS = 1−6n∑i=1
(RXi −RYi)2
n3 − n
Edward Kozłowski Analiza danych jakośiowych
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
Wartość współczynnika korelacji Spearmana dla rang wiązanychwyznaczamy za pomocą wzoru
rS =
16
(n3 − n
)−n∑i=1
(RXi −RYi)2 − TX − TY√16 (n3 − n)− 2TX
√16 (n3 − n)− 2TY
Edward Kozłowski Analiza danych jakośiowych
RangowaniePodstawowe charakterystyki rangWspółczynnik korelacji Spearmana
Przykład 2.Oszacować wartość średnia i wariancję rang z przykładu 1.
Przykład 3.Dwóch ekspertów dokonało rangowania 10 przedsiębiorstw odnośnieprognoz dotyczących przyszłych wynikow finansowych.RX = {1, 2, 3, 9, 4, 7, 8, 6, 5, 10}RY = {4, 3, 2, 5, 1, 9, 8, 7, 10, 6}Znaleźć współczynnik korelacji Spearmana pomiędzy wizjami dwóchekspertów.
Przykład 4.Dokonano opisu 10 osób ze względu na znajomość języka angielskiego imatematyki.
osoby 1 2 3 4 5 6 7 8 9 10j. obcy bdb dst bdb dst bdb db dst bdb bdb dstmatematyka dst bdb bdb db bdb dst dst db dst db
Dokonać rangowania w/w cech oraz oszacować współczynnik korelacjiSpearmana.
Edward Kozłowski Analiza danych jakośiowych