Author
others
View
0
Download
0
Embed Size (px)
2019-12-30
1
MIARY STATYSTYCZNE
MIARY STATYSTYCZNE
2
MIARY STATYSTYCZNE
• Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)
PODZIAŁ MIAR1. Ze względu na zakres danych użytych do wyznaczenia miary
• KLASYCZNE: Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy
• POZYCYJNE: Miary opisujące rozkład badanej cechy statystycznej, które obliczamy na podstawie tylko niektórych wartości cechy, zajmujących szczególną pozycję w szeregu statystycznym
2. Podział ze względu na opisywane cechy rozkładu
• MIARY POŁOŻENIA: Opisują średni lub typowy poziom wartości cechy. Określają tą wartość cechy, wokół której skupiają się wszystkie pozostałe wartości badanej cechy. Wśród nich można wyróżnić miary tendencji centralnej wskazujące położenie centralnych (przeciętnych) wartości cechy w rozkładzie (czyli znajdujących się w pobliżu środka rozkładu)
• MIARY ZRÓŻNICOWANIA: (rozproszenia, rozrzutu, dyspersji) miary opisujące jak bardzo zróżnicowane są wartości cechy w zbiorowości
• MIARY ASYMETRII: (skośności) miary opisujące asymetrię rozkładu cechy w zbiorowości
2019-12-30
2
PODZIAŁ MIAR
3
MIARY KLASYCZNE MIARY POZYCYJNE
MIARY POŁOŻENIA
średnia arytmetycznaśrednia ważona *
średnia geometryczna *średnia harmoniczna *
dominantamedianakwantyle
MIARY ZRÓŻNICOWANIA
odchylnie przeciętneodchylenie standardowe
wariancjaklasyczny współczynnik zmienności
Rozstęp (max-min)Rozpiętość (max-min+1)
Rozstęp ćwiartkowy (Q3-Q1)Odchylenie ćwiartkowe (Q3-Q1)/2
MIARY SKOŚNOŚCIklasyczny współczynnik asymetrii
kurtozapozycyjny współczynnik asymetrii
Klasyczno-pozycyjny współczynnik skośności Pearsona
MIARY POZYCYJNE
2019-12-30
3
ŚREDNIA ARYTMETYCZNA Suma wszystkich wartości cechy (zmiennej) podzielona przez liczbę wszystkich obserwacji
• – i-ta wartość cechy (zmiennej)• n – liczebność próby (liczba obserwacji)
OZNACZENIA• Średnia w próbie: M lub• średnia w populacji: µ (mi)
5
ŚREDNIA ARYTMETYCZNA WŁASNOŚCI
• może być obliczona tylko dla zmiennych ilościowych• wielkość abstrakcyjna, tzn. jej wartość nie musi występować w szeregu statystycznym,
na podstawie którego była wyznaczana (badany o średnim wzroście nie istnieje )• jest wielkością mianowaną wyrażoną w takich jednostkach miary jak badana cecha
(średnia zarobków jest wyrażona np. w zł, tak jak wartości zmiennej płaca)
• spełniona jest relacja: minimum < średnia < maksimum• jest „wrażliwa” na wartości odstające
• Jest stosunkowo stabilna dla różnych prób losowanych z tej samej populacji –odporna na losową zmienność próby
6
Średnia6 7 8 3 2 4 5 5,06 7 8 3 2 4 50 11,4
2019-12-30
4
ŚREDNIA ARYTMETYCZNA OGRANICZENIA
Średniej arytmetycznej nie należy wyznaczać jeśli: • zbiorowość jest niejednorodna czyli nie wszystkie badane jednostki posiadają badaną cechę • występują wartości odstające, nietypowe (ekstremalne)• rozkłady są skrajnie asymetryczne, siodłowe lub wielomodalne - większość wartości cechy
jest wtedy stosunkowo „odległa” od średniej• nie można jej wyznaczać dla zmiennych nominalnych (nie można wyznaczyć np. średniego
koloru włosów, ani średniej opinii!)
7
DOMINANTA (modalna, moda)Wartość najczęściej występująca w zbiorze wartości
WŁASNOŚCI
• charakteryzuje „typowe” jednostki w zbiorowości• jedyna miara położenia, którą można wyznaczyć dla zmiennych nominalnych • w zbiorze wartości może występować więcej niż jedna dominanta• jeśli nie można wyznaczyć średniej (np. z powodu występowania wartości odstających)
można wyznaczyć dominantę• Oznaczenie: Do
8
Liczba nieobecności
N
0 10
1 12
2 4
3 3
4 1
Wykształcenie N
Zawodowe 7
Średnie 3
Wyższe 22
Wyniki sprawdzianu N
Niedostateczny 5
Dopuszczający 4
Dostateczny 7
Dobry 10
Bardzo dobry 10
2019-12-30
5
MEDIANA (wartość środkowa)• Wartość cechy (zmiennej) w szeregu uporządkowanym, powyżej i poniżej której znajduje
się jednakowa liczba obserwacji (50%)• Taka wartość cechy (zmiennej), że co najmniej połowa jednostek zbiorowości ma
wartości nie większe (czyli mniejsze lub równe) od tej wartości i równocześnie co najmniej połowa jednostek zbiorowości ma wartości nie mniejsze (większe lub równe) od tej wartości
WŁASNOŚCI• Graficznie dzieli cały obszar pod rozkładem na dwie równe części• Można ją wyznaczyć dla zmiennych mierzonych na skali porządkowej lub ilościowej• Nie można jej obliczać dla skali nominalnej• Nie jest wrażliwa na wartości skrajne• Nie musi występować w zbiorze wartości• Oznaczenia: Me
9
MEDIANA (wartość środkowa)WYZNACZANIE MEDIANY• (1) Nieparzysta liczba obserwacji: wartość środkowa3, 5, 6, 7, 11, 15 16, 17, 18 Me=11
• (2) Parzysta liczba obserwacji: średnia z dwóch wartości leżących pośrodku1, 3, 5, 6, 7, 11, 15 16, 17, 18 Me=(7+11)/2=9
• (3) Wiele takich samych wartości w okolicach mediany1, 3, 4, 4, 5, 6, 7, 11, 11, 11, 11, 13, 15 16, 17, 18 Me=11
INTERPRETACJAW niektórych przypadkach interpretacja mediany jako wartości, która dzieli zbiorowość na pół czyli dwie równoliczne części (mówimy, że połowa wartości jest mniejsza, połowa wartości większa od mediany) jest pewnym (choć dopuszczalnym) uproszczeniem• nie da się podzielić zbiorowości o nieparzystej liczbie jednostek na pół• wartość mediany może występować w zbiorze wielokrotnie• praktyce, kiedy zbiory danych są liczne dopuszcza się taką interpretację
(2) Połowa wartości jest mniejsza od 9, połowa wartości jest większa od 9(1), (3) Co najmniej połowa wartości jest mniejsza lub równa 11 i co najmniej połowa wartości jest większa
lub równa 11 10
2019-12-30
6
MEDIANA (wartość środkowa)
11
KWANTYLEWartości cechy (zmiennej), które dzielą zbiór wartości na określone części pod względem liczby obserwacji
KWARTYLE• dzielą zbiór wartości na cztery części
DECYLE• dzielą zbiór wartości na dziesięć części
CENTYLE (PERCENTYLE)• dzielą zbiór wartości na sto części
12
2019-12-30
7
KWARTYLEKWARTYLE: Q1 Q2 Q3• dzielą zbiór wartości na cztery części
50% obserwacji (obserwacje typowe)
ROZSTĘP ĆWIARTKOWY • Różnica między trzecim i pierwszym kwartylem IQR=Q3 - Q1ODCHYLENIE ĆWIARTKOWE • połowa rozstępu ćwiartkowego
13
Q2 Q3Q1min max
Wartości zmiennej
Liczba obserwacji 25% 75%50%
KWARTYLE
WARTOŚCI ODSTAJĄCE• Obserwacje (wartości zmiennej) relatywnie odległe od pozostałych wartości zmiennej • Obserwacje odstające mogą wskazywać na zmiany standardowych zachowań
(wykrywanie przestępstw: zmieniający się wzór wydatków po kradzieży), symptomy choroby, doping.
• Odstające: mniejsze niż Q1 − 1,5 × IQR lub większa niż Q3 + 1, 5 × IQR• Ekstremalne: mniejsze niż Q1 − 3 × IQR lub większa niż Q3 + 3 × IQR
• Czy drugi i trzeci (pierwszy) kwartyl mogą być równe? Czy rozstęp ćwiartkowy może być równy zero? (przeanalizuj szereg: 2 3 3 4 5 8 8 8 8 8 9 12)
14
min maxQ1 Q3Q2
1,5 IRQ IRQObserwacje odstające/ekstremalne
Obserwacje odstające/ekstremalne
1,5 IRQ
2019-12-30
8
KWARTYLE
15
16Źródlo: https://wynagrodzenia.pl/artykul/rozklad-wynagrodzen-w-polsce-wedlug-gus
Mediana wynagrodzeń w Polsce w latach 2008-2016
Różnice między dominantą a płacą minimalną w latach 2008-2016
Średnia wynagrodzeń w Polsce w latach 2008-2016
10% zarabiało
poniżej mediana
10% zarabiało powyżej
2008 1 307 2 640 5 376
2010 1 478 2 907 5 851
2012 1 600 3 115 6 561
2014 1 718 3 292 6 917
2016 1 890 3 511 7 200
Wynagrodzenia w latach 2008-2016
ZAROBKI W POLSCE
2019-12-30
9
PERCENTYLE
17
SIATKI CENTYLOWE• Siatki centylowe służą do oceny
rozwoju fizycznego dziecka • pozwalają określić, czy jego wzrost i
waga są proporcjonalne do wieku
źródło: portal Medycyna Praktyczna www.mp.pl
18
WYKRES PUDEŁKOWY (SKRZYNKA-WĄSY)Pozwala ująć na jednym rysunku informacje dotyczące położenia, rozproszenia i kształtu rozkładu empirycznego badanej cechy.
• Im dłuższy odcinek tym większe zróżnicowanie obserwacji
• Im dłuższa skrzynka względem całego rozstępu tym większe zróżnicowanie jednostek typowych
• Dolny wąs krótszy od dolnego - więcej obserwacji o niskich wartościach (asymetria prawostronna)
• Górny wąs krótszy od dolnego - więcej obserwacji o wysokich wartościach (asymetria lewostronna)
• Jeśli mediana jest w środku pudełka a odległości wąsów od krawędzi pudełka są zbliżone to rozkład jest symetryczny
Trzeci kwartyl Q3
Wartość największa lub największa, która nie jest odstająca
Mediana - drugi kwartyl
Wartość najmniejsza,lub najmniejsza, która nie jestwartością odstającą
Pierwszy kwartyl Q1
o
*
Wartości ekstremalne: Skrzynka +/- 3* skrzynka od Q1/Q3
Wartości odstające: Skrzynka +/- 1 ,5 *skrzynka od Q1/Q3
WYKRES SKRZYNKOWY
2019-12-30
10
MIARY ZRÓŻNICOWANIA
ODCHYLENIE PRZECIĘTNE
20
0
100
200
300
400
500
600
700
0 1 2 3 4 5 6 7 8 9 10 11
Zarobki w zespole A
Zarobki w zespole B
Zarobki w zespole A
Odchylenie przeciętne (163zł)
Odchylenie przeciętne (56zł)
Średnia (405zł)
Średnia (405zł)
0
100
200
300
400
500
600
700
0 1 2 3 4 5 6 7 8 9 10 11
Zielone odcinki ilustrują odległości pomiaru od średniej, przerwana linia wyznacza średnią odległość
2019-12-30
11
ODCHYLENIE PRZECIĘTNE
21
ODCHYLENIE PRZECIĘTNE• Średnia arytmetyczna wartości bezwzględnych odchyleń (różnic) poszczególnych
wartości cechy od średniej (graficznie: średnia arytmetyczna odległości pomiarów od średniej)
• Odchylenie przeciętne jest miarą rozrzutu• Mówi o tym, o jaką wartość różnią się przeciętnie wartości cechy (zmiennej) od średniej.
Im większa wartość odchylenia tym większe zróżnicowanie wartości zmiennej
ODCHYLENIE STANDARDOWE
22
WARIANCJA• Średnia arytmetyczna
kwadratów odchyleń (różnic) poszczególnych wartości cechy od średniej
ODCHYLENIE STANDARDOWE• pierwiastek kwadratowy
z wariancji
ODCHYLENIE PRZECIĘTNE
2019-12-30
12
ODCHYLENIE STANDARDOWE
23
ODCHYLENIE STANDARDOWE• Pierwiastek z sumy kwadratów odchyleń od średniej podzielonej przez liczbę obserwacji• Odchylenie standardowe jest miarą rozrzutu• Mówi o tym, jak wartości cechy (zmiennej) są rozrzucone wokół średniej. Im większa wartość
odchylenia tym większe zróżnicowanie wartości zmiennej, im mniejsze odchylenie tym mniejsze zróżnicowanie
• Można wyznaczyć dla zmiennej mierzonej na skali ilościowej• Im mniejsza wartość odchylenia tym obserwacje są bardziej skupione wokół średniej• Im większa wartość odchylenia tym obserwacje są bardziej oddalone od średniej • Jest „wrażliwe” na wartości odstające• W porównaniu z innymi miarami zmienności jest bardziej stabilnym i dokładnym estymatorem
OZNACZENIA• Odchylenie standardowe w próbie: S • Odchylenie standardowe w populacji: σ (sigma)
ODCHYLENIE STANDARDOWE
24
0
100
200
300
400
500
600
700
0 1 2 3 4 5 6 7 8 9 10 11
0
100
200
300
400
500
600
700
0 1 2 3 4 5 6 7 8 9 10 11
Zarobki w zespole A
Zarobki w zespole B
Zarobki w zespole A
Odchylenie przeciętne (163zł)
Odchylenie standardowe (195zł)
Odchylenie przeciętne (56zł)
Odchylenie standardowe (76 zł)
Średnia (405zł)
Średnia (405zł)
2019-12-30
13
ODCHYLENIE STANDARDOWE
25
100 zł
0 zł
50 zł
50 zł
Odchylenie przeciętne
Odchylenie przeciętne
Odchylenie standardowe
Odchylenie standardowe
średnia
średnia
Odchylenie od średniej
Odchylenie od średniej
KLASYCZNY WSPÓŁCZYNNIK ZMIENNOŚCI
26
Wartość KWZ Zróżnicowanie cechy
0-20% Słabe
20-40% Umiarkowane
40-60% Silne
Powyżej 60% Bardzo silne
KLASYCZNY WSPÓŁCZYNNIK ZMIENNOŚCI
• Informuje jaki procent średniej arytmetycznej stanowi odchylenie standardowe• Silne lub bardzo silne zróżnicowanie cechy wskazuje, że zbiorowość jest niejednorodna,
w takiej sytuacji średnia ma małą wartość poznawczą
2019-12-30
14
0
100
200
300
400
500
600
700
0 1 2 3 4 5 6 7 8 9 10 11
0
100
200
300
400
500
600
700
0 1 2 3 4 5 6 7 8 9 10 11
Zarobki w zespole A
Zarobki w zespole B
Zarobki w zespole A
Klasyczny współczynnik zmienności 48%
Klasyczny współczynnik zmienności 19%
KLASYCZNY WSPÓŁCZYNNIK ZMIENNOŚCI
Odchylenie przeciętne (163zł)
Odchylenie standardowe (195zł)
Odchylenie przeciętne (56zł)
Odchylenie standardowe (76 zł)
Średnia (405zł)
Średnia (405zł)
REGUŁA TRZECH SIGM
28
REGUŁA TRZECH SIGM
Reguła trzech sigm (odchyleń standardowych) mówi, że dla rozkładu normalnego:• 68,3% obserwacji (wartości cechy) leży w odległości jednego odchylenia standardowego od średniej• 95,5% obserwacji (wartości cechy) leży w odległości dwóch odchyleń od średniej • 99,7% obserwacji (wartości cechy) leży w odległości trzech odchyleń standardowych od średniej• 99,994% obserwacji (wartości cechy) leży w odległości czterech odchyleń standardowych od średniej
68,27%95,45%99,74%
2019-12-30
15
PRZYKŁADY
29
ILORAZ INTELIGENCJI IQŚREDNIA: µ= 100ODCHYLENIE STANDARDOWE: =15
• 68,3% populacji ma iloraz inteligencji mieszczącysię w przedziale 85-115 (100±15)
• 95,5% populacji ma iloraz inteligencji mieszczącysię w przedziale 70-130 (100±2*15)
• 99,7% populacji ma iloraz inteligencji mieszczącysię w przedziale 55-145 (100±3*15)
• Rozkład ilorazu inteligencji jest słabo zróżnicowany (V=15%)
SESJA EGZAMINACYJNA ŚREDNIA: µ= 4ODCHYLENIE STANDARDOWE: = 0,3
• 68,3% studentów ma średnią z sesji mieszczącą się w przedziale 3,7-4,3• 95,5% studentów ma średnią z sesji mieszczącą się w przedziale 3,4-4,6• 99,7% studentów ma średnią z sesji mieszczącą się w przedziale 3,1-4,9
• Rozkład ocen studentów jest silnie zróżnicowany (V=75%)
68,27%95,45%99,74%
30
DIAGNOSTYKA
Dla N=38,5 mln łącznie ok. 115 000 obserwacji leży poniżej/powyżej 3 odchyleniałącznie ok. 2 300 obserwacji leży poniżej/powyżej 4 odchylenia
2019-12-30
16
OBSZARY POD KRZYWĄ NORMALNĄ
31
Jeśli zmienna ma rozkład normalny:• to granice rozstępu ćwiartkowego
(obejmującego 50% obserwacji) znajdują się w odległości 0,675 odchylenia standardowego od średniej
• Wartości odstające znajdują się w odległości 2,698 odchylenia standardowego od średniej –99,3% obserwacji ma wartości mieszczące się pomiędzy wartościami odstającymi
MIARY SKOŚNOŚCI
2019-12-30
17
SKOŚNOŚĆ
33
SKOŚNOŚĆ
• mierzy odchylenie rozkładu od symetrii. Jeśli wartość skośności jest wyraźnie różna od zera, wówczas dany rozkład jest asymetryczny
• rozkład normalny jest symetryczny• Dla rozkładów lewostronnie skośnych zachodzi nierówność: średnia < mediana < dominanta• Dla rozkładów prawostronnie skośnych zachodzi nierówność: dominanta < mediana < średnia
Rozkład lewostronnie skośny Rozkład prawostronnie skośnyRozkład symetryczny
M Me D0 M = Me = D0 D0 Me M
SKOŚNOŚĆ
34
| AP | SIŁA ASYMETRII
0,0-0,2 Bardzo słaba0,2-0,4 Słaba0,4-0,6 Umiarkowana0,6-0,8 Silna
Powyżej 0,8 Bardzo silna
KIERUNEK ASYMETRII
AP < 0 asymetria lewostronna (ujemna), częściej występująwartości wysokie
AP = 0 symetria
AP > 0asymetria prawostronna (dodatnia), częściej występują wartości niskie
Rozkład lewostronnie skośny Rozkład prawostronnie skośnyRozkład symetryczny
M Me D0 M = Me = Do D0 Me M
• Klasyczno-pozycyjny współczynnik skośności Pearsona• Klasyczny współczynnik asymetrii (wyliczany na podstawie wartości średniej i odchylenia standardowego)• Pozycyjny współczynnik asymetrii (wyliczany na podstawie wartości mediany i kwartyli)
2019-12-30
18
KURTOZA
35
KURTOZA
• Jest miarą spłaszczenia rozkładu• K > 0 rozkład jest bardziej wysmukły niż normalny (rozkład leptokurtyczny), większe skupienie
wartości wokół średniej (częściej występują wartości bliskie średniej, rzadziej wartości bardziej oddalone od średniej)
• K = 0 rozkład ma kształt normalny (rozkład mezokurtyczny) (mezo – środkowy)• K < 0 rozkład jest mniej wysmukły niż normalny (rozkład platykurtyczny), większe spłaszczenie
rozkładu, wartości bliskie średniej występują rzadziej. Występowanie wartości skrajnych nie jest rzadkie (występują tzw. grube ogony)