Transcript
  • 2019-12-30

    1

    MIARY STATYSTYCZNE

    MIARY STATYSTYCZNE

    2

    MIARY STATYSTYCZNE

    • Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

    PODZIAŁ MIAR1. Ze względu na zakres danych użytych do wyznaczenia miary

    • KLASYCZNE: Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

    • POZYCYJNE: Miary opisujące rozkład badanej cechy statystycznej, które obliczamy na podstawie tylko niektórych wartości cechy, zajmujących szczególną pozycję w szeregu statystycznym

    2. Podział ze względu na opisywane cechy rozkładu

    • MIARY POŁOŻENIA: Opisują średni lub typowy poziom wartości cechy. Określają tą wartość cechy, wokół której skupiają się wszystkie pozostałe wartości badanej cechy. Wśród nich można wyróżnić miary tendencji centralnej wskazujące położenie centralnych (przeciętnych) wartości cechy w rozkładzie (czyli znajdujących się w pobliżu środka rozkładu)

    • MIARY ZRÓŻNICOWANIA: (rozproszenia, rozrzutu, dyspersji) miary opisujące jak bardzo zróżnicowane są wartości cechy w zbiorowości

    • MIARY ASYMETRII: (skośności) miary opisujące asymetrię rozkładu cechy w zbiorowości

  • 2019-12-30

    2

    PODZIAŁ MIAR

    3

    MIARY KLASYCZNE MIARY POZYCYJNE

    MIARY POŁOŻENIA

    średnia arytmetycznaśrednia ważona *

    średnia geometryczna *średnia harmoniczna *

    dominantamedianakwantyle

    MIARY ZRÓŻNICOWANIA

    odchylnie przeciętneodchylenie standardowe

    wariancjaklasyczny współczynnik zmienności

    Rozstęp (max-min)Rozpiętość (max-min+1)

    Rozstęp ćwiartkowy (Q3-Q1)Odchylenie ćwiartkowe (Q3-Q1)/2

    MIARY SKOŚNOŚCIklasyczny współczynnik asymetrii

    kurtozapozycyjny współczynnik asymetrii

    Klasyczno-pozycyjny współczynnik skośności Pearsona

    MIARY POZYCYJNE

  • 2019-12-30

    3

    ŚREDNIA ARYTMETYCZNA Suma wszystkich wartości cechy (zmiennej) podzielona przez liczbę wszystkich obserwacji

    • – i-ta wartość cechy (zmiennej)• n – liczebność próby (liczba obserwacji)

    OZNACZENIA• Średnia w próbie: M lub• średnia w populacji: µ (mi)

    5

    ŚREDNIA ARYTMETYCZNA WŁASNOŚCI

    • może być obliczona tylko dla zmiennych ilościowych• wielkość abstrakcyjna, tzn. jej wartość nie musi występować w szeregu statystycznym,

    na podstawie którego była wyznaczana (badany o średnim wzroście nie istnieje )• jest wielkością mianowaną wyrażoną w takich jednostkach miary jak badana cecha

    (średnia zarobków jest wyrażona np. w zł, tak jak wartości zmiennej płaca)

    • spełniona jest relacja: minimum < średnia < maksimum• jest „wrażliwa” na wartości odstające

    • Jest stosunkowo stabilna dla różnych prób losowanych z tej samej populacji –odporna na losową zmienność próby

    6

    Średnia6 7 8 3 2 4 5 5,06 7 8 3 2 4 50 11,4

  • 2019-12-30

    4

    ŚREDNIA ARYTMETYCZNA OGRANICZENIA

    Średniej arytmetycznej nie należy wyznaczać jeśli: • zbiorowość jest niejednorodna czyli nie wszystkie badane jednostki posiadają badaną cechę • występują wartości odstające, nietypowe (ekstremalne)• rozkłady są skrajnie asymetryczne, siodłowe lub wielomodalne - większość wartości cechy

    jest wtedy stosunkowo „odległa” od średniej• nie można jej wyznaczać dla zmiennych nominalnych (nie można wyznaczyć np. średniego

    koloru włosów, ani średniej opinii!)

    7

    DOMINANTA (modalna, moda)Wartość najczęściej występująca w zbiorze wartości

    WŁASNOŚCI

    • charakteryzuje „typowe” jednostki w zbiorowości• jedyna miara położenia, którą można wyznaczyć dla zmiennych nominalnych • w zbiorze wartości może występować więcej niż jedna dominanta• jeśli nie można wyznaczyć średniej (np. z powodu występowania wartości odstających)

    można wyznaczyć dominantę• Oznaczenie: Do

    8

    Liczba nieobecności

    N

    0 10

    1 12

    2 4

    3 3

    4 1

    Wykształcenie N

    Zawodowe 7

    Średnie 3

    Wyższe 22

    Wyniki sprawdzianu N

    Niedostateczny 5

    Dopuszczający 4

    Dostateczny 7

    Dobry 10

    Bardzo dobry 10

  • 2019-12-30

    5

    MEDIANA (wartość środkowa)• Wartość cechy (zmiennej) w szeregu uporządkowanym, powyżej i poniżej której znajduje

    się jednakowa liczba obserwacji (50%)• Taka wartość cechy (zmiennej), że co najmniej połowa jednostek zbiorowości ma

    wartości nie większe (czyli mniejsze lub równe) od tej wartości i równocześnie co najmniej połowa jednostek zbiorowości ma wartości nie mniejsze (większe lub równe) od tej wartości

    WŁASNOŚCI• Graficznie dzieli cały obszar pod rozkładem na dwie równe części• Można ją wyznaczyć dla zmiennych mierzonych na skali porządkowej lub ilościowej• Nie można jej obliczać dla skali nominalnej• Nie jest wrażliwa na wartości skrajne• Nie musi występować w zbiorze wartości• Oznaczenia: Me

    9

    MEDIANA (wartość środkowa)WYZNACZANIE MEDIANY• (1) Nieparzysta liczba obserwacji: wartość środkowa3, 5, 6, 7, 11, 15 16, 17, 18 Me=11

    • (2) Parzysta liczba obserwacji: średnia z dwóch wartości leżących pośrodku1, 3, 5, 6, 7, 11, 15 16, 17, 18 Me=(7+11)/2=9

    • (3) Wiele takich samych wartości w okolicach mediany1, 3, 4, 4, 5, 6, 7, 11, 11, 11, 11, 13, 15 16, 17, 18 Me=11

    INTERPRETACJAW niektórych przypadkach interpretacja mediany jako wartości, która dzieli zbiorowość na pół czyli dwie równoliczne części (mówimy, że połowa wartości jest mniejsza, połowa wartości większa od mediany) jest pewnym (choć dopuszczalnym) uproszczeniem• nie da się podzielić zbiorowości o nieparzystej liczbie jednostek na pół• wartość mediany może występować w zbiorze wielokrotnie• praktyce, kiedy zbiory danych są liczne dopuszcza się taką interpretację

    (2) Połowa wartości jest mniejsza od 9, połowa wartości jest większa od 9(1), (3) Co najmniej połowa wartości jest mniejsza lub równa 11 i co najmniej połowa wartości jest większa

    lub równa 11 10

  • 2019-12-30

    6

    MEDIANA (wartość środkowa)

    11

    KWANTYLEWartości cechy (zmiennej), które dzielą zbiór wartości na określone części pod względem liczby obserwacji

    KWARTYLE• dzielą zbiór wartości na cztery części

    DECYLE• dzielą zbiór wartości na dziesięć części

    CENTYLE (PERCENTYLE)• dzielą zbiór wartości na sto części

    12

  • 2019-12-30

    7

    KWARTYLEKWARTYLE: Q1 Q2 Q3• dzielą zbiór wartości na cztery części

    50% obserwacji (obserwacje typowe)

    ROZSTĘP ĆWIARTKOWY • Różnica między trzecim i pierwszym kwartylem IQR=Q3 - Q1ODCHYLENIE ĆWIARTKOWE • połowa rozstępu ćwiartkowego

    13

    Q2 Q3Q1min max

    Wartości zmiennej

    Liczba obserwacji 25% 75%50%

    KWARTYLE

    WARTOŚCI ODSTAJĄCE• Obserwacje (wartości zmiennej) relatywnie odległe od pozostałych wartości zmiennej • Obserwacje odstające mogą wskazywać na zmiany standardowych zachowań

    (wykrywanie przestępstw: zmieniający się wzór wydatków po kradzieży), symptomy choroby, doping.

    • Odstające: mniejsze niż Q1 − 1,5 × IQR lub większa niż Q3 + 1, 5 × IQR• Ekstremalne: mniejsze niż Q1 − 3 × IQR lub większa niż Q3 + 3 × IQR

    • Czy drugi i trzeci (pierwszy) kwartyl mogą być równe? Czy rozstęp ćwiartkowy może być równy zero? (przeanalizuj szereg: 2 3 3 4 5 8 8 8 8 8 9 12)

    14

    min maxQ1 Q3Q2

    1,5 IRQ IRQObserwacje odstające/ekstremalne

    Obserwacje odstające/ekstremalne

    1,5 IRQ

  • 2019-12-30

    8

    KWARTYLE

    15

    16Źródlo: https://wynagrodzenia.pl/artykul/rozklad-wynagrodzen-w-polsce-wedlug-gus

    Mediana wynagrodzeń w Polsce w latach 2008-2016

    Różnice między dominantą a płacą minimalną w latach 2008-2016

    Średnia wynagrodzeń w Polsce w latach 2008-2016

    10% zarabiało

    poniżej mediana

    10% zarabiało powyżej

    2008 1 307 2 640 5 376

    2010 1 478 2 907 5 851

    2012 1 600 3 115 6 561

    2014 1 718 3 292 6 917

    2016 1 890 3 511 7 200

    Wynagrodzenia w latach 2008-2016

    ZAROBKI W POLSCE

  • 2019-12-30

    9

    PERCENTYLE

    17

    SIATKI CENTYLOWE• Siatki centylowe służą do oceny

    rozwoju fizycznego dziecka • pozwalają określić, czy jego wzrost i

    waga są proporcjonalne do wieku

    źródło: portal Medycyna Praktyczna www.mp.pl

    18

    WYKRES PUDEŁKOWY (SKRZYNKA-WĄSY)Pozwala ująć na jednym rysunku informacje dotyczące położenia, rozproszenia i kształtu rozkładu empirycznego badanej cechy.

    • Im dłuższy odcinek tym większe zróżnicowanie obserwacji

    • Im dłuższa skrzynka względem całego rozstępu tym większe zróżnicowanie jednostek typowych

    • Dolny wąs krótszy od dolnego - więcej obserwacji o niskich wartościach (asymetria prawostronna)

    • Górny wąs krótszy od dolnego - więcej obserwacji o wysokich wartościach (asymetria lewostronna)

    • Jeśli mediana jest w środku pudełka a odległości wąsów od krawędzi pudełka są zbliżone to rozkład jest symetryczny

    Trzeci kwartyl Q3

    Wartość największa lub największa, która nie jest odstająca

    Mediana - drugi kwartyl

    Wartość najmniejsza,lub najmniejsza, która nie jestwartością odstającą

    Pierwszy kwartyl Q1

    o

    *

    Wartości ekstremalne: Skrzynka +/- 3* skrzynka od Q1/Q3

    Wartości odstające: Skrzynka +/- 1 ,5 *skrzynka od Q1/Q3

    WYKRES SKRZYNKOWY

  • 2019-12-30

    10

    MIARY ZRÓŻNICOWANIA

    ODCHYLENIE PRZECIĘTNE

    20

    0

    100

    200

    300

    400

    500

    600

    700

    0 1 2 3 4 5 6 7 8 9 10 11

    Zarobki w zespole A

    Zarobki w zespole B

    Zarobki w zespole A

    Odchylenie przeciętne (163zł)

    Odchylenie przeciętne (56zł)

    Średnia (405zł)

    Średnia (405zł)

    0

    100

    200

    300

    400

    500

    600

    700

    0 1 2 3 4 5 6 7 8 9 10 11

    Zielone odcinki ilustrują odległości pomiaru od średniej, przerwana linia wyznacza średnią odległość

  • 2019-12-30

    11

    ODCHYLENIE PRZECIĘTNE

    21

    ODCHYLENIE PRZECIĘTNE• Średnia arytmetyczna wartości bezwzględnych odchyleń (różnic) poszczególnych

    wartości cechy od średniej (graficznie: średnia arytmetyczna odległości pomiarów od średniej)

    • Odchylenie przeciętne jest miarą rozrzutu• Mówi o tym, o jaką wartość różnią się przeciętnie wartości cechy (zmiennej) od średniej.

    Im większa wartość odchylenia tym większe zróżnicowanie wartości zmiennej

    ODCHYLENIE STANDARDOWE

    22

    WARIANCJA• Średnia arytmetyczna

    kwadratów odchyleń (różnic) poszczególnych wartości cechy od średniej

    ODCHYLENIE STANDARDOWE• pierwiastek kwadratowy

    z wariancji

    ODCHYLENIE PRZECIĘTNE

  • 2019-12-30

    12

    ODCHYLENIE STANDARDOWE

    23

    ODCHYLENIE STANDARDOWE• Pierwiastek z sumy kwadratów odchyleń od średniej podzielonej przez liczbę obserwacji• Odchylenie standardowe jest miarą rozrzutu• Mówi o tym, jak wartości cechy (zmiennej) są rozrzucone wokół średniej. Im większa wartość

    odchylenia tym większe zróżnicowanie wartości zmiennej, im mniejsze odchylenie tym mniejsze zróżnicowanie

    • Można wyznaczyć dla zmiennej mierzonej na skali ilościowej• Im mniejsza wartość odchylenia tym obserwacje są bardziej skupione wokół średniej• Im większa wartość odchylenia tym obserwacje są bardziej oddalone od średniej • Jest „wrażliwe” na wartości odstające• W porównaniu z innymi miarami zmienności jest bardziej stabilnym i dokładnym estymatorem

    OZNACZENIA• Odchylenie standardowe w próbie: S • Odchylenie standardowe w populacji: σ (sigma)

    ODCHYLENIE STANDARDOWE

    24

    0

    100

    200

    300

    400

    500

    600

    700

    0 1 2 3 4 5 6 7 8 9 10 11

    0

    100

    200

    300

    400

    500

    600

    700

    0 1 2 3 4 5 6 7 8 9 10 11

    Zarobki w zespole A

    Zarobki w zespole B

    Zarobki w zespole A

    Odchylenie przeciętne (163zł)

    Odchylenie standardowe (195zł)

    Odchylenie przeciętne (56zł)

    Odchylenie standardowe (76 zł)

    Średnia (405zł)

    Średnia (405zł)

  • 2019-12-30

    13

    ODCHYLENIE STANDARDOWE

    25

    100 zł

    0 zł

    50 zł

    50 zł

    Odchylenie przeciętne

    Odchylenie przeciętne

    Odchylenie standardowe

    Odchylenie standardowe

    średnia

    średnia

    Odchylenie od średniej

    Odchylenie od średniej

    KLASYCZNY WSPÓŁCZYNNIK ZMIENNOŚCI

    26

    Wartość KWZ Zróżnicowanie cechy

    0-20% Słabe

    20-40% Umiarkowane

    40-60% Silne

    Powyżej 60% Bardzo silne

    KLASYCZNY WSPÓŁCZYNNIK ZMIENNOŚCI

    • Informuje jaki procent średniej arytmetycznej stanowi odchylenie standardowe• Silne lub bardzo silne zróżnicowanie cechy wskazuje, że zbiorowość jest niejednorodna,

    w takiej sytuacji średnia ma małą wartość poznawczą

  • 2019-12-30

    14

    0

    100

    200

    300

    400

    500

    600

    700

    0 1 2 3 4 5 6 7 8 9 10 11

    0

    100

    200

    300

    400

    500

    600

    700

    0 1 2 3 4 5 6 7 8 9 10 11

    Zarobki w zespole A

    Zarobki w zespole B

    Zarobki w zespole A

    Klasyczny współczynnik zmienności 48%

    Klasyczny współczynnik zmienności 19%

    KLASYCZNY WSPÓŁCZYNNIK ZMIENNOŚCI

    Odchylenie przeciętne (163zł)

    Odchylenie standardowe (195zł)

    Odchylenie przeciętne (56zł)

    Odchylenie standardowe (76 zł)

    Średnia (405zł)

    Średnia (405zł)

    REGUŁA TRZECH SIGM

    28

    REGUŁA TRZECH SIGM

    Reguła trzech sigm (odchyleń standardowych) mówi, że dla rozkładu normalnego:• 68,3% obserwacji (wartości cechy) leży w odległości jednego odchylenia standardowego od średniej• 95,5% obserwacji (wartości cechy) leży w odległości dwóch odchyleń od średniej • 99,7% obserwacji (wartości cechy) leży w odległości trzech odchyleń standardowych od średniej• 99,994% obserwacji (wartości cechy) leży w odległości czterech odchyleń standardowych od średniej

    68,27%95,45%99,74%

  • 2019-12-30

    15

    PRZYKŁADY

    29

    ILORAZ INTELIGENCJI IQŚREDNIA: µ= 100ODCHYLENIE STANDARDOWE: =15

    • 68,3% populacji ma iloraz inteligencji mieszczącysię w przedziale 85-115 (100±15)

    • 95,5% populacji ma iloraz inteligencji mieszczącysię w przedziale 70-130 (100±2*15)

    • 99,7% populacji ma iloraz inteligencji mieszczącysię w przedziale 55-145 (100±3*15)

    • Rozkład ilorazu inteligencji jest słabo zróżnicowany (V=15%)

    SESJA EGZAMINACYJNA ŚREDNIA: µ= 4ODCHYLENIE STANDARDOWE: = 0,3

    • 68,3% studentów ma średnią z sesji mieszczącą się w przedziale 3,7-4,3• 95,5% studentów ma średnią z sesji mieszczącą się w przedziale 3,4-4,6• 99,7% studentów ma średnią z sesji mieszczącą się w przedziale 3,1-4,9

    • Rozkład ocen studentów jest silnie zróżnicowany (V=75%)

    68,27%95,45%99,74%

    30

    DIAGNOSTYKA

    Dla N=38,5 mln łącznie ok. 115 000 obserwacji leży poniżej/powyżej 3 odchyleniałącznie ok. 2 300 obserwacji leży poniżej/powyżej 4 odchylenia

  • 2019-12-30

    16

    OBSZARY POD KRZYWĄ NORMALNĄ

    31

    Jeśli zmienna ma rozkład normalny:• to granice rozstępu ćwiartkowego

    (obejmującego 50% obserwacji) znajdują się w odległości 0,675 odchylenia standardowego od średniej

    • Wartości odstające znajdują się w odległości 2,698 odchylenia standardowego od średniej –99,3% obserwacji ma wartości mieszczące się pomiędzy wartościami odstającymi

    MIARY SKOŚNOŚCI

  • 2019-12-30

    17

    SKOŚNOŚĆ

    33

    SKOŚNOŚĆ

    • mierzy odchylenie rozkładu od symetrii. Jeśli wartość skośności jest wyraźnie różna od zera, wówczas dany rozkład jest asymetryczny

    • rozkład normalny jest symetryczny• Dla rozkładów lewostronnie skośnych zachodzi nierówność: średnia < mediana < dominanta• Dla rozkładów prawostronnie skośnych zachodzi nierówność: dominanta < mediana < średnia

    Rozkład lewostronnie skośny Rozkład prawostronnie skośnyRozkład symetryczny

    M Me D0 M = Me = D0 D0 Me M

    SKOŚNOŚĆ

    34

    | AP | SIŁA ASYMETRII

    0,0-0,2 Bardzo słaba0,2-0,4 Słaba0,4-0,6 Umiarkowana0,6-0,8 Silna

    Powyżej 0,8 Bardzo silna

    KIERUNEK ASYMETRII

    AP < 0 asymetria lewostronna (ujemna), częściej występująwartości wysokie

    AP = 0 symetria

    AP > 0asymetria prawostronna (dodatnia), częściej występują wartości niskie

    Rozkład lewostronnie skośny Rozkład prawostronnie skośnyRozkład symetryczny

    M Me D0 M = Me = Do D0 Me M

    • Klasyczno-pozycyjny współczynnik skośności Pearsona• Klasyczny współczynnik asymetrii (wyliczany na podstawie wartości średniej i odchylenia standardowego)• Pozycyjny współczynnik asymetrii (wyliczany na podstawie wartości mediany i kwartyli)

  • 2019-12-30

    18

    KURTOZA

    35

    KURTOZA

    • Jest miarą spłaszczenia rozkładu• K > 0 rozkład jest bardziej wysmukły niż normalny (rozkład leptokurtyczny), większe skupienie

    wartości wokół średniej (częściej występują wartości bliskie średniej, rzadziej wartości bardziej oddalone od średniej)

    • K = 0 rozkład ma kształt normalny (rozkład mezokurtyczny) (mezo – środkowy)• K < 0 rozkład jest mniej wysmukły niż normalny (rozkład platykurtyczny), większe spłaszczenie

    rozkładu, wartości bliskie średniej występują rzadziej. Występowanie wartości skrajnych nie jest rzadkie (występują tzw. grube ogony)