38
Miary statystyczne Miary polo˙ zenia STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrze´ snia 2018

STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

STATYSTYKA OPISOWA

Dr Alina Gleska

Instytut Matematyki WE PP

28 wrzesnia 2018

Page 2: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

1 Miary statystyczne

2 Miary połozenia

Page 3: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

Wyrózniamy nastepujace miary statystyczne:POŁOZENIA, które słuza do okreslenia takiej wartoscicechy, wokół której skupiaja sie wszystkie pozostałewartosci tej cechy;ZMIENNOSCI (ROZPROSZENIA, DYSPERSJI), któreokreslaja stopien zróznicowania wartosci badanej cechy;ASYMETRII (SKOSNOSCI), które sa wykorzystywane dobadania kierunku i stopnia nierównomiernoscirozmieszczenia jednostek zbiorowosci ze wzgledu nawartosci badanej cechy na całym obszarze jej zmiennosci;KONCENTRACJI (KURTOZY), które okreslaja stopiennierównomiernosci rozłozenia ogólnej sumy wartoscicechy pomiedzy poszczególne jednostki zbiorowosci lubukazuja stopien skupienia poszczególnych jednostekwokół sredniej;

Page 4: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

PODOBIENSTWA I ZRÓZNICOWANIA STRUKTUR, któresa uzywane w analizach przestrzennych lub dynamicznychdo badania stopnia zgodnosci lub odmiennosci dwóchstruktur rozumianych jako udziały poszczególnychskładników struktury (grup jednostek) w badanej całosci;LOKALIZACJI, słuzace do okreslania stopniapodobienstwa rozkładu dwóch róznych cech w układziejednostek przestrzennych.

Wymienione statystyki opisowe pozwalaja w sposóbsyntetyczny okreslic własciwosci badanych rozkładówempirycznych i dokonac ich porównania. W szczególnoscimozna wyróznic dwa typy porównan:

porównanie rozkładów dla róznych zbiorowosci wzgledemtej samej cechy,porównanie rozkładów dla róznych cech dotyczacychjednej zbiorowosci.

Page 5: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

Wyrózniamy dwa podstawowe rodzaje miar połozenia:KLASYCZNE i POZYCYJNE. Klasyczne miary połozeniaoblicza sie na podstawie wszystkich wartosci cechy i zaliczamydo nich: srednia arytmetyczna, srednia harmoniczna i sredniageometryczna.Pozycyjne miary połozenia otrzymuje sie w wyniku uznaniawartosci cechy dla pewnej jednostki za wyrózniona z punktuwidzenia pozycji tej jednostki, jaka zajmuje ona wuporzadkowanym szeregu statystycznym. Do pozycyjnych miarpołozenia zaliczamy dominante (zwana tez moda) orazkwantyle, sposród których wyrózniamy: kwartyl pierwszy,mediane (czyli kwartyl drugi), kwartyl trzeci, decyle i centyle.

Page 6: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

SREDNIA ARYTMETYCZNA - suma wartosci cechy mierzalnejpodzielona przez liczbe jednostek skonczonej zbiorowoscistatystycznej lub próby. Rozrózniamy rózne postacie sredniejarytmetycznej:

(I) srednia prosta, która oblicza sie z wartosci cechyprzedstawionej w postaci szeregu szczegółowego:

x =1n

n

∑i=1

xi ,

gdzie xi jest wartoscia cechy w i-tej jednostce, a n -liczebnoscia próby,

Page 7: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

(II) srednia wazona, która wyznacza sie z wartosci cechypogrupowanych w szeregach rozdzielczych punktowych iprzedziałowych:

x =1n

k

∑i=1

xini ,

przy czym

a) dla szeregu rozdzielczego punktowego xi jest i-tawartoscia cechy skokowej o liczebnosci ni , która przyjmujek wartosci,

Page 8: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

b) dla szeregu rozdzielczego przedziałowego xi jest srodkiemi-tego przedziału klasowego (czesto oznaczanym jako x0

i )o liczebnosci ni , a k oznacza liczbe przedziałówklasowych.

Zauwazmy, ze jezeli nie znamy liczebnosci klas, a jedyniewskazniki struktury tych klas, czyli ich udziały procentowe, tostosujemy wzory

dla szeregów punktowych: x =k∑

i=1xiωi lub x =

k∑

i=1xi pi

100 ,

dla szeregów przedziałowych: x =k∑

i=1x0

i ωi lub x =

k∑

i=1x0

i pi

100 .

Page 9: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

SREDNIA ARYTMETYCZNA ma nastepujace własciwosci:suma wartosci cechy jest równa iloczynowi sredniejarytmetycznej i liczebnosci zbiorowosci lub próby:

n

∑i=1

xi = nx ,

suma odchylen poszczególnych wartosci od ich sredniejrówna sie zeru:

n

∑i=1

(xi −x) = 0,

suma kwadratów odchylen poszczególnych wartosci od ichsredniej jest minimalna:

n

∑i=1

(xi −x)2 = min .

Page 10: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

UWAGI :szereg przedziałowy pozwala tylko na obliczenieprzyblizonej wartosci sredniej, poniewaz cały przedziałklasowy reprezentowany jest tylko jedna liczba - srodkiemprzedziału, a przeciez obserwacje w danym przedziale niemusza byc rozłozone równomiernie,srodek przedziału NIE JEST srednia wartoscia cechy -róznice miedzy tymi wartosciami moga byc znaczne, tymwieksze, im bardziej nierównomiernie rozłozone saobserwacje,

Page 11: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

srednia arytmetyczna oblicza sie w zasadzie dla szeregówo domknietych przedziałach klasowych, lecz jesliliczebnosc w otwartym przedziale klasowym stanowiniewielki odsetek badanej zbiorowosci (do 5 %), to mozliwejest domkniecie tych przedziałów, a wiec i obliczeniesredniej. NIE WOLNO obliczac sredniej w szeregachprzedziałowych, w których jednostki sa skupione wprzedziałach skrajnych, a one sa nieograniczone,srednia arytmetyczna jest wrazliwa na skrajne wartoscicechy, tzw. obserwacje odstajace. Jesli one wystepuja, tosrednia nie odzwierciedla prawidłowo przecietnegopoziomu zjawiska i w takich sytuacjach nalezy stosowacmediane.

Page 12: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

(III) srednia wazona jako tzw. srednia ze srednich

x =1n

k

∑i=1

xini ,

gdzie x to srednia arytmetyczna całej zbiorowosci (tj.wszystkich grup łacznie), xi to srednia arytmetyczna i-tejgrupy, ni to liczebnosc i-tej grupy, a k to liczba grup, najakie podzielono cała zbiorowosc;

(IV) srednia dla wielkosci stosunkowych, nazywanychwskaznikami natezenia (predkosc pojazdu, gestosczaludnienia, plony, ceny, wydajnosc pracy itp.). Obliczamyja ze wzoru:

x =1n

k

∑i=1

xini ,

przy czym wagami ni beda te wielkosci, których jednostkimiary sa w mianowniku.

Page 13: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

PRZYKŁAD: spróbujemy obliczyc srednia gestosc zaludnieniadla dwóch regionów:Region X Region Ygestosc zal. 650 osób na km2 gestosc zal. 80 osób na km2pow. 3800 km2 pow. 10500 km2

x =650 ·3800+80 ·10500

3800+10500=

2470000+84000014300

=3310000

14300≈231.5

Page 14: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

PODSUMOWUJAC:srednia arytmetyczna jest miara odpowiednia dla ocenyprzecietnego poziomu cechy w sytuacjach, gdy:

a) zbiorowosc jest jednorodna, czyli nie wystepuja wartosciskrajne, znacznie rózniace sie od pozostałych, a rozkładjest symetryczny albo umiarkowanie asymetryczny (tzn.zblizony do symetrycznego),

b) rozkład jest jednomodalny (ma jedno wyraznie zaznaczonemaksimum),

srednia arytmetyczna nie znajduje zastosowania wprzypadku, gdy:

a) wystepuje bardzo silna asymetria,b) rozkład jest dwumodalny lub wielomodalny,c) rozkład jest siodłowy (w kształcie litery U - wówczas

bowiem srednia arytmetyczna odpowiada takiej wartoscicechy, wokół której skupia sie stosunkowo najmniejszaczesc zbiorowosci, podczas gdy my oczekujemy, abysrednia obrazowała taka wartosc, która mozna uznac zatypowa, czyli taka, wokół której skupia sie duza czescjednostek).

Page 15: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

SREDNIA GEOMETRYCZNA jest miara klasyczna,wykorzystywana jednak w zagadnieniach szczególnych, jak np.analiza szeregów czasowych. Jesli poszczególne wartoscicechy oznaczymy jako: x1,x2, . . . ,xn, a srednia geometrycznaprzez xg , to wyrazamy ja wzorem:

xg = n√

x1x2 . . .xn.

Za pomoca sredniej geometrycznej oblicza sie srednie tempozmian zjawisk w czasie.

Page 16: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

SREDNIA HARMONICZNA - stosuje sie ja wówczas, kiedywartosci cechy podane sa w jednostkach stosunkowych (tzw.łamanych), czyli jesli cecha wyrazona jest w przeliczeniu najednostke innej cechy, np.

gestosc zaludnienia (wyrazona jako liczba osób na km2),dochód na osobe (wyrazony w zł na 1 osobe),cena (w zł za 1 kg lub w zł za 1 szt),predkosc (w km na godzine).

Srednia harmoniczna oblicza sie według wzoru:

xH =n

n∑

i=1

1xi

.

Miara ta jest stosowana bardzo rzadko.Dla dodatnich wartosci cechy zachodza zwiazki miedzysrednimi:

xH ≤ xg ≤ x .

Page 17: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

DOMINANTA (inaczej: MODA lub WARTOSC MODALNA) jestnajczesciej stosowana pozycyjna miara połozenia. Oznaczenia:Mo, Do, D. Jedyna miara połozenia, która ma sens w przypadkuanalizy cech jakosciowych. Dominanta jest to taka wartosccechy (lub wariant w przypadku cech jakosciowych), która wdanej zbiorowosci wystepuje najczesciej (dominuje). UWAGA:dominanta to wartosc cechy, a nie jej liczba wystapien!

Page 18: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

Przy definiowaniu dominanty nalezy wprowadzic nastepujacerozróznienie:

dla cechy skokowej dominanta jest to taka wartosc cechy,która w danej zbiorowosci wystepuje najczesciej,dla cechy ciagłej dominanta to taka wartosc cechy, wokółktórej oscyluje (jest zgrupowanych) najwiecej pomiarów. Wszeregach rozdzielczych przedziałowych mozna wskazacprzedział, w którym dominanta wystepuje, zas jej wartoscprzyblizona obliczyc za pomoca wzoru interpolacyjnego

Do = Mo = xld +(ns−ns−1)

(ns−ns−1)+(ns−ns+1)·d ,

gdzie:s - numer przedziału klasowego o najwiekszej liczebnosci,xld - dolna granica s-tego przedziału klasowego,d - długosc przedziału klasowego,ns - liczebnosc s-tego przedziału klasowego.

Page 19: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

Przy obliczaniu dominanty na podstawie szeregu rozdzielczegoprzedziałowego nalezy przestrzegac nastepujacych zasadpraktycznych:

wyznaczanie dominanty ma sens wtedy, kiedy rozkładempiryczny jest jednomodalny, czyli kiedy w szereguwystepuje jedno wyraznie zaznaczone maksimum,przedział, w którym wystepuje dominanta (przedział onajwiekszej liczebnosci) oraz dwa sasiadujace z nimprzedziały musza miec takie same rozpietosci; wprzeciwnym razie dominanty nie obliczamy, gdyz wszeregach o róznej długosci przedziałów klasowych duzaliczebnosc moze byc spowodowana wieksza rozpietosciaprzedziału w stosunku do innych przedziałów,

Page 20: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

obliczanie dominanty jest nieuzasadnione, gdy rozkładempiryczny jest wielomodalny,wartosc dominanty nie zmieni sie, gdy we wzorzeinterpolacyjnym zamiast liczebnosci wprowadzimyczestosci.

Graficzny sposób wyznaczania dominanty - po sporzadzeniuodpowiedniego histogramu (lub czesci histogramu dlaprzedziału dominanty i dwóch przedziałów sasiadujacych znim) postepujemy nastepujaco:

z górnych wierzchołków najwyzszego prostokatawykreslamy dwa odcinki łaczace blizsze wierzchołkisasiednich prostokatów,zaznaczamy punkt przeciecia tych odcinków i rzutujemyten punkt na os X (os wartosci cechy),rzut ten wskazuje nam wartosc dominanty, któraodczytujemy na osi X z pewnym przyblizeniem.

Page 21: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

MEDIANA (ozn. Me) - te miare mozna wyznaczac dla cechwyrazonych w dowolnej skali z wyjatkiem nominalnej. Medianajest wartoscia cechy, jaka ma jednostka lezaca w srodkuuporzadkowanego ciagu obserwacji. Z tego wzgledu mediananazywana jest czesto WARTOSCIA SRODKOWA. Numerjednostki srodkowej nazywa sie pozycja mediany.Upraszczajac zagadnienie mozna powiedziec, ze medianadzieli zbiorowosc statystyczna na dwie równe czesci w tensposób, ze połowa jednostek zbiorowosci przyjmuje wartoscimniejsze od mediany, natomiast druga połowa - wartosciwieksze od mediany. W przypadku cech skokowych nalezałobystwierdzic, ze przynajmniej połowa jednostek przyjmujewartosci MNIEJSZE lub RÓWNE medianie i przynajmniejpołowa jednostek przyjmuje wartosci WIEKSZE lub RÓWNEmedianie.

Page 22: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

JAK ZNALEZC MEDIANE?Schemat postepowania w przypadku szeregu szczegółowegoA) Przypadek nieparzystej liczby obserwacji.

1) Porzadkujemy wartosci cechy (od najmniejszej donajwiekszej lub odwrotnie).

2) Wyznaczamy pozycje mediany według wzoru

poz(Me) =n+1

2,

gdzie n oznacza liczbe obserwacji (czyli liczebnosczbiorowosci),

3) Odczytujemy z szeregu, jaka wartosc cechy ma jednostkana wyznaczonej przez nas pozycji. Ta wartosc jestmediana.

Me = x n+12

Page 23: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

B) Przypadek parzystej liczby obserwacji.1) Porzadkujemy wartosci cechy (od najmniejszej do

najwiekszej lub odwrotnie).2) Wyznaczamy pozycje mediany, która w przypadku, gdy n

jest parzyste znajduje sie miedzy dwiema srodkowymiobserwacjami. Oznaczmy te obserwacje L1 i L2. Ichpozycje okreslimy według nastepujacych wzorów:

poz(L1) =n2, poz(L2) =

n2+1.

Page 24: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

3) Odczytujemy z szeregu wartosci L1 i L2, a nastepnieobliczamy wartosc mediany jako srednia arytmetycznawskazanych liczb, czyli:

Me =L1+L2

2.

Tak wiec w przypadku parzystej liczby obserwacji medianajest srednia arytmetyczna dwóch srodkowych wartoscicechy. Mozna to równiez zapisac tak:

Me =x n

2+x n

2+1

2.

Page 25: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

UWAGA 1: czestym błedem jest mylenie mediany z jej pozycja.Nalezy pamietac, ze mediana jest wartoscia cechy srodkowejjednostki, a nie pozycja tej jednostki.UWAGA 2: zaleta mediany jest to, ze jest nieczuła na zmianewartosci ekstremalnych (a własnie wartosci ekstremalneuzyskane z pomiaru sa najbardziej niepewne). Mediana, wodróznieniu od sredniej arytmetycznej, nie zmieni sie, gdywartosci ekstremalne zmienia sie lub znikna.UWAGA 3: w przypadku rozkładów asymetrycznych medianadobrze informuje o przecietnym poziomie cechy. Jej wartosc, wodróznieniu od sredniej arytmetycznej, bedzie zblizona dowiekszosci pomiarów.

Page 26: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

UWAGA 4: jak juz zostało powiedziane, pole powierzchni podkrzywa liczebnosci równe jest n, czyli liczebnosci zbiorowosci.Poniewaz mediana dzieli zbiorowosc na dwie czesci o takichsamych liczebnosciach, wiec graficznie medianie odpowiadataka wartosc cechy (na osi X), dla której pole powierzchni podkrzywa (liczebnosci lub czestosci) jest podzielone na połowy(rys).

Page 27: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

Schemat postepowania w przypadku szeregu punktowegoPodobnie jak poprzednio:

1) wyznaczamy numer jednostki srodkowej jako n2 (lub n+1

2dla szeregów o nieparzystej liczbie obserwacji),

2) ustalamy, w której klasie szeregu punktowego znajduje siejednostka srodkowa; bedzie to ta klasa, w której po razpierwszy liczebnosc skumulowana osiagnie lub przekroczyn2 ,

3) odczytujemy bezposrednio z szeregu punktowego wartosccechy w ustalonej klasie. Jest to wartosc mediany. Jezelizamiast liczebnosci mamy wskazniki struktury, to szukamyklasy, w której po raz pierwszy skumulowany wskaznikstruktury przekroczy 0,5.

Page 28: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

Schemat postepowania w przypadku szeregu przedziałowegoAby wyznaczyc mediane korzystamy ze wzorówinterpolacyjnych:

Me = xlm +n2 −nskum

m−1

nm·dm

lub

Me = xlm +0.5−ωskum

m−1

ωm·dm

lub

Me = xlm +50−pskum

m−1

pm·dm,

gdzie Me - mediana, xlm - lewy koniec przedziału mediany, n -liczebnosc zbiorowosci, nm - liczebnosc przedziału mediany,nskum

m−1 - liczebnosc skumulowana przedziału poprzedzajacegoprzedział mediany, dm - długosc przedziału mediany.

Page 29: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

Graficzny sposób wyznaczania medianyW tym celu nalezy sporzadzic łamana liczebnosciskumulowanej (lub łamana czestosci skumulowanej), anastepnie:

1) na osi Y zaznaczyc punkt okreslajacy pozycje mediany,czyli n

2 (w przypadku łamanej czestosci skumulowanejbedzie to punkt 0,5 czyli 50%),

2) na sporzadzonej łamanej znajdujemy punkt odpowiadajacywyznaczonej pozycji, czyli prowadzimy linie poziomaprzecinajaca os Y w punkcie n

2 ,3) punkt znaleziony na łamanej rzutujemy na os X (os

wartosci cechy),4) rzut ten wskazuje nam wartosc mediany, która

odczytujemy na osi X z pewnym przyblizeniem (rys).

Page 30: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

Pomiedzy srednia arytmetyczna, dominanta i mediana istniejeustalony zwiazek w zaleznosci od typu rozkładu.A) W rozkładzie symetrycznym jednomodalnym (z jednymekstremum) wszystkie trzy miary: srednia arytmetyczna,mediana i dominanta, sa równe.

x = Do = Me.

B) W rozkładzie o asymetrii prawostronnej (dodatniej)dominanta przyjmuje wartosc najmniejsza, wieksza od niej jestmediana,a najwieksza jest srednia arytmetyczna.

Do < Me < x .

C) W rozkładzie o asymetrii lewostronnej (ujemnej) najnizszawartosc przyjmuje srednia arytmetyczna, wieksza od niej jestmediana, a najwieksza dominanta.

x < Me < Do.

Page 31: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

Obok powyzszych zaleznosci miedzy srednia arytmetyczna,mediana i dominanta istnieje zaleznosc zwana równaniemPearsona: Do = 3Me−2x . Zaleznosc ta jest prawdziwa tylko wprzypadku, gdy rozkład badanej cechy jest symetryczny, słaboasymetryczny, ewentualnie umiarkowanie asymetryczny. Nawykładzie o miarach asymetrii rozkładu bedzie wyjasnione,kiedy rozkład jest słabo, umiarkowanie czy silnie asymetryczny.

Page 32: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

KWANTYLE sa pozycyjnymi miarami połozenia. Sa takimiwartosciami cechy, które dziela zbiorowosc na okreslone czescipod wzgledem liczby jednostek. Czesci te pozostaja wzgledemsiebie w okreslonych proporcjach. Najczesciej uzywanymikwantylami sa:

kwartyle, które dziela zbiorowosc na cztery liczebnie równeczesci (po 25% jednostek kazda),decyle, które dziela zbiorowosc na dziesiec liczebnierównych czesci (po 10% jednostek kazda),percentyle (inaczej: centyle), które dziela zbiorowosc nasto liczebnie równych czesci (po 1% jednostek kazda).

Nalezy podkreslic, ze kwantyle, a w szczególnosci decyle icentyle, stosuje sie tylko w przypadku, gdy liczebnosczbiorowosci jest dostatecznie duza.

Page 33: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

KWARTYLE sa takimi wartosciami cechy, które dzielauporzadkowany ciag obserwacji na cztery liczebnie równeczesci zwane grupami kwartylowymi. Podział na cztery czescidaje nam trzy kwartyle:

kwartyl pierwszy Q1 (tzw. kwartyl dolny) dzieli zbiorowoscna dwie czesci - w pierwszej znajduje sie 25% jednostek owartosciach mniejszych od niego, a w drugiej 75%jednostek o wartosciach wiekszych od niego,kwartyl drugi to mediana,kwartyl trzeci Q3 (tzw. kwartyl górny) dzieli zbiorowosc nadwie czesci - w pierwszej znajduje sie 75% jednostek owartosciach mniejszych od niego, a w drugiej 25%jednostek o wartosciach wiekszych od niego.

Page 34: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

W literaturze nie ma zgodnosci co do sposobu wyznaczania iinterpretacji kwartyli. Najczesciej przyjmuje sie nastepujaceschematy

dla szeregu szczegółowego Q1 to wartosc cechy na pozycjin/4, a Q3 to wartosc cechy na pozycji 3n/4 (jezeli któras ztych pozycji przypada miedzy obserwacjami, to bierzemysrednia arytmetyczna tych dwóch sasiednich obserwacji),dla szeregu rozdzielczego punktowego postepujemypodobnie jak w przypadku mediany - okreslamy klasy, wktórych liczebnosc skumulowana po raz pierwszy osiagnielub przekroczy n/4 i 3n/4, a potem odczytujemy kwartyle,dla szeregu rozdzielczego przedziałowego korzystamy zewzorów interpolacyjnych:

Page 35: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

Q1 = xlq1 +

n4 −nskum

q1−1

nq1

·dq1

lub

Q1 = xlq1 +0.25−ωskum

q1−1

ωq1

·dq1

lub

Q1 = xlq1 +25−pskum

q1−1

pq1

·dq1 ,

gdzie Q1 - kwartyl dolny, xlq1 - lewy koniec przedziałupierwszego kwartyla, n - liczebnosc zbiorowosci, nq1 -liczebnosc przedziału pierwszego kwartyla, nskum

q1−1 - liczebnoscskumulowana przedziału poprzedzajacego przedziałpierwszego kwartyla, dq1 - długosc przedziału pierwszegokwartyla;

Page 36: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

Q3 = xlq3 +

3n4 −nskum

q3−1

nq3

·dq3

lub

Q3 = xlq3 +0.75−ωskum

q3−1

ωq3

·dq3

lub

Q3 = xlq3 +75−pskum

q3−1

pq3

·dq3 ,

gdzie Q3 - kwartyl górny, xlq3 - lewy koniec przedziału trzeciegokwartyla, n - liczebnosc zbiorowosci, nq3 - liczebnosc przedziałutrzeciego kwartyla, nskum

q3−1 - liczebnosc skumulowana przedziałupoprzedzajacego przedział trzeciego kwartyla, dq3 - długoscprzedziału trzeciego kwartyla.

Page 37: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia

GRAFICZNY sposób wyznaczania kwartyli jest taki sam, jak wprzypadku mediany.DECYLE to takie wartosci cechy, które dziela uporzadkowanyciag obserwacji na dziesiec liczebnie równych czesci, po 10%jednostek zbiorowosci kazda. Podział ten daje dziewiec decyli.Podział decylowy wykorzystywany jest m.in. w badaniachpoziomu zycia ludnosci i w analizie wynagrodzen.CENTYLE (inaczej: percentyle) to wartosci cechy uzyskiwaneprzy podziale zbiorowosci na sto liczebnie równych czesci, po1% jednostek zbiorowosci kazda. Podział taki daje 99 centyli.Podział centylowy stosowany jest przy analizie wielu kwestiispołecznych, ale jego najbardziej znanym zastosowaniem sasiatki centylowe obrazujace wysokosc ciała, mase ciała i obwódgłowy dzieci (oddzielnie chłopców i dziewczat).

Page 38: STATYSTYKA OPISOWAalina.gleska.pracownik.put.poznan.pl/wyklad2.pdf · STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 28 wrzesnia 2018´ ... stosujemy wzory dla szeregów

Miary statystyczne Miary połozenia