Download pdf - Statystyka i opracowanie danych W5: Wprowadzenie do ...home.agh.edu.pl/~adan/wyklady/siod5-2014.pdf · Statystyka i opracowanie danych W5: Wprowadzenie do statystycznej analizy danych

Statystyka i opracowanie danych

W5: Wprowadzenie do statystycznej

analizy danych

Dr Anna ADRIAN

Paw B5, pok 407

[email protected]

Wprowadzenie

Podstawowe cele analizy zbiorów danych

• Uogólniony opis poszczególnych cech/zmiennych- statystyka opisowa; analiza struktury zbioru danych - rozkłady empiryczne zmiennej

• Odkrywanie i badanie zależności występujących pomiędzy zmiennymi

• Weryfikacja hipotez statystycznych

Narzędzia: metody statystyki matematycznej

pakiety statystyczne Statgraph, Statisticamoduły statystyczne w arkuszach kalkulacyjnych, bazach danych

Temat: Wstępna analiza danych

Na czym polegaWstępna analiza danych:

– Ile danych:

• ile zmiennych (cech: Płeć, wykształcenie, staż, zarobki)

• ile przypadków (1255)

– Jakie typy

• dane jakościowe (płeć, wykształcenie)

• dane ilościowe (staż pracy, płaca)

– Ile braków, jakie, jak je zastąpić

Statystyki opisowe

Statystyka Opisowa

Parametrami statystycznymi ( statystykami) nazywamy

liczby umożliwiające sumaryczny opis zbiorowości.

Parametry te tak dokładnie charakteryzują zbiorowość,

że mogą być wykorzystane do porównywania różnych

zbiorowości.

Wyróżnia się następujące grupy parametrów statystycznych:

• Miary położenia (klasyczne i pozycyjne)

• Miary zmienności

• Miary asymetrii i koncentracji

Miary położenia

Średnie– arytmetyczna, ważona

– harmoniczna

– geometryczna

Moda- dominantaKwantyle

– kwartyl pierwszy

– mediana (kwartyl drugi)

– kwartyl trzeci

– decyl

– percentyl

Estymatory punktowe parametrów statystycznychObliczanie wartości średnich

∑=

=n

iix

nx

1

1

∑

∑

=

== n

ii

n

iii

w

wxx

1

1

Średniaarytmetyczna

Średnia ważona, gdzie wagi wi>0

nng xxxx .....21=

Średniageometryczna

∑=

= n

i i

h

x

nx

1

1

Średnia harmoniczna

Moda (dominanta)

mmmmm

mmoo h

nnnn

nnxM

)()( 11

1

+−

−

−+−−+=

W rozkładach empirycznych określa się dominantę (modę), tj. najczęściej występującą wartość cechy

gdziex0 - dolna granicą przedziału w którym występuje moda,hm - rozpiętość przedziału klasowego,nm, nm-1, nm+1- liczebności odpowiednio przedziału z modą,

poprzedniego i następnego

Graficzne wyznaczanie mody

histogram

0

5

10

15

20

25

30

6 12 18 24 35 36 42 48 54

wiek

licze

bność

Mo

Mediana –wzór interpolacyjny dla zmiennej ciągłej

−+= ∑−

=

1

12

m

ii

m

mm n

n

n

hxMe

gdzie xm- dolna granica przedziału zawierającego medianęhm,nm- odpowiednio rozpiętość i liczebność przedziału mediany

Medianą rozkładu empirycznego Me nazywamy taką wartośćcechy, że co najmniej połowa jednostek zbiorowości ma wartość cechy nie większą niż Me i jednocześnie połowa jednostek ma wartość cechy nie mniejszą niż Me.

Czyli dystrybuanta empiryczna Fn(Me)≥1/2

Dla zmiennej losowej ciągłej medianę oblicza się wg wzoru:

Mediana

25% wartości 25% wartości 25% wartości 25% wartości

MedianaQ1 Q3

Rozstęp

Rozstęp kwartylowymin

max

Wzór Pearsona na relacje pomiędzy Mo, Me, oraz dla rozkładów symetrycznych i umiarkowanie asymetrycznych

)(3 MexMox −=−

Kwantyle

• Kwantylem rzędu p, gdzie 0<p<1, w rozkładzie empirycznym nazywamy taką wartość zmiennej xp, dla której, jako pierwszej , dystrybuanta empiryczna spełnia relację F(xp) ≥ p,

• tzn., że prawdopodobieństwo przyjęcia przez zmienną wartości nie większych od xp wynosi co najmniej p, a wartości nie mniejszych xp wynosi co najmniej 1-p

• Mediana - Kwantyl rzędu 1/2

• Kwartyl - Kwantyl rzędu k/4, gdzie k=1,..,3

• Decyl – Kwantyl rzędu k/10, gdzie k=1,...,9

• Percentyl – Kwantyl rzędu k/100, gdzie k=1,...,99;.

Percentyl jest wielkością określającą jaki procent obserwacji (wyników) znajduje się poniżej zadanej wartości xp

Miary zmienności

• Miary zmienności dzielą się na miary klasyczne i pozycyjne.

• miary pozycyjne : rozstęp, odchylenie ćwiartkowe, współczynnik zmienności

• miary klasyczne: wariancja, odchylenie standardowe, odchylenie przeciętne, współczynnik zmienności

Odchylenie ćwiartkowe

• Kwartyle są wykorzystywane do określenia pozycyjnej miary zróżnicowania, nazywanej odchyleniem ćwiartkowym, którym jest wielkość Q, określona wzorem

213 QQ

Q−=

Miary zmienności

Rozstęp- najprostsza miara zmienności

R=xmax – xmin

Odchylenie ćwiartkowe

Odchylenie przeciętne

Współczynnik zmienności

213 QQ

Q−=

n

xx

n

xxxxd

n

ii

n∑

=

−=

−++−= 11 L

x

dV d =

Klasyczne miary zmienności

2

1

2 )(1

xxn

sn

ii −= ∑

=

Wariancja

Odchylenie standardowe

2

1

)(1∑

=

−=n

ii xx

ns

x

sV s =

Współczynnik zmienności - klasyczny

Miary skośności / asymetrii

Miarą stopnia i kierunku asymetrii jest klasyczny współczynnik asymetrii g, obliczany według wzoru:

gdzie s jest odchyleniem standardowym A3 jest trzecim momentem centralnym rozkładu empirycznego

33

s

Ag =

i

r

ii nxx

nA 3

13 )(

1∑

=

−=

Miary skośności / asymetrii

Stwierdzono, że jedynie w przypadku bardzosilnej asymetrii współczynnik A przekracza wartość 1

Niemianowany współczynnik asymetrii (skośności) Astosowany do porównań asymetrii wielu rozkładów

s

MoxA

−=gdy:A=0 rozkład symetrycznyA<0 asymetria lewostronna- wydłużone lewe ramie rozkładuA<0 asymetria prawostronna wydłużone prawe ramie rozkładu

Cechy statystyczne i ich rodzaje

• Cechy, którymi wyróżniają się jednostki wchodzące w skład zbiorowości, nazywa się cechami statystycznymi.

• Każda zbiorowość statystyczna ma dużo cech, wyboru cech dokonuje się na podstawie zakładanego celu badań. Należy wybierać takie cechy, które stanowią istotną własność badanego zjawiska

• Typy cech

– cechy jakościowe – niemierzalne (np. kolor, sprawny-niesprawny, ale jakościowymi mogą być też liczby np. nr piętra, )

– cechy ilościowe – mierzalne to takie, które dadzą sięwyrazić za pomocą jednostek miary w pewnej skali ( np. wzrost [cm], waga [kg], udział[%]). Cecha mierzalna jest:

• ciągła, może przyjmować każdą wartość z określonego, skończonego przedziału liczbowego (np.odległość, ciężar, temperatura)

• dyskretna, skokowa przyjmuje wartości ze zbioru skończonego lub przeliczalnego (ilość wyrobów wadliwych, liczba zatrudnionych w zawodzie).

Co to jest pomiar

• Pomiar jest procedurą przyporządkowywania liczb różnym wartościom zmiennej według ustalonej zasady.

• W naukach empirycznych analizowanie różnych cech staje sięużyteczne wtedy gdy można mierzyć ich nasilenie w różnych obiektach.

• Najprostszym przypadkiem pomiaru jest zliczanie.

• Typowym pomiarem jest pomiar długości ( odległości dwóch punktów), polega on na policzeniu ile odcinków o znanej długości (1 cm, 1m, 1 cal) mieści się wzdłuż mierzonego przedmiotu (odcinka)

• Jak mierzyć zmienne niemierzalne np. talent, agresję (liczba wulgaryzmów wypowiedzianych w jednostce czasu?),–konstruujemy wskaźniki

Skale pomiaru

• Stanley Smith Stevens rozróżnił cztery skale pomiarowe:

– Najprostszym przykładem pomiaru jest klasyfikacja, czyli nazywanie, dotyczy tylko zmiennych jakościowych, gdy brane pod uwagę kategorie są rozłączne, ponadto, gdy bierze siępod uwagę wszystkie możliwe kategorie danej zmiennej, to podział jest wyczerpujący.

– Pomiar w skali porządkowej (rangowej) oznacza uporządkowanie ze względu na nasilenie cechy. Tę skalęcechuje spójność ( jeśli x jest różny od y yo x<y lub x>y) i przechodniość (x<y i y<z to x<z)

– Przypisać jakiemuś pomiarowi rangę oznacza określenie jego miejsca w ustalonym porządku. Rangi oznaczają porządek a nie różnice pomiędzy kolejnymi pomiarami

Skale pomiaru cechy

• Skala nominalna –dotyczy cech jakościowych, operacjąpomiarową jest identyfikacja kategorii do której należy zaliczyć wynik, prowadzi do podziału zbioru na zbiory rozłączne ( np. samochody wg kolorów).

• Skala porządkowa – stosowana jest do badania cech których natężenie jest określane przez przymiotniki, pociąga za sobą porządkowanie lub uszeregowanie badanej zmiennej ( np. poniżej normy, w normie, powyżej normy, albo za mały, mały, średni, duży, za duży)

• Skala równomierna (przedziałowa)-stosowania do pomiaru cech ilościowych, zakłada że zbiór wartości cechy składa się z liczb rzeczywistych określona przez wskazanie stałej jednostki miary i relacji przyporządkowującej liczbę każdemu wynikowi obserwacji (czas kalendarzowy, temperatura o C)

• Skala ilorazowa- posiada wszystkie właściwości skali przedziałowej ale pomiary wg tej skali charakteryzują się stałymi stosunkami i bezwzględnym zerem, ma zastosowanie w fizyce, technice np.. czas jaki upłynął od chwili t1do t2

Dane jako wyniki badań

Wyniki obserwacji i pomiarów mogą być wyrażone w postaci:

– Tekstu (cechy jakościowe)

– Liczb całkowitych

– Przedziałów liczbowych

Dane źródłowe zawierają się w:

– zbiorze,

– zbiorze uporządkowanym, zwanym szeregiem szczegółowym

– zbiorze podzielonym na klasy, zwanym szeregiem rozdzielczym

Opracowanie materiału statystycznegoSzeregi statystyczne

• Celem tych działań jest przejście od danych indywidualnych do danych zbiorowych.

• Materiał źródłowy należy odpowiednio posegregowaći policzyć, w wyniku otrzymuje się tzw. tablice robocze.

• Klasyfikacja danych musi być przeprowadzona:

– w sposób rozłączny, jednostki o określonych cechach muszą być jednoznacznie przydzielone do poszczególnych klas

– W sposób zupełny, tzn. klasy muszą objąć wszystkie występujące cechy danej zbiorowość

• Technika zestawiania zależy od rodzaju skali pomiarowej

Szeregi statystyczne

szczegółowe rozdzielcze czasowe

Z cechą ilościową

skumulowane

punktowe przedziałowe

Z cechą jakościową

proste prosteskumulowane

Szereg szczegółowy

• Badana cecha przyjmuje niewielką liczbęjednostek (mała grupa)

{x1, .... ,xn}

• Wartości porządkuje się

– Rosnąco x1< .... <xn

lub

– Malejąco x1> .... >xn

Szereg czasowy, dynamiczny, chronologiczny

Otrzymuje się w wyniku grupowania

• typologicznego (wyodrębniającego różne jakościowo cechy)

• wariancyjnego (porządkującego zbiorowośćprzez łączenie w klasy jednostek mających odpowiednie wartości cech)

• gdy podstawą grupowania jest zmiana badanego zjawiska w czasie

Wykres dla szeregu typologicznego; poziom wykształcenia

Kategoryzacja według dwóch zmiennychJaki jest stan wykształcenia kobiet i mężczyzn

Analiza zmian w czasie- budowa szeregu czasowego

LataLiczba pacjentów

1993 211994 591995 971996 1161997 2621998 2811999 3152000 3362001 4972002 5622003 10252004 12102005 11672006 1511

Wykres dla szeregu czasowegoLiczba pacjentów zarejestrowanych rocznie

w przychodni uzale żnień od komputera

0

200

400

600

800

1000

1200

1400

1600

1992 1994 1996 1998 2000 2002 2004 2006 2008

Szereg rozdzielczy

Przy budowie szeregu rozdzielczego wyróżnia się trzy etapy:

• Ustalenie liczby klas oraz wielkości przedziałów klasowych

• Przyporządkowanie danych przyjętym przedziałom klasowym

• Zliczanie liczby jednostek w każdej klasieLiczba klas k zależy przede wszystkim od liczby obserwacji nStosowane bywają następujące wzory pomocne do

szacowania liczby przedziałów budowanego szeregu rozdzielczego:

k=1+3,322 log n

lub

nk =

Szereg rozdzielczy – uwagi praktyczne

• Każdy przedział klasowy ma dolną i górną granicę

• Różnice pomiędzy tymi granicami nazywa się rozpiętością(szerokością) przedziału klasowego.

• Przy równej rozpiętości przedziałów, liczebności sąporównywalne.

• Częstość jest to iloraz liczby elementów zbioru zakwalifikowanych do danej klasy przez liczbę wszystkich elementów zbioru

Uwaga:Ostatecznie badacz podejmuje decyzje o wartościach granic, szerokości przedziałów klasowych i ich liczbie,kierując się wiedzą merytoryczną o badanym zjawisku,

Przykład: W kartotekach pacjentów notowana jest data urodzenia, ta informacja pozwala zbadać cechę jaką jest ich wiek.

Szereg rozdzielczy prosty – analiza struktury wiekowej pacjentów

dolna górnaLP a b x i n i ni/n

1 3 9 6 3 0,032 9 15 12 12 0,113 15 21 18 16 0,154 21 27 24 18 0,175 27 33 30 26 0,256 33 39 36 17 0,167 39 45 42 8 0,088 45 51 48 4 0,049 51 57 54 1 0,01

Suma 105 1

CzęstośćNumer klasy

Granice przedziałów klasowych

Środek przedziału

Liczność klasy

Wykresy

histogram

0

5

10

15

20

25

30

6 12 18 24 35 36 42 48 54

wiek

licze

bność

Histogram zmiennej płaca bruttozmiana liczby klas

Zmiana dolnej wartości pierwszej klasy

Od zera Od minimum

Badania statystyczne - rodzaje

Badania pełne obejmują wszystkie elementy populacji, np. na przeglądzie uzębienia danego pacjenta można określić dokładną liczbę zębów i ich stan

Badania częściowe – badania elementów próbki statystycznej, mają szerokie zastosowania i są:

• konieczne w przypadku populacji nieskończonej,

• stosowane w populacjach skończonych bardzo licznych

• stosowane w przypadkach badań niszczących

Populacja i próba statystyczna

Populacja jest to zbiór wszystkich elementów reprezentujących analizowany problem (zjawisko).

Może być zbiorem skończonym, przeliczalnym lub nieprzeliczalnym.

Próba statystyczna – to podzbiór właściwy elementów z

badanej populacji

Losowy dobór próby polega na tym, że o fakcie znalezienia się poszczególnych elementów populacji w próbie decyduje przypadek.

Jest to taki sposób wyboru przy którym spełnione sąnastępujące dwa warunki;

• każda jednostka populacji ma dodatnie, znane prawdopodobieństwo znalezienia się w próbie

• istnieje możliwość ustalenia prawdopodobieństwa znalezienia się w próbie dla każdego zespołu elementów populacji

Badania statystyczne – próby losowe

O błędach w badaniach statystycznych

Badania , zarówno pełne jak i częściowe, zawsze obciążone sąbłędami, związanymi z:

• organizacją eksperymentu,

• niedokładnością pomiarową,

• przetwarzaniem wyników,

• w badaniach częściowych z niedokładnościąodwzorowania struktury populacji w strukturę próbki