Statystyka i opracowanie danych
W5: Wprowadzenie do statystycznej
analizy danych
Dr Anna ADRIAN
Paw B5, pok 407
Wprowadzenie
Podstawowe cele analizy zbiorów danych
• Uogólniony opis poszczególnych cech/zmiennych- statystyka opisowa; analiza struktury zbioru danych - rozkłady empiryczne zmiennej
• Odkrywanie i badanie zależności występujących pomiędzy zmiennymi
• Weryfikacja hipotez statystycznych
Narzędzia: metody statystyki matematycznej
pakiety statystyczne Statgraph, Statisticamoduły statystyczne w arkuszach kalkulacyjnych, bazach danych
Temat: Wstępna analiza danych
Na czym polegaWstępna analiza danych:
– Ile danych:
• ile zmiennych (cech: Płeć, wykształcenie, staż, zarobki)
• ile przypadków (1255)
– Jakie typy
• dane jakościowe (płeć, wykształcenie)
• dane ilościowe (staż pracy, płaca)
– Ile braków, jakie, jak je zastąpić
Statystyki opisowe
Statystyka Opisowa
Parametrami statystycznymi ( statystykami) nazywamy
liczby umożliwiające sumaryczny opis zbiorowości.
Parametry te tak dokładnie charakteryzują zbiorowość,
że mogą być wykorzystane do porównywania różnych
zbiorowości.
Wyróżnia się następujące grupy parametrów statystycznych:
• Miary położenia (klasyczne i pozycyjne)
• Miary zmienności
• Miary asymetrii i koncentracji
Miary położenia
Średnie– arytmetyczna, ważona
– harmoniczna
– geometryczna
Moda- dominantaKwantyle
– kwartyl pierwszy
– mediana (kwartyl drugi)
– kwartyl trzeci
– decyl
– percentyl
Estymatory punktowe parametrów statystycznychObliczanie wartości średnich
∑=
=n
iix
nx
1
1
∑
∑
=
== n
ii
n
iii
w
wxx
1
1
Średniaarytmetyczna
Średnia ważona, gdzie wagi wi>0
nng xxxx .....21=
Średniageometryczna
∑=
= n
i i
h
x
nx
1
1
Średnia harmoniczna
Moda (dominanta)
mmmmm
mmoo h
nnnn
nnxM
)()( 11
1
+−
−
−+−−+=
W rozkładach empirycznych określa się dominantę (modę), tj. najczęściej występującą wartość cechy
gdziex0 - dolna granicą przedziału w którym występuje moda,hm - rozpiętość przedziału klasowego,nm, nm-1, nm+1- liczebności odpowiednio przedziału z modą,
poprzedniego i następnego
Graficzne wyznaczanie mody
histogram
0
5
10
15
20
25
30
6 12 18 24 35 36 42 48 54
wiek
licze
bność
Mo
Mediana –wzór interpolacyjny dla zmiennej ciągłej
−+= ∑−
=
1
12
m
ii
m
mm n
n
n
hxMe
gdzie xm- dolna granica przedziału zawierającego medianęhm,nm- odpowiednio rozpiętość i liczebność przedziału mediany
Medianą rozkładu empirycznego Me nazywamy taką wartośćcechy, że co najmniej połowa jednostek zbiorowości ma wartość cechy nie większą niż Me i jednocześnie połowa jednostek ma wartość cechy nie mniejszą niż Me.
Czyli dystrybuanta empiryczna Fn(Me)≥1/2
Dla zmiennej losowej ciągłej medianę oblicza się wg wzoru:
Mediana
25% wartości 25% wartości 25% wartości 25% wartości
MedianaQ1 Q3
Rozstęp
Rozstęp kwartylowymin
max
Wzór Pearsona na relacje pomiędzy Mo, Me, oraz dla rozkładów symetrycznych i umiarkowanie asymetrycznych
)(3 MexMox −=−
Kwantyle
• Kwantylem rzędu p, gdzie 0<p<1, w rozkładzie empirycznym nazywamy taką wartość zmiennej xp, dla której, jako pierwszej , dystrybuanta empiryczna spełnia relację F(xp) ≥ p,
• tzn., że prawdopodobieństwo przyjęcia przez zmienną wartości nie większych od xp wynosi co najmniej p, a wartości nie mniejszych xp wynosi co najmniej 1-p
• Mediana - Kwantyl rzędu 1/2
• Kwartyl - Kwantyl rzędu k/4, gdzie k=1,..,3
• Decyl – Kwantyl rzędu k/10, gdzie k=1,...,9
• Percentyl – Kwantyl rzędu k/100, gdzie k=1,...,99;.
Percentyl jest wielkością określającą jaki procent obserwacji (wyników) znajduje się poniżej zadanej wartości xp
Miary zmienności
• Miary zmienności dzielą się na miary klasyczne i pozycyjne.
• miary pozycyjne : rozstęp, odchylenie ćwiartkowe, współczynnik zmienności
• miary klasyczne: wariancja, odchylenie standardowe, odchylenie przeciętne, współczynnik zmienności
Odchylenie ćwiartkowe
• Kwartyle są wykorzystywane do określenia pozycyjnej miary zróżnicowania, nazywanej odchyleniem ćwiartkowym, którym jest wielkość Q, określona wzorem
213 QQ
Q−=
Miary zmienności
Rozstęp- najprostsza miara zmienności
R=xmax – xmin
Odchylenie ćwiartkowe
Odchylenie przeciętne
Współczynnik zmienności
213 QQ
Q−=
n
xx
n
xxxxd
n
ii
n∑
=
−=
−++−= 11 L
x
dV d =
Klasyczne miary zmienności
2
1
2 )(1
xxn
sn
ii −= ∑
=
Wariancja
Odchylenie standardowe
2
1
)(1∑
=
−=n
ii xx
ns
x
sV s =
Współczynnik zmienności - klasyczny
Miary skośności / asymetrii
Miarą stopnia i kierunku asymetrii jest klasyczny współczynnik asymetrii g, obliczany według wzoru:
gdzie s jest odchyleniem standardowym A3 jest trzecim momentem centralnym rozkładu empirycznego
33
s
Ag =
i
r
ii nxx
nA 3
13 )(
1∑
=
−=
Miary skośności / asymetrii
Stwierdzono, że jedynie w przypadku bardzosilnej asymetrii współczynnik A przekracza wartość 1
Niemianowany współczynnik asymetrii (skośności) Astosowany do porównań asymetrii wielu rozkładów
s
MoxA
−=gdy:A=0 rozkład symetrycznyA<0 asymetria lewostronna- wydłużone lewe ramie rozkładuA<0 asymetria prawostronna wydłużone prawe ramie rozkładu
Cechy statystyczne i ich rodzaje
• Cechy, którymi wyróżniają się jednostki wchodzące w skład zbiorowości, nazywa się cechami statystycznymi.
• Każda zbiorowość statystyczna ma dużo cech, wyboru cech dokonuje się na podstawie zakładanego celu badań. Należy wybierać takie cechy, które stanowią istotną własność badanego zjawiska
• Typy cech
– cechy jakościowe – niemierzalne (np. kolor, sprawny-niesprawny, ale jakościowymi mogą być też liczby np. nr piętra, )
– cechy ilościowe – mierzalne to takie, które dadzą sięwyrazić za pomocą jednostek miary w pewnej skali ( np. wzrost [cm], waga [kg], udział[%]). Cecha mierzalna jest:
• ciągła, może przyjmować każdą wartość z określonego, skończonego przedziału liczbowego (np.odległość, ciężar, temperatura)
• dyskretna, skokowa przyjmuje wartości ze zbioru skończonego lub przeliczalnego (ilość wyrobów wadliwych, liczba zatrudnionych w zawodzie).
Co to jest pomiar
• Pomiar jest procedurą przyporządkowywania liczb różnym wartościom zmiennej według ustalonej zasady.
• W naukach empirycznych analizowanie różnych cech staje sięużyteczne wtedy gdy można mierzyć ich nasilenie w różnych obiektach.
• Najprostszym przypadkiem pomiaru jest zliczanie.
• Typowym pomiarem jest pomiar długości ( odległości dwóch punktów), polega on na policzeniu ile odcinków o znanej długości (1 cm, 1m, 1 cal) mieści się wzdłuż mierzonego przedmiotu (odcinka)
• Jak mierzyć zmienne niemierzalne np. talent, agresję (liczba wulgaryzmów wypowiedzianych w jednostce czasu?),–konstruujemy wskaźniki
Skale pomiaru
• Stanley Smith Stevens rozróżnił cztery skale pomiarowe:
– Najprostszym przykładem pomiaru jest klasyfikacja, czyli nazywanie, dotyczy tylko zmiennych jakościowych, gdy brane pod uwagę kategorie są rozłączne, ponadto, gdy bierze siępod uwagę wszystkie możliwe kategorie danej zmiennej, to podział jest wyczerpujący.
– Pomiar w skali porządkowej (rangowej) oznacza uporządkowanie ze względu na nasilenie cechy. Tę skalęcechuje spójność ( jeśli x jest różny od y yo x<y lub x>y) i przechodniość (x<y i y<z to x<z)
– Przypisać jakiemuś pomiarowi rangę oznacza określenie jego miejsca w ustalonym porządku. Rangi oznaczają porządek a nie różnice pomiędzy kolejnymi pomiarami
Skale pomiaru cechy
• Skala nominalna –dotyczy cech jakościowych, operacjąpomiarową jest identyfikacja kategorii do której należy zaliczyć wynik, prowadzi do podziału zbioru na zbiory rozłączne ( np. samochody wg kolorów).
• Skala porządkowa – stosowana jest do badania cech których natężenie jest określane przez przymiotniki, pociąga za sobą porządkowanie lub uszeregowanie badanej zmiennej ( np. poniżej normy, w normie, powyżej normy, albo za mały, mały, średni, duży, za duży)
• Skala równomierna (przedziałowa)-stosowania do pomiaru cech ilościowych, zakłada że zbiór wartości cechy składa się z liczb rzeczywistych określona przez wskazanie stałej jednostki miary i relacji przyporządkowującej liczbę każdemu wynikowi obserwacji (czas kalendarzowy, temperatura o C)
• Skala ilorazowa- posiada wszystkie właściwości skali przedziałowej ale pomiary wg tej skali charakteryzują się stałymi stosunkami i bezwzględnym zerem, ma zastosowanie w fizyce, technice np.. czas jaki upłynął od chwili t1do t2
Dane jako wyniki badań
Wyniki obserwacji i pomiarów mogą być wyrażone w postaci:
– Tekstu (cechy jakościowe)
– Liczb całkowitych
– Przedziałów liczbowych
Dane źródłowe zawierają się w:
– zbiorze,
– zbiorze uporządkowanym, zwanym szeregiem szczegółowym
– zbiorze podzielonym na klasy, zwanym szeregiem rozdzielczym
Opracowanie materiału statystycznegoSzeregi statystyczne
• Celem tych działań jest przejście od danych indywidualnych do danych zbiorowych.
• Materiał źródłowy należy odpowiednio posegregowaći policzyć, w wyniku otrzymuje się tzw. tablice robocze.
• Klasyfikacja danych musi być przeprowadzona:
– w sposób rozłączny, jednostki o określonych cechach muszą być jednoznacznie przydzielone do poszczególnych klas
– W sposób zupełny, tzn. klasy muszą objąć wszystkie występujące cechy danej zbiorowość
• Technika zestawiania zależy od rodzaju skali pomiarowej
Szeregi statystyczne
szczegółowe rozdzielcze czasowe
Z cechą ilościową
skumulowane
punktowe przedziałowe
Z cechą jakościową
proste prosteskumulowane
Szereg szczegółowy
• Badana cecha przyjmuje niewielką liczbęjednostek (mała grupa)
{x1, .... ,xn}
• Wartości porządkuje się
– Rosnąco x1< .... <xn
lub
– Malejąco x1> .... >xn
Szereg czasowy, dynamiczny, chronologiczny
Otrzymuje się w wyniku grupowania
• typologicznego (wyodrębniającego różne jakościowo cechy)
• wariancyjnego (porządkującego zbiorowośćprzez łączenie w klasy jednostek mających odpowiednie wartości cech)
• gdy podstawą grupowania jest zmiana badanego zjawiska w czasie
Wykres dla szeregu typologicznego; poziom wykształcenia
Kategoryzacja według dwóch zmiennychJaki jest stan wykształcenia kobiet i mężczyzn
Analiza zmian w czasie- budowa szeregu czasowego
LataLiczba pacjentów
1993 211994 591995 971996 1161997 2621998 2811999 3152000 3362001 4972002 5622003 10252004 12102005 11672006 1511
Wykres dla szeregu czasowegoLiczba pacjentów zarejestrowanych rocznie
w przychodni uzale żnień od komputera
0
200
400
600
800
1000
1200
1400
1600
1992 1994 1996 1998 2000 2002 2004 2006 2008
Szereg rozdzielczy
Przy budowie szeregu rozdzielczego wyróżnia się trzy etapy:
• Ustalenie liczby klas oraz wielkości przedziałów klasowych
• Przyporządkowanie danych przyjętym przedziałom klasowym
• Zliczanie liczby jednostek w każdej klasieLiczba klas k zależy przede wszystkim od liczby obserwacji nStosowane bywają następujące wzory pomocne do
szacowania liczby przedziałów budowanego szeregu rozdzielczego:
k=1+3,322 log n
lub
nk =
Szereg rozdzielczy – uwagi praktyczne
• Każdy przedział klasowy ma dolną i górną granicę
• Różnice pomiędzy tymi granicami nazywa się rozpiętością(szerokością) przedziału klasowego.
• Przy równej rozpiętości przedziałów, liczebności sąporównywalne.
• Częstość jest to iloraz liczby elementów zbioru zakwalifikowanych do danej klasy przez liczbę wszystkich elementów zbioru
Uwaga:Ostatecznie badacz podejmuje decyzje o wartościach granic, szerokości przedziałów klasowych i ich liczbie,kierując się wiedzą merytoryczną o badanym zjawisku,
Przykład: W kartotekach pacjentów notowana jest data urodzenia, ta informacja pozwala zbadać cechę jaką jest ich wiek.
Szereg rozdzielczy prosty – analiza struktury wiekowej pacjentów
dolna górnaLP a b x i n i ni/n
1 3 9 6 3 0,032 9 15 12 12 0,113 15 21 18 16 0,154 21 27 24 18 0,175 27 33 30 26 0,256 33 39 36 17 0,167 39 45 42 8 0,088 45 51 48 4 0,049 51 57 54 1 0,01
Suma 105 1
CzęstośćNumer klasy
Granice przedziałów klasowych
Środek przedziału
Liczność klasy
Wykresy
histogram
0
5
10
15
20
25
30
6 12 18 24 35 36 42 48 54
wiek
licze
bność
Histogram zmiennej płaca bruttozmiana liczby klas
Zmiana dolnej wartości pierwszej klasy
Od zera Od minimum
Badania statystyczne - rodzaje
Badania pełne obejmują wszystkie elementy populacji, np. na przeglądzie uzębienia danego pacjenta można określić dokładną liczbę zębów i ich stan
Badania częściowe – badania elementów próbki statystycznej, mają szerokie zastosowania i są:
• konieczne w przypadku populacji nieskończonej,
• stosowane w populacjach skończonych bardzo licznych
• stosowane w przypadkach badań niszczących
Populacja i próba statystyczna
Populacja jest to zbiór wszystkich elementów reprezentujących analizowany problem (zjawisko).
Może być zbiorem skończonym, przeliczalnym lub nieprzeliczalnym.
Próba statystyczna – to podzbiór właściwy elementów z
badanej populacji
Losowy dobór próby polega na tym, że o fakcie znalezienia się poszczególnych elementów populacji w próbie decyduje przypadek.
Jest to taki sposób wyboru przy którym spełnione sąnastępujące dwa warunki;
• każda jednostka populacji ma dodatnie, znane prawdopodobieństwo znalezienia się w próbie
• istnieje możliwość ustalenia prawdopodobieństwa znalezienia się w próbie dla każdego zespołu elementów populacji
Badania statystyczne – próby losowe
O błędach w badaniach statystycznych
Badania , zarówno pełne jak i częściowe, zawsze obciążone sąbłędami, związanymi z:
• organizacją eksperymentu,
• niedokładnością pomiarową,
• przetwarzaniem wyników,
• w badaniach częściowych z niedokładnościąodwzorowania struktury populacji w strukturę próbki