Statystyka – powtórzenie (I semestr)
©Rafał M. Frąk
TEORIA
Statystyka
Statystyka zajmuje się badaniem procesu zbierania oraz interpretacji danych liczbowych lub jakościowych.
Przedmiotem statystyki są metody badania prawidłowości występujących w zjawiskach masowych.
Rodzaje cech statystycznych
cechy mierzalne- cechy statystyczne, których wartości są liczbami wyznaczonymi w naturalny sposób przy pomocy pomiaru lub policzenia (np. zarobki)- wyrożniamy cechy mierzalne ciągłe i nieciągłe
cechy niemierzalne (tj. jakościowe)- cechy statystyczne, których naturalne wartości nie są liczbami, mogą być jednak przedstawione przy pomocy liczb (zakodowane) (np. kolor oczu)
Badanie statystyczne
DEFINICJA:- Jest to każde badanie zbiorowości statystycznej przeprowadzone przy pomocy metod statystycznych.
CEL:- Pozyskanie całościowego obrazu dotyczącego rozmiaru i struktury badanej zbiorowości oraz wystepujących w niej zależności i związków.
Etapy badania statystycznego
dokonanie obserwacji statystycznej(zebranie danych)
opracowanie zebranych danych
dokonanie prezentacji danych(w postaci tabelarycznej i graficznej)
analiza statystyczna
wnioskowanie statystyczne.
Metoda statystyczna
Jest to swoisty sposób badania liczbowego specjalnego typu zbiorowości.
Metody statystyczne stosowane są przy zbieraniu danych, ich opracowywaniu, analizie, wnioskowaniu i interpretacji wyników.
Metoda statystyczna obejmuje nie tylko sposoby postępowania, ale i również określone techniki badawcze.
Metody statystyczne
M e t o d y b a d a ńs t a t y s t y c z n y c h
Pełne - spis - rejestracja bieżąca - sprawozdawczość
C z c i o w eę ś - m e t o d r e p e r e z e n t a c y j ną ą - b a d a n i a m o n o g r a f i c z n e - b a d a n i a a n k i e t o w e
S z a c u n k i
Narzędzia prezentacji danych statystycznych Tablice statystyczne
Wykresy statystyczne, np.:- histogram- wykres skrzynkowy- wykres rozrzutu- piramida populacyjna
Opisy słowne (interpretacje i konkluzje)
Rodzaje miar statystycznych średnie
- wyznaczają przeciętna wartość cechy statystycznej miary zróżnicowania (lub zmienności, rozproszenia,
dyspersji)- wyznaczają siłę zróżnicowania wartości cechy statystycznej
miary asymetrii (skośności)- wyznaczają siłę skupienia wartości cechy statystycznej bliżej dolnej lub górnej granicy zbioru wartości
miary spłaszczenia (koncentracji)- wyznaczają siłę skupienia wartości cechy statystycznej wokół wartości przeciętnej
Kształt rozkładu normalnego Rozkład normalny jest rozkładem najczęściej występującym
w naturze, np. dla cech statystycznych takich jak:- wzrost człowieka- inteligencja mierzona testami
f(x)
a b x
Krzywa normalna jest rozkładem symetrycznym Pole powierzchni pod krzywą normalną pomiędzy
punktami a oraz b wyrażone w procentach, informuje nas jaki procent obserwacji zawiera się między a oraz b
Rodzaje średnichŚrednie klasyczne – skonstruowane jedynie dla skali
metrycznej:- arytmetyczna- geometryczna- harmoniczna- kwadratowa
Średnie pozycyjne:- wartość modalna (dla wszystkich typów skali)- wartość środkowa (skala porządkowa, metryczna)- kwartyle, percentyle, decyle (skala porządkowa, metryczna)
Średnie pozycyjne - Moda (dominanta)
Moda jest to wartość cechy statystycznej najliczniej reprezentowana w zbiorze obserwacji, czyli wartość występująca z największą częstością.
Moda musi być pojedynczą wartością. Jeśli w zbiorze obserwacji nie istnieje pojedyncza wartość cechy statystycznej występująca najczęściej, to moda nie istnieje w tej zbiorowości.
Średnie pozycyjne - Mediana (wartość środkowa)
Mediana jest to wartość cechy statystycznej, dzieląca zbiór obserwacji na 2 liczebnie równe części (zbiór obserwacji o wartościach mniejszych lub równych oraz zbiór obserwacji o wartościach większych lub równych od wartości mediany).
Średnie pozycyjne - Kwartyle
Kwartyl dzieli uporządkowany co do wartości zbiór obserwacji indywidualnych na 2 części (zbiór obserwacji o wartościach mniejszych oraz zbiór obserwacji o wartościach większych od kwartyla):- kwartyl pierwszy Q
1 (zwany również dolnym) dzieli
zbiór obserwacji w stosunku 25% : 75%- kwartyl trzeci Q
3 (zwany również górnym) dzieli
zbiór obserwacji w stosunku 75% : 25%W myśl tego rozumowania medianę można uznać
za kwartyl drugi Q2, gdyż dzieli zbiór obserwacji w
stosunku 50% : 50% („pół na pół”)
Miary zróżnicowania
miary zróżnicowania zwane również miarami zmienności, rozproszenia lub dyspersji pozwalają określić jakie jest zróżnicowanie wartości cechy statystycznej w zbiorze obserwacji
(jak mocno „rozproszone” są poszczególne obserwacje)
Reguła „trzech sigm”
Odchylenie standardowe interpretuje się zwykle w oparciu o własności rozkładu normalnego:w przedziale od średnia-3s do średnia+3s
zawiera się 99,73% obserwacji,w przedziale od średnia-2s do średnia+2s
zawiera się 95,45% obserwacji,w przedziale od średnia-s do średnia+s
zawiera się 68,28% obserwacji.
OZNACZENIAi
WZORY
Oznaczenia
}{ neee ,...,, 21
.
n-elementowa zbiorowość statystyczna
X, Y, Z cechy statystyczne
x, y, z wartości cech statystycznych
ix wartość, jaką przyjmuje cecha na i-tym elemencie zbiorowości
Oznaczenia
.
Zwykle rezygnuje się z bezpośredniego operowania przedziałami, gdyż jest to niewygodne. Zamiast przedziałami posługujemy się ich reprezentantami liczbowym – zwykle są to środki przedziałów
kx&
175 :(170,180] przedzialu tego-k dla np. =kx
Oznaczenia
.
W ten sam sposób oznacza się warianty cechy, co pozwala uzyskać pewną jednolitość oznaczeń i wzorów
kx&
Częstości względne
nnw k
k =
Częstości skumulowane
11 nns =
ksksk nnn += − 1
Częstości względne skumulowane
11 wws =
ksksk www += − 1
Średnia arytmetyczna
∑=
=
=ni
iixnx
1
1 oznacza i–tą obserwację ze zbioru obserwacji indywidualnych.ix
- Dla zbiorowości statystycznej (wartości cechy pogrupowane w przedziały:
- Dla małej zbiorowości statystycznej (bez konieczności grupowania danych w przedziały):
∑=
=
=Kk
kk
o
k xnnx1
1 k
ox
K oznacza ilość wariantów cechy statystycznej
oznacza k–ty wariant cechy lub środek k-tego przedziału.
Wyznaczanie mody – dla rozkładu ciągłego
( ) ( )
moda z przedzialu dlugosc moda z przedziale
po egonastepujac przedzialu liczebnosc moda z przedzial
acegopoprzedzaj przedzialu liczebnosc moda z przedzialu liczebnosc
moda z przedzialu granica dolna
1
1
11
1
−∆
−
−−−
−+−−∆+≈
+
−
+−
−
d
d
d
d
dddd
dddo
n
nnx
nnnnnnxM
Wyznaczanie mediany – dla rozkładu ciągłego
mediana z przedzialu dlugosc mediana z przedzialu liczebnosc
mediany przedzialacych poprzedzaj
wprzedzialo dla askumulowan liczebnosc
mediana z przedzialu granica dolna 2
1
1
1
1
1
−∆−
−
−
∆
−++≈
∑
∑
−
=
−
=
d
d
kk
d
d
d
kkde
n
n
xn
nnxM
PRZYKŁADYZADAŃ
ZADANIE 1
Wariant nk wk nsk wsk
BMW 2Fiat 12
Peugeot 7Skoda 12
Renault 8
RAZEM ------------ ------------
Losowo wybranych pracowników firmy ABC zapytano o markę ichsamochodu i otrzymano następujące wyniki, zestawione w tabeli roboczej
ZADANIE 1
.
● Uzupełnij brakujące wartości w tabeli roboczej, a więc oblicz następujące wielkości:- częstości względne,- liczebności skumulowane,- częstości względne skumulowane.
● Przedstaw daną zbiorowość graficznie na histogramie i wyznacz modę.
ZADANIE 2
.
● Pogrupuj następujące wartości cechy X (X-zarobki pracownicze w firmie ABC) w przedziały.
900, 1300, 1100, 900, 1100, 900, 1100, 900, 1000, 1200, 1000, 1200, 900, 1100
- Przedstaw zbiór przedziałów w tabeli roboczej.
- Oblicz średnią arytmetyczną danej cechy statystycznej w omawianej zbiorowości (korzystając z tabeli roboczej).
Moda – ZADANIE 3A
Przebadano zbiorowość osób pod kątem cechy statystycznej X – marka posiadanego samochodu:
Przypadek 1:Fiat, Toyota, Citroen, Toyota, Ford, Fiat, Peugeot, Fiat, Citroen, Peugeot, Peugeot, BMW, Toyota, Fiat
Przypadek 2:Citroen, Toyota, BMW, Toyota, Fiat, Peugeot, Citroen, Fiat, Citroen, Peugeot, Toyota
Wyznacz modę w tej zbiorowości.
Moda – ZADANIE 3B
Przebadano zbiorowość pracowników pod kątem cechy statystycznej X – wynagrodzenie i otrzymano następujące kategorie zarobków:[1000, 1200) – 5 osób ; [1200, 1400) – 3 osoby[1400, 1600) – 6 osób ; [1600, 1800] – 1 osoba
Wyznacz modę w tej zbiorowości.
Mediana – ZADANIE 4A
Przebadano zbiorowość pracowników pewnej firmy pod kątem cechy statystycznej X – wynagrodzenie:
Przypadek 1:1300, 1100, 1300, 1200, 1400
Przypadek 2:1000, 1200, 1500, 1100
Wyznacz medianę w tej zbiorowości.
Mediana – ZADANIE 4B
Przebadano zbiorowość pracowników pod kątem cechy statystycznej X – wynagrodzenie i otrzymano następujące kategorie zarobków:[1000, 1200) – 2 osoby ; [1200, 1400) – 5 osób[1400, 1600) – 8 osób ; [1600, 1800] – 3 osoby
Wyznacz medianę w tej zbiorowości.