Upload
dangtruc
View
213
Download
0
Embed Size (px)
Citation preview
StatystykaWykład 1
Magdalena Alama-Bucko
26 lutego 2018
Magdalena Alama-Bucko Statystyka 26 lutego 2018 1 / 34
Wykład : 30hLaboratoria : 30h
egzamin w sesji letniej (po uprzednim zaliczeniu cwiczen)
kontakt mailowy: [email protected]
konsultacje odbywac beda sie w poniedziałki:7:30-8:30 aula 1B, AN, (na Kaliskiego)11:00-11:30 s.111, WZ, (przed wykładem)
wszystkie wykłady i materiały beda umieszczane na stronie:
matfiz.utp.edu.pl/m-alama-bucko/
alboimif.utp.edu.pl/m-alama-bucko/
Magdalena Alama-Bucko Statystyka 26 lutego 2018 2 / 34
Tematyka zajec:
Wprowadzenie do statystyki.Analiza struktury zbiorowosci
miary połozeniamiary zmiennoscimiary asymetriimiary koncentracji.
Analiza współzaleznosci zjawisk.Analiza dynamiki zjawisk.
Magdalena Alama-Bucko Statystyka 26 lutego 2018 3 / 34
Literatura
Amir D. Aczel, Statystyka w zarzadzaniu WydawnictwoNaukowe PWN 2007Janina Józwiak, Jarosław Podgórski, Statystyka od podstawWydawnictwo: PWE Wydanie VI zmienione 2006Jerzy Gren, Statystyka matematyczna modele i zadania,PWN 1980Podgórski J., Statystyka dla studiów licencjackich,Warszawa 2001Roszkiewicz M., Statystyka: kurs podstawowy, Warszawa2002Sobczyk M., Statystyka, Warszawa 2000Pułaska-Turyna B., Statystyka dla ekonomistów, Warszawa2005
Magdalena Alama-Bucko Statystyka 26 lutego 2018 4 / 34
Statystyka jest nauka zajmujaca sie zbieraniem danychopisujacych zjawiska masowe (tzn. zjawiska o duzej liczebnosciobserwacji) i wydobywaniem informacji zawartej w tych danych.
Statystyke mozna podzielic na dwie czesci:statystyke opisowa,statystyke matematyczna
Statystyka opisowa zajmuje sie opracowaniem zebranychinformacji (danych) posługujac sie głównie metodamiopisowymi.
Statystyka matematyczna: zajmuje sie teoria, opisem i analizazjawisk masowych (zjawisk o duzej liczebnosci) głównie przyuzyciu metod matematycznych, a szczególnie rachunkuprawdopodobienstwa.
W ramach niniejszego wykładu bedziemy zajmowac sieStatystyka opisowa.
Magdalena Alama-Bucko Statystyka 26 lutego 2018 5 / 34
Podstawowe pojecia eksperymentu
zbiorowosc statystycznajednostka statystycznacecha statystyczna
Magdalena Alama-Bucko Statystyka 26 lutego 2018 6 / 34
Podstawowe pojecia eksperymentu: zbiorowosc
zbiorowosc statystyczna (populacja generalna): zbiórelementów okreslony co do przestrzeni oraz czasu,podlegajacych badaniu lub obserwacji
jednostki te maja co najmniej jedna ceche wspólna i conajmniej jedna ceche rózniaca
np. studenci pewnej uczelni, studenci pewnego rocznika,produkty wyprodukowane/sprzedane w danym roku itp.
Magdalena Alama-Bucko Statystyka 26 lutego 2018 7 / 34
Podstawowe pojecia eksperymentu: jednostka
jednostka statystyczna: najmniejszy element podlegajacyobserwacji lub badaniu,
np. student, produkt itp.
Magdalena Alama-Bucko Statystyka 26 lutego 2018 8 / 34
Podstawowe pojecia eksperymentu: cecha
cecha statystyczna: własciwosc ze wzgledu na któraprowadzi sie badanie;
np. wzrost, waga, kolor oczu, czas do pierwszego popsucia,liczba sprzedanych produktów...
Magdalena Alama-Bucko Statystyka 26 lutego 2018 9 / 34
Cechy statystyczne dziela sie na:
ilosciowe (liczbowe)
np. ilosc , liczba , czas, długosc
jakosciowe (werbalne)
Magdalena Alama-Bucko Statystyka 26 lutego 2018 10 / 34
Cechy statystyczne ilosciowe czyli mierzalne (przedstawianeza pomoca liczb) dzielimy na:
skokowe (inaczej dyskretne) (przyjmuja wartosci zpewnego okreslonego zbioru mozliwych wartosci,najczesciej całkowitych; od jednej do drugiej wartoscinastepuje pewien skok)
np. liczba dzieci w rodzinie, liczba samochodów w firmie,cena towaru itp.
ciagłe (przyjmuja wartosci rzeczywiste z pewnegoprzedziału)
np. wzrost dorosłej kobiety, temperatura powietrza, kosztystałe itp.
quasi (niby) ciagłe (cecha skokowa, która przyjmuje bardzoduza liczbe wariantów i dlatego traktujemy ja jak cecheciagła), np. cena towaru
Magdalena Alama-Bucko Statystyka 26 lutego 2018 11 / 34
Cechy statystyczne jakosciowe czyli niemierzalne -przedstawiane sa za pomoca opisu werbalnego.
np. płec, wykształcenie, kolor oczu, marka samochodu,miejsce zamieszkania,...
Magdalena Alama-Bucko Statystyka 26 lutego 2018 12 / 34
Ze wzgledu na porównywanie wartosci cech miedzy sobawyróznia sie cztery skale pomiarowe cech statystycznych:
nominalna
porzadkowa
przedziałowa
stosunkowa
Magdalena Alama-Bucko Statystyka 26 lutego 2018 13 / 34
Cecha nominalna
jestesmy w stanie stwierdzic czy dwie wartosci sa takiesame czy róznia sie od siebie
nie mozna wartosci uporzadkowac
nie mozna stwierdzic ze jedna wartosc jestwieksza/mniejsza (o ile) od innej wartosci
np. płec, kolor oczu, kolor włosów,
Magdalena Alama-Bucko Statystyka 26 lutego 2018 14 / 34
Cecha porzadkowa
mozna uporzadkowac wartosci cechy
potrafimy stwierdzic, czy dwie wartosci sa takie same czyróznia sie od siebie
mozna stwierdzic, ze jedna wartosc jest mniejsza badzrówna (wieksza badz równa) od innej wartosci
nie mozna stwierdzic o ile jedna wartosc jestwieksza/mniejsza (o ile) od innej wartosci
np. wykształcenie
Magdalena Alama-Bucko Statystyka 26 lutego 2018 15 / 34
Cecha przedziałowa
mozna uporzadkowac wartosci cechy
mozna stwierdzic o ile jedna wartosc jest mniejsza badzrówna (wieksza badz równa) od innej wartosci
nie zawsze mozna stwierdzic ile razy jedna wartosc jestwieksza/mniejsza od innej wartosci (gdy np. w punkcieodniesienia jest temperatura 0 stopni)
np. pomiar temperatury
Magdalena Alama-Bucko Statystyka 26 lutego 2018 16 / 34
Cecha stosunkowa
mozna uporzadkowac wartosci cechy
mozna stwierdzic o ile jedna wartosc jest mniejsza badzrówna (wieksza badz równa) od innej wartosci
mozna stwierdzac, ile razy jedna wartosc jestwieksza/mniejsza od innej wartosci
długosc, masa, liczebnosc zbiorów
np. liczba mieszkanców
Magdalena Alama-Bucko Statystyka 26 lutego 2018 17 / 34
Rodzaje badan statystycznych
Analizowane przez nas dane sa wynikiem przeprowadzonychbadan statystycznych.
Wyrózniamy trzy metody badan:
badania pełnebadania niepełnebadania szacunkowe
Magdalena Alama-Bucko Statystyka 26 lutego 2018 18 / 34
badania pełne
trzeba przebadac cała populacje
bardzo kosztowne albo wrecz niemozliwe (bo cała badanapopulacja mogłaby zostac zniszczona podczas badania)
Narodowy spis ludnosci, Spis rolny
rejestracja biezaca prowadzona przez główne urzedy, np.USC (urodzenia, zgony, małzenstwa, rozwody)
Magdalena Alama-Bucko Statystyka 26 lutego 2018 19 / 34
badania niepełne (inaczej czesciowe)
badanie tylko czesci populacji
– ankiety
– dokładne przebadanie okreslonej "grupy" badanychobiektów
– badania reprezentacyjne (próba reprezentatywna stanowimini-obraz całej populacji)
GUS - Główny Urzad StatystycznyCBOS - Centrum Badan Opini Społecznej
Magdalena Alama-Bucko Statystyka 26 lutego 2018 20 / 34
badania szacunkowe
czasami mozemy wartosc pewnej cechy oszacowac napodstawie innych cech
(np. ilosc czasu spedzanego w kinie przez klientów moznaokreslic za pomoca liczby sprzedanych biletów )
Magdalena Alama-Bucko Statystyka 26 lutego 2018 21 / 34
Po przeprowadzeniu badan statystycznych, a zatem uzyskaniudanych, mozna przeprowadzic nastepujace analizy:
Analiza struktury zbiorowosci (badania poszczególnychcech)
miary połozeniamiary zmiennoscimiary asymetriimiary koncentracji.
Analiza współzaleznosci zjawisk. (badanie czy wystepujezaleznosc pomiedzy kilkoma cechami)
Analiza dynamiki zjawisk. (badanie jak zmienia sie wartosczjawiska w czasie)
Magdalena Alama-Bucko Statystyka 26 lutego 2018 22 / 34
W wyniku przeprowadzenia doswiadczenia otrzymujemypewien wynik zwany próbka.
Próba losowa (próbka) ma postac
x1, x2, ..., xn
Za pomoca tej próby chcemy wyciagnac wnioski dotyczacecałej populacji.
Jezeli próba była wybrana w sposób reprezentatywny - napodstawie tej próby mozna wyciagac wnioski dotyczacecałej populacji.
Próba uwazana jest za próbe reprezentatywna wtedy i tylkowtedy jesli została wybrana w sposób losowy i jestdostatecznie liczna.
Magdalena Alama-Bucko Statystyka 26 lutego 2018 23 / 34
Przykład Studenci 1 roku FIR 2017/2018 UTP moga byc badanize wzgledu na:
wiek - cecha ilosciowa, 19,20,...płec - cecha jakosciowa , K,Mwzrost - cecha ilosciowa (ciagła)kolor oczu - cecha jakosciowa, niebieskie, piwne, zielone,itp.ilosc rodzenstwa - cecha ilosciowa (skokowa), 0, 1, 2,...
Magdalena Alama-Bucko Statystyka 26 lutego 2018 24 / 34
Prezentacja danych
Załózmy, ze mamy dane podane nastepujaco
{x1, x2, ...., xn},
czyli w postaci pewnego ciagu liczb.
n zazwyczaj jest duze (nawet bardzo duze !!!)
Pytanie Jak mozna te dane zapisac w bardziej przystepnysposób?
dane mozna zapisac w postaci szeregów statystycznych
Magdalena Alama-Bucko Statystyka 26 lutego 2018 25 / 34
Szereg szczegółowy (albo prosty)to uporzadkowany rosnaco ciag wartosci badanej cechy,czyli próbe (x1, x2, ..., xn) porzadkujemy od najmniejszej donajwiekszej i otrzymujemy
(x(1), x(2), ..., x(n))
czyli x(1) 6 x(2) 6 ... 6 x(n)
x(j) to wartosc na j−tej pozycji w takim uporzadkowanymciagu liczb
x(1) to wartosc najmniejszax(n) - wartosc najwieksza
Przykład Jesli próba podstawowa ma postac
(1,3,2,1,1,2,5),
to po uporzadkowaniu otrzymujemy:
(1,1,1,2,2,3,5).
Magdalena Alama-Bucko Statystyka 26 lutego 2018 26 / 34
Szereg rozdzielczy punktowy
Jezeli po uporzadkowaniu obserwacji wiele z nich siepowtarza (i w rezultacie w ciagu n obserwacji mamy Nróznych wartosci), to dane te mozna zapisac w postacizbiorczej tabeli.
dla kazdej z wystepujacych wartosci xj zliczamy ilosc jejwystapien nj i zapisujemy
xj nj
x1 n1
x2 n2
... ...xN nN
oczywiscie n1 + n2 + ...+ nN = n
Magdalena Alama-Bucko Statystyka 26 lutego 2018 27 / 34
Przykład Uporzadkowana próba: (1,1,1,2,2,3,5) moze byczapisana w postaci tabeli:
xj nj
1 32 23 15 1
W przypadku duzej liczby obserwacji i niewielkiej liczbykategorii szereg rozdzielczy punktowy jest bardzoprzejrzystym przedstawieniem danych.
Szereg rozdzielczy punktowy zawiera w sobie te samainformacje co szereg szczegółowy.
Magdalena Alama-Bucko Statystyka 26 lutego 2018 28 / 34
Przykład Zapytano 1000 studentów pewnej uczelni o liczbeposiadanego rodzenstwa. 350 osób nie ma wcale rodzenstwa,330 - ma 1 , 209 - 2 , 100 - 3, 10-4 a 1 badany ma 6 rodzenstwa.
Szereg rozdzielczy punktowy dla takiej próby ma postac:
xj nj
0 3501 3302 2093 1004 106 1
Magdalena Alama-Bucko Statystyka 26 lutego 2018 29 / 34
W przypadku duzej liczby obserwacji i dosc duzej liczbykategorii szereg rozdzielczy punktowy nie jest "przejrzysty".
Przykład: 1000 obserwacji ale az 150 kategorii.
Wówczas nalezy połaczyc w grupy kilka kategorii, byotrzymac ich mniej.
Magdalena Alama-Bucko Statystyka 26 lutego 2018 30 / 34
Szereg rozdzielczy przedziałowyStosowany w przypadku dosc duzej liczby kategorii albogdy cecha jest ciagła.
Wyznacza sie liczbe klas, a nastepnie zlicza liczbeobserwacji nalezacych do danej klasy (przedziału).
rozstep z próby : R = xmax − xmin
w literaturze jest wiele propozycji wyznaczania liczby klas ki postaci przedziału poczatkowegoliczba klas: (zalezy od liczby obserwacji)
k ∼=√
n
długosc pojedynczej klasy: l =Rk
przedział nj
[xmin, xmin + l ] n1
(xmin + l , xmin + 2l ] n2
... ...(xmax − l , xmax ] nk
Magdalena Alama-Bucko Statystyka 26 lutego 2018 31 / 34
Przykład W celu scharakteryzowania rozkładu wysokosci drzewpewnego drzewostanu dokonano pomiaru 69 drzew, uzyskujacnastepujace wyniki w metrach. (tutaj juz dane uporzadkowane)
4.12 4.25 4.36 4.45 4.50 4.53 4.68 4.70 4.79 4.824.90 4.93 5.03 5.06 5.18 5.21 5.29 5.35 5.36 5.405.41 5.43 5.49 5.50 5.53 5.59 5.60 5.64 5.70 5.725.75 5.76 5.80 5.81 5.89 5.90 5.90 5.92 5.93 6.006.05 6.18 6.20 6.25 6.27 6.30 6.35 6.42 6.45 6.496.50 6.55 6.60 6.61 6.75 6.78 6.81 6.85 6.91 7.007.05 7.21 7.24 7.30 7.35 7.36 7.41 7.46 7.50
xmin = 4.12, xmax = 7.50 , R = 3.38√
69 = 8.3 zatem przyjmujemy k = 8
rozpietosc pojedynczej klasy: l =Rk
=3.38
8= 0.43
Magdalena Alama-Bucko Statystyka 26 lutego 2018 32 / 34
przedział nj
[4.12,4.12 + 0.43] = [4.12,4.55] 6(4.55,4.55 + 0.43] = (4.55,4.98] 6(4.98,4.98 + 0.43] = (4.98,5.41] 9(5.41,5.41 + 0.43] = (5.41,5.84] 13(5.84,5.84 + 0.43] = (5.84,6.27] 11(6.27,6.27 + 0.43] = (6.27,6.7] 9(6.7,6.7 + 0.43] = (6.7,7.13] 7
(7.13,7.13 + 0.43] = (7.13,7.56] 8n =69
4.12 4.25 4.36 4.45 4.50 4.53 4.68 4.70 4.79 4.824.90 4.93 5.03 5.06 5.18 5.21 5.29 5.35 5.36 5.405.41 5.43 5.49 5.50 5.53 5.59 5.60 5.64 5.70 5.725.75 5.76 5.80 5.81 5.89 5.90 5.90 5.92 5.93 6.006.05 6.18 6.20 6.25 6.27 6.30 6.35 6.42 6.45 6.496.50 6.55 6.60 6.61 6.75 6.78 6.81 6.85 6.91 7.007.05 7.21 7.24 7.30 7.35 7.36 7.41 7.46 7.50
Magdalena Alama-Bucko Statystyka 26 lutego 2018 33 / 34