Upload
others
View
22
Download
0
Embed Size (px)
Citation preview
Podstawy statystykiW2cd: Statystyka opisowa
dr Ewa Bakinowska
Instytut MatematykiPolitechnika Poznanska
9.03 i 16.03
E. Bakinowska Podstawy statystyki 9.03 i 16.03 1 / 24
Populacja i proba statystycznaPopulacja:
zbiorowosc wszystkich elementow stanowiacychpodmiot badania (populacja przedmiotowa)
zbior wszystkich mozliwych do zaobserwowaniawartosci cechy opisujacej badane zjawisko(populacja zdarzeniowa)
Proba – skonczony podzbior populacji dostepnybadaczowi i stanowiacy podstawe jego wnioskowania opopulacji statystycznej.
E. Bakinowska Podstawy statystyki 9.03 i 16.03 2 / 24
Typy danych (cech)
Dane jakosciowe – cechy niemierzalne, np. kolor oczu,rodzaj metody produkcji, ocena bolu, poziom zarobkow
Dane ilosciowe – cechy mierzalne:
dyskretne (skokowe) – gdy zbior wartosci jestskonczony lub przeliczalny (pomiaru takich cechdokonujemy na ogo l poprzez ”zliczanie”)
ciag le – gdy zbior wartosci jest nieprzeliczalny(pomiaru takich cech dokonujemy na ogo l poprzez”mierzenie”)
E. Bakinowska Podstawy statystyki 9.03 i 16.03 3 / 24
Prezentacja materia lu statystycznego
szereg pozycyjny lub szereg rozdzielczy punktowy
diagram punktowy lub odcinkowy (rozk lad czestosci)
szereg rozdzielczy przedzia lowy – zbior przedzia low klasowychwraz z odpowiadajacymi im liczebnosciami zaobserwowanejcechy ilosciowej
histogram czestosci (czestosci skumulowanej) – ilustruje onpostac rozk ladu czestosci
histogram liczebnosci (liczebnosci skumulowanej) – ilustruje onpostac rozk ladu liczebnosci
lamane, wieloboki, krzywe (czestosci, liczebnosci)
wykresy ko lowe liczebnosci
E. Bakinowska Podstawy statystyki 9.03 i 16.03 4 / 24
Prezentacja materia lu statystycznego
Przykład 1A
Badano średnie zużycie energii 12 tramwajów podczas eksploatacji.
Uzyskano następujące wyniki w kWh/km
(kilowatogodziny na kilometr):
5.0 2.0 3.0 5.0 4.5 3.0 3.0 4.0 4.5 5.0 3.0 5.5
Wyznacz:
szereg pozycyjny, szereg rozdzielczy punktowy, diagram punktowy,
diagram słupkowy liczebności oraz wykres kołowy.
E. Bakinowska Podstawy statystyki 9.03 i 16.03 5 / 24
Prezentacja materia lu statystycznego
E. Bakinowska Podstawy statystyki 9.03 i 16.03 6 / 24
Przyk lad 2 - szereg rozdzielczy
Przykład 2
Badano średnie zużycie energii 80 tramwajów podczas eksploatacji.
Uzyskano następujące wyniki w kWh/km (kilowatogodziny na kilometr)
3.4 3.4 3.4 3.4 3.4 3.8 3.8 3.8 3.8 3.8
4.5 4.5 4.5 4.5 4.5 4.8 4.8 4.8 4.8 4.8
4.8 5 5 5 5 5 5 5.2 5.3 5.4
3.8 3.8 4 4 4 4 4 4 4 4
4 4 4 4 4 4.3 4.3 4.3 4.3 4.3
4.3 4.3 4.3 4.3 4.3 4.3 4.3 4.3 4.3 4.3
4.3 4.3 4.3 4.5 4.5 4.5 4.5 4.5 4.5 4.5
2.6 2.8 2.8 3 3 3 3.1 3.1 3.2 3.3
E. Bakinowska Podstawy statystyki 9.03 i 16.03 7 / 24
Konstrukcja szeregu rozdzielczego
Zasady ogolne
roz lacznosc klas
niepuste klasy
klasy obejmuja wszystkie jednostki badanejzbiorowosci
Liczba klas k (n - liczba obserwacji):
k ≈√
n,√
n2 ≤ k ≤
√n, k ≤ 5logn, k ≈ 1+3,322logn
Rozpietosc klas h:h = d(xmax− xmin)/ke
E. Bakinowska Podstawy statystyki 9.03 i 16.03 8 / 24
Przyk lad 2 cd
E. Bakinowska Podstawy statystyki 9.03 i 16.03 9 / 24
Charakterystyki liczboweNiech x1,x2, . . . ,xn oznacza n-elementowa probestatystyczna (zbior danych), tzn. zbior tych wartoscicechy X, ktore dostepne sa do wnioskowania.
Nich x(1),x(2), . . . ,x(n) - uporzadkowany niemalejaco zbiordanych (szereg pozycyjny).
Miary:
po lozenia
zmiennosci (rozproszenia, rozrzutu, zroznicownia)
asymetrii (skosnosci)
koncentracji i skupienia
E. Bakinowska Podstawy statystyki 9.03 i 16.03 10 / 24
Miary po lozenia - srednia
Dla szeregu szczego lowego: x =1n
n
∑i=1
xi
Dla szeregu rozdzielczego punktowego: x =1n
k
∑i=1
xini
Dla szeregu rozdzielczego przedzia lowego: x =1n
k
∑i=1
mini,
(ni – liczebnosc i−tej klasy)(mi – srodek i−tego przedzia lu klasowego)
E. Bakinowska Podstawy statystyki 9.03 i 16.03 11 / 24
Miary po lozenia: moda (dominanta)
Dla szeregu szczego lowego lub rozdzielczego punktowegomoda czyli dominanta to wartosc wystepujacanajczesciej
E. Bakinowska Podstawy statystyki 9.03 i 16.03 12 / 24
Miary po lozenia - kwartyle
W szeregu pozycyjnym:
Mediana, oznaczenia: Me = xme = Q2 to wartoscsrodkowa (gdy nieparzysta liczba obserwacji) lub sredniaz dwoch srodkowych (gdy parzysta liczba obserwacji).
Kwartyl dolny - pierwszy Q1 – mediana obseracji odpierwszej obserwacji do mediany w lacznie (o ile medianajest obserwacja).
Kwartyl gorny - trzeci Q3 – mediana obseracji odmediany w lacznie (o ile mediana jest obserwacja) doostatniej obserwacji.
E. Bakinowska Podstawy statystyki 9.03 i 16.03 13 / 24
Miary rozproszenia
Wariancja z proby (wariancja probkowa):
s2 =1
n−1
n
∑i=1
(xi− x)2
lub (wzor latwiejszy dla obliczen):
s2 =1
n−1
(n
∑i=1
x2i −nx2
)
Odchylenie standardowe probkowe: s =√
s2
E. Bakinowska Podstawy statystyki 9.03 i 16.03 14 / 24
Miary rozproszenia
lub dla danych pogrupowanych
s2 =1
n−1
k
∑i=1
(mi− x)2ni =1
n−1
(k
∑i=1
m2i ni−nx2
)
Poprawka Shepparda (gdy k jest nieduze w stosunku do h):
s2pop =
n−1n
s2− 112
h2
E. Bakinowska Podstawy statystyki 9.03 i 16.03 15 / 24
Miary rozproszeniaRozstep (probkowy):
R = x(n)− x(1) = x(max)− x(min)
Rozstep cwiartkowy (probkowy):
RQ = Q3−Q1
Wspo lczynnik zmiennosci:
v =sx·100%
0 – 20% – s labe zroznicowanie cechy20 – 40% – umiarkowane zroznicowanie cechy40 – 60% – silne zroznicowanie cechypowyzej 60% – bardzo silne zroznicowanie cechy
E. Bakinowska Podstawy statystyki 9.03 i 16.03 16 / 24
Interpretacja graficznaWykres pude lkowy (wykres ramka-wasy, ang. box-plot) – pozwalaujac na jednym rysunku miary po lozenia, rozproszenia i kszta lturozk ladu empirycznego badanej cechy.
Wykres tworzymy odk ladajac na osi poziomej:
xmin, Q1, xme, Q3, xmax.
Nad osia umieszczony jest prostokat (pude lko), ktorego lewy bok
jest wyznaczony przez Q1, a prawy przez Q3. Szerokosc pude lka
odpowiada wowczas wartosci rozstepu cwiartkowego RQ. Wewnatrz
prostokata znajduje sie pionowa linia okreslajaca wartosc mediany
xme. Rysunek pude lka uzupe lniany jest po prawej i lewej stronie
odcinkami zwanymi wasami, przy czym konce odcinkow wyznaczaja
odpowiednio xmin i xmax.E. Bakinowska Podstawy statystyki 9.03 i 16.03 17 / 24
Przyk lad 1B
Przykład 1B
Badano średnie zużycie energii 12 tramwajów podczas eksploatacji.
Uzyskano następujące wyniki w kWh/km
(kilowatogodziny na kilometr):
5.0, 2.0, 2.9, 5.0, 4.5, 2.2, 3.1, 4.0, 4.5, 5.0, 3.2, 5.5
Wyznacz:
miary położenia, miary rozproszenia oraz wykonaj wykres pudełkowy
(box-plot) do podanych danych.
E. Bakinowska Podstawy statystyki 9.03 i 16.03 18 / 24
Dane dwuwymiarowe
Niech (x1,y1),(x2,y2), . . . ,(xn,yn) oznacza n-elementowapobe statystyczna – zbior tych wartosci cech (X,Y),ktore dostepne sa do wnioskowania.
Kowariancja probkowa:
sxy =∑
ni=1(xi− x) · (yi− y)
n−1=
∑ni=1(xi · yi)−n · x · y
n−1
E. Bakinowska Podstawy statystyki 9.03 i 16.03 19 / 24
Dane dwuwymiarowe
Wspo lczynnik korelacji liniowej probkowy:
r = rxy =sxy
sx · sy
gdzie:
sxy - kowariancja
sx,sy - odchylenia standardowe X i Y odpowiednio
E. Bakinowska Podstawy statystyki 9.03 i 16.03 20 / 24
Dane dwuwymiarowe
Wartosc bezwzgledna wspo lczynnika korelacji informuje osile zwiazku liniowego:
0 – brak zwiazku liniowego
0 – 0.2 – bardzo s laby zwiazek liniowy
0.2 – 0.4 – s laby zwiazek liniowy
0.4 – 0.6 – umiarkowany zwiazek liniowy
0.6 – 0.8 – silny zwiazek liniowy
0.8 – 1 – bardzo silny zwiazek liniowy
1 – zwiazek liniowy (zaleznosc funkcyjna)
E. Bakinowska Podstawy statystyki 9.03 i 16.03 21 / 24
Dane dwuwymiarowe
E. Bakinowska Podstawy statystyki 9.03 i 16.03 22 / 24
Zadanie 2.9
29.pdf
Zadanie 2.9.
a) Wczytaj plik csv o nazwie Czas_Metody jako „dane”
b) Zapisz dane jako macierz M. Nazwij kolejne kolumny macierzy jak w pliku csv.
c) Napisz wzory i oznaczenia dla: średniej z próby, wariancji z próby oraz odchylenia
standardowego z próby.
Następnie oblicz średnią z próby, wariancję z próby oraz odchylenie standardowe z
próby dla zmiennej B.
d) Wyznacz kwartyl dolny, medianę i kwartyl górny z próby dla zmiennej C.
e) Wyznacz macierz kowariancji K
f) Wyznacz kowariancję z próby między B i C
g) Wyznacz macierz korelacyjną R
h) Zapisz wzór, oblicz i zinterpretuj współczynnik korelacji liniowej z próby między
zmiennymi A i C.
i) Narysuj wykresy pudełkowe (boxploty) dla zmiennych A, B i C.
j) Wczytaj plik tekstowy o nazwie Czas_Metody jako „dane1” z nagłówkiem
k) Zapisz dane1 jako macierz M1
l) Dokonaj transpozycji macierzy M1 i zapisz jako macierz T
m) Zapisz macierz T w pliku tekstowym o nazwie „Macierz”, oraz w pliku csv o nazwie
„Macierz”
E. Bakinowska Podstawy statystyki 9.03 i 16.03 23 / 24
Zadanie 2.10
210.pdf
Zadanie 2.10. Wyznacz wykres pudełkowy (boxplot) dla danych:
a) 2.0 , 2.2 , 2.9, 3.1, 3.2, 4.0, 4.5, 4.5, 5.0 , 5.0 , 5.0, 5.5
b) 6 , 7 , 8, 10, 12, 16, 20
c) 6 , 7 , 10, 16, 20
d) 2, 2, 2, 6, 7, 8, 10
e) 3, 8, 8, 3, 7, 8, 3
E. Bakinowska Podstawy statystyki 9.03 i 16.03 24 / 24