24
Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Pozna´ nska 9.03 i 16.03 E. Bakinowska Podstawy statystyki 9.03 i 16.03 1 / 24

Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

  • Upload
    others

  • View
    22

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Podstawy statystykiW2cd: Statystyka opisowa

dr Ewa Bakinowska

Instytut MatematykiPolitechnika Poznanska

9.03 i 16.03

E. Bakinowska Podstawy statystyki 9.03 i 16.03 1 / 24

Page 2: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Populacja i proba statystycznaPopulacja:

zbiorowosc wszystkich elementow stanowiacychpodmiot badania (populacja przedmiotowa)

zbior wszystkich mozliwych do zaobserwowaniawartosci cechy opisujacej badane zjawisko(populacja zdarzeniowa)

Proba – skonczony podzbior populacji dostepnybadaczowi i stanowiacy podstawe jego wnioskowania opopulacji statystycznej.

E. Bakinowska Podstawy statystyki 9.03 i 16.03 2 / 24

Page 3: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Typy danych (cech)

Dane jakosciowe – cechy niemierzalne, np. kolor oczu,rodzaj metody produkcji, ocena bolu, poziom zarobkow

Dane ilosciowe – cechy mierzalne:

dyskretne (skokowe) – gdy zbior wartosci jestskonczony lub przeliczalny (pomiaru takich cechdokonujemy na ogo l poprzez ”zliczanie”)

ciag le – gdy zbior wartosci jest nieprzeliczalny(pomiaru takich cech dokonujemy na ogo l poprzez”mierzenie”)

E. Bakinowska Podstawy statystyki 9.03 i 16.03 3 / 24

Page 4: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Prezentacja materia lu statystycznego

szereg pozycyjny lub szereg rozdzielczy punktowy

diagram punktowy lub odcinkowy (rozk lad czestosci)

szereg rozdzielczy przedzia lowy – zbior przedzia low klasowychwraz z odpowiadajacymi im liczebnosciami zaobserwowanejcechy ilosciowej

histogram czestosci (czestosci skumulowanej) – ilustruje onpostac rozk ladu czestosci

histogram liczebnosci (liczebnosci skumulowanej) – ilustruje onpostac rozk ladu liczebnosci

lamane, wieloboki, krzywe (czestosci, liczebnosci)

wykresy ko lowe liczebnosci

E. Bakinowska Podstawy statystyki 9.03 i 16.03 4 / 24

Page 5: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Prezentacja materia lu statystycznego

Przykład 1A

Badano średnie zużycie energii 12 tramwajów podczas eksploatacji.

Uzyskano następujące wyniki w kWh/km

(kilowatogodziny na kilometr):

5.0 2.0 3.0 5.0 4.5 3.0 3.0 4.0 4.5 5.0 3.0 5.5

Wyznacz:

szereg pozycyjny, szereg rozdzielczy punktowy, diagram punktowy,

diagram słupkowy liczebności oraz wykres kołowy.

E. Bakinowska Podstawy statystyki 9.03 i 16.03 5 / 24

Page 6: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Prezentacja materia lu statystycznego

E. Bakinowska Podstawy statystyki 9.03 i 16.03 6 / 24

Page 7: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Przyk lad 2 - szereg rozdzielczy

Przykład 2

Badano średnie zużycie energii 80 tramwajów podczas eksploatacji.

Uzyskano następujące wyniki w kWh/km (kilowatogodziny na kilometr)

3.4 3.4 3.4 3.4 3.4 3.8 3.8 3.8 3.8 3.8

4.5 4.5 4.5 4.5 4.5 4.8 4.8 4.8 4.8 4.8

4.8 5 5 5 5 5 5 5.2 5.3 5.4

3.8 3.8 4 4 4 4 4 4 4 4

4 4 4 4 4 4.3 4.3 4.3 4.3 4.3

4.3 4.3 4.3 4.3 4.3 4.3 4.3 4.3 4.3 4.3

4.3 4.3 4.3 4.5 4.5 4.5 4.5 4.5 4.5 4.5

2.6 2.8 2.8 3 3 3 3.1 3.1 3.2 3.3

E. Bakinowska Podstawy statystyki 9.03 i 16.03 7 / 24

Page 8: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Konstrukcja szeregu rozdzielczego

Zasady ogolne

roz lacznosc klas

niepuste klasy

klasy obejmuja wszystkie jednostki badanejzbiorowosci

Liczba klas k (n - liczba obserwacji):

k ≈√

n,√

n2 ≤ k ≤

√n, k ≤ 5logn, k ≈ 1+3,322logn

Rozpietosc klas h:h = d(xmax− xmin)/ke

E. Bakinowska Podstawy statystyki 9.03 i 16.03 8 / 24

Page 9: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Przyk lad 2 cd

E. Bakinowska Podstawy statystyki 9.03 i 16.03 9 / 24

Page 10: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Charakterystyki liczboweNiech x1,x2, . . . ,xn oznacza n-elementowa probestatystyczna (zbior danych), tzn. zbior tych wartoscicechy X, ktore dostepne sa do wnioskowania.

Nich x(1),x(2), . . . ,x(n) - uporzadkowany niemalejaco zbiordanych (szereg pozycyjny).

Miary:

po lozenia

zmiennosci (rozproszenia, rozrzutu, zroznicownia)

asymetrii (skosnosci)

koncentracji i skupienia

E. Bakinowska Podstawy statystyki 9.03 i 16.03 10 / 24

Page 11: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Miary po lozenia - srednia

Dla szeregu szczego lowego: x =1n

n

∑i=1

xi

Dla szeregu rozdzielczego punktowego: x =1n

k

∑i=1

xini

Dla szeregu rozdzielczego przedzia lowego: x =1n

k

∑i=1

mini,

(ni – liczebnosc i−tej klasy)(mi – srodek i−tego przedzia lu klasowego)

E. Bakinowska Podstawy statystyki 9.03 i 16.03 11 / 24

Page 12: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Miary po lozenia: moda (dominanta)

Dla szeregu szczego lowego lub rozdzielczego punktowegomoda czyli dominanta to wartosc wystepujacanajczesciej

E. Bakinowska Podstawy statystyki 9.03 i 16.03 12 / 24

Page 13: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Miary po lozenia - kwartyle

W szeregu pozycyjnym:

Mediana, oznaczenia: Me = xme = Q2 to wartoscsrodkowa (gdy nieparzysta liczba obserwacji) lub sredniaz dwoch srodkowych (gdy parzysta liczba obserwacji).

Kwartyl dolny - pierwszy Q1 – mediana obseracji odpierwszej obserwacji do mediany w lacznie (o ile medianajest obserwacja).

Kwartyl gorny - trzeci Q3 – mediana obseracji odmediany w lacznie (o ile mediana jest obserwacja) doostatniej obserwacji.

E. Bakinowska Podstawy statystyki 9.03 i 16.03 13 / 24

Page 14: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Miary rozproszenia

Wariancja z proby (wariancja probkowa):

s2 =1

n−1

n

∑i=1

(xi− x)2

lub (wzor latwiejszy dla obliczen):

s2 =1

n−1

(n

∑i=1

x2i −nx2

)

Odchylenie standardowe probkowe: s =√

s2

E. Bakinowska Podstawy statystyki 9.03 i 16.03 14 / 24

Page 15: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Miary rozproszenia

lub dla danych pogrupowanych

s2 =1

n−1

k

∑i=1

(mi− x)2ni =1

n−1

(k

∑i=1

m2i ni−nx2

)

Poprawka Shepparda (gdy k jest nieduze w stosunku do h):

s2pop =

n−1n

s2− 112

h2

E. Bakinowska Podstawy statystyki 9.03 i 16.03 15 / 24

Page 16: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Miary rozproszeniaRozstep (probkowy):

R = x(n)− x(1) = x(max)− x(min)

Rozstep cwiartkowy (probkowy):

RQ = Q3−Q1

Wspo lczynnik zmiennosci:

v =sx·100%

0 – 20% – s labe zroznicowanie cechy20 – 40% – umiarkowane zroznicowanie cechy40 – 60% – silne zroznicowanie cechypowyzej 60% – bardzo silne zroznicowanie cechy

E. Bakinowska Podstawy statystyki 9.03 i 16.03 16 / 24

Page 17: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Interpretacja graficznaWykres pude lkowy (wykres ramka-wasy, ang. box-plot) – pozwalaujac na jednym rysunku miary po lozenia, rozproszenia i kszta lturozk ladu empirycznego badanej cechy.

Wykres tworzymy odk ladajac na osi poziomej:

xmin, Q1, xme, Q3, xmax.

Nad osia umieszczony jest prostokat (pude lko), ktorego lewy bok

jest wyznaczony przez Q1, a prawy przez Q3. Szerokosc pude lka

odpowiada wowczas wartosci rozstepu cwiartkowego RQ. Wewnatrz

prostokata znajduje sie pionowa linia okreslajaca wartosc mediany

xme. Rysunek pude lka uzupe lniany jest po prawej i lewej stronie

odcinkami zwanymi wasami, przy czym konce odcinkow wyznaczaja

odpowiednio xmin i xmax.E. Bakinowska Podstawy statystyki 9.03 i 16.03 17 / 24

Page 18: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Przyk lad 1B

Przykład 1B

Badano średnie zużycie energii 12 tramwajów podczas eksploatacji.

Uzyskano następujące wyniki w kWh/km

(kilowatogodziny na kilometr):

5.0, 2.0, 2.9, 5.0, 4.5, 2.2, 3.1, 4.0, 4.5, 5.0, 3.2, 5.5

Wyznacz:

miary położenia, miary rozproszenia oraz wykonaj wykres pudełkowy

(box-plot) do podanych danych.

E. Bakinowska Podstawy statystyki 9.03 i 16.03 18 / 24

Page 19: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Dane dwuwymiarowe

Niech (x1,y1),(x2,y2), . . . ,(xn,yn) oznacza n-elementowapobe statystyczna – zbior tych wartosci cech (X,Y),ktore dostepne sa do wnioskowania.

Kowariancja probkowa:

sxy =∑

ni=1(xi− x) · (yi− y)

n−1=

∑ni=1(xi · yi)−n · x · y

n−1

E. Bakinowska Podstawy statystyki 9.03 i 16.03 19 / 24

Page 20: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Dane dwuwymiarowe

Wspo lczynnik korelacji liniowej probkowy:

r = rxy =sxy

sx · sy

gdzie:

sxy - kowariancja

sx,sy - odchylenia standardowe X i Y odpowiednio

E. Bakinowska Podstawy statystyki 9.03 i 16.03 20 / 24

Page 21: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Dane dwuwymiarowe

Wartosc bezwzgledna wspo lczynnika korelacji informuje osile zwiazku liniowego:

0 – brak zwiazku liniowego

0 – 0.2 – bardzo s laby zwiazek liniowy

0.2 – 0.4 – s laby zwiazek liniowy

0.4 – 0.6 – umiarkowany zwiazek liniowy

0.6 – 0.8 – silny zwiazek liniowy

0.8 – 1 – bardzo silny zwiazek liniowy

1 – zwiazek liniowy (zaleznosc funkcyjna)

E. Bakinowska Podstawy statystyki 9.03 i 16.03 21 / 24

Page 22: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Dane dwuwymiarowe

E. Bakinowska Podstawy statystyki 9.03 i 16.03 22 / 24

Page 23: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Zadanie 2.9

29.pdf

Zadanie 2.9.

a) Wczytaj plik csv o nazwie Czas_Metody jako „dane”

b) Zapisz dane jako macierz M. Nazwij kolejne kolumny macierzy jak w pliku csv.

c) Napisz wzory i oznaczenia dla: średniej z próby, wariancji z próby oraz odchylenia

standardowego z próby.

Następnie oblicz średnią z próby, wariancję z próby oraz odchylenie standardowe z

próby dla zmiennej B.

d) Wyznacz kwartyl dolny, medianę i kwartyl górny z próby dla zmiennej C.

e) Wyznacz macierz kowariancji K

f) Wyznacz kowariancję z próby między B i C

g) Wyznacz macierz korelacyjną R

h) Zapisz wzór, oblicz i zinterpretuj współczynnik korelacji liniowej z próby między

zmiennymi A i C.

i) Narysuj wykresy pudełkowe (boxploty) dla zmiennych A, B i C.

j) Wczytaj plik tekstowy o nazwie Czas_Metody jako „dane1” z nagłówkiem

k) Zapisz dane1 jako macierz M1

l) Dokonaj transpozycji macierzy M1 i zapisz jako macierz T

m) Zapisz macierz T w pliku tekstowym o nazwie „Macierz”, oraz w pliku csv o nazwie

„Macierz”

E. Bakinowska Podstawy statystyki 9.03 i 16.03 23 / 24

Page 24: Podstawy statystyki - W2cd: Statystyka opisowa · Podstawy statystyki W2cd: Statystyka opisowa dr Ewa Bakinowska Instytut Matematyki Politechnika Poznansk a 9.03 i 16.03 E. Bakinowska

Zadanie 2.10

210.pdf

Zadanie 2.10. Wyznacz wykres pudełkowy (boxplot) dla danych:

a) 2.0 , 2.2 , 2.9, 3.1, 3.2, 4.0, 4.5, 4.5, 5.0 , 5.0 , 5.0, 5.5

b) 6 , 7 , 8, 10, 12, 16, 20

c) 6 , 7 , 10, 16, 20

d) 2, 2, 2, 6, 7, 8, 10

e) 3, 8, 8, 3, 7, 8, 3

E. Bakinowska Podstawy statystyki 9.03 i 16.03 24 / 24