Zagreb 2010.Osnove statistike
Osnove statistikeOsnove statistike
• Kombinatorika i vjerojatnostKombinatorika i vjerojatnost• Obrada empirijskih podatakaObrada empirijskih podataka• Mjere položaja i rasipanjaMjere položaja i rasipanja
Zagreb 2010.Osnove statistike
KombinatorikaKombinatorika
• Slučajni događaj – događaj koji se pod nekim Slučajni događaj – događaj koji se pod nekim okolnostima može ali i ne mora dogoditi. Služe pri okolnostima može ali i ne mora dogoditi. Služe pri određivanju vjerojatnosti slučajnih događajaodređivanju vjerojatnosti slučajnih događaja
• Modeli u kombinatorici:Modeli u kombinatorici:– PermutacijePermutacije (bez ponavljanja i s ponavljanjem) (bez ponavljanja i s ponavljanjem)– VarijacijeVarijacije (bez ponavljanja i s ponavljanjem) (bez ponavljanja i s ponavljanjem)– KombinacijeKombinacije– Složene kombinacijeSložene kombinacije
Zagreb 2010.Osnove statistike
• permutacije bez ponavljanja:permutacije bez ponavljanja:– niz n istovrsnih elemenata kojima se određuje broj mogućih niz n istovrsnih elemenata kojima se određuje broj mogućih
redoslijeda (poređaja)redoslijeda (poređaja)1...k)(n...1)(nnn!P(n)
Primjer: Na koliko se načina može poredati niz od 4 kuglice različite boje?
4212344!P(4) • permutacije s ponavljanjem:permutacije s ponavljanjem:
– niz n istovrsnih elemenata među kojima postoje određene niz n istovrsnih elemenata među kojima postoje određene podgrupe - određuje se broj mogućih redoslijeda (poređaja) podgrupe - određuje se broj mogućih redoslijeda (poređaja)
!A...!A!An!
K21K...A2A,1A
(n)
P Primjer: Na koliko se načina može poredati niz od 6 kuglica (2 crvene, 2 plave
te zelena i žuta)?
180!2!2
!6P 1,1,2,2
(6)
PermutacijePermutacije
Zagreb 2010.Osnove statistike
VarijacijeVarijacije• varijacije bez ponavljanja:varijacije bez ponavljanja:
– niz n istovrsnih elemenata iz kojeg se uzima uzorak r te se određuje niz n istovrsnih elemenata iz kojeg se uzima uzorak r te se određuje broj različitih (mogućih) ishodabroj različitih (mogućih) ishoda
r)!(nn!
V(n)r
Primjer: Koliko različitih uzoraka od po 3 kuglice možemo složiti iz skupa od 5 kuglica?
Primjer: Igranje sportske prognoze. Na koliko se načina može ispuniti listić sportske prognoze ako se na listiću nalazi 12 parova, a mogući ishodi su 1,0 i 2?
603)!(5
5!V (5)
3
• varijacije s ponavljanjem:varijacije s ponavljanjem:
– niz n istovrsnih elemenata iz kojeg se uzima uzorak r te se određuje broj niz n istovrsnih elemenata iz kojeg se uzima uzorak r te se određuje broj različitih (mogućih) ishoda s mogućnošću ponavljanja elemenata iz skupa različitih (mogućih) ishoda s mogućnošću ponavljanja elemenata iz skupa n do maksimalno r-putan do maksimalno r-puta
441 5313V 12(3)
12
rn(n)rV
Zagreb 2010.Osnove statistike
KombinacijeKombinacije• kombinacije bez ponavljanja – (s ponavljanjem nemaju smisla):kombinacije bez ponavljanja – (s ponavljanjem nemaju smisla):
– niz niz nn istovrsnih elemenata iz kojeg se uzima uzorak od r elemenata istovrsnih elemenata iz kojeg se uzima uzorak od r elemenata te se određuje broj različitih (mogućih) sastava uzorka gdje te se određuje broj različitih (mogućih) sastava uzorka gdje nije bitan nije bitan redoslijedredoslijed već sadržaj (sastav) već sadržaj (sastav)
r! r)!(nn!
r
n
r!!V
K(n)r(n)
r
Primjer: Koliko treba ispuniti nizova da bi se u LOTU 7/39 sigurno dobila ‘sedmica’?
NAPOMENA: budući da nije bitan redoslijed odabiranja (izvlačenja) kuglica radi se o kombinacijama.
937 380 157!7)!(39
39!7
39K (39)
7
Zagreb 2010.Osnove statistike
Složene kombinacijeSložene kombinacije• složene kombinacije – skup od N elemenata sadrži podskup elemenata složene kombinacije – skup od N elemenata sadrži podskup elemenata
sa svojstvom A i podskup elemenata sa svojstvom sa svojstvom A i podskup elemenata sa svojstvom ĀĀ (non A) (non A)
NN
M (M (AA)) (N-M) ((N-M) (ĀĀ))
nn
x el Ax el A (n-x) el (n-x) el ĀĀ
x-n
MN
x
MK M))-(N(M
x))-(n(x
UZORAK
SKUP
Zagreb 2010.Osnove statistike
VjerojatnostVjerojatnost• Slučajni događajSlučajni događaj – događaj koji se pod nekim okolnostima može a i ne – događaj koji se pod nekim okolnostima može a i ne mora mora dogoditidogoditi• Elementarni događajElementarni događaj – mogući ishod slučajnog događaja – mogući ishod slučajnog događaja• Skup (polje) mogućih događajaSkup (polje) mogućih događaja – skup koji se sastoji od elementarnih – skup koji se sastoji od elementarnih
događajadogađaja• Vjerojatnost Vjerojatnost – mogućnost pojave nekog elementarnog događaja koji se promatra– mogućnost pojave nekog elementarnog događaja koji se promatra
n
n(A)P(A)
1P(A)
0P(A)
- nemoguć događaj
- siguran događaj
P(A)1)AP( • Protivna vjerojatnostProtivna vjerojatnost
n – broj svih mogućih ishoda (događaja)n(A) – broj događaja sa svojstvom A
1P(A)0
Zagreb 2010.Osnove statistike
• Teoremi vjerojatnosti (slučaj složenih događaja)Teoremi vjerojatnosti (slučaj složenih događaja)::
• zbrajanje vjerojatnostizbrajanje vjerojatnosti - P(A - P(A11) ili P(A) ili P(A22))• zanima nas vjerojatnost da se dogodi Azanima nas vjerojatnost da se dogodi A11 ili A ili A2 2
• uz uvjet da su događaji Auz uvjet da su događaji A11 i A i A22 disjunktni (međusobno se disjunktni (međusobno se
isključuju)isključuju)
)P(A)P(A)iliAP(A 2121 Primjer: Bacamo kocku. Kolika je vjerojatnost da će kocka pokazati broj 2 ili 4 ili 6?
2
1
;
6
1
6
1
6
16) ili 4 ili P(2
6
16) P(broj
6
14) P(broj ;
6
12) P(broj
• množenje vjerojatnostimnoženje vjerojatnosti (NEZAVISNI DOGAĐAJI)-(NEZAVISNI DOGAĐAJI)- P(A1) i P(A2) P(A1) i P(A2)• zanima nas vjerojatnost događaja da se dogodi Azanima nas vjerojatnost događaja da se dogodi A11 i A i A2 2 (istovremeno)(istovremeno)
)P(A)P(A) Ai P(A 2121 Primjer: Bacamo kocku i novčić. Kolika je vjerojatnost da će kocka pokazati broj 6 i
novčić pasti na ‘glavu’?
121
21
61
)'6' i glava'P(' 21
)glava'P(' ; 61
6) P(broj
Zagreb 2010.Osnove statistike
• množenje vjerojatnostimnoženje vjerojatnosti (UVJETNI DOGAĐAJI)-(UVJETNI DOGAĐAJI)- P(A1) i P(A2) P(A1) i P(A2)• zanima nas vjerojatnost događaja da se realizira Azanima nas vjerojatnost događaja da se realizira A11 i A i A22
• jedan događaj utječe na vjerojatnost drugog događaja jedan događaj utječe na vjerojatnost drugog događaja
Primjer: U kutiji je 10 kuglica, 6 bijelih i 4 crvene kuglice. Kolika je vjerojatnost da prva i druga kuglica budu bijele ako izvučenu kuglicu ne vraćamo u kutiju?A1 - prva kuglica bijelaA2 – druga kuglica bijela
)/AP(A)P(A) Ai P(A 12121
3
1;
95
106
) Ai P(A 95
)/AP(A 106
)P(A 21121
• ostale vjerojatnostiostale vjerojatnosti - uvjet da se elementarni događaji ne isključuju te da se - uvjet da se elementarni događaji ne isključuju te da se dogodi dogodi barbar jedan događaj jedan događaj
• slučaj kada tražimo vjerojatnost pojave događaja Aslučaj kada tražimo vjerojatnost pojave događaja A11 ili A ili A22 ili A ili A11 i i
AA22. Takova vjerojatnost se računa na način da se od sume . Takova vjerojatnost se računa na način da se od sume
vjerojatnosti za događaje A1 , A2 oduzme vjerojatnost događaja vjerojatnosti za događaje A1 , A2 oduzme vjerojatnost događaja AA11 i A i A2 2 istovremeno (izbjegavanje dvostruke vjerojatnosti).istovremeno (izbjegavanje dvostruke vjerojatnosti).
P(A2))P(AP(A2))P(A) Aili P(A 1121
Zagreb 2010.Osnove statistike
• Upotreba teorije vjerojatnosti na primjerima iz prakseUpotreba teorije vjerojatnosti na primjerima iz prakse
• Slučaj serijskog spoja – problem vezan za pouzdanost sustavaSlučaj serijskog spoja – problem vezan za pouzdanost sustava
Primjer: Pojednostavljen slučaj vjerojatnosti pogotka cilja projektilom. Projektil na putu do cilja prolazi kroz faze koje imaju svoju vjerojatnost uspjeha. Vjerojatnost uspješnog pogotka cilja se može prikazati kao serijski spoj faza (vjerojatnosti uspjeha svake faze). Svaka faza ima vjerojatnost uspjeha 0,99. Kolika je vjerojatnost uspješnog pogotka cilja?
0,9410,99pogodak) P(uspješan
P(kill)P(hit)P(trk)P(lock)P(lnch)P(det)pogodak) P(uspješan6
Za uspješan pogodak projektil mora uspješno proći sve faze. Radi se o serijskom spoju (množenju vjerojatnosti).
Zagreb 2010.Osnove statistike
• Slučaj paralelnog spoja – problem vezan za pouzdanost sustavaSlučaj paralelnog spoja – problem vezan za pouzdanost sustava
Primjer: U kritičnom dijelu nekoga procesa važno je da je barem jedna pumpa u stanju ispravnog rada kako ne bi došlo do zastoja. Ako su vjerojatnosti ispravnog rada (pouzdanost) svake pumpe R=0,99 kolika je vjerojatnost da sustav funkcionira ispravno?
Budući da je P(ispravnog rada)+P(zastoja)=1možemo pisati sljedeće:
0.9999990,010,010,01-1 rada) gP(ispravno
Q(pumpa3)Q(pumpa2)Q(pumpa1)P(zastoja)
;P(zastoja)-1rada) gP(ispravno
Zagreb 2010.Osnove statistike
Obrada empirijskih podatakaObrada empirijskih podataka• deskriptivna statistika – deskriptivna statistika – opisivanje podataka iz uzorka ili populacije u formi opisivanje podataka iz uzorka ili populacije u formi
osnovnih parametara, identifikacija procesaosnovnih parametara, identifikacija procesa• osnovne vrste podatakaosnovne vrste podataka – – po nastanku varijable (upotreba različitih mjernih po nastanku varijable (upotreba različitih mjernih
ljestvica) se mogu klasificirati na:ljestvica) se mogu klasificirati na:
1.1. Kvalitativne: nominalne (Da, Ne ; Dobar, Loš...), ordinalne (rangovi)Kvalitativne: nominalne (Da, Ne ; Dobar, Loš...), ordinalne (rangovi)
2.2. Kvantitativne: diskretne (cjelobrojne vrijednosti, pobrojane), Kvantitativne: diskretne (cjelobrojne vrijednosti, pobrojane), kontinuirane (neprekinute, mjerene) kontinuirane (neprekinute, mjerene)
a)a) Diskretne varijable – nastaju Diskretne varijable – nastaju prebrojavanjemprebrojavanjem
P(n)P(2)..., P(1),P(0), )P(x ; n0,1,2...,x ii
b)b) Kontinuirane varijable – nastaju Kontinuirane varijable – nastaju mjerenjemmjerenjem0 1 2 3 4 5 x
x x x x x
x
a b x
Zagreb 2010.Osnove statistike
• Grafička obrada empirijskih podatakaGrafička obrada empirijskih podataka
• vrste grafičkih prikaza:vrste grafičkih prikaza:
1.1. Histogram (‘bar chart’) – prikazivanje učestalosti podataka Histogram (‘bar chart’) – prikazivanje učestalosti podataka stupićima te povezivanje vrhova u stupićima te povezivanje vrhova u poligon frekvencijapoligon frekvencija
- histogramski prikaz za diskretnu varijablu- direktno očitavanje vjerojatnosti pojave pojedine vrijednosti varijable
3028262422
7
6
5
4
3
2
1
0
x
Freq
uen
cy
Histogram - histogramski prikaz za kontinuiranu varijablu- prikaz preko razreda podataka po kojima klasificiramo podatke- u tehnici se radi sa razredima jednake veličine (širine)
Primjer:
543210
12
10
8
6
4
2
0
C1
Fre
quency
Histogram
Zagreb 2010.Osnove statistike
2.2. ‘‘Box- whisker’ prikaz (prikaz ‘kutija – brkovi’) – jedno od najčešćih prikaza podatakaBox- whisker’ prikaz (prikaz ‘kutija – brkovi’) – jedno od najčešćih prikaza podataka
Primjer:
- ‘box-whisker’ prikaz za kontinuiranu varijablu- prikaz je moguće kreirati u različitim verzijama (središnja točka medijan/aritmetička sredina, podjela po percentilima/intervalima povjerenja...)- jednostavna dijagnostika problematičnih podataka (ekstrema, ‘outliera’)- mogućnost prikazivanja dva ili više uzoraka paralelno te brzo dijagnosticiranja njihovih relacija i karakteristika
x2x1
40
35
30
25
20
Data
Boxplot of x1; x2
34323028262422
20
15
10
5
0
x1
Cum
ula
tive
Fre
quen
cyHistogram of x1
- kumulanta – histogramski prikaz frekvencija koje se kumuliraju od najnižega ka najvišem razredu
- mogućnost prikaza relativnih frekvencija (u %) na ordinati
Zagreb 2010.Osnove statistike
3.3. ‘‘Stem-leaf’ prikaz (prikaz ‘stabljika - list’) Stem-leaf’ prikaz (prikaz ‘stabljika - list’)
Primjer: fi Stem Leaf
2 21 0 2
4 22 3 3 4 9
5 23 1 2 5 8 9
4 24 5 6 7 8
2 25 4 8
1 26 4
- prikaz ‘stabljika-list’ se najčešće koristi na podacima koji su u decimalnom obliku gdje se znamenka cijelog broja prikazuju kao stabljika a decimalni dio kao ‘list’
4.4. Ostali prikazi:Ostali prikazi:• ‘‘Individual plot’,Individual plot’,• ‘‘Scatter plot’,Scatter plot’,• ‘‘Line plot’,Line plot’,• ‘‘Dot plot’ ,Dot plot’ ,• ‘‘Marginal plot’ ,Marginal plot’ ,• ‘‘Area plot’,Area plot’,• ‘‘Pie chart’Pie chart’• ‘‘Normal probability plot’,Normal probability plot’,• ......
Zagreb 2010.Osnove statistike
Primjer grafičke analize podataka: Na jednom uzorku izmjerene su vrijednosti vlačne čvrstoće šarže čeličnog lima (u N/mm2). Nakon mjerenja dobiveni su sljedeći podaci:
430, 440, 450, 460, 440, 430, 410, 410 440, 440, 430, 440, 420, 450, 430, 450420, 440, 420, 450, 410, 440, 460, 430
460450440430420410
7
6
5
4
3
2
1
0
Vlačne čvrstoće, N/ mm2
Frek
venci
ja
Histogram
460450440430420410
25
20
15
10
5
0
Vlačne čvrstoće, N/ mm2
Kum
ula
tivn
e fr
ekve
nci
ja
Histogram kumulativnih frekvencija
460
450
440
430
420
410Vla
čne
čvrs
toće
, N
/mm
2
Boxplot of Vlačne čvrstoće, N/ mm2
Zagreb 2010.Osnove statistike
• Numerička obrada empirijskih podatakaNumerička obrada empirijskih podataka
• aritmetička sredinaaritmetička sredina – suma svih elemenata u populaciji podijeljena sa brojem – suma svih elemenata u populaciji podijeljena sa brojem elemenata populacije (težište – paralela sa mehaničkim modelom)elemenata populacije (težište – paralela sa mehaničkim modelom)
N
xμxE
N
ii
1ocekivanje)( n
xx
n
ii
1 uzorka sredina aritm.
• MJERE POLOŽAJAMJERE POLOŽAJA
• mod –mod – podatak(ili razred) koji ima najveću frekvenciju podatak(ili razred) koji ima najveću frekvenciju- mod dijeli distribuciju frekvencija na rastuću i padajuću stranu- mod dijeli distribuciju frekvencija na rastuću i padajuću stranu- vrste distribucija s obzirom na mod- vrste distribucija s obzirom na mod
najvažnije svojstvo aritmetičke sredine: 0)(1
xxn
ii
Zagreb 2010.Osnove statistike
• medijan –medijan – 50% podataka je manje, a 50% veće od te vrijednosti 50% podataka je manje, a 50% veće od te vrijednosti
• kvantilikvantili - - vrijednosti numeričkog obilježja koje niz uređen po veličini dijele navrijednosti numeričkog obilježja koje niz uređen po veličini dijele naq jednakihq jednakih dijelova dijelova
MedijanMedijan
KvartiliKvartili
DeciliDecili
PercentiliPercentili
Zagreb 2010.Osnove statistike
• MJERE RASIPANJAMJERE RASIPANJA
• standardna devijacija standardna devijacija σσ – – prosječno odstupanje svakog podatka od arit. sredineprosječno odstupanje svakog podatka od arit. sredine
• varijanca varijanca σσ22 – – prosječno prosječno kvadratnokvadratno odstupanje svakog podatka od arit. sredine odstupanje svakog podatka od arit. sredine
21
2
2)(
n
xxn
ii
• koeficijent varijacije, V – koeficijent varijacije, V – međusobno uspoređivanje varijabilnosti pojava međusobno uspoređivanje varijabilnosti pojava ili svojstava ili svojstava
- pokazuje koliki odnos vrijednosti aritm. - pokazuje koliki odnos vrijednosti aritm. sredine iznosi sredine iznosi vrijednost standardne devijacije (u vrijednost standardne devijacije (u %)%)
100% x
Vkoeficijent varijacije
(relativna mjera rasipanja)
• raspon, Rraspon, Rxx – – razlika najveće i najmanje vrijednosti u nekom nizu podatakarazlika najveće i najmanje vrijednosti u nekom nizu podataka
minmax xxRx
• nepristrana procjena varijance nepristrana procjena varijance osnovnog skupa osnovnog skupa ((σσoo22) ) ::
2
2 1
( )
1
n
ii
x xs
n
Zagreb 2010.Osnove statistike
• MOMENTI STATISTIČKIH SKUPOVAMOMENTI STATISTIČKIH SKUPOVA
• mehanički model - greda, oslonac i opterećenje ( xmehanički model - greda, oslonac i opterećenje ( x11,x,x22, ... – jedinične sile), ... – jedinične sile)
x1 x2 x3 x4 x5 x6 x7
– centralni moment r-tog reda – moment oko centra (aritmetička sredina):centralni moment r-tog reda – moment oko centra (aritmetička sredina):
n
)x(xM
n
1i
r
i
r
r=0 M0=1r=1 M1=0r=2 M2=σ2
r=3 M3
r=4 M4
varijanca
– pomoćni moment r-tog reda – moment oko točke 0pomoćni moment r-tog reda – moment oko točke 0
n
xm
n
1i
r
i
r
r=0 m0=1r=1 m1= x aritmetička sredina
koeficijent asimetrijekoeficijent spljoštenosti
Zagreb 2010.Osnove statistike
• MJERE OBLIKA STATISTIČKOG SKUPAMJERE OBLIKA STATISTIČKOG SKUPA
• koeficijent asimetrije (Skewness)koeficijent asimetrije (Skewness) – mjera nagnutosti distribucije na lijevu – mjera nagnutosti distribucije na lijevu ili desnu stranuili desnu stranu
3
1
3
3
n
1i
3)xi(x
3 nM 3
svaki |α3| : 0 - 0,25 zanemariva asimetrija0,25 – 0,50 slaba asimetrija0,50 – 0,75 srednja asimetrija0,75 - + jaka asimetrija
nema asimetrije α3=0
pozitivna asimetrije α3>0
negativna asimetrija α3<0
Zagreb 2010.Osnove statistike
• koeficijent spljoštenosti (Kurtosis)– koeficijent spljoštenosti (Kurtosis)– mjera spljoštenosti (zaobljenosti) distribucijemjera spljoštenosti (zaobljenosti) distribucije
121086420
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
X
f(x) normalna spljoštenost α4=3 (α’4=0)
spljoštenost α4<3 (α’4<0)
izduženost α4>3 (α’4>0)
4
1
4
4
n
1i
4)xi(x
4
nM 4 3'4
4 -M
-normiranje na nulu
(jednostavnije očitavanje)
Zagreb 2010.Osnove statistike
Primjer dva skupa:
a) sa istim očekivanjem a različitom varijancom
b) sa istim očekivanjem i varijancom ali različitim elementima
Zagreb 2010.Osnove statistike
• SLUČAJNA VARIJABLA - DEFINIRANJESLUČAJNA VARIJABLA - DEFINIRANJE
• diskretne varijable:diskretne varijable:
)...,P(n)), P(),P(P() ; P(x...,n,,x ii 210210
očekivanje
1)( ,)()(1
i
n
iii xpxpxxE
varijanca 22 )()( xExEx
– funkcija distribucije F(x) diskretne varijable (kumulanta):funkcija distribucije F(x) diskretne varijable (kumulanta):
k
iik xpxF
1
)()( )()( kk xxPxF
– vjerojatnost diskretne varijable:vjerojatnost diskretne varijable:
0)( ixf ;1)(1
n
i ixp
n
i i
i
i xfxf
xp1
)()(
)(
učestalostvjerojatnost
Zagreb 2010.Osnove statistike
zbrajanja frekvencija (kumuliranje)
543210
50
40
30
20
10
0x
P*100%
Vjerojatnosti
543210
100
80
60
40
20
0
x
Cum
ula
tive P
erc
ent
Count
Kumulativni prikaz
Zagreb 2010.Osnove statistike
• kontinuirane varijable:kontinuirane varijable:
x
– funkcija gustoće vjerojatnosti (kontinuirana varijabla):funkcija gustoće vjerojatnosti (kontinuirana varijabla):
očekivanje
dxxfxxE )()(
varijanca2
22 )()()(
dxxfxdxxfxx
očekivanje
0)( xf
1)( dxxf
svojstva f.g.v. :
1.
2.
3. 2
121 )()(
x
x
xxxPdxxf
Zagreb 2010.Osnove statistike
– funkcija distribucije vjerojatnosti (kontinuirana varijabla):funkcija distribucije vjerojatnosti (kontinuirana varijabla):
1
1 )()(x
dxxfxF
povezanost f.g.v. i funkcije distribucije
Zagreb 2010.Osnove statistike
Primjer: Sljedeći podaci prezentiraju temperature ‘O-ring’ brtvi raketnog motora prilikom testiranja sustava paljenja: 84, 49, 61, 40, 83, 67, 45, 66, 70, 69, 80, 58, 68, 60, 67, 72, 73, 70, 57, 63, 70, 78, 52, 67, 53, 67, 75, 61, 70, 81, 76, 79, 75, 76, 58, 31. Potrebno je odrediti sve osnovne statističke parametre i grafički prikazati podatke.
807060504030
14
12
10
8
6
4
2
0
°F
Freq
uen
cy
Histogram of °F
90
80
70
60
50
40
30
°F
Boxplot of °F