Upload
others
View
13
Download
0
Embed Size (px)
Citation preview
StatistikaStatistika
St ti tik j k k j b i ik lj j đi j • Statistika je nauka koja se bavi prikupljanjem, sređivanjem, prezentacijom,analizom i interpretacijom podataka.
St ti tik j k t d k j d i d d đ d • Statistika je skup metoda koje doprinose da se dođe do verodostojnih zaključaka i odluka u uslovima neizvesnosti. • Kako se statistika oslanja na statističku teoriju to je ujedno i • Kako se statistika oslanja na statističku teoriju to je ujedno i metod i naučna disciplina.• Predmet statističkog istraživanja su masovne pojave koje • Predmet statističkog istraživanja su masovne pojave koje su po svojoj prirodi promenljive.
2
• Prikupljanje i analiza podataka je važna u različitim profesijama, kao npr. ekonomiji, p j p jbiznisu, finansijama, inžinjerstvu, biologiji, medicini poljoprivredi.
• Statističke metode se primenjuju u različitimoblastima informatike “data mining”oblastima informatike data mining , “knowledge discovery”,neuralnimmrežama, fazi logici i sl.
3
Pod statističarem se često misli na osobu kojamanipuliše brojevima da bi nešto dokazala Podmanipuliše brojevima da bi nešto dokazala. Podstatistikom se, međutim ne podrazumeva metodkojim neko može da dokaže sve Zadatak statističarakojim neko može da dokaže sve. Zadatak statističaraje da ispita ispunjenje pretpostavki određenihstatističkih metoda da bi se sprečila pogrešnastatističkih metoda da bi se sprečila pogrešnainterpretacija i zaključivanje van okvira podataka.
4
POPISI3800 PNE V il ž š3800 PNE Vavilon -održavan svake šeste ili sedme godine da bi se prebrojali
magarci, volovi, buter, mleko, med, vuna...
2500 PNE Egipat - prebrojavanje radne snage koja je na raspolaganju d j i idza gradnju piramida
1491 PNE Izrael -prebrojavanje stanovnika za vojne potrebe i za prokupljanjeporezaporeza
550 PNE Kina -uveo Konfučoje da bi se utvrdile stanje poljoprivrede, -industrije, trgovine
166 66 - Nova Francuska (Kanada)
1719 Pruska -Prvi evropski sistematski izveden popis
1790 SAD -Prvi popis u SAD
1665-66 Nova Francuska (Kanada)
1800 Engleska, Francuska1857 Austrija
1866 Srbija
10
1866 Srbija
P i t č t ti tik j lj j j l i iPrvi put reč statistika se pojavljuje u prvoj poloviniXVIII veka, u radovima Gotfrida Ačenvala,profesora univerziteta u Getingenu zbog čega seprofesora univerziteta u Getingenu, zbog čega sesmatra “ocem statistike”.Statistika se odnosila na skup numeričkihppodataka o stanju posmatrane pojave. Otuda sekao poreklo reči statistika navodi latinska rečstatus – stanje, kao i status = država.Osnovni zadatak prvih statističkih ispitivanja bilo jeprikupljanje podataka o brojnom stanjuprikupljanje podataka o brojnom stanjustanovništva, vojske, poreskih obveznika, imovineza potrebe države.
11
za potrebe države.
Krajem XVII veka počelo je matematičko modeliranjej p j jigara na sreću čime je udaren temelj verovatnoće istatistike. Važna imena za statističku teoriju su Pascal,Ferma Bernoulli Moivre Laplas GaussFerma, Bernoulli, Moivre, Laplas, Gauss.
12
U 19. i 20. veku F. Galton i K.Pearson su doprineli razvoju teorije o nasleđivanju.
Gosset i Fisher su početkom 20. veka postavili teorijske osnove primene statistike u istraživačkom raduosnove primene statistike u istraživačkom radu.
J.Neyman, E. Pearson su tridesetih godina doprineli y , g prazvoju statističkog zaključivanja.
13
Siméon Denis Poisson1781 - 1840
Franculski matematičar poznat po radovima o određenom integralu i Furijeovim redovima
16
Normalnu raspodelu je formulisao Abraham de Moivre (1667-1754)1773. godine1773. godine
De Moivre je doprineo razvoju analitičke geometrije i teorije verovatnoće.
17
Na značaj normalne raspodele u teoriji verovatnoće su k ij k li ič ikasnije ukazali matematičari Pierre de Laplace (1749–1827) Carl Friedrich Gauss (1777–1855)Carl Friedrich Gauss (1777 1855).
18
Gaus je doprineo razvoju različitih oblasti matematike( teorija brojeva,matematička analiza, diferencijalna geometrija) fizike ( magnetizam optika) geodezije i
Gaus je pisao o karakteristikama i primenama normalne
geometrija), fizike ( magnetizam, optika), geodezije i astronomije.
Gaus je pisao o karakteristikama i primenama normalneraspodele, tako da se on smatra ocem normalne raspodele. Normalna raspodela se naziva Gausova raspodela.
19
Sir Francis Galton (1822–1911),Sir Francis Galton (1822 1911),Antropolog, geograf, genetičar, psihometričar, statističar.
Uveo koncept korelacije i regresije 1888.
20
Razlika između matematike i statistike
U osnovi matematike je deduktivno dok je u osnovi statistike induktivno rasuđivanje.•Deduktivno rasuđivanje koje je u osnovi analitičkih istraživanja polazi od skupa definicija i pretpostavki (aksioma) iz kojih se primenom logičkih pravila dolazi do
klj č kzaključaka.•Definicije, pretpostavke i pravila nisu empirijski zasnovane.•Induktivno rasuđivanje je generalizacija na osnovu pojedinačnih ili grupnih posmatranja.
25
Razlika između verovatnoće i statistike
U teoriji verovatnoće se izučavaju matematički modeli stvarnih pojava, dok se u statistici na osnovu stvarne pojave formira matematički model.
26
•Osnovni skup ( populacija ili masa) je skup jednorodnihj di i k ji i it j k jjedinica na kojima se ispituje neka pojava.•Skup je potrebno definisati prostorno, vremenski i sadržinski( treba precizirati koje osobine imaju jedinice osnovnog skupa). ( treba precizirati koje osobine imaju jedinice osnovnog skupa). •Za svaku jedinicu mora da se zna da li pripada osnovnom skupu ili ne.•Elementi osnovnog skupa moraju imati bar jedno zajedničko svojstvo.•Elementi statističkog skupa se nazivaju jedinice Pojam •Elementi statističkog skupa se nazivaju jedinice. Pojam statističke jedinice mora biti precizno utvrđen.•Karakteristike (odlike, osobine) po kojima se jedinice razlikuju se nazivaju obeležja.
27
• Elementi statističkog skupa se nazivaju jedinice. Pojam statističke jedinice mora biti precizno utvrđen.
K kt i tik ( dlik bi ) k ji j di i • Karakteristike (odlike, osobine) po kojima se jedinice razlikuju se nazivaju obeležja (promenljive, varijable).
Z t ti tičk i t ži j t b d b ti b l žj k j • Za statističko istraživanje treba odabrati obeležje koja su u uzročnoj i logičnoj vezi sa ciljem posmatranja i koji se mogu prikupitise mogu prikupiti.
28
Podela obeležja:• Kvantitativna(numerička), kvalitativna(atributivna, kategorijalna)• Faktor-rezultat (faktorijalna, rezultatska)• Cilj posmatranja (suštinska, nesuštinska)• Način na koji se dolazi (osnovna -primarna, izvedena)
29
Kvantitativna (numerička)obeležjaKvantitativna (numerička)obeležja
• visinavisina• težina
t t• temperatura• koeficijent inteligencije• broj studenata koji kasni na čas• vreme potrebno da se uradi zadatakvreme potrebno da se uradi zadatak• brzina vetra
Kvalitativna (atributivna, kategorijalna obeležja)
• Pol
( , g j j )
• Bračno stanje• Rasa
Religijska pripadnost• Religijska pripadnost• Dijagnoza bolesti• Boja cvetaBoja cveta• Krvna grupa• Stav po određenom pitanju (neslaganje, neutralan stav, saglasnost
31
Klasifikacija obeležjaKlasifikacija obeležja
Tipovi obeležja
KvalitativnaKvantitativna(kategorijalna)(numerička)
NeprekidnaPrekidna(diskretna) Diskretna
Дискретна обележјаДискретна обележја
Непрекидна обележја-Теоријски,нема размака између појединих вредностинема размака између појединих вредности
Zašto je važno da se utvrdi tip b l žj ?obeležja?
Statistički podaci imaju različiteStatistički podaci imaju različite karakteristikeI b t ti tičk t d i i dIzbor statističke metode zavisi od tipa obeležja
Prezentacija podataka
• Opisivanje podataka se sastoji u sumiranju karakteristika iprikazivanju na što razumljiviji način. Da bi se prikazali podaciprikazivanju na što razumljiviji način. Da bi se prikazali podacikoriste se tabele, grafikoni, dijagrami. Izbor grafikona zavisi odtipa podataka.TIPOVI PODATAKATIPOVI PODATAKA
• Kvantitativni podaci se mere na numeričkoj skali.• Kvalitativni podaci mogu samo da se klasifikuju u kategorije.
37
1. Broj članova domaćinstava u 50 slučajno odabranih seoskih domaćinstava
PRIMER ZA PREKIDNO OBELEŽJE
j jje bio:
3 3 1 2 2 1 6 6 7 83 5 3 4 5 6 5 4 5 25 4 5 6 3 3 5 5 4 47 4 5 6 6 4 5 4 5 37 4 5 6 6 4 5 4 5 34 4 6 5 6 5 4 2 5 5
a) Formirati statističku seriju.b) Formirati neintervalnu seriju distribucije frekvencija i grafički je predstaviti.c) Formirati intervalnu seriju distribucije frekvencija ako je i=2.d) Izračunati relativne frekvencije (strukturu), kumulativnu seriju distribucije frekvencija (kumulativ, kumulaciju) i kumulaciju strukture.
38
Statistička serija:
1 1 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 7 7 8
40
Neintervalna serija distribucije frekvencija:Neintervalna serija distribucije frekvencija:
X f1 22 43 74 114 115 156 87 28 1
Zbir 50
41
Zbir 50
G i i li F k ij R l i K l ij K l ijGrupni intervali Frekvencija(f)
Relativne frekvencijaStruktura(%)
Kumulacija Kumulacijastrukture
(%)
ispod iznad ispod iznadp p
1-2 6 0,12 (12%) 6 50 0,12 1,00
3-4 18 0,36 (36%) 24 44 0,48 0,88
5-6 23 0,46 (46%) 47 26 0,94 0,52
7-8 3 0,06 ( 6%) 50 3 1,00 0,06
Ukupno 50 1,00 (100%)
42
PRIMER ZA NEPREKIDNO OBELEŽJE
Dati su podaci o sadržaju gvožđa (%) u 62 uzorka:39.3 16.7 18.4 35.3 19.8 19.2 32.7 33.4 33.6 20.2 20.0 30.0 30.8 30.0 28.328.5 21.8 27.8 27.8 27.0 27.0 27.2 22.6 26.3 22.0 22.5 26.4 26.7 26.8 26.721.0 26.7 21.7 21.1 21.2 21.5 21.6 22.5 25.4 25.8 25.4 25.6 25.4 25.6 23.024.0 23.1 24.3 24.8 24.6 23.6 23.4 23.4 23.2 23.2 23.2 23.0 23.0 23.0 24.723.6 23.8
43
Grupni intervali
Sredina grupnogintervala
(x)Frekvencija
(f)
Strukturafrekvencija
(%)
Kumulacija Kumulacijastrukture
(%)
ispod iznad ispod iznad
15.1-20.0 17.5 5 8.06 5 62 8.06 100.00
20.1-25.0 22.5 30 48.39 35 57 56.45 91.94
25.1-30.0 27.5 21 33.87 56 27 90.32 43.55
30.1-35.0 32.5 4 6.45 60 6 96.77 9.68
35.0-40.0 37.5 2 3.23 62 2 100.00 3.23
Ukupno 62 100 00Ukupno 62 100.00
44
Koji grafikon treba koristiti?Koji grafikon treba koristiti?
• Zavisi od tipa podatakaZavisi od tipa podataka• Zavisi od toga šta želi da se prikaže
Z i i d l ži t ti tičk ft• Zavisi od raspoloživog statističkog softvera
45
Tačkasti dijagram (Dot Plot)Tačkasti dijagram (Dot Plot)
• Prikazivanje numeričkog obeležjaPrikazivanje numeričkog obeležja.• Horizontalna osa predstavlja mernu skalu.
J d t čk d t lj j d ičk• Jedna tačka predstavlja jednu numeričku vrednost obeležja.
46
DotplotDotplot
X8.58.07.57.06.56.05.55.0
Svaki simbol predstavlja do 2 observacije
47
Svaki simbol predstavlja do 2 observacije
MINITAB 14
Dijagram stablo-listDijagram stablo list
• Sumiranje mernih podataka (numeričkogSumiranje mernih podataka (numeričkogobeležja).
S k d t k d li “ t bl ” i “li t ”• Svako podatak se deli na “stablo” i “list.”• Prvo, se “stablo” prikazuje u koloni.• Zatim, se “list”pridružuje stablu.
48
5 2 Stem-and Leaf
DIJAGRAM STABLO LIST
5 25 55 65 889
Ste a d ea
6 00000001116 23333336 4445555555555555556 6666666667777776 6666666667777776 888888888888888888888899999997 00000000000000000000000000000000000000000011111111111117 2222223333333337 44445555555555557 44445555555555557 66667777 888888888898 000000008 23
49
HistogramHistogram
• Podela intervala vrijacije na jednakePodela intervala vrijacije na jednake grupne intervale ( razmake)
• Odredjivanje broja (procenta) merenja• Odredjivanje broja (procenta) merenjau svakom grupnom intervalu.
• Crtanje pravougaonika čije visine su jednake broju (procentu) vrednosti obeležja u pojedinim grupnim intervalima
• Pravilno obeležavanje osa.j50
100
HISTOGRAM
80
90
60
70
a
40
50
frek
venc
ija
20
30
0
10
51
4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 8.5 9.0Dužina klasa (mm)
100
HISTOGRAM I POLIGON FREKVENCIJA
80
90
00
60
70
a
40
50
frek
venc
ija
20
30
4 5 5 0 5 5 6 0 6 5 7 0 7 5 8 0 8 5 9 00
10
52
4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 8.5 9.0Dužina klasa (mm)
• Različiti načini predstavljanja podatakaRazličiti načini predstavljanja podataka.• Kod predstavljanja podataka ne treba ih ni
suviše malo ni suviše mnogo redukovatisuviše malo ni suviše mnogo redukovati.• Kod kreiranja grafikona potrebno je da se
il č T b i ti id jihpravilno označe. Treba imati u vidu njihovu namenu!
53