21

Click here to load reader

Predavanja 1 - 3 iz predmeta Statistika na FSKS _2009 - …

Embed Size (px)

Citation preview

Page 1: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

F S K - S T A T I S T I K A

Onaj koji cijeni praksu bez teorijskih

osnova sličan je moreplovcu koji ulazi u brod bez krme i busole ne znajući

kuda se plovi. ( LEONARDO DA VINCI )

P r e d a v a n j a z a p r v u, d r u g u i t r e ć u s e d m i c u n a s t a v e (u akademskoj 2009/2010. godini)

G L A V A 1

U V O D U O P Š T U I M A T E M A T I Č K U S T A T I S T I K U

§ 1.1. Počeci, razvoj, značaj i definicija statistike

Pri izučavanju Teorije vjerovatnoće upoznali smo se sa nekim pojmovima koje proučava ili na kojima se zasniva statistika. Oslanjajući se na već iznešeni razvijeni aparat teorije vjerovatnoće (TVJ), koja, inače, predstavlja matematičku strukturu na kojoj su zasnovane statističke metode, u ovom poglavlju date su osnove statistike u mjeri koja je neophodna za primjenu statistike u tehničkim naukama, posebno u saobraćaju, komunikacijama i informatici, ali i koja je neophodna za logički tok daljeg dubljeg izučavanja i odgovarajućih primjena. Riječ statistika potiče od latinske riječi status što znači stanje, država, ... . Kao nauka pojavljuje se u XVII vijeku, mada neki korijeni statističkih metoda potiču još iz vremena najstarijih civilizacija. Smatra se da je riječ statistika prvi upotrijebio naučnik Gotfrid Ahenval (Gottfried Achenwall, 1719-1772), unoseći ovaj naziv u svoje radove i u naziv jednog predmeta (pod nazivom „Notitia politica vulgo statistica”) na njemačkom univerzitetu u Getingenu. Dok je u Njemačkoj i ostalim razvijenim zemljama kontinentalne Evrope razvoj statističke djelatnosti bio pod snažnim uticajem osnivača univerzitetske škole-državopisa, dotle se u Engleskoj razvio drugi pravac, tzv. Politička aritmetika koja svoje teorijske osnove ima u racionalnoj filozofiji Leonarda da Vinčija, Dekarta i dr. Osnivač ove škole bio je Džon Graunt (John Graunt, 1602-1674), dok je osnivač pravca „univerzitetska statistika” bio prof. Hermann Conring (1606-1671) / profesor istraživača Gotfrida /. U XIX vijeku statistika se znatno razvila po sadržini i metodama, naročito korištenjem računa vjerovatnoće. Prve takve radove nalazimo kod Laplasa (Pierre – Simon de Laplace) i (Jean Baptiste Joseph) Fouriera početkom XIX vijeka, kada su u Parizu i departmanima Sene vršili procjenu broja ukupnog stanovništva na bazi uzorka sa izračunavanjem najvjerovatnije greške.

Međutim, najznačajnije ime u razvoju statistike XIX vijeka je belgijski fizičar i astronom (Lambert Adolphe Jacob) Ketle (Quetelet, 1796-1874), na čiju je inicijativu održan i kongres statističara u Briselu (Brussels, Belgique-Belgium) 1853. godine, a zatim još šest kongresa u zemljama srednje Evrope. Kao što je XX vijek postao vijek tehnike i hemije, a isto tako je to i vijek statistike koja prožima sav naš život, jer se danas statističke metode koriste u

Page 2: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

2

raznim istraživanjima (u fizici, tehnici, sociološko-političkim istraživanjima, ekonomiji itd.). Od kraja XIX vijeka na ovamo statistika se naglo razvija i kao nauka i kao djelatnost-praksa. Početkom ovog vijeka javljaju se različite „metrije” (biometrija, ekonometrija, sociometrija, ...), a sredinom ovog vijeka javljaju se i neke bliske discipline kao što su: kibernetika, teorija informacija, teorija veza i sl. Javlja se kao posebna disciplina i matematička statistika, koja je označila upotpunjavanje i dalje razvijanje teorije i metodologije kvantitativnog istraživanja masovnih pojava. U mnogim knjigama nalaze se razni pokušaji definiranja statistike. Tako npr., Silvio Elazar (u knjizi: Matematička statistika) daje ovu definiciju: „Matematička statistika je nauka koja se bavi proučavanjem zakona slučajnih događaja na osnovu teorije vjerovatnoće, matematičkom obradom podataka mjerenja masovnih pojava.”, dok neki drugi autori daju i ovu definiciju: „Nauka koja proučava pojave koje obuhvataju vrlo veliki broj elemenata koji imaju neko zajedničko svojstvo (obilježje) naziva se matematička statistika”. Matematička statistika javlja se u XVIII vijeku, prvenstveno u radovima D. Bernoullija i fizičara Maxwella. No, savremena učenja u XX vijeku mogla bi se izreći po pitanju definiranja statistike kao naučne discipline u smislu da se usvoji ova (opisna) definicija: „Statistika je nauka o varijacijama obilježja, zakonitostima razvoja i odnosa masovnih pojava i njihovih elemenata u vremenu i prostoru.” (U vezi sa gore navedenim definicijama i u vezi sa osnovnim pojmovima opšte i ekonomske statistike može se naći u knjizi: Dr. Miloš Blažić, Opšta statistika, Savremena administracija, Beograd, 1982.) Statističke metode istraživanja primjenjuju se na gotovo sva područja ljudske djelatnosti, gdje god se javlja veliki broj posmatranja, eksperimentisanja i mjerenja (kao npr., pri izučavanju problema dohotka-profita, nataliteta, mortaliteta, te raznih mjerenja u fizici, hemiji, tehnici, ...). U statistici se prvo prikupe podaci o pojavama koje se istražuju pomoću opažanja, anketa, popisa i dr., pa se ti podaci obrađuju i izvode određeni zaključci i prognoze.

§ 1.2. Predmet i zadaci statistike. Osnovni skup i obilježje

U okviru statistike kao discipline razvijaju se i primjenjuju metode izučavanja (dobivanja, opisivanja i obrade) statističkih podataka s ciljem ustanovljavanja zakonitosti koje važe u određenim slučajnim masovnim pojavama i procesima masovnog karaktera. Pri tome se razlikuju sljedeća dva osnovna problema:

1) Razvoj metoda prikupljanja i grupisanja statističkih podataka koji se istražuju (dobijenih ili pomoću zapažanja odnosno na osnovu posmatranja ili kao rezultat specijalno izvedenih pokusa kao što su ankete, popisi, mjerenja i sl.).

2) Razrada i razvoj metoda analize statističkih podataka u zavisnosti od cilja istraživanja.

U okviru problema pod 2) mogu se identifikovati dvije grupe metoda: a) Metode za ocjenu funkcije distribucije i parametara distribucije (raspodjele,

razdiobe). Npr., na osnovu određenih statističkih podataka može se ocijeniti da oni pripadaju normalnoj (ili binomnoj) raspodjeli, a zatim se mogu odrediti i parametri μ (očekivanje) i σ (standardna devijacija) te distribucije.

b) Metode za provjeru (testiranje) tzv. statističkih hipoteza o obliku (vrsti) zakona distribucije ili ako je oblik zakona distribucije poznat, o parametrima zakona distribucije. Npr., može se provjeriti da je pretpostavka o normalnoj distribuciji ispravna ili pogrešna.

Page 3: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

3

Osnovni predmet razmatranja u statistici su skupovi elemenata koji imaju izvjesne

zajedničke karakteristike. Pri tome se, intuitivno, pojam osnovnog skupa najčešće uvodi na jedan od sljedećih (približno) ekvivalentnih načina:

(i) Osnovni skup (populacija, generalni skup, statistički skup, statistička masa) je skup (cjelina) svih istorodnih elemenata (objekata) koji podliježu (statističkom) ispitivanju.

(ii) Skup elemenata sa nekom zajedničkom osobinom čija mjera vrijednosti varira od elementa do elementa zove se statistički (ili osnovni skup i sl.).

(iii) Statistički skup predstavlja cjelinu sastavljenu od istorodnih međusobno uporedivih elemenata sa zajedničkim varijabilnim obilježjem što je u stvari tekuća varijabla (npr. ix ) slučajne promjenljive (npr. X ).

(iv) Skupovi elemenata koje proučava statistika zovu se osnovni skupovi (ili populacije i sl.).

U definicijama (i), (ii) i (iv) definira se još i pojam obilježja, tj. kaže se još da se zajedničko svojstvo elemenata određenog osnovnog skupa zove obilježje tog skupa. Obilježje može biti numeričkog ali i atributivnog karaktera. No, obilježja atributivnog karaktera mogu se svesti na obilježja numeričkog karaktera.  

Iz prethodnih definicija slijedi da osnovni skup mora biti homogen, tj., sastavljen od istovrsnih i međusobno uporedivih elemenata u odnosu na tekuću varijablu ( )ix slučajne

veličine ( )X zajedničkog obilježja, te mora biti i varijabilan, tj. elementi osnovnog skupa moraju biti istovrsni ali ne i istovjetni u odnosu na zajedničko svojstvo (obilježje) koje karakteriše skup istovrsnih objekata. Ako je na osnovnom skupu definirano samo jedno obilježje, skup je jednodimenzionalan. Ako su definirana dva obilježja, skup je dvodimenzionalan. Zavisno od toga da li je obilježje skupa kontinualno (neprekidno), diskretno ili mješovitog tipa, razlikuju se kontinualni, diskretni i mješovitog tipa statistički skup.

Definicija 1.2.1. Obimom osnovnog skupa nazivamo broj njegovih elemenata (objekata) u slučaju da je skup konačan, odnosno obim je kardinalni broj (moć skupa) u slučaju beskonačnog skupa.

Posmatrajmo osnovni skup (obima N ) kod kojeg se vrijednost 1x posmatra ili uzima u razmatranje ( )1 1n f= puta, vrijednost 2 ,x ( )2 2n f= puta, ... , vrijednost ,kx ( )k kn f= puta, pri čemu je

1

k

ii

n N=

=∑ ( )1 .

Posmatrane vrijednosti ix ( )1,i k= nazivaju se varijantama (varijansama), a niz

varijansi napisan u rastućem poretku zove se varijacioni red osnovnog skupa. Brojevi ( )i in f= zovu se učestanostima (frekvencijama) odnosno apsolutnim frekvencijama, a

njihov odnos prema obimu osnovnog skupa N se zove relativna frekvencija (relativna učestanost) i označava se često sa iω ( )ili ip , tj.

( ), 1,ii

n i kN

ω = = . ( )2 .

Definicija 1.2.2. Skup (uređenih) parova ( ) ( ) ( ){ }1 1 2 2, , , , , , ,n nx f x f x f

vrijednosti ix i njihovih frekvencija if obilježja X , uređen po rastućim vrijednostima

Page 4: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

4

1, , nx x… obilježja X , zove se distribucija ili raspodjela (statistička raspodjela) frekvencija obilježja X osnovnog skupa.

Dakle, statistička raspodjela frekvencija (odnosno relativnih frekvencija) je

pridruživanje (preslikavanje) između vrijednosti obilježja (varijansi) i njihovih frekvencija (odnosno relativnih frekvencija). Takođe se uvodi i pojam statističke raspodjele osnovnog skupa kao zajednički naziv za statističku raspodjelu relativnih frekvencija i statističku raspodjelu apsolutnih frekvencija, tj. statistička raspodjela osnovnog skupa je pridruživanje između vrijednosti obilježja (varijansi) i njihovih frekvencija ili relativnih frekvencija. Najčešće se statistička raspodjela prikazuje tabelarno a ponekad i grafički. Tabela je obično u obliku:

Pri tome su vrijednosti 1, , kx x… uzete u rastućem poretku a osnovni skup je konačan. Međutim, grafički se statistička raspodjela prikazuje analogno kao i zakon raspodjele vjerovatnoće u Teoriji vjerovatnoće pomoću poligona, histograma i dr. Naime izlomljena linija koja povezuje uređene parove ( ),i ix f (odnosno ( )iix ω, zove se poligon frekvencija (odnosno, poligon relativnih frekvencija). Obično se pod histogramom frekvencija (relativnih frekvencija) podrazumijeva unija pravougaonika čije osnovice na osi apscisa x imaju mjerni broj dužine 1, a takođe su središta osnovica vrijednosti ix posmatranog obilježja X , a mjerni brojevi visina su jednaki vrijednosti pojedinih frekvencija (relativnih frekvencija). Pri tome se najčešće dijagram frekvencija produži do ose apcisa xO , tako da površina omeđena tim dijagramom i osom xO bude jednaka površini posmatranog histograma.

Primjer 1.2.1.a). U jednom razredu od 30 učenika uspjeh iz matematike prikazan je sljedećom tabelom:

Tabela 1

Ocjena iz matematike x Frekvencija f Relativna frekvencija f / 30

x1 = 1 1 3f = 1 0,1ω = x2 = 2

2 6f = 2 0,2ω = x3 = 3

3 10f = 3 0,3ω x4 = 4

4 8f = 4 0,3ω x5 = 5

5 3f = 5 0,1ω = Šta je ovdje osnovni skup? Nacrtati odgovarajući poligon i histogram frekvencija. Rješenje. Skup učenika u razredu je osnovni skup čiji je obim N = 30, a njihov uspjeh izražen ocjenom je obilježje koje se posmatra. U prvoj koloni unijete su vrijednosti koje poprima obilježje X . U drugoj koloni unijeti su brojevi if (i = 1, 2, ... , 5) učenika koji su

x x1 x2 . . . xk

f f1 f2 . . . fk

Page 5: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

5

postigli ocjenu ix ( if - su apsolutne frekvencije), u treću kolonu upisuju se relativne frekvencije elemenata osnovnog skupa.

Sl. 4.2.1. Primjer 1.2.1.b). Na jednoj stočnoj farmi je statistički posmatrana mliječnost stotinu

krava, tj. broj X hl mlijeka koje svaka krava daje godišnje. Podaci su prvo sređeni, pa su onda napisani u Tabeli 2. Nacrtati odgovarajući dijagram frekvencija i histogram frekvencija, te izvesti odgovarajuće prirodne zaključke.

Tabela 2

Klase obilježja

x

Sredina Klase

Broj krava

f

Relativna frekvencija

f / 100 29 - 31 30 2 0,02 31 - 33 32 10 0,1 33 - 35 34 18 0,18 35 - 37 36 30 0,3 37 - 39 38 22 0,22 39 - 41 40 13 0,13 41 - 43 42 3 0,3 Ukupno 100 1

Rješenje. U ovom primjeru je osnovni skup krdo od 100 krava ( )100N = , a obilježje koje se posmatra je mliječnost tih krava. Pošto je broj elemenata populacije veliki (broj krava 100), a ima i puno vrijednosti obilježja X, ne bi bilo pregledno kada bi se dala raspodjela za svaku vrijednost obilježja posebno. Zato je segment [ ]43,29 , dužine 29 – 43 = 14 između najveće i najmanje vrijednosti podijeljen na sedam intervala dužine 2 ( )14 : 7 2=

(napomenimo da se često u praksi broj klasa uzima tako da on bude približno jednak n ; gdje je n broj elemenata osnovnog skupa (konačnog), ali se uz to često uzima da je tim brojem klasa djeljiva razlika između najveće i najmanje vrijednosti obilježja X).

0 1 2 3 4 5

3

6

8

10

Page 6: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

6

Aritmetička sredina donje i gornje granice jedne klase zove se sredina te klase. U statističkoj obradi podataka klasu može reprezentovati njena sredina. Na sljedećoj slici je prikazan dijagram raspodjele tih sredina, tj. dijagram raspodjele klasa kao i histogram frekvencija. Sl. 1.2.2. Sl. 1.2.3.

Još o pojmu statističkog skupa i statističke raspodjele

U statistici se posmatraju problemi sa vrlo mnogo podataka, tj. (vrijednosti obilježja),

pa se javlja veliki broj intervala tih vrijednosti. Dužine tih intervala su male pa se poligon raspodjele frekvencija približava tzv. krivoj (krivulji) frekvencija kao na sl. 1.2.3.

Više formalno možemo ovako uvesti pojam osnovnog skupa i obilježja. Osnovni

predmet razmatranja u statistici je skup, recimo Ω (neprazan skup) elemenata, recimo ω , koji se zove osnovni skup ili populacija. Kod svakog elementa ω Ω∈ posmatra se neka numerička karakteristika, recimo ( )X ω , koja se zove obilježje (svojstvo, osobina) X. Dakle,

obilježje X je funkcija (preslikavanje) sa (ili iz ) Ω u skup R (ili u R ili u C ili u još opštiji skup). Za ovu funkciju pretpostavlja se da je F - izmjeriva, tj. da je

[ ]( ) { }( )1 , :X a b a X bω Ω− = ∈ ≤ ∈< F (tj. da je ovaj skup događaj) za svaki interval

[ a, b ) ⊂R, gdje je F σ - algebra (σ - polje) podskupova skupa Ω . Također smo mogli zahtijevati da je ( )( )1 ,X x− − ∞ ∈ F ( x R∀ ∈ ) jer je ( ){ }, :x xσ −∞ ∈R =

{ } { }, : , :x x x xσ σ= + ∞ ∈ = + ∞ ∈ =R R[ ) [ ) BR, gdje je BR σ - algebra Borelovih skupova na R (tj. najmanja σ - algebra podskupova iz R koja sadrži familiju svih otvorenih skupva na R). Svaki otvoren skup na R je prebrojiva unija otvorenih intervala

( ),B a b= ( ),a b a b∈R <, , tj. BR ( ){ }, : ,a b a b ,a bσ= ∈R < ( σ -algebra generisana otvorenim intervalima).

0 29 31 33 35 37 39 41 43

3

10

18

30

x

(36,30)

(32,10)

f

x

f

Page 7: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

7

Nad funkcijom F se definira određena mjera P za koju ćemo pretpostaviti da je normirana, tj. da je ( ) 1P Ω = , tj. da je P vjerovatnoća (normalizovana mjera).

Prema tome u terminima teorije vjerovatnoće osnovni skup (populacija) je skup svih ishoda jednog pokusa nad kojim je definisano σ - algebra F događaja (podskupova od Ω ) i vjerovatnoća P. Obilježje X kao finitna (konačnih vjerovatnoća) F - izmjeriva funkcija je slučajna veličina.

Distribucija vjerovatnoća obilježja X je funkcija { }P X B∈ definirana za ∀B ∈ BR. Poznato nam je da je ova distribucija vjerovatnoća jednoznačno određena funkcijom distribucije vjerovatnoća obilježj ( ) ( ){ }( ): XX F x P X xω Ω : ω= ∈ ≤ , ( )x∀ ∈R .

Često se riječ raspodjela (distribucija) upotrebljava i za funkciju distribucije xF bez opasnosti od zabune. Sa aspekta statistike obilježje X je potpuno određeno ako je određena njegova raspodjela nad skupom Ω u prethodnom smislu, tj. ako je određena njegova funkcija raspodjele xF .

Primjer 1.2.2. Dato je n – kuglica u kutiji koje čine jednu populaciju. Neka kuglica

može biti bijele ili crvene boje. Obilježje X neka je boja kuglice: ( ) 1X ω = , ako je kuglica ω

bijela, a ( ) 0X ω = ako je kuglica ω crvena. Inverzna slika [ )( )1 ,X a b− je { } ( )( )1 11 1X X− −=

- podskup skupa bijelih kuglica, odnosno ( )1 0X − - podskup skupa crvenih kuglica. Normalizovana mjera (vjerovatnoća) P može se definirati, npr., relacijom

{ }( )1 broj bijelih kuglicaP xn

= = , { }( )0 .broj crvenih kuglicaP xn

= = Neka je { }( )1P x p= = .

Onda je { }( )1 1P x p q= = − = . U ovom primjeru obilježje X je slučajna veličina diskretnog

tipa za koju je funkcija distribucije F zadana izrazom ( )0, 0

, 0 < x 11, x >1.

xF x q

≤⎧⎪= ≤⎨⎪⎩

Primjer 1.2.3. Populaciju čini skup svih mjerenja neke veličine izražene brojem m.

Kao obilježje X = X ( )ω možemo uzeti upravo rezultat mjerenja ω . Vjerovatnoća P neka je

definirana relacijom { }( )2

2212

x mb

a

P a X b e dxσ

σ π

−−

≤ ≤ = ∫ , gdje su m∈R i +σ ∈R . Tada

imamo da je obilježje X slučajna veličina s Gaussovom distribucijom (normalnom)

N ( )2,m σ , zadanu funkcijom gustoće: ( )( )2

2212

x m

f x e σ

σ π

−−

= ⋅ .

§ 1.3. Slučajni uzorak

Pod statističkim pokusom ili statističkim eksperimentom podrazumijeva se registriranje

vrijednosti obilježja X kod elemenata iz nekog podskupa osnovnog skupa Ω . Osnovni

Page 8: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

8

predmet statističkih zaključivanja jeste da se na osnovu statističkih pokusa nešto zaključi o distribuciji ( )xF x obilježja X . Pretpostavimo da treba ispitati neko svojstvo (obilježje) koje karakteriše skup istorodnih objekata, tj. neki osnovni skup Ω . Da bi to uradili može se sprovesti potpuno ispitivanje posmatranog skupa Ω . No, očigledno je da ako je Ω konačan i statističkim pokusom registrujemo obilježje X svakog elementa ω Ω∈ , onda je distribucija xF ptpuno određena. Međutim, redovna je situacija takva da statistički pokus sproveden nad pravim podskupom od Ω koji se naziva uzorak. Razlozi za to mogu biti slijedeći: 1) principijelna nemogućnost da se obilježje X registruje kod svakog elementa ω Ω∈ ,

odnosno da pri velikom broju objekata (elemenata) ostvariti potpuno ispitivanje nije moguće;

2) troškovi ili praktična besmislenost takvog postupka tj. isptivanje vezano za uništavanje objekata ili je vezano za velike materijalne troškove, (npr., ako je osnovni skup mjesečna proizvodnja jedne fabrike sijalaica, a obilježje X recimo „vijek“ trajanja sijalice, registriranje obilježja na cijeloj populaciji dovodi do uništavanja cijele mjesečne proizvodnje).

Primijetimo da je u primjeru 1.2.1.b) utvrđena klasa obilježja (mliječnosti) za svaku

pojedinu kravu populacije. Najčešće populacija ima veoma mnogo elemenata (a često beskonačno), pa je u praksi teško ili čak nemoguće za svaki od njih ustanoviti odgovarajuću klasu, odnosno ispitati posmatrano obilježje svih elemenata te populacije. Ovakvim slučajevima, i općenito u slučajevima navedenim pod 1) ili 2), za ispitivanje obilježja X koje nas interesuje, primjenjuje se metod izbora. Suština ovog metoda sastoji se u tome što se ispitivanju podvrgnu ne svi objekti (elementi), već jedan njihov dio slučajno izabranih iz posmatranog osnovnog skupa. Rezultati koji se dobiju pri ispitivanju tog dijela prenose se na sve elemente posmatranog skupa elemenata.

Definicija 1.3.1. Izabranim skupom ili uzorkom naziva se skup objekata slučajno

izabranih iz osnovnog skupa. Ponekad se pod pojmom statistički skup ili statistička masa podrazumjeva bilo osnovni skup bilo uzorak.

Dakle, iz osnovnog skupa izdvojimo, putem slučajnog odabiranja, jedan pravi podskup

na kojem vršimo ispitivanja i donosimo zaključke, koji se zove slučajni uzorak osnovnog skupa. Proučavanjem slučajnog uzorka donosimo zaključke o samom osnovnom skupu, tj. zaključke koji će pod izvjesnim uslovima važiti za čitav osnovni skup. Da bi ti zaključci bili što pouzdaniji, potrebno je da uzorak što bolje predstavlja populaciju, tj. da bude reprezentativan, što je slučaj ako on ima dovoljan broj elemenata i ako su oni odabrani slučajno, a svi elementi osnovnog skupa treba da imaju jednaku vjerovatnoću da uđu u uzorak. U praksi postoji niz metoda za formiranje slučajnih reprezentativnih uzoraka (na bazi tablice slučajnih brojeva i dr.).

Analogno, kao što smo i kod osnovnog skupa imali, definiraju se i za uzorak analogni pojmovi kao što su obim, varijansa, statistička raspodjela uzorka (relativnih ili apsolutnih frekvencija), poligon, histogram (varijacioni red, varijacioni interval itd.).

Definicija 1.3.2. Obimom (ili veličinom, dužinom) uzorka naziva se broj njegovih

elemenata (objekata), jasno ukoliko je ozorak konačan. Ako sa N označimo obim osnovnog skupa, a sa n obim uzorka, tada je po pravilu n N<< .

Page 9: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

9

Reprezentativnost uzorka zavisi od obima uzorka ali je obim ne obezbjeđuje. Naime, reprezentativnost zavisi od kriterija uzimanja uzorka. Prestrogo rečeno, uzorak je reprezentativan ako kriterij po kojem ga uzimamo ne zavisi od obilježja koje posmatramo, tj. to svaki element osnovnog skupa ima jednaku šansu da uđe u uzorak. Uzorak je sa ponavljanjem ako se vraća ispitani objekat u osnovni skup, bez ponavljanja ako se ispitani objekat ne vraća u osnovni skup. Ako osnovni skup sadrži beskonačno mnogo elemenata, onda su efikasnosti uzorka bez vraćanja i uzorka s vraćanjem međusobno ekvivalentne. Ako je osnovni skup konačan, onda je efikasniji uzorak bez vraćanja. U praksi se najčešće koristi uzorak bez vraćanja.

Posmatrajmo neki uzorak izabran iz osnovnog skupa pri čemu se vrijednost x1 posmatra ili uzima u razmatranje n1, vrijednost x2, n2 puta, vrijednost xk, nk puta, gdje je

1

k

ii

n n=

=∑ , ( n – obim uzorka). Slučajni uzorak obima n sa vrijednostima 1, , nx x… obično se

kraće piše u obliku n: 1, , nx x… . Posmatrane vrijednosti xi zovu se varijanse (realizacije, registrirane vrijednosti, opservacije ili varijante). Niz varijansi , ,i nx x napisan u rastućem poretku zove se varijacioni red, a R = Xmax - Xmin zove se varijacioni razmak (varijacioni interval). Brojevi ni ( = fi ) zovu se frekvencije (učestalosti) varijanti uzorka, a

količnici inn

, 1, ,i k= … relativne frekvencije varijanti uzorka.

Definicija 1.3.3. Statistička raspodjela uzorka je pridruživanje (funkcija) između

skupa varijanti i skupa njihovih frekvencija ili relativnih frekvencija. Statistička raspodjela može biti zadana preko tabele u kojoj su varijante odgovarajuće

frekvencije. Primjer 1.3.1. Zadana je raspodjela frekvencija uzorka obima n = 60:

Odavde lako se dobije i raspodjela relativnih frekvencija primjenom formule 60

i ii

n nn

ω ⎛ ⎞= = ⎜ ⎟⎝ ⎠

,

pa imamo

Statistička raspodjela uzorka može biti zadana i preko niza nekih intervala i odgovarajućih frekvencija. Ako je statistička raspodjela uzorka zadata preko varijanti xi i odgovarajućih frekvencija iω (ili in onda se na osu apcisa nanosi ix , a na osu ordinata ni (ili

iω ). Dobijemo tačke, recimo ( )1 1 1,M x n , ( )2 2 2,M x n , … , koje strogo uzevši predstavljaju grafik statističke raspodjele u Dekartovom koordinatnom sistemu. Dobijene tačke povezujemo odrescima pravih. Tako dobijena linija (izlomljena) zove se poligon frekvencija

xi 4 10 16 20 24 30

ni 15 18 6 4 5 12

xi 4 10 16 20 24 30

inn

14

310

110

115

112

15

, (

6

1

1ii

ω=

=∑ ).

Page 10: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

10

(apsolutnih ili relativnih) uzorka. Ako je statistička raspodjela uzorka zadana preko intervala i odgovarajućih frekvencija, onda se konstruiše histogram frekvencija. Naime, interval kome pripadaju sve posmatrane vrijednosti neprekidnog obilježja X dijeli se na nekoliko podintervala jednake dužine h. Na svaki i - ti podinterval unosimo broj ni (suma frekvencija varijanti koje pripadaju i – tom podintervalu. Na osu apscisa nanosimo podintervale dužine h, a na istim podintervalima

konstruišemo pravougaonike visine h. Količnik inh

zove se gustoća frekvencije. Stepenasta

figura koja se sastoji iz pomenutih pravougaonika zove se histogram frekvencije uzorka. Površina S histograma jednaka je sumi svih frekvencija obima uzorka. Naime, ako je Si

površina i – tog pravougaonika, onda je ii i

nS h nh

= ⋅ = , pa je 1 1

k k

i ii i

S S n n= =

= = =∑ ∑ .

Na isti način konstruiše se i histogram relativnih frekvencija uzorka, tj. stepenasta figura predstavljena pravougaonicima čija je osnovica dužine (podintervala) h, a visina

ixhω

= . Odnos ixhω

= zove se gustoća relativnih frekvencija uzorka. Površina S histograma

relativnih frekvencija uzorka jednaka je 1. Zaista, kako je 1

, ,k

ii i i

iS S S h

hω ω

=

= = ⋅ =∑ to je

1 1 1 1

1 1k k k k

ii i i

i i i i

nS nn n

ω ω= = = =

= = = = =∑ ∑ ∑ ∑ .

Vratimo se ponovo pojmu uzorka. Iz navedenog se vidi da je osnovni problem da uzorak bude reprezentativan, tj. da informacija o distribuciji Fx koju on daje za obilježje X, bude u izvjesnom smislu tačna. Jasno je da se, općenito govoreći, reprezentativnost uzorka postiže ako je način uzimanja elemenata u uzorak nezavisan od obilježja koje se posmatra. Međutim, često je teško provjeriti tu „nezavisnost“ kao što pokazuje sljedeći interesantan primjer. Primjer 1.3.2. Dati su podaci jedne ankete socijalnog osiguranja u Poljskoj. Osnovni skup čine svi zaposleni osiguranici čiji je broj 2 757131,N = a obilježje X je vrsta posla i ono uzima slijedeće četiri različite vrijednosti: 1) Radnici, izuzev zaposlenih u ugljenokopima i čeličanama, 1 1778 446,N = 1 152 812;n = 2) Radnici u ugljenokopima i čeličanama, 2 250 397,N = 2 22 493;n = 3) Društvene i javne službe, 3 564147,N = 3 44 040;n = 4) Uslužne djelatnosti, 4 164141,N = 4 14 088;n =

Svega: 2 757131,N = 230 433n = .

Raspodjela vjerovatnoća za obilježje X je , ( 1, 2, 3, 4)ii

Np iN

= = . Uzorak obima 230 433n =

zaposlenih čine svi oni čija prezimena počinju sa „P“ . Raspodjela obilježja X u tom uzorku

je inn

, ( 1, 2, 3, 4)i = . Pokazuje se pomoću tzv. Pearsonovog metoda, tj. pomoću tzv.

Page 11: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

11

2χ - testa, da postoje vrlo značajne razlike između obilježja X u osnovnom skupu i u uzorku, tako da se uzorak ne može smatrati reprezentativnim. Napomenimo da je u ovom primjeru bilo teško predvidjeti „zavisnost“ između zaposlenja i početnog slova prezimena.

O metodi slučajnog uzorka

Do sada smo izlagali o uzorku i metodi uzorka intuitivno, a sada ćemo to činiti više sa formalnog aspekta. Razmatranja u teoriji vjerovatnoće navode nas kako treba „uzeti“ uzorak da bi on bio reprezentativan. Naime, kao što je obrazloženo u prethodnom dijelu teksta, elemente osnovnog skupa treba birati u uzorak slučajno, jer onda očekujemo da se „neutrališu“ sve moguće zavisnosti između posmatranog obilježja i uzorka. Tako izabran uzorak zove se slučajni uzorak. Nadalje ćemo se uglavnom baviti uzorkom konstantnog obima n. Kako elemente osnovnog skupa biramo u uzorak slučajno to imamo n – slučajnih ishoda 1, , nω ω… našeg statističkog pokusa. Obilježje X našeg statističkog pokusa posmatrano kod svakog od tih n ishoda daje n - dimenzionalnu slučajnu veličinu ( )1, , nX X… , gdje je ( )k kX X ω= za

1, ,k n= … . Kako ćemo se uglavnom baviti samo jednim obilježjem, npr. X , to imamo n – dimenzionalnu slučajnu veličinu ( )1, , nX X… koju ćemo takođe zvati slučajni uzorak. Otuda vidimo da se sa formalnog aspekta može reći da je jednodimenzionalni slučajni uzorak obima n ustvari n – dimenzionalna slučajna veličina ( )1, , nX X… . Ako pak posmatramo dva obilježja, recimo X i Y , tj. ako se radi o dvodimenzionalnom statističkom skupu, onda njemu odgovara slučajni uzorak oblika ( ) ( )( )1 1, , ... , , .n nX Y X Y Općenito se može posmatrati k - dimenzionalan statistički skup, gdje je k prirodan broj. Kada je statistički pokus jednom sproveden u uzorak je uzeto nekih n elemenata i n – dimenzionalna slučajna veličina ( )1, , nX X… postaje n – torka brojeva ( )1, , nx x… koja predstavlja tzv. realizovani uzorak. Jednom realizovani uzorak je dakle jedna realizovana vrijednost n - dimenzionalne slučajne veličine.

Definicija 1.3.4. Slučajni uzorak ( )1, , nX X… zove se prost ako su slučajne

promjenljive ( )1, , nX X… nezavisne i jednako distribuirane, tj. svaka od njih ima funkciju

distribucije ( )F x kao i obilježje X. Pri tome je zajednička funkcija distribucije za

( )1, , nX X… zadana izrazom ( )( ) ( )( )( ) ( )11 , , 1

1

, , : , ,n

n

n X X n ii

Q x x F x x F x=

= =∏…… … .

Popularno govoreći, prosti slučajni uzorak znači da se statistički pokus sastoji od n nezavisnih registriranja vrijednosti obilježja X . Prije sprovođenja takvog pokusa vrijednosti koje ćemo dobiti su slučajne veličine ( )1, , nX X… , a kada je pokus sproveden imamo brojeve

( )1, , nx x… (ili neke opštije elemente), tj. realizovan je prosti slučajni uzorak. Kako ćemo se dalje baviti uglavnom prostim slučajnim uzorkom govorićemo kratko uzorak. Ako se radi o složenom (stratifikovanom) uzorku posebno ćemo naglasiti.

Page 12: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

12

Primjer 1.3.3. U Primjeru 1.2.2. prost slučajni uzorak obima n može se realizovati tzv. slučajnim uzorkom sa vraćanjem (sa N jednakovjerovatnih ishoda): slučajno biramo kuglicu da bi realizovali obilježje X, kuglicu vraćamo nazad u kutiju, slučajno biramo kuglicu, itd. Pri tome su očigledno ( )1, , nX X… nezavisne slučajne veličine sa istom funkcijom raspodjele. No drugačija je situacija kod slučajnog uzorka bez vraćanja. Naime, tada biramo kuglicu da bismo registrirali obilježje X , a zatim kuglicu ne vraćamo u kutiju već biramo slučajno slijedeću kuglicu itd. Slučajne veličine ' '

1, ... , nX X ( )n N≤ ovako definirane nisu

nezavisne, jer se pokazuje da je npr. vjerovatnoća događaja da je '2 1X = uz uslov da se desio

događaj '1 1,X = različita od vjerovatnoće događaja da je '

2 1X = uz uslov da se desio događaj '

1 0X = . Zapravo, u tom slučaju imamo:

{ } { }( ) { } { }( ){ }( ) { } { }( )

' '2 1' ' ' '

2 1 2 1'1

1 1 11 1 1 01 11

P X X N p N qP X X P X XN NP X

⎛ ⎞= = ⋅ − ⋅⎜ ⎟= = = = = ≠ = = = ⋅⎜ ⎟ − −=⎝ ⎠

Nije teško pokazati (primjenom formule potpune vjerovatnoće) da u ovom primjeru

svaka slučajna veličina 'kX ( )1, ,k n= … ima istu distribuciju kao obilježje X.

§ 1.4. Empirijska funkcija raspodjele (distribucije). Fundamentalna teorema statistike

1.4.1. Empirijska funkcija raspodjele

U cilju davanja odgovora na pitanje reprezentativnosti uzorka, tj. u kom slučaju uzorak ( )1, , nX X… daje potpunu informaciju o raspodjeli ( )F x obilježja X na cijelom osnovnom skupu Ω ; definira se prvo tzv. empirijska funkcija distribucije.

Definicija 1.4.1. Neka je ( )1, , nX X… slučajni uzorak obima n iz funkcije distribucije

F, tj. neka su ( )1, , nX X… nezavisne jednako distribuirane slučajne veličine sa zajedničkom

funkcijom distribucije F. Funkcija n̂F ( ili F ∗ ili stF ili nS ili empF ) definirana na R formulom

( ) ovabroj koji su manji odˆ : in

X xF x

n−= , ( )x∈R ,

tj. ( ) { }1

1ˆi

n

n X xi

F xn

χ=

= ∑ < ili ( )ˆi

ni

nx X

fF xn

= ∑<

zove se empirijska funkcija distribucije

(raspodjele) uzorka ili kumulativna ili statistička funkcija raspodjele. )∗ _________________

)∗ U literaturi se, umjesto znaka <, u izrazu koji definira empirijsku funkciju distribucije (analogno kao i u definiciji funkcije distribucije FX slučajne veličine X) uzima i znak ≤.

Page 13: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

13

Dakle, za svaki fiksirani x∈R , ( )n̂F x predstavlja relativnu frekvenciju događaja

{ }X x< u n – ponovljenih nezavisnih pokusa, odnosno ( )n̂F x je slučajna veličina. Iz same definicije slijedi da empirijska funkcija distribucije ima sljedeća osnovna svojstva: 1) njene vrijednosti pripadaju segmentu [ ]0,1 ; 2) neopadajuća je;

3) ako je x1 najmanja i x k najveća vrijednost obilježja X, onda je za 1x x≤ vrijednost

( )ˆ 0nF x = , a za kx x> je ( )ˆ 1nF x = .

Definicija 1.4.2. Integralna funkcija raspodjele, recimo ( )F x , osnovnog skupa za

razliku od empirijske funkcije ( )n̂F x zove se teorijska funkcija raspodjele i ona se zadaje,

kao što znamo, sa ( ) ( ){ }( ): :F x P X xω Ω ω= ∈ ≤ , gdje je X slučajna veličina, tj.

posmatrano obilježje.

Kako za svaki i vrijedi { } ( ) ( )0 1

1iX x F x F xχ

⎛ ⎞= ⎜ ⎟−⎝ ⎠

< (što slijedi iz definicije

karakteristične funkcije skupa i teorijske funkcije raspodjele) i kako su slučajne veličine nezavisne, to je ( ) ( )( )ˆ ,nn F x n F x⋅ ∼ B , ( )x∈R , tj. ( )n̂n F x⋅ je binomna slučajna veličina

sa parametrima ( ),n F x , odnosno, imamo:

( ) ( ) ( )ˆ 1 ,k n k

n

nkP F x F x F xkn

−⎛ ⎞⎛ ⎞⎧ ⎫ ⎡ ⎤= = −⎡ ⎤⎨ ⎬ ⎜ ⎟⎜ ⎟ ⎣ ⎦ ⎣ ⎦⎩ ⎭⎝ ⎠ ⎝ ⎠( )0,k n= .

Sada se dokaže, koristeći tzv. Borelov jaki zakon velikih brojeva, da za svaki x∈R vrijedi

( ) ( ). .ˆ g snF x F x⎯⎯⎯→ , /konvergira gotovo sigurno ka/, tj. pišemo

( ). .g s ( ) ( )ˆlim nnF x F x

→∞= , ( )∗

( ( ). .g s - vrijedi svuda svojstvo osim na skupu mjere 0, odnosno, osim za događaje čija je

vjerovatnoća 0). To znači da funkciju raspodjele ( )F x možemo u svakoj fiksiranoj tački

x∈R skoro sigurno odrediti pomoću uzorka ( )1, , nX X… kada obim uzorka neograničeno raste. Tzv. Centralna teorema statistike (fundamentalna teorema statistike), ili Glivenko – Cantellijeva teorema, tvrdi da je konvergencija ( )∗ čak uniformna po x (gotovo svuda, odnosno, gotovo sigurno). Ona glasi: Teorema 1.4.1. (Glivenko – Cantelli). Neka je ( ) 1

ˆ, ,ni n ni

X F F=

kao u prethodnoj

definiciji, tj. neka je ( )1, , nX X… prost slučajan uzorak sa obilježjem X čija je funkcija

distribucije F (teoretska) i n̂F empirijska funkcija distribucije uzorka. Tada vrijedi:

Page 14: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

14

( ) ( )ˆlim sup 0 1nn xP F x F x

→∞ ∈

⎛ ⎞⎧ ⎫⎡ ⎤− = =⎜ ⎟⎨ ⎬⎢ ⎥⎣ ⎦⎩ ⎭⎝ ⎠R.

Napomena 1.4.1. Za realizovani uzorak 1: , , nn x x… realizovana empirijska funkcija

raspodjele je neka određena funkcija ( )ns x ili ( )n̂f x ( )x∈R definirana formulom

( )nks xn

= za 1k kx x x∗ ∗+≤ < , ( )1,k n= , ( ) 0ns x = za 1xx ∗< ,

gdje su 1 nx x∗ ∗≤ ≤ vrijednosti ( )1, , nx x… poredane po veličini. Prema centralnoj teoremi

statistike sve realizacije ( )ns x , ( )x∈R , izuzev možda onih koje pripadaju događaju

vjerovatnoće 0, uniformno po x konvergiraju ka funckiji (teorijskoj) raspodjele ( )F x obilježja X kad obim uzorka n →∞ . Interesantno je posmatrati u statistici slučajne veličine Dn definirane formulom

( ) ( )supn nx

D s x F x− ∞ ≤ ≤ + ∞

= − . Pokazuje se (tzv. teorema Kolmogorov - Smirnova čiji je dokaz

dosta složen) da za funkciju raspodjele slučajne promjenljive nD n⋅ važi kad ( )n →∞ formula

( ) ( )( ) { }nD n nF x G x P n D x= = ⋅ < → ( ) 2 22

0, 0,

1 , 0,k k x

k

x

e x+ ∞

− ∞=

≤⎧⎪⎨ − >⎪⎩∑

pod uslovom da je ( )F x neprekidna funkcija distribucije. Primjer 1.4.1. Naći empirijsku funkciju raspodjele prema datoj statističkoj raspodjeli:

Rješenje. Kako su već sve varijante uzorka napisane po veličini, to datu tabelu već možemo smatrati tabličnim prikazom statističke raspodjele apsolutnih frekvencija. (Da bi odredili analitički izraz empirijske funkcije distribucije može se prvo dati tabelarni prikaz statističke raspodjele relativnih frekvencija.) Imamo:

( )ˆ 0nF x = za 6x ≤ , ( )20in n= =∑ , za 6 8x< ≤ je ( )ˆ 0,1nF x = ,

za 12x8 < ≤ je ( )ˆ 0,25nF x = , za 15x12 < ≤ je ( )ˆ 0,75nF x = ,

za 15x > je ( )ˆ 1nF x = , tj.

xi 6 8 12 15 (fi =) ni 2 3 10 5

Page 15: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

15

( )

0, 6,0,1, 6 8,

ˆ 0, 25, 8 12,0,75, 12 15,1, 15.

n

xx

F x xx

x

≤⎧⎪ < ≤⎪⎪= < ≤⎨⎪ < ≤⎪

>⎪⎩

Sl. 1.4.1.

1.4.2. O karakterističnim funkcijama distribucije i tipovima konvergencije u teoriji vjerovatnoće

Jedan vrlo moćan matematički aparat u teoriji vjerovatnoće, pa i u statistici, predstavlja metoda karakterističnih funkcija distribucije i u vezi s tim je izgrađena čitava teorija karakterističnih funkcija. Te se funkcije mogu korisno upotrijebiti u dokazima graničnih teorema u teoriji vjerovatnoće i u njenim primjenama u statistici. Ovdje ćemo dati samo njenu definiciju i navesti njena osnovna svojstva.

Definicija 1.4.3. Funkcija ϕ zove se karakteristična funkcija slučajne veličine X

(ili karakteristična funkcija funkcije distribucije F, gdje je F funkcija distribucije slučajne veličine X na nekom prostoru vjerovatnoće ( ), ,F PΩ ), ako je funkcija ϕ zadana izrazom

( ) ( ): itXt E eϕ = ( i – imaginarna jedinica), tj. ako je ( ) ( )itXt e dF xϕ+ ∞

− ∞

= ∫ , ( )t∈R .

Napomenimo da je itXe primjer kompleksne slučajne veličine ( ) :Z X iY Ω= + →C

pri čemu je kao što znamo ta slučajna veličina određena parom ( ),X Y nezavisnih slučajnih veličina ,X Y , koji preslikava skup Ω u C (gdje je C skup kompleksnih brojeva).

Pokazuje se da karakteristična funkcija ϕ ima ova osnovna svojstva:

1) ( ) 1tϕ ≤ , ( )t∀ ( )t∈R ;

2) ϕ je neprekidna ( )t∀ ( )t∈R ;

3) ( )0 1ϕ = ;

4) ( ) ( )t tϕ ϕ− = , ( )t∀ ( )t∈R ;

5) ( ) ( ) ( )0j j ji E Xϕ = ⋅ , ( )j n∀ ≤ , ako je ( )nE X < + ∞ , za neki n∈N ( izvod funkcije ϕ

reda j u tački 0);

6 8 12 15 x

1

0

Page 16: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

16

6) iz ( ) ( ): itXt E eϕ = se dobije funkcija gustoće f:

( ) ( )12

itxf x e t dtϕπ

+ ∞−

− ∞

⎡ ⎤= ⋅⎣ ⎦∫ , ( 1lim 1 , 2,718n

ne e

n→∞

⎛ ⎞= + ≈⎜ ⎟⎝ ⎠

).

Primjer 1.4.2. Lako se vidi da je funkcija 2

2:t

t eϕ−

→ karakteristična funkcija normalne slučajne varijable.

Definicija 1.4.4. Kažemo da niz { } 1n n

X=

slučajnih veličina konvergira gotovo

sigurno (konvergira jako) prema slučajnoj veličini Y ako je

( ) ( ){ }( )lim 1nnP Y Yω Ω ω ω

→∞∈ = =

(tj. konvergira svuda osim eventualno na skupu vjerovatnoće 0). To se označava sa . .g s

nY y⎯⎯→ ( )n →+∞ ili (g. s.) ( ) ( )lim nnY x Y x

→∞= .

Definicija 1.4.5. Kažemo da niz { }nY slučajnih veličina konvergira po vjerovatnoći

(konvergira slabo) ka slučajnoj veličini Y ako za svaki 0ε > vrijedi relacija ( ) ( ){ }( )lim : 0nn

P Y Yω Ω ω ω ε→∞

∈ − ≥ = ,

što se simbolički označava sa PnY Y⎯⎯→ , ( )n →∞ ili ( ) ( ) ( )lim nn

P Y x y x→∞

= .

Osim ova dva tipa konvergencije u teoriji vjerovatnoće, pa i u statistici, posebno su

značajna i sljedeća dva tipa.

Definicija 1.4.6. Kažemo da niz { }nY slučajnih veličina konvergira po distribuciji

ka Y ako je ( ) ( )limnY Yn

F x F x→∞

= , za svaki ( )Yx C F∈ , gdje je C(FY) skup svih tačaka

neprekidnosti funkcije distribucije FY slučajne veličine Y , a nYF je funkcija distribucije

slučajne veličine Yn. To se simbolički često piše u obliku nY YF F⎯⎯→D ( )n →∞ .

Definicija 1.4.7. Neka je 1 p≤ ≤ + ∞ i neka postoji konačni apsolutni p-ti moment

( )pnE Y . Kažemo da niz { }nY konvergira u srednjem reda p prema Y ako je

( )lim 0pnn

E Y Y→∞

− = , što često označavamo sa pm

nY Y⎯⎯→ , ( )n →∞ .

Sl. 1.4.2.

P

mp g.s.

D

Page 17: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

17

Posebno važan slučaj konvergencije u srednjem je za 2p = , u kom slučaju se

najčešće piše . .s knY Y⎯⎯⎯→ , ( )n →∞ i kaže da dati niz konvergira u srednjem, odnosno

da je to srednjekvadratna konvergencija. Pokazuje se da su konvergencija gotovo sigurno i konvergencija u srednjem

neuporedive (tj. jedna drugu ne implicira), dok obje impliciraju konvergenciju u vjerovatnoći, a ova implicira konvergenciju u distribuciji (a obrnuto ne vrijedi; tj. pokazuje se da vrijedi odnos konvergencija slučajnih veličina dat šemom na sl. 4.4.2.

1.4.3. O zakonima velikih brojeva, graničnim teoremama i teoremama centralnog limesa u teoriji vjerovatnoće

Zakon velikih brojeva je jedan od osnovnih i najznačajnijih zakona u statistici..

Karakter i sadržaj statistike kao nauke i prakse zasniva se na zakonu velikih brojeva. Osnovni smisao i značenje zakona velikih brojeva u statistici može se najjednostavnije izraziti u sljedećem: što je veći broj događaja, posmatranja ili elemenata to je veća vjerovatnoća da će naši sudovi i zaključci biti realni, istiniti, odnosno to je manja greška u tačnosti naših zaključivanja. Pri tome treba voditi računa da je primjena zakona velikih brojeva opšta (generalna) u statistici, tj. ne treba shvatiti da to zavisi od metoda da li posmatranje i prebiranje vršimo putem potpunog obuhvatanja svih jedinica nekog osnovnog skupa ili samo putem djelimičnog (selektivnog) posmatranja, odnosno, putem uzorka, tj. u svakom slučaju težimo da naše sudove i zaključke temeljimo na zakonu velikih brojeva, samo što kod primjene metode uzorka to procjenjujemo sa manjim stepenom pouzdanosti nego kad to vršimo potpunim obuhvatanjem svih elemenata osnovnog skupa.

U suštini, zakon velikih brojeva zasniva se na zakonima vjerovatnoće pa se i njihov dokaz izvodi tim putem.

U klasičnom obliku problematika zakona velikih brojeva sastoji se u ispitivanju

potrebnog i dovoljnog uslova da niz aritmetičkih sredina 1 21

1

1, , ..., , ...2

n

ii

X XX Xn =

+ ∑

nezavisnih slučajnih veličina 1, , nX X… … konvergira u određenom smislu ka nekom broju. Ako se ne istakne suprotno, u daljem izlaganju smatramo da su sve slučajne veličine, koje se istovremeno posmatraju, definirane na istom prostoru vjerovatnoće ( ), ,F PΩ .

Sada ćemo preciznije formulisati zakon velikih brojeva: Neka je { }nX niz

nezavisnih slučajnih veličina (definiranih na fiksnom prostoru vjerovatnoće ( ), ,F PΩ ).

Posmatra se konvergencija niza ( )1 1

1 1n n

i ii i

X E Xn n= =

−∑ ∑ ( )1, 2,n = … ka 0 (ili, opštije, niza

nSn

ili niza n nS an− ka konsanti, gdje je

1

n

n ii

S X=

=∑ , na ∈R , ( )1, 2,n = … ).

Ako je u pitanju konvergencija u vjerovatnoći odgovarajuća teorema zove se slabi zakon velikih brojeva, a kod skoro sigurne konvergencije zove se strogi (jaki) zakon velikih brojeva.

Page 18: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

18

Neki osnovni zakoni velikih brojeva

Pokazuje se da niz 1

1 n

ii

Xn =∑ (Xi nezavisne) konvergira gotovo sigurno ka konstanti ili

da divergira gotovo sigurno. Takođe se dokazuje da vrijede sljedeći zakoni velikih brojeva (a i neki drugi, kao što su Čebiševljev zakon, Hinčijev zakon /slabi zakoni/, te jaki zakon Kolmogorova i dr.).

Teorema 1. 4.1. (Bernulijev slabi zakon velikih brojeva). U Bernulijevoj šemi (tj.

ako je ( ),nS n p∼ B , tj. ako je Sn binomna slučajna veličina) za svaki 0ε > vrijedi da je

0nSP pn

ε⎛ ⎞⎧ ⎫

− ≥ →⎨ ⎬⎜ ⎟⎩ ⎭⎝ ⎠

, ( )n →∞ , tj. 1

1 nP

ii

X pn =

⎯⎯→∑ , ( )n →∞ .

(Ovaj zakon govori o konvergenciji po vjerovatnoći niza relativnih frekvencija u Bernulijevoj šemi u svakom pojedinom pokusu. Ovaj zakon pretpostavlja klasičan rezultat teorije vjerovatnoće i jedan je od prvih važnijih teorema teorije vjerovatnoće a objavljen je 1715. godine.) Dokaz. Prema poznatoj nejednakosti Čebiševa: „Ako je X slučajna veličina sa konačnim očekivanjem i varijansom na nekom prostoru vjerovatnoće ( ), ,F PΩ , onda za

svaki 0ε > vrijedi da je ( ) ( ){ }( ) ( )2

Var XP X E Xω Ω ω ε

ε∈ − ≥ ≤ ,” (a često se koristi i

Markovljeva nejednakost ( ){ }( ) ( ): r

E XP Xω Ω ω ε

ε∈ ≥ ≤ , 0r > , ( )rE X +∞< ), imamo:

( ) 2

2 2 2

1

: 0

n

n

SVar n p qS p qn nP pn nω

ω Ω εε ε ε

⎛ ⎞⋅ ⋅⎜ ⎟⎛ ⎞⎧ ⎫ ⋅⎪ ⎪ ⎝ ⎠∈ − ≥ ≤ = = →⎜ ⎟⎨ ⎬⎜ ⎟ ⋅⎪ ⎪⎩ ⎭⎝ ⎠

, n →∞ ,

jer iz ( )( )nVar S n p q= ⋅ ⋅ i ( ) ( )2Var a X a Var X⋅ = slijedi da je 2

1nSVar n p qn n

⎛ ⎞ = ⋅ ⋅⎜ ⎟⎝ ⎠

.

Prema tome, Bernulijev slabi zakon velikih brojeva je dokazan.

Napomenimo još da Bernulijev zakon velikih brojeva daje jedno tumačenje grupisanja

relativnih frekvencija nSn

oko vjerovatnoće p. Ali to grupisanje je opisano sljedećom jačom

teoremom koju je dokazao Borel 1909. godine i zove se Borelov jaki zakon velikih brojeva. Teorema 1.4.2. U Bernulijevoj šemi (tj. za binomnu slučajnu veličinu ( ),nS n p∼ B )

vrijedi jaki zakon velikih brojeva dat sa ( ): , 1nSP p n

ω Ω⎛ ⎞⎧ ⎫

∈ → →∞ =⎜ ⎟⎨ ⎬⎜ ⎟⎩ ⎭⎝ ⎠, tj.

. .

1

1 ng s

ii

X pn =

⎯⎯⎯→∑ , ( )n →∞ .

Page 19: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

19

Dokaz. Dokazuje se primjenom Čebiševljeve nejednakosti i Borel-Cantellijeve leme I.

Napomenimo da se u primjenama koristi i poopštena Čebiševljeva nejednakost data

sljedećom teoremom. Teorema 1.4.3. (Kolmogorovljeva nejednakost). Ako su 1, , mX X… nezavisne

slučajne veličine i ako je ( )jVar X + ∞< za svaki 1, ,j m= … , onda za svaki 0ε > vrijedi

( ){ }( ) ( )1, , 21

1: maxn

n m kk

P Y Var Xω Ω ω εε=

=

∈ ≥ ≤ ∑… , gdje je ( )( )1

n

n k kk

Y X E X=

= −∑ .

Navedimo i ovaj (moćni) jaki zakon velikih brojeva: Teorema 1.4.4. (Teorema Kolmogorova). I. Neka je ( )nX niz nezavisnih slučajnih veličina takav da je

1iX XF F= , ( )i∀ , tj. sve

iX su jednako distribuirane. Ako postoji ( )1E X , onda je ( ). .1 g si iX E X

n⎯⎯⎯→∑ ,

( )n →∞ .

II. Obrnuto: Ako je 1lim 1inP X postoji

n→∞

⎛ ⎞ =⎜ ⎟⎝ ⎠

∑ , onda ( )1E X postoji i prema I. je

( ). .1

1

1 ng s

ii

X E Xn =

⎯⎯⎯→∑ , ( )n →∞ , ili kraće: Niz 1

1 n

ii

Xn =

⎛ ⎞⎜ ⎟⎝ ⎠∑ , gdje su iX nezavisne

i jednako distribuirane slučajne veličine, konvergira gotovo sigurno ako i samo ako

( )1E X postoji i u tom slučaju je ( )11

1limn

in iX E X

n→∞=

=∑ .

Dokaz. Izlazi iz okvira ovog kursa.

Granične teoreme (teorem centralnog limesa) u teoriji vjerovatnoće

U primjenama najčešće je potrebno izračunati vjerovatnoću da neka slučajna veličina

poprimi vrijednost iz nekog intervala kao npr. vjerovatnoću da se broj uspjeha u Bernulijevoj šemi (tj. ako je ( ),X n p∼ B (binomna slučajna veličina) ) nalazi između realnih brojeva, recimo, a i b. Ta vjerovatnoća je

( ) ( ) ( ) k n k

a k b a k b

np k P a X b P X k p q

k−

≤ ≤ ≤ ≤

⎛ ⎞= ≤ ≤ = = = ⎜ ⎟

⎝ ⎠∑ ∑ .

Brojeve ( )p k , a posebno ( )P a X b≤ ≤ vrlo teško je izračunati za velike n. U tom smislu koriste se neke teoreme (granične) da se dobiju približne vrijednosti ovih brojeva.

Page 20: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

20

Navedimo stoga slijedeće važne (klasične teoreme) granične teoreme u teoriji vjerovatnoće:

Teorema 1.4.5. (Poissonova teorema). Neka je ( ),nX n p∼ B ( )n∈N i lim 0nn

p→∞

= , lim nnn p λ

→∞⋅ = , 0λ > fiksan broj. Tada slijedi da za svaki 0,1, 2,k = … vrijedi

( )lim lim!

kk n k

n n nn n

nP X k p q e

k kλλ− −

→∞ →∞

⎛ ⎞= = = ⋅⎜ ⎟

⎝ ⎠,

tj. imamo ( )!

n

kn

nP X k ek

λλ −= ≈ ⋅ , ( ); 0,1, ,n nn p k nλ = ⋅ = … , a koristi se ako je 20n ≥ , a

10nn p⋅ < .

Osim ove teoreme imamo dvije Laplaceove teoreme. Teorema 1.4.6. (Lokalna Moivre – Laplaceova teorema). Neka je 0 1p< < i

( ),nX n p∼ B i neka je kk n pXn p q− ⋅

=⋅ ⋅

, ( 0,k n= , n∈N ). Tada vrijedi

( )2

2

2lim 1

k

nxn

n p q P X k

e

π→∞ −

⋅ ⋅ ⋅ ⋅ == ( )∗

i to uniformno na svakom ograničenom segmentu [ ],a b , gdje je ka x b≤ ≤ za sve k i n .

Dokaz. Uputa: Primjenjuje se Stirlingova formula ! 2 r r t rr r r e eπ − ⋅= ⋅ ⋅ ⋅ ⋅ , 10

12t r

r⋅< < . Napomenimo da se iz ( )∗ dobije praktična približna formula

( ) ( )21 12

k nn p

n kP X k e f xn p q n p qπ

−−

⋅= ≈ = ⋅⋅ ⋅ ⋅ ⋅ ⋅

.

Teorema 1.4.7. (Integralna Moivre – Laplaceova teorema). Neka je 0 1p< < i ( ),nX n p∼ B ( )n∈N . Tada za proizvoljne ,a b∈R il ,a b∈R , a b< , vrijedi

2

21lim2

b xn

na

X n pP a b e dxn p q π

→∞

⎛ ⎞− ⋅≤ ≤ =⎜ ⎟⎜ ⎟⋅ ⋅⎝ ⎠

∫ , tj. ( )0,1nX n pn p q− ⋅

⎯⎯→⋅ ⋅

D N ( )n →∞ .

Dokaz. Može se dokazati da je ova konvergencija u teoremi 4.4.7. uniformna u

odnosu na ,a b , pri čemu je a b +−∞ ≤ ≤ ∞< . Teorema 1.4.7. je specijalan slučaj opšte centralne granične teoreme. Poznati

matematičar G. Polya je uveo naziv „centralan“ da bi naglasio da je taj problem bio u centru istraživanja u teoriji vjerovatnoće u XVIII vijeku. Ali, četrdesetih godina ovog vijeka dobijeno je potpuno rješenje proširene verzije centralnog graničnog teorema i taj dio teorije je jedan od najljepših dijelova teorije vjerovatnoće. Navedimo jednu od verzija opšte teoreme centralnog limesa:

Page 21: Predavanja 1 - 3  iz  predmeta Statistika na FSKS _2009 - …

21

Teorema 1.4.8. (Lévyjeva teorema centralnog limesa). Neka je nX niz nezavisnih slučajnih veličina jednake distribucije, tj.

nX XF F= ( )n∀ , sa očekivanjem ( )1E Xμ = i

( ) 2nVar X σ= ( )20 σ ∞< < . Tada za sve a∈R vrijedi

2

1 21lim2

n

ii

n

X nP a e dx

n

λμ

πσ

+ ∞−=

→∞− ∞

⎛ ⎞− ⋅⎜ ⎟⎜ ⎟≤ =⎜ ⎟⎜ ⎟⎝ ⎠

∑∫ ,

ili kraće ( )0,1nS nn

αμσ− ⋅

⎯⎯→N , gdje je 1

n

n ii

S X=

= ∑ .

Dokaz. Relativno lako se izvodi dokaz koristeći metod karakterističnih funkcija i

razvoja karakterističnih funkcija prema Taylorovoj formuli (MacLaurinovoj formuli), tj.

koristeći razvoj: ( ) ( ) ( ) ( )0 !

knk n

k

itt E X o t

=

= +∑ , ako ( )nE X postoji.