Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Vjeºbe - Statistika
I. dio
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Uvod
Statistika se bavi analizom podataka dobivenih nekim istraºivanjem,promatranjem te metodama izvoenja zaklju£aka o promatranomfenomenu na osnovi takve analize.
Zaklju£ci izvedeni statisti£kom analizom su nesigurni jer
se zasnivaju na nepotpunim podacima (npr. predizborne ankete) ilina podacima koji u sebi sadrºavaju slu£ajnu komponentu (npr.borovi iz iste grupe sjemenki na istom tlu nakon nekoliko godina surazli£ite visine)
Statistika se prvenstveno bavi situacijama u kojima se pojavljivanjenekog dogaaja ne moºe predvidjeti sa sigurno²¢u.
Cijeli skup jedinki naziva se populacija - skup mogu¢ih mjerenja.
Podaci se mjere na jednom dijelu populacije koji se naziva uzorak.
Slu£ajan uzorak - svaka jedinka ima jednaku ²ansu biti izabrana uuzorak.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Primjeri statisti£kih problema:
Primjer 1.
Bacamo nov£i¢ 100 puta i dobijemo 60 pisama i 40 glava. Moºemo litvrditi s 95% sigurnosti da je nov£i¢ neispravan?
Primjer 2.
U mjestu od 25000 glasa£a ispitano je 1600. Njih 917 izabralo je jednustranku. To je 57.3%. Koliko je to pouzdana procjena? Kolika je mogu¢agre²ka?
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Primjer 3.
Kontrolom proizvoda na razli£ita stroja dobiveno je
stroj A stroj B
dobri proizvodi 240 380lo²i proizvodi 20 24
ukupno 260 404
Razlikuju li se strojevi A i B zna£ajno u kvaliteti proizvedenih proizvoda?
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Primjer 4.
Kockar je optuºen da koristi namje²tenu kocku. Imamo podatke od 60bacanja
vrijednost 1 2 3 4 5 6
dobivena frekvencija 4 6 17 16 8 9
o£ekivana frekvencija 10 10 10 10 10 10
Pojavljuje li se odstupanje dobivenih od o£ekivanih frekvencija zbogslu£ajnosti ili namje²tene kocke?
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Primjer 5.
Istraºuje se veza izmeu pu²enja i povi²enog krvnog tlaka.
nepu²a£ blagi pu²a£ te²ki pu²a£
normalan tlak 48 26 19
povi²en tlak 21 36 30
Je li pojava povi²enog krvnog tlaka nezavisna od pu²enja?
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
U statistici, baza podataka predstavlja jednu realizaciju slu£ajnogvektora deniranog na nekom vjerojatnosnom prostoru (Ω,F ,P).
Slu£ajan vektor odreen je svojom funkcijom distribucije F , odnosnogusto¢om f ako se radi o apsolutno neprekidnom slu£ajnom vektoru.Kra¢e ¢emo govoriti o distribuciji.
Denicija 1.
Statisti£ki model F je familija dozvoljenih funkcija distribucije slu£ajnogvektora za koju baza podataka £ini jednu realizaciju.Ako je familija F odreena do na neki p-dimenzionalni parametar θ ondakaºemo da je model parametarski
F =Fθ : θ ∈ Θ ⊆ Rd
.
U suprotnom kaºemo da je model neparametarski (npr.F = sve distribucije ).
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Denicija 2.
Neka je F statisti£ki model. Ako F £ine funkcije distribucije slu£ajnogvektora (X1, . . . ,Xn) £ije su komponente meusobno nezavisne i jednakodistribuirane s distribucijom G, kaºemo da je F statisti£ki modeljednostavnog slu£ajnog uzorka iz distribucije G .Pi²emo: (X1, . . . ,Xn) jednostavan slu£ajan uzorak (j.s.u.) iz G.
Uo£imo:(X1, . . . ,Xn) je slu£ajan vektor!Podaci kojima raspolaºemo predstavljaju realizaciju tog slu£ajnog vektora- (x1, . . . , xn) ∈ Rn.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
U parametarskim statisti£kim modelima osnovu statisti£kog zaklju£ivanja£ini zaklju£ivanje o parametru, a jedan od osnovnih problema je njegovaprocjena (na osnovu realizacije kojom raspolaºemo). Za procjenuparametara koristimo procjenitelje.
Denicija 3.
Neka je t : Rn → Rk izmjeriva funkcija i X = (X1, . . . ,Xn) slu£ajanvektor, X : Ω→ Rn. Kompozicija funkcija T = t X : Ω→ Rk zove sestatistika.T = t(X1, . . . ,Xn) - slu£ajna varijabla ili slu£ajan vektor.t(x1, . . . , xn) - broj ili vektor.
Denicija 4.
Procjenitelj θ je izmjeriva funkcija uzorka koja ne ovisi o nepoznatimparametrima θ = θ(X1, . . . ,Xn).
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Ozna£imo sortirani uzorak s X(1) ≤ X(2) ≤ · · · ≤ X(n). Neke naj£e²¢estatistike (procjenitelji):
uzora£ka sredina
Xn =1
n
n∑i=1
Xi
uzora£ka varijanca
S2
n =1
n
n∑i=1
(Xi − Xn)2
korigirana varijanca uzorka
S2
n =1
n − 1
n∑i=1
(Xi − Xn)2
minimalna statistika poretka - X(1)
maksimalna statistika poretka - X(n)
k-ta statistika poretka - X(k)
raspon uzorkaR = X(n) − X(1)
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Zadaci
Zadatak 1.
Neka je (X1, . . . ,Xn) jednostavan slu£ajan uzorak iz distribucije sfunkcijom distribucije F i gusto¢om f . Naite funkcije distribucije igusto¢e minimalne i maksimalne statistike poretka.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Zadatak 2.
Dokaºite da maksimalna statistika poretka jednostavnog slu£ajnog uzorka(X1, . . . ,Xn) iz uniformne distribucije U(0, θ) ima distribuciju odreenufunkcijom gusto¢e
g(x) =nxn−1
θn1(0,θ)(x)
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Eksponencijalna familija distribucija
Denicija 5.
Pretpostavimo da (X1, . . . ,Xn) ima funkciju distribucije Fθ, gdje jeθ = (θ1, . . . , θp) nepoznati parametar. Kaºemo da je familija distribucijaF = Fθ : θ ∈ Θ k-parametarska eksponencijalna familija
distribucija ako se funkcija gusto¢e neke Fθ ∈ F moºe prikazati u obliku
f (x ;θ) = exp
k∑
i=1
ci (θ)Ti (x)− d(θ) + S(x)
1A(x),
pri £emu A ne ovisi o θ, a ci , d : Θ→ R,Ti , S : Rn → R.Kaºemo da slu£ajan vektor (odnosno slu£ajna varijabla) pripadaeksponencijalnoj familiji ako njegova distribucija pripada eksponencijalnojfamiliji. Uo£iti: k i p ne moraju nuºno biti jednaki iako £esto jesu.Ovdje pod gusto¢om za diskretne distribucije mislimo naf (x) = P(X = x).
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Napomena 1.
Ako je X slu£ajna varijabla s distribucijom iz k-parametarske eksponencijalne familije sgusto¢om ∼ g(x ;θ) , tj.
g(x ;θ) = exp
k∑
i=1
ci (θ)Ti (x)− d(θ) + S(x)
1A(x).
onda je i jednostavan slu£ajan uzorak (X1, . . . ,Xn) iz te distribucije takoer izk-parametarske eksponencijalne familije:
f (x ;θ) =n∏
j=1
g(xj ;θ) =n∏
j=1
exp
k∑
i=1
ci (θ)Ti (xj)− d(θ) + S(xj)
1A(xj)
= exp
k∑
i=1
ci (θ)n∑
j=1
Ti (xj)− nd(θ) +n∑
j=1
S(xj)
1An (x)
sada stavimo
ci (θ) = ci (θ) d(θ) = nd(θ)
Ti (x) =n∑
j=1
Ti (xj) S(x) =n∑
j=1
S(xj).
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Zadaci
Zadatak 3.
Maxwell-Boltzmanova razdioba brzine molekula plina dana je gusto¢om
g(x ; h) =4h3√πx2e−h
2x21(0,∞)(x), h > 0.
Pripada li eksponencijalnoj familiji?
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Zadatak 4.
Pearsonova distribucija dana je funkcijom gusto¢e
f (x ; b) =x
b2e−
x2
2b2 1(0,∞)(x), b > 0.
Pripada li eksponencijalnoj familiji?
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Zadatak 5.
Gama distribucija dana je funkcijom gusto¢e
g(x ;α, λ) =λαe−λxxα−1
Γ(α)1(0,∞)(x), α, λ > 0
pri £emu je Γ(α) gamma funkcija:
Γ(α) =
∫ ∞0
tα−1e−tdt.
Pripada li jednostavan slu£ajan uzorak iz ove distribucije eksponencijalnojfamiliji?
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Zadatak 6.
Neka su X1, . . . ,Xn nezavisne slu£ajne varijable s Poissonovomdistribucijom tako da je E [Xi ] = eα+βti , gdje su t1, . . . , tn poznatekonstante. Pokaºite da je ovaj slu£ajan uzorak iz 2-parametarskeeksponencijalne familije.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Dovoljne statistike
Svaka statistika predstavlja na£in redukcije podataka - umjestokori²tenja cijelog uzorka koristimo samo vrijednost statistike
To je ono ²to ºelimo od procjenitelja.
Prvi korak potrage za dobrim procjeniteljima po£inje dovoljnimstatistikama.
Dovoljna statistika za neki parametar je statistika za koju vrijedi danijedna druga statistika ne sadrºi vi²e informacija o parametru oddovoljne statistike.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Denicija 6.
Neka je X = (X1, . . . ,Xn) slu£ajan uzorak iz parametarskog statisti£kogmodela
F = Fθ : θ ∈ Θ ,
i neka je T = t(X1, . . . ,Xn), t : Rn → Rd , statistika. Kaºemo da je T
dovoljna statistika za θ ako za svaki t = t(x1, . . . , xn) ∈ Rd uvjetnadistribucija uzorka X uz dano T = t ne ovisi o θ, tj.
Pθ (X ∈ A|T = t) ne ovisi o θ, za proizvoljni Borelov skup A.
Ako X ima funkciju gusto¢e f (x ;θ), onda je ovaj zahtjev ekvivalentanzahtjevu
fX |T (x ;θ|t) = h(x).
Drugim rije£ima, uz poznatu vrijednost t, uzorak ne sadrºi vi²e nikakvuinformaciju o nepoznatom parametru θ.
Napomena 2.
Ako je T dovoljna statistika i h neka bijekcija, nova statistika S = h(T )je takoer dovoljna statistika.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Kako prepoznati dovoljne statistike?
Teorem 1 (Neymanov teorem o faktorizaciji).
Neka je X = (X1, . . . ,Xn) slu£ajan uzorak iz parametarskog statisti£kogmodela F = fθ : θ ∈ Θ. Statistika T = t(X1, . . . ,Xn) je dovoljna za θako i samo ako se gusto¢a vektora X moºe faktorizirati kao
f (x ;θ) = gθ(t(x))h(x),
gdje je h : Rn → [0,∞) i gθ : Rd → [0,∞) za svaki θ ∈ Θ.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Napomena 3.
Ako je (X1, . . . ,Xn) iz k-parametarske eksponencijalne familije, tada
f (x ;θ) = exp
k∑
i=1
ci (θ)Ti (x)− d(θ) + S(x)
1A(x)
=
(exp
k∑
i=1
ci (θ)Ti (x)− d(θ)
)(exp S(x) 1A(x)) ,
pa iz prethodnog teorema slijedi da je T = (T1(X ), . . . ,Tk(X )) dovoljnastatistika za θ.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Napomena 4.
Ako je X slu£ajna varijabla s distribucijom iz k-parametarskeeksponencijalne familije s gusto¢om ∼ g(x ;θ) , tj.
g(x ;θ) = exp
k∑
i=1
ci (θ)Ti (x)− d(θ) + S(x)
1A(x).
onda je po Napomeni 1. dovoljna statistika za θ na osnovu jednostavnogslu£ajnog uzorka (X1, . . . ,Xn) iz te distribucije
T =
n∑j=1
T1(Xj), . . . ,n∑
j=1
Tk(Xj)
.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Primjer 6.
Odredite dovoljne statistike jednostavnih slu£ajnih uzoraka iz distribucijaspomenutih u prethodnim primjerima.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Minimalna dovoljnost i potpunost
Dovoljnih statistika ima puno. I cijeli uzorak X je jedna dovoljnastatistika.
Htjeli bi odabrati onu koja "najbolje" reducira podatke.
Tu se pojavljuju dva koncepta: minimalna dovoljna statistika ipotpuna statistika.
Denicija 7.
Dovoljna statistika T je minimalna dovoljna statistika ako je Tfunkcija svake druge dovoljne statistike S za isti parametar, tj. postojifunkcija ψ takva da je T = ψ(S).
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Teorem 2.
Dovoljna statistika T = (T1(X ), . . . ,Tk(X )) za slu£ajan uzorak izk-parametarske eksponencijalne familije je minimalna dovoljna ako suci (θ), i = 1, . . . , k linearno nezavisni.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Denicija 8.
Statistika T je potpuna za θ ako za svaku izmjerivu funkciju g za koju je
Eθ [g(T )] = 0, ∀θ
slijediPθ [g(T ) = 0] = 1, ∀θ.
Vrijedi:Ako je T potpuna i dovoljna, ona je ujedno i minimalna dovoljna.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Teorem 3.
Neka je (X1, . . . ,Xn) slu£ajan uzorak iz k-parametarske eksponencijalnefamilije, tj.
f (x ;θ) = exp
k∑
i=1
ci (θ)Ti (x)− d(θ) + S(x)
1A(x).
Neka jeC = (c1(θ), c2(θ), . . . , ck(θ)) : θ ∈ Θ .
Ako C sadrºi otvoreni pravokutnik iz Rk , onda je statistikaT = (T1(X ), . . . ,Tk(X )) potpuna dovoljna za θ.
Napomena 5.
Ako je T potpuna dovoljna statistika i h neka bijekcija, nova statistikaS = h(T ) je takoer potpuna dovoljna statistika.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Primjer 7.
Provjerite jesu li dovoljne statistike iz prethodnih primjera minimalne ipotpune.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Zadaci
Zadatak 7.
Odredite dovoljnu statistiku za jednostavan slu£ajan uzorak iz distribucijes gusto¢om
f (x ; θ) = θ3x2e−θx2
1(0,∞)(x), θ > 0.
Provjerite je li minimalna i je li potpuna.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Zadatak 8.
Neka je (X1, . . . ,Xn) jednostavan slu£ajan uzorak iz N (µ, σ2). Pokaºiteda je statistika (Xn, S
2
n ) potpuna dovoljna za parametar θ = (µ, σ2).
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Zadatak 9.
Neka je (X1, . . . ,Xn) jednostavan slu£ajan uzorak iz N (θ, θ2). Naitedovoljnu statistiku za θ i provjerite je li minimalna i potpuna.
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Zadatak 10.
Neka su X1, . . . ,Xn nezavisne normalno distribuirane slu£ajne varijabletakve da je
Xi ∼ N (α + βti , σ2), i = 1, . . . , n,
gdje su t1, . . . , tn ∈ R poznate konstante. Pokaºite da je ovo model iz3-parametarske eksponencijalne familije i odredite dovoljnu statistiku zanepoznati parametar (α, β, σ2).
Uvod Eksponencijalna familija distribucija Dovoljne statistike - minimalna dovoljnost i potpunost
Zadatak 11.
Weibullova distribucija je zadana funkcijom gusto¢e
f (x ;β, λ, µ) = κxβe−λxµ
1(0,∞)(x),
gdje su β, λ, µ > 0 nepoznati parametri i κ > 0 poznatakonstanta.Provjerite pripada li distribucija eksponencijalnoj i odreditedovoljne statistike za jednostavan slu£ajan uzorak iz te distribucije i to usljede¢im slu£ajevima:
(a) λ poznat, β, µ nepoznati (dvoparametarska Weibullova)
(b) µ poznat, β, λ nepoznati
(c) λ, µ poznati, β nepoznat (jednoparametarska Weibullova)