16
5. Estymacja przedzialowa. CLT. 5.1 Centralne Twierdzenie Graniczne 5.1.1 Rozklad dwumianowy Definicja 5.1 — Rozklad dwumianowy. Opisuje prawdopodobie´ nstwo otrzymania dokladnie k sukcesów przy n niezale˙ znych próbach Bernoulliego ze stalym prawdopo- dobie´ nstwem sukcesu p. P(X = k)= n k p k (1 - p) (n-k) Problem 5.1 Ile wynosi ´ srednia i odchylenie standardowe tego rozkladu? 5.1.2 Warto´ c oczekiwana i wariancja ´ sredniej arytmetycznej Przypomnijmy sobie jedno z wa˙ zniejszych odkry´ c zeszlych zaj˛ c: ile wynosi warto´ c oczekiwana i wariancja ´ sredniej arytmetycznej (jeszcze raz oklaski dla kolegów, którzy zdolali to udowodni´ c na tablicy). Twierdzenie 5.1 — Warto´ c oczekiwana i wariancja ´ sredniej arytmetycznej. Niech X edzie zmienn ˛ a losow ˛ a o warto´ sci oczekiwanej E[X ]= μ i wariancji D 2 [X ]= σ 2 wtedy a : E[ ¯ X n ]= μ D 2 [ ¯ X n ]= σ 2 n D[ ¯ X n ]= σ n a Zauwa˙ z, ˙ ze jest to tylko wprowadzenie oznacze´ n, nie zakladamy tutaj ˙ zadnego rozkladu X . W szcze- gólno´ sci nie zakladamy rozkladu normalnego Potencjalnym zaskoczeniem jest to, ˙ ze wariancja ´ sredniej arytmetycznej jest mniejsza ni˙ z wariancja samej zmiennej. Dlaczego tak jest? Wyobra´ zmy sobie rozklad wieku wszyst- kich ludzi, który oczywi´ scie nie jest normalny. Wylosujmy wiele próbek skladaj ˛ acych

5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

5. Estymacja przedziałowa. CLT.

5.1 Centralne Twierdzenie Graniczne5.1.1 Rozkład dwumianowy

Definicja 5.1 — Rozkład dwumianowy. Opisuje prawdopodobienstwo otrzymaniadokładnie k sukcesów przy n niezaleznych próbach Bernoulliego ze stałym prawdopo-dobienstwem sukcesu p.

P(X = k) =(

nk

)pk(1− p)(n−k)

Problem 5.1 Ile wynosi srednia i odchylenie standardowe tego rozkładu?

5.1.2 Wartosc oczekiwana i wariancja sredniej arytmetycznejPrzypomnijmy sobie jedno z wazniejszych odkryc zeszłych zajec: ile wynosi wartoscoczekiwana i wariancja sredniej arytmetycznej (jeszcze raz oklaski dla kolegów, którzyzdołali to udowodnic na tablicy).

Twierdzenie 5.1 — Wartosc oczekiwana i wariancja sredniej arytmetycznej. NiechX bedzie zmienna losowa o wartosci oczekiwanej E[X ] = µ i wariancji D2[X ] = σ2

wtedya:

E[Xn] = µ D2[Xn] =σ2

nD[Xn] =

σ√n

aZauwaz, ze jest to tylko wprowadzenie oznaczen, nie zakładamy tutaj zadnego rozkładu X . W szcze-gólnosci nie zakładamy rozkładu normalnego

Potencjalnym zaskoczeniem jest to, ze wariancja sredniej arytmetycznej jest mniejszaniz wariancja samej zmiennej. Dlaczego tak jest? Wyobrazmy sobie rozkład wieku wszyst-kich ludzi, który oczywiscie nie jest normalny. Wylosujmy wiele próbek składajacych

Page 2: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

2 Laboratorium 5. Estymacja przedziałowa. CLT.

sie ze 100 ludzi i dla kazdej z nich policzmy srednia, a nastepnie z policzonych srednichstwórzmy rozkład1.

! Zwróc uwage, ze zmieniamy tutaj perspektywe: mówiac o rozkładzie X mielismyna mysli rozkład cechy w badanej populacji, a mówiac o rozkładzie X mamy namysli rozkład sredniej w populacji próbek! Tak, dobrze przeczytałes, jesli badamysrednia to jej populacja jest populacja srednich policzonych na wszystkich mozliwychpróbkach o danym rozmiarze n.

Zauwaz, ze w kazdej z próbek znajda sie ludzie starzy i młodzi, ale kazdy z nich zostanieusredniony do pewnej srodkowej wartosci. Dlatego tez, w powstałym rozkładzie bedzie„brakowało” najbardziej skrajnych wartosci – przez co wariancja bedzie mniejsza. Zawszemoga sie nam tez zdarzyc próbki które beda zawierały same najmniejsze (lub najwieksze)wartosci i one beda tworzyły lewy (i prawy) koniec rozkładu. Jednak, im wiekszy bedzierozmiar próbki tym prawdopodobienstwo uzyskania takiej skrajnej próby bedzie sie szybkozmniejszac2. Jest wiec intuicyjnie zrozumiałe dlaczego wariancja sredniej maleje wraz zewzrostem próbki.

5.1.3 Twierdzenie graniczne Lindeberga-Levy’ego

Cwiczenie 5.1 Wejdz na strone: https://gallery.shinyapps.io/CLT_mean/ Napoczatku wybierz rozkład normalny i poeksperymentuj z róznymi wielkosciami próbki– jak wpływa to na rozkład sredniej? Nastepnie poeksperymentuj z rozkładem skosnym– co mozesz zaobserwowac przy rozkładzie o wysokiej skosnosci? �

Cwiczenie 5.2 Wejdz na strone: https://gallery.shinyapps.io/CLT_prop/. Jakirozkład ma wskaznik struktury? Co stanie sie gdy zwiekszysz p do ekstremalnej warto-sci np. p = 0.95? �

Twierdzenie 5.2 — Centralne Twierdzenie Graniczne (Lindeberga-Levy’ego) (ang. CLT,Central Limit Theorem). Niech X1,X2, ...,Xn bedzie ciagiem niezaleznych zmiennychlosowych o takim samym rozkładzie, ze skonczona wartoscia oczekiwana µ oraz zeskonczona i niezerowa wariancja σ2. Dodatkowo oznaczmy przez Zn ustandaryzowanazmienna Xn = n−1

∑Xi:

Zn =Xn−E[Xn]√

D2[Xn]=

Xn−µ

σ√n

1Jest to konieczne, poniewaz chcemy zmierzyc wariancje sredniej arytmetycznej, a srednia policzonana próbce jest tylko jedna (czyli liczenie wariancji byłoby bezsensu). W zwiazku z tym aby otrzymacrozkład sredniej arytmetycznej musimy wygenerowac wiele próbek, policzyc z nich srednia i dopiero wtedywygenerowac rozkład tych srednich.

2W naszych rozwazaniach najczesciej analizujemy populacje o nieskonczonym rozmiarze. Pomysljednak o 7,7 mld populacji ziemi i o próbach bez zwracania. Gdybysmy rozwazali populacje srednich z7,7 mld prób losowanych bez zwracania to wartosc ta miałaby zerowa wariancje. Dlaczego? Bo z 7,7 mldpopulacji jest mozliwosc uzyskania tylko jednej próby bez zwracania o rozmiarze 7,7 mld. Stad taka sredniabyłaby po prostu stała.

Page 3: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

5.1 Centralne Twierdzenie Graniczne 3

Rysunek 5.1: Ilustracja Centralnego Twierdzenia Granicznego

Wtedy:limn→∞

P(Zn < z) = Φ(z)

Twierdzenie 5.3 — Centralne Twierdzenie Graniczne dla sredniej (uproszczone).Dla dostatecznie duzej próby losowej prostej srednia arytmetyczna (Xn) ma rozkładnormalny z odpowiednia srednia i odchyleniem standardowym.

Dla duzych n : Xn ∼ N(

µ,σ√

n

)Istnieje takze wersja Centralnego Twierdzenia Granicznego dla sumy.

Twierdzenie 5.4 — Centralne Twierdzenie Graniczne dla sumy (uproszczone).Dla dostatecznie duzej próby losowej prostej suma (∑Xi) ma rozkład normalny z odpo-wiednia srednia i odchyleniem standardowym.

Dla duzych n :n

∑i=1

Xi ∼ N(n ·µ,

√n ·σ

)Omówmy jeszcze pokrótce załozenia twierdzenia:• obserwacje sa niezalezne.

To załozenie spełniamy najczesciej poprzez losowe próbkowanie ze zwracaniem.Warto zauwazyc, ze duzo badan statystycznych jest realizowana na próbach bezzwracania (np. ta sama osoba raczej nie wypełnia tej samej ankiety dwa razy, nawetjesli zostałaby wylosowana). W takiej sytuacji o ile próba w stosunku do populacjijest mała mozemy uznac, ze załozenie jest spełnione. Czestym warunkiem jest

Page 4: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

4 Laboratorium 5. Estymacja przedziałowa. CLT.

wymaganie aby rozmiar nie przekraczał 10% rozmiaru populacji.• dostatecznie duza próba losowa.

Czesto w podrecznikach mozna znalezc, ze „dostatecznie duza próba losowa” topróba majaca powyzej 30 obserwacji. Nie jest to zawsze prawda! Jezeli rozkład Xjest bardzo skosny to rozmiar próby powinien byc wiekszy (im bardziej skosny tymrozmiar powinien byc wiekszy) – dlatego niektórzy podaja, ze n > 100 lub n > 200.Tak naprawde, jesli pracujesz z rozkładem mocno skosnym i masz watpliwosc czyprzy danym rozmiarze próby rozkład srednich zaczał juz zbiegac do normalnegopowinienes przeprowadzic dodatkowa analize sprawdzajaca to załozenie.Takich heurystyk jest bardzo duzo np. dla rozkładu dwumianowego:

Definicja 5.2 Rozkład dwumianowy mozemy przyblizyc rozkładem normalnymjezeli liczba oczekiwanych sukcesów i porazek jest wieksza niz 5a.

np > 5 ∧ n(1− p)> 5aNiektóre ksiazki sa bardziej zachowawcze i podaja wartosc 10. Osobiscie proponuje nastepu-

jaca heurystyke: jesli masz pod reka komputer i mozesz policzyc dokładne prawdopodobienstwoz rozkładu dwumianowego w to po co stosowac przyblizenia rozkładem normalnym? Jesliobliczenie tego dokładnego prawdopodobienstwa na komputerze trwa dłuzej niz kilka minut –zastosuj przyblizenie rozkładem normalnym.

� Przykład 5.1 Pewna fabryka produkuje wysokiej jakosci smartwatch’e. Kazdego dniafabryka jest w stanie wyprodukowac pewna liczbe smartwatch’y X , która ma jakis rozkłado µ = 5 i σ = 3. Firma ma szanse na bardzo opłacalne zamówienie na 1000 smartwatch’y,które musiałaby dostarczyc w przeciagu 8 miesiecy (≈ 240 dni). Jednakze, w przypadkuzwłoki firma bedzie musiała zapłacic tak duza kare, ze splajtuje. Dodatkowo wiesz, zezanim załatwisz wszystkie formalnosci i uruchomisz produkcje minie dokładnie 20 dni.Jako menadzer musisz podjac decyzje czy przyjmujesz zamówienie.3 Dla uproszczeniaprzyjmij, ze liczby wyprodukowanych zegarków w poszczególnych dniach sa od siebieniezalezne.

Aby podjac taka decyzje najpierw spróbujmy oszacowac ryzyko, ze firma zapłaci kare.Ryzyko mozemy oszacowac poprzez obliczenie prawdopodobienstwa, ze w przeciagu 220dni nie uda sie wyprodukowac 1000 zegarków.

P

(220

∑i=1

Xi < 1000

)=?

Nasza próbka zawiera 220 wartosci X , jezeli wiec nie spodziewamy sie ekstremalnieskosnego rozkładu, mozemy wiec uzyc Centralnego Twierdzenia Granicznego i przyjac,ze ∑

220i=1 Xi ma rozkład normalny, pomimo tego, ze nie wiemy jaki rozkład ma X .

P

(220

∑i=1

Xi < 1000

)= P

(∑

220i=1 Xi−5 ·220

3 ·√

220<

1000−5 ·2203 ·√

220

)= P

(∑

220i=1 Xi−5 ·220

3 ·√

220<−2,24

)= Φ(−2,24) = 0.0125

3Zadanie jest wariacja zadania z kursu „Probabilistic Systems Analysis and Applied Probability” na MIT.

Page 5: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

5.1 Centralne Twierdzenie Graniczne 5

Cóz, dalej statystyka ci nie pomoze – czy podejmiesz ryzyko? ;)Statystyka nie potrafi udowadniac rzeczy na 100%, a jedynie pozwala na oszacowanie

prawdopodobienstwa przy uzyciu danych. Na podstawie takich wyliczen musisz samo-dzielnie podjac decyzje o akceptacji (lub nie) stwierdzenia, warto wiec odpowiedziec sobiena pytanie: jak niskie powinno byc prawdopodobienstwo abys przyjał to zamówienie?

Problem 5.2 Na iPadzie masz 3000 piosenek. Srednia długosc trwania piosenki to 3,45minuty z σ = 1,63 minuty. Zrobiłem liste 100 piosenek, których bede słuchac w trakciepodrózy z Poznania do Krakowa (6h). Jakie jest prawdopodobienstwo, ze wystarczy mipiosenek do konca podrózy?

5.1.4 ** Centralne Twierdzenie Graniczne - dlaczego rozkład normalny?

AD

VAN

CED

Czasami trudno jest intuicyjnie zaakceptowac fakt, ze suma duzej liczby zmiennychlosowych ma rozkład zbiezny do rozkładu normalnego. W tym celu pokazemy czterywskazówki dlaczego tak jest, jednak aby zrobic to w przystepny sposób pozwolimy sobie nadodatkowe uproszenia4. Oczywiscie Centralne Twierdzenie Graniczne mozna udowodnicw sposób formalny, a dowód mozna bez problemu znalezc np. w [3].

Po pierwsze, chwilowo załózmy, ze rzeczywiscie suma znormalizowanych zmiennychlosowych (EX = 0 i DX = 1) z próby losowej prostej zbiega do jakiegos jednego hipote-tycznego rozkładu prawdopodobienstwa F(x). Przypomnijmy, ze zeby wariancja sumyzmiennych losowych była taka sama jak wariancja tej zmiennej to musimy ja podzielicprzez

√n.

D2[n

∑i=1

Xi] = nσ2 D2

[∑

ni=1 Xi√

n

]=

1nD2[

n

∑i=1

Xi] =1n

nσ2 = σ

2

Korzystajac z naszego załozenia wiemy, ze ∑ni=1 Xi√

n zbiega do jakiegos rozkładu F . Spró-

bujmy dodac dwie takie niezalezne zmienne do siebie ∑ni=1 Xi√

n +∑

2ni=n+1 Xi√

n = ∑2ni=1 Xi√

n w rezul-tacie otrzymujemy zmienna, która na mocy naszego załozenia, równiez dazy do takiegosamego rozkładu co kazda z tych dwóch sum z osobna! (bo tez jest suma zmiennych loso-wych) Jedna drobna róznica, ze zbiega do rozkładu o innej wariancji... Aby zmienna ta zbie-gała do rozkładu o takiej samej wariancji (równej 1), musielibysmy ja znormalizowac do∑

2ni=1 Xi√

2n. Spodziewamy sie, wiec ze F +F =

√2F . Ciekawe jaki rozkład ma taka własnosc?

Na podstawie twierdzenia z laboratoriów o rozkładzie normalnym (suma niezaleznych nor-malnych jest normalna!): N(0,1)+N(0,1) = N(0,

√12 +12) = N(0,

√2) =

√2N(0,1).

Widzimy wiec, ze jesli taka własnosc istnieje to F moze miec własnie rozkład normalny.No własnie, jesli ta własnosc istnieje. Spróbujmy zaatakowac ten problem. Jednym ze

sposobów identyfikacji rozkładu prawdopodobienstwa jest wyznaczenie jego momentówcentralnych (na drugich laboratoriach widzielismy jak kolejne momenty sa zwiazanez wariancja, skosnoscia i kurtoza – jesli tego nie pamietasz przypomnij sobie!). Dlauproszczenia załózmy, ze oprócz skonczonej wariancji i wartosci oczekiwanej (warunkiCLT), X ma skonczone wszystkie momenty. Jesli sa skonczone to istnieje taka stała, która

4Jest to przetłumaczony i uproszczony opis z Filmus Y., Two Proofs of the Central Limit Theoremdostepny pod adresem http://www.cs.toronto.edu/~yuvalf/CLT.pdf

Page 6: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

6 Laboratorium 5. Estymacja przedziałowa. CLT.

jest od nich wieksza. Oznaczmy E[X3] ≤ C3 i E[X4] ≤ C4 oraz przypomnijmy, ze dlazmiennych niezaleznych E[XiX j] = EXiEX j, co dla zmiennych o sredniej 0 przeradza siew E[XiX j] = 0. Zwróc uwage, ze E[X2

i ] = E[XiXi] 6= 0, bo Xi nie jest niezalezny od samegosiebie!

Ile wynosi drugi moment centralny (czyli wariancja) naszej sumy? Przy zerowejsredniej momenty centralne sa zwykłymi momentami (czyli tutaj D2 Xi = E[(Xi−µ)2] =E[(Xi−0)2] = EX2

i , a poniewaz pracujemy na zmiennych ustandaryzowanych to D2 Xi =1).

E

[(∑

ni=1 Xi√

n

)2]=

∑iEX2i

n+

∑i6= jE[XiX j]

n=

nD2 Xi

n+

∑i6= j���*0

E[Xi]����*0

E[X j]

n= 1+0 = 1

Zapis ∑i6= j oznacza iteracje (sumowanie) po wszystkich mozliwych parach zmiennych.Zwróc uwage, ze zastosowalismy tutaj po prostu wzór skróconego mnozenia dla dowolnejliczby zmiennych czyli np. dla dwóch zmiennych losowych:

E

[(∑

2i=1 Xi√

2

)2]=

EX21 +EX2

22

+E[X1X2]+E[X2X1]

2=

2D2 Xi

2+2�

���*0

E[X1]����*0

E[X2]

2= 1

A wiec wariancja rozkładu takiej sumy wynosi 1. Ciekawe, bo jest to dokładnie tylesamo ile wynosi wariancja standardowego rozkładu normalnego... Hmm... a ile wynosiasymetria tego rozkładu (przy n→ ∞)?

E

[(∑

ni=1 Xi√

n

)3]=

∑iEX3i

n3/2 +3∑i 6= jE[X2

i X j]

n3/2 +∑i6= j 6=kE[XiX jXk]

n3/2

=∑iEX3

i

n3/2 +3∑i 6= jE[X2

i ]����*0

E[X j]

n3/2 +∑i6= j 6=k��

�*0E[Xi]��

��*0E[X j]��

��*0E[Xk]

n3/2

=∑iEX3

i

n3/2 +0+0≤ nC3

n3/2 =C3√

n−−−→n→∞

0

Hmm... A wiec jest to rozkład o zerowej asymetrii5... Ten rozkład normalny, który mazerowa asymetrie to naprawde podejrzany typ!

! Przy okazji powyzszy wzór sugeruje nam, ze szybkosc zbieznosci (dla skonczonychprób n) jest uzalezniona od C3 czyli od górnego ograniczenia na asymetrie oryginal-nego rozkładu zmiennej X . Im wyzsza asymetria X , tym wieksze musi byc n zeby jazredukowac – a dzieje sie to dosc wolno, bo n jest pod pierwiastkiem.

Ciekawe, ile wynosi w takim razie kurtoza tego rozkładu sumy?

5Rozkład symetryczny ma asymetrie 0, ale nie kazdy rozkład o asymetrii 0 jest symetryczny!

Page 7: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

5.2 Estymacja przedziałowa 7

E

[(∑

ni=1 Xi√

n

)4]=

∑iEX4i

n2 +4∑i6= jE[X3

i X j]

n2 +3∑i6= jE[X2

i X2j ]

n2 +6∑i6= j 6=kE[X2

i X jXk]

n2

+∑i6= j 6=k 6=l E[XiX jXkXl]

n2

=∑iEX4

in2 +0+3

∑i 6= jE[X2i ]E[X2

j ]

n2 +0+0 =∑iEX4

in2 +3

∑i6= j 1 ·1n2

=∑iEX4

in2 +3

n(n−1)n2 ≤ nC4

n2 +3(

1− 1n

)−−−→n→∞

0+3 = 3

Nie udało nam sie dojsc do tego czy suma znormalizowanych zmiennych losowych zpróby losowej prostej o ograniczonych momentach dazy do tego samego rozkładu. Wiemynatomiast, ze z cała pewnoscia wszystkie rozkłady tych sum daza do rozkładu(ów) zwariancja 1, zerowa asymetria i kurtoza równa 3. Byc moze nawet jest to jeden takirozkład, który spełnia te wszystkie własnosci... W tym miejscu (zupełnie nic nie sugerujac)przypomne, ze rozkład standardowy normalny ma zerowa srednia, wariancje równa 1,zerowa asymetrie i kurtoze równa dokładnie 3.

! Kontynuujac poprzednia uwage z wykrzyknikiem: zauwaz, ze kurtoza oryginalnegorozkładu X ma mniejsze znaczenie niz jego asymetria, gdyz zwiekszajacy sie rozmiarpróby redukuje ja dosc szybko (jest ona dzielona przez n).

5.2 Estymacja przedziałowa5.2.1 Analiza przedziałów ufnosci

Definicja 5.3 — Przedział ufnosci. Przedziałem ufnosci dla parametru θ na poziomieufnosci 1−α nazywamy przedział Cn = (a,b) gdzie a i b sa funkcjami próby losowejtakimi ze

∀θ P(θ ∈Cn) = 1−α

Najczesciej uzywa sie wartosci α = 5%.

Innymi słowy przedział ufnosci skonstruowany w ten sposób pokrywa prawdziwawartosc estymowanego parametru z prawdopodobienstwem 1−α .

Zauwaz, które czesci wzoru sa zmiennymi losowymi: θ jest nieznanym (ale ustalonym)parametrem populacji, a przedział Cn jest zmienna losowa. Z chwila gdy skonstruujemykonkretny przedział ufnosci np. cn = (−5,5) we wzorze P(θ ∈ cn) mamy tylko konkretnewartosci! Wynika z tego, ze - zgodnie z definicja czestotliwosciowa - prawdopodobienstwo,ze ten konkretny przedział pokrywa szukany parametr nie wynosi juz 1−α . Taki przedziałalbo pokrywa szukana wartosc albo jej nie pokrywa! Zauwaz ze wyrazenie θ ∈ cn jestzwykłym wyrazeniem logicznym, które jest albo prawdziwe albo fałszywe.

Jak wiec interpretowac przedział ufnosci? Jezeli powtórzyłbym eksperyment wielo-krotnie (nieskonczona ilosc razy) i dla kazdego otrzymanego wyniku (próbki) stworzyłbym

Page 8: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

8 Laboratorium 5. Estymacja przedziałowa. CLT.

przedział ufnosci to tylko α procent z takich przedziałów nie pokrywałoby szukanej warto-sci. Jednak dany przedział, albo pokrywa dana wartosc, albo nie (z prawdopodobienstwem0% lub 100%).

Zwykle jednak nie powtarzamy danego eksperymentu (badania statystycznego) wielerazy, mozemy wiec przedział interpretowac takze w nastepujacy sposób [3]. Prowadziszfirme statystyczna: pierwszego dnia zbierasz dane i tworzysz dla parametru θ1 przedział zpoziomem ufnosci 1−α . Nastepnego dnia zbierasz inne dane w celu estymacji innegoparametru θ2 (który nie jest w zaden sposób zwiazany z θ1) i tworzysz dla niego przedziałufnosci. Te czynnosc kontynuujesz w kolejnych dniach funkcjonowania twojej firmy. Wrezultacie (1−α) ·100 procent skonstruowanych przez Ciebie przedziałów ufnosci bedziezawierało szukane parametry (pomylisz sie w α · 100 procent przypadków). Mozemywiec powiedziec: „Mamy (1−α) ·100 procent ufnosci, ze prawdziwy parametr populacjijest pomiedzy ... i ...”. Nie mozemy jednak powiedziec, ze prawdopodobienstwo tego,ze prawdziwy parametr populacji jest w tym przedziale wynosi (1−α). Twoja ufnosc aprawdopodobienstwo czestotliwosciowe6 to nie to samo!

Jaki jest wobec tego sens znajdowania przedziału ufnosci, skoro wiemy, ze najzwy-czajniej w swiecie szukana wartosc jest lub nie jest w srodku? „Kierujemy sie tutajpraktyczna zasada, według której zdarzenie o bardzo małym prawdopodobienstwie wjednym doswiadczeniu praktycznie nie zachodzi [2]”. Dla przykładu rzucajac jeden razpiecioma monetami w praktyce nie liczmy sie z mozliwoscia, ze wypadnie nam 5 orłów –pomimo tego, ze zdarzenie to ma prawdopodobienstwo ok. 3%, a wiec przecietnie, przypowtarzaniu eksperymentu, w kazdych 100 rzutach 3 razy zdarzy sie taka sytuacja.Problem 5.3 Które z ponizszych stwierdzen jest najlepsza interpretacja 95% przedziałuufnosci dla sredniej?• 95% rozkładu populacji jest zawarte w przedziale ufnosci• Jesli wzielismy wiele prób losowych i skonstruowalismy 95% przedział ufnosci dla

kazdej z nich to 95% tych przedziałów zawiera srednia populacji• 95% przedział ufnosci ma 0.95 prawdopodobienstwo, ze zawiera srednia populacji

Problem 5.4 Przeprowadzono badanie czasu dojazdu mieszkanców Poznania do pracy.W tym celu pobrano n = 50 elementowa próbke i uzyskano: srednia 24 minuty i 95%przedział ufnosci dla sredniej czasu dojazdu: (17, 31). Które z ponizszych stwierdzen saprawidłowymi interpretacjami tego przedziału?• 95% z tych 50 mieszkanców potrzebuje od 17 do 31 minut, aby dojechac do pracy• jest 95% prawdopodobienstwo, ze prawdziwa srednia czasu dojazdu do pracy w

Poznaniu jest pomiedzy 17 a 31 minut• mamy 95% pewnosc, ze prawdziwa srednia czasu dojazdu do pracy w Poznaniu jest

pomiedzy 17 a 31 minut• gdybysmy powtórzyli to badanie wiele razy to 95% z uzyskanych srednich artyme-

tycznych byłoby pomiedzy 17 a 31 minut• gdybysmy powtórzyli to badanie wiele razy, i dla kazdej z uzyskanych prób stworzy-

libysmy przedział ufnosci to nasza srednia 24 minuty zawierałaby sie w ok. 95% znich• gdybysmy powtórzyli to badanie wiele razy, i dla kazdej z uzyskanych prób stwo-

rzylibysmy przedział ufnosci to srednia populacji zawierałaby sie w ok. 95% z

6Nawet ta interpretacja budzi watpliwosci statystyków Bayesowskich, którzy interpretuja ufnosc (ang. de-gree of believe) jako prawdopodobienstwo!

Page 9: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

5.2 Estymacja przedziałowa 9

Rysunek 5.2: Wizualizacja 25 przedziałów z 95% ufnoscia dla sredniej wraz ze znaczonaprawdziwa wartoscia, która była estymowana. Tylko jeden z przedziałów nie zawieraprawdziwej wartosci sredniej.

nich

5.2.2 Jak konstruowac przedziały ufnosci?Załózmy, ze konstruujemy przedział ufnosci dla jakies zmiennej ciagłej. Teoretycznie jestmozliwe uzyskanie wielu róznych przedziałów ufnosci np. znalezc takie a, ze

P(θ ∈ (−∞,a)) = 1−α

alboP(θ ∈ (a,∞)) = 1−α

albo takie a i b, zeP(θ ∈ (a,b)) = 1−α

Chociaz jest mozliwe konstruowanie róznych przedziałów ufnosci, najczesciej konstru-ujemy przedziały symetryczne (w sensie prawdopodobienstwa ;). To jest konstruujemyje w taki sposób, aby prawdopodobienstwo, ze prawdziwa wartosc parametru bedziepoza przedziałem po lewej stronie (parametr bedzie mniejszy niz lewy koniec przedziału)było takie samo jak prawdopodobienstwo, ze wartosc parametru bedzie po prawej stronieprzedziału. Czyli dla ponizszych oznaczen:

P(θ ∈Cn) = 1−α

P(θ /∈Cn) = α

P(θ /∈Cn) = P(θ /∈ (a,b)) = P(θ < a)+P(θ > b) = α

Page 10: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

10 Laboratorium 5. Estymacja przedziałowa. CLT.

checemy dobrac takie a i b aby P(θ < a) = P(θ > b). Wynika z tego, ze chcemy, aby obate prawdopodobienstwa były równe α

2 .Dodatkowym atutem takiego przedziału jest to, ze jego szerokosc (zakres wartosci)

dla zmiennej o rozkładzie normalnym jest najmniejsza wsród wszystkich przedziałów otakiej ufnosci. No własnie, przejdzmy do konkretów: jak skonstruowac taki przedział dlanieobciazonego estymatora o rozkładzie normalnym?

5.2.3 Przedziały ufnosci dla nieobciazonych estymatorów normalnychZałózmy, ze mamy nieobciazony estymator pewnego parametru θ , który ma rozkładnormalny z pewna prawdziwa srednia θ (jest to estymator nieobciazony) i pewnym odchy-leniem standardowym D θ (w kontekscie estymacji czasami zwanym błedem standardo-wym).

W takiej sytuacji zmienna Z(θ) = θ−θ

D θma rozkład standardowy normalny. Dla jakiego

przedziału P(a < Z < b) = 1−α ? Jak uzasadnilismy wyzej, chcielibysmy uzyskacprzedział symetryczny czyli chcemy, zeby P(Z < a) było równe P(Z > b), a dodatkowo zdefinicji przedziału ufnosci wiemy, ze suma tych prawdopodobienstw powinna wynosic α .

P(Z < a)+P(Z > b) = 2P(Z < a) = α

P(Z < a) =α

2Z symetrycznosci rozkładu normalnego wiemy, ze a =−b, a wartosc a mozemy prostoznalezc w tablicach. Dla przykładu: 95% przedział ufnosci bedzie miał α = 5% czyliodczytujemy wartosc dla α

2 = 2,5%, która wynosi −1.96 (P(Z < −1.96) = 0.025). Tewartosc odczytana z tabeli dalej bedziemy oznaczali jako zα/2 (z0.025 =−1.96).

Skonstruowalismy wiec przedział ufnosci dla Z:

P(zα/2 < Z <−zα/2) = 1−α

Ale przeciez nas interesuje przedział ufnosci dla θ - przestapmy do destandaryzacji.

P(zα/2 < Z <−zα/2) = P(zα/2 <θ −θ

D[θ ]<−zα/2)

= P(zα/2D[θ ]< θ −θ <−zα/2D[θ ])= P(−θ + zα/2D[θ ]<−θ <−θ − zα/2D[θ ])= P(θ − zα/2D[θ ]> θ > θ + zα/2D[θ ]) /pomnóz przez -1/

= P(θ + zα/2D[θ ]< θ < θ − zα/2D[θ ]) /przepisz od prawej do lewej/

Uzyskalismy wiec ogólny wzór na przedział ufnosci konstruowany dla parametruestymowanego estymatorem nieobciazonym o rozkładzie normalnym:

(θ + zα/2D[θ ], θ − zα/2D[θ ])

Zauwaz, ze jest to niezwykle uzyteczny wzór dla estymatorów najwiekszej wiarygodnosci:sa one asymptotycznie (dla duzych prób) nieobciazone i asymptotycznie normalne. Innymprzykładem estymatora, który cały czas bedziemy uzywac, jest srednia arytmetyczna,która:• dla próby z rozkładu normalnego zawsze ma rozkład normalny,• dla duzych prób z dowolnego rozkładu (na mocy CLT) ma rozkład normalny

Page 11: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

5.2 Estymacja przedziałowa 11

Definicja 5.4 Przy rozkładzie normalnym (lub przy duzej próbie), jezeli wariancjajest znana to przedział ufnosci dla µ przy uzyciu sredniej arytmetycznej x z 1−α

poziomem ufnosci: (x+ zα/2

σ√n, x− zα/2

σ√n

)w skrócie:

x± zα/2σ√

n

gdzie zα/2 = Φ−1(α

2 ). Wartosc zα/2 nazywamy kwantylem.

! Zauwaz, ze zα/2 (α/2 zawsze jest mniejsza równa 0.5) bedzie zawsze ujemny, wiecw lewym koncu przedziału mamy dodawanie, a w prawym odejmowanie - co jest napierwszy rzut oka nieintuicyjne!

Uzyteczne wartosci: dla 95% przedziału ufnosci z0.025 = −1.96, dla 99% przedziałuufnosci z0.005 =−2.58. Upewnij sie, ze potrafisz odczytac te wartosci z tabeli rozkładunormalnego!Problem 5.5 Jak bedzie wygladała powyzsza definicja (5.4) dla sumy zmiennych loso-wych?

� Przykład 5.2 Pobrano próbe losowa o licznosci n = 16 dla pewnej cechy o rozkładzienormalnym i znanej wariancji σ2 = 4. Obliczono srednia arytmetyczna dla pobranej próbyi uzyskano wynik x = 10. Skonstruuj 90% przedział ufnosci.

Rozpocznijmy od ustalenia α: 1−α = 0,90 czyli α = 0,10.Odczytajmy wartosc zα/2 z tablic: z0.05 =−1.65. Podstawiamy do wzoru z definicji 5.4(

x+ zα/2σ√

n, x− zα/2

σ√n

)i otrzymujemy7(

10+(−1.65)2√16

,10− (−1.65)2√16

)=

(10−1.65 · 1

2,10+1.65 · 1

2

)=(9.175,10.825)

Problem 5.6 Wiemy, ze X ma rozkład normalny N(µ,σ = 5). Skonstruuj 95% prze-dział ufnosci dla nieznanego parametru µ , majac do dyspozycji próbe losowa z n = 25obserwacjami, w której srednia wartosc wyniosła 30.Problem 5.7 Wiemy, ze X ∼ N(µ,σ = 20). Skonstruuj 99% przedział ufnosci dla niezna-nego parametru µ , majac do dyspozycji próbe losowa z n = 100 obserwacjami, w którejsrednia wartosc wyniosła −6.Problem 5.8 Jak zmieni sie przedział gdy zwieksze poziom ufnosci?Problem 5.9 Algorytm rozpoznajacy automatycznie raka płuc na podstawie przeswietle-nia podczas testu na 100 pacjentach popełnił 1 bład. Lekarz przy ocenie przeswietlenia nie

7Zwróc uwage na pułapke: w tresci zadania podano wartosc wariancji, a we wzorze mamy odchyleniestandardowe

Page 12: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

12 Laboratorium 5. Estymacja przedziałowa. CLT.

myli sie w 98,4% przypadków. Podany wynik sugeruje, ze algorytm jest lepszy niz lekarz.Skonstruuj przedział ufnosci, aby dowiedziec sie czy jest mozliwe uzyskanie tak dobregowyniku przez algorytm, nawet jezeli w rzeczywistosci jest on gorszy niz lekarz.Problem 5.10 W przeprowadzanym badaniu statystycznym (n = 100) otrzymano szerokiprzedział ufnosci dla wartosci oczekiwanej. Aby uzyskac lepsza estymacje chcielibysmygo skrócic co najmniej dwukrotnie. O ile musze zwiekszyc rozmiar próby?

Cwiczenie 5.3 Zbuduj przedziały ufnosci: http://www.cs.put.poznan.pl/mlango/siad/data/excel/04/cw-2.xls �

5.3 Tworzenie własnych funkcji w RStworzenie własnej funkcji w jest bardzo proste: wystarczy do nazwy funkcji przypisacjej kod rozpoczynajac go od function() , a miedzy nawiasami mozna umiescic nazwyargumentów. Dla przykładu majac funkcje obliczajaca wariancje var mozemy bardzoprosto zdefiniowac funkcje obliczajaca odchylenie standardowe:

sd <- function(x) sqrt(var(x))

Jezeli chciał(a)bys napisac dłuzsza funkcje, która nie zmiesciłaby sie w jednej linijcemusiał(a)bys ujac ciało funkcji w nawiasy wasiaste:

sd <- function(x){

sqrt(var(x))

}

Zauwaz, ze w nie ma koniecznosci uzywania odpowiednika słówka return z innychjezyków programowania. Po prostu ostatnia zewaluowana przez funkcje wartosc jesttraktowana jako jej wyjscie. Natomiast, jezeli return z jakis powodów byłoby Cipotrzebne to mozesz go uzyc – przy czym w jest ono funkcja: np. return() zwracawartosc NULL .

sd <- function(x) return(sqrt(var(x)))

Jezeli chcesz zmienic juz napisana funkcje mozesz wywołac funkcje fix(nazwa_funkcji) ,która otworzy edytor z kodem zródłowym funkcji.

Cwiczenie 5.4 Stwórz funkcje zwracajaca przedział ufnosci dla sredniej arytmetycznejdla danego w jej argumencie wektora. Przedział mozesz zwrócic jako wektor dwóchliczb. �

Oczywiscie w istnieja równiez konstrukcje warunkowe:

if (wyrazenie_logiczne) wyrazenie1 else wyrazenie2

Jezeli chciałbys uzyc kilku wyrazen w składni instrukcji warunkowej to musiał(a)bys,podobnie jak w przypadku funkcji, umiescic je w nawiasie wasiastym.

Page 13: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

5.3 Tworzenie własnych funkcji w R 13

Cwiczenie 5.5 Rozszerz implementacje funkcji z poprzedniego cwiczenia, tak abyprzy małym rozmiarze wektora konstruowała ona przedział ufnosci uzywajac kwantylirozkładu t-Studenta. �

W istnieja równiez petle np.

while (wyrazenie_logiczne) wyrazenie

for (nazwa in wyrazenie1) wyrazenie2

Petla for jest zdefiniowana jako petla typu foreach iterujaca po wszystkich elemen-tach sekwencji. Kazdy kolejny element sekwencji ( wyrazenie1 ) jest podstawiany dozmiennej nazwa . Z tego powodu, aby uzyskac iterowanie po liczbach całkowitych trzebaiterowac po wynikach znanej Ci funkcji seq() lub uzyc konstrukcji od:do .

Cwiczenie 5.6 Wypisz liczby od 1 do 10 uzywajac petli for i funkcji print() . �

Spróbujmy sprawdzic działanie Centralnego Twierdzenia Granicznego dla znanegoTobie rozkładu χ2 z df = 1. Aby zasymulowac Centralne Twierdzenie Granicznemusimy najpierw pobrac bardzo wiele próbek próbek z rozkładu populacji, nastepniepoliczyc srednia na kazdej z nich i stworzyc z nich rozkład.

1. Na poczatku utwórzmy sobie wektor w którym bedziemy zbierac wyniki srednichpoliczonych na kazdej z utworzonych przez nas prób. Załózmy, ze tych próbekbedzie 1000. Aby nie wpisywac recznie tysiaca zer do wektora uzyjemy funkcjirep(element, ilosc_powtorzen) , która tworzy wektor poprzez wielokrotnepowtórzenie danego elementu.

sample_means <- rep(0, 1000)

! Aby zrobic to bardziej elegancko w jezyku moglibysmy zainicjalizowacwektor wartosciami NA („Not Available”) oznaczajace wartosc która jestbrakujaca/niedostepna. Alternatywnie mozna uzyc konstruktora wektorawartosci numerycznych numeric(dlugosc_wektora) .

2. Teraz napiszmy petle, która wygeneruje nam próbke o pewnym rozmiarze zrozkładu χ2, policzy z niej srednia i wpisze do przygotowanego wczesniej wektorasample_means . Ustalmy wielkosc próbki na 30.

for(i in 1:iter){

samp <- rchisq(30,df=1)

sample_means[i] <- mean(samp)

}

3. Gotowe! Narysuj teraz histogram otrzymanych srednich oraz narysuj linie roz-kładu normalnego, aby móc łatwo sprawdzic czy uzyskany rozkład jest rozkładem

Page 14: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

14 Laboratorium 5. Estymacja przedziałowa. CLT.

normalnym.Przypomnienie: jezeli X ∼ χ2

k to E[X ] = k, a D[X ] =√

2k, gdzie k to liczba stopniswobody rozkładu.

4. Stwórz z kodu z poprzednich punktów tego cwiczenia funkcje plot_sampling_distr

z parametrami n licznosc generowanych próbek oraz iter liczba generowanychpróbek, aby móc wywoływac ten kod wielokrotnie w wygodny sposób.

5. Wywołaj funkcje wielokrotnie z róznymi ustawieniami parametrów i sprawdz odjakich wartosci argumentów funkcji rozkład srednich z próbek staje sie normalny.

Cwiczenie 5.7 Napisz funkcje, która dla wektora (x1,x2,x3, · · · ,xn) zwraca wektor(x1

1,x22,x

33, · · · ,xn

n). �

Cwiczenie 5.8 Zaimplementuj ponizsza ciagła funkcje

f (x) =

x2 +2x+3 x < 0x+3 0≤ x < 2x2 +4x−7 2≤ x

i narysuj jej wykres od -3 do 3. �

Cwiczenie 5.9 Mozesz sprawdzic które funkcje sa rzeczywiscie napisane w , a którewołaja skompilowany kod napisany np. w C poprzez wpisanie jej nazwy bez nawiasów.Spróbuj dla funkcji obliczajacej srednia mean i wariancje var . �

Alternatywa do pisana petli jest uzycie funkcji apply , która aplikuje podana funkcjedo kazdego wiersza lub kolumny ramki danych.

apply(ramka_danych, wymiar_do_iteracji, funkcja)

Na przykład ponizsze wywołanie funkcji oblicza srednia dla kazdej kolumny ramkidataset.

apply(dataset,2,mean)

5.3.1 Wczytywanie danych do RW powyzszym tutrialu dane były juz wczytane za Ciebie lub tworzyłes je samodzielnie,poprzez wpisanie ich do konsoli. Dlatego na koniec warto wspomniec o tym, zeposiada bardzo proste funkcje do importu danych z wielu pakietów statystycznych jakSPSS, SAS, Stata, a takze z baz danych zarówno SQL (np. MySQL, Oracle) jak i NoSQL(np. MongoDB) oraz z innych zródeł np. z Twitter’a.

Jezeli chcesz zaimportowac plik w formacie tekstowym do najprosciej uzyc dotego celu importera wbudowanego w RStudio. W prawym górnym okienku powinienesodnalezc przycisk „Import Dataset”, który uruchomi kreator proszacy Cie o wskazaniepliku na dysku twardym, a nastepnie spróbuje automatycznie wykryc zasady formatowaniapliku (np. jaki znak jest separatorem).

Page 15: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

BIBLIOGRAFIA 15

Oczywiscie to samo mozesz uzyskac poprzez wywołanie odpowiedniego poleceniaw konsoli jezyka . W przypadku pliku tekstowego jest to read.table z odpowied-nimi parametrami. W parametrach tej funkcji nalezy wyspecyfikowac m.in. sciezke dopliku, informacje czy pierwsza linijka zawiera nazwy kolumn ( header ) oraz separatorposzczególnych pól ( sep ). Przykładowe wywołanie znajdziesz ponizej.

mydata <- read.table("c:/mydata.csv", header=TRUE, sep=",")

Z chwila gdy ramke danych (lub inny obiekt) masz juz wczytana do mozesz japrosto zapisac do formatu RData:

save(obiekt, file="sciezka_do_pliku")

Taki plik mozesz nastepnie prosto wczytac, aby w obszarze roboczym pojawiły sie zapisaneobiekty bez koniecznosci podawania separatorów, informacji o nagłówkach itd.

load("sciezka_do_pliku")

LiteraturaLiteratura powtórkowaOpis estymatorów przedziałowych oraz podstawy testowania hipotez statystycznych moznaznalezc w podrozdziale 2.3, 3.1, 3.2 ksiazki [2], a takze w 4 rozdziale dostepnej onlineksiazki [1].

Literatura dla chetnychDla chetnych polecam krótki filmik o testowaniu statystycznym https://www.youtube.

com/watch?v=ySPm3boeO4c oraz o bardzo ciekawym problemie, który przysporzył wielustatystykom bólu głowy https://www.youtube.com/watch?v=mhlc7peGlGg.

Pytania sprawdzajace zrozumieniePytanie 5.1 Czy rozumiesz i znasz Centralne Twierdzenie Graniczne (Lindeberga-Levy’ego)?Pytanie 5.2 Rozwiaz zadania korzystajac z Centralnego Twierdzenia Granicznego (takiejak przykład 5.1).Pytanie 5.3 Skonstruuj przedział ufnosci dla podanej miary (sumy lub sredniej). Czywiesz co oznacza poziom ufnosci przedziału i umiesz go zinterpretowac?Pytanie 5.4 Jaki rozkład powstaje poprzez sume dwóch zmiennych losowych o rozkładziedwupunktowym?

Bibliografia[1] D.M. Diez, C.D. Barr, i M. Çetinkaya Rundel. OpenIntro Statistics: Third Edition.

OpenIntro, Inc., 2015. ISBN 194345003X. URL openintro.org.

Page 16: 5. Estymacja przedziałowa. CLT. · 6 Laboratorium 5. Estymacja przedziałowa. CLT. jest od nich wieksza.˛ Oznaczmy E[X3] C 3 i E[X4] C 4 oraz przypomnijmy, ze dla˙ zmiennych niezaleznych˙

16 Laboratorium 5. Estymacja przedziałowa. CLT.

[2] W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska, i M. Wasilewski. Rachunekprawdopodobienstwa i statystyka matematyczna w zadaniach. Czesc II: Statystykamatematyczna. Wydawnictwo Naukowe PWN, 2002. ISBN 8301113847.

[3] Larry Wasserman. All of Statistics: A Concise Course in Statistical Inference. Springer-Verlag New York, 2004.