20
1 Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne) Przygotował: Dr inż. Wojciech Artichowicz Katedra Hydrotechniki PG Zima 2014/15

Korzystanie z podstawowych rozkładów prawdopodobieństwa · komputery nie istniały, lub nie były powszechne tworzono tablice dystrybuant różnych rozkładów na podstawie wartości

Embed Size (px)

Citation preview

1

Korzystanie z podstawowych rozkładów prawdopodobieństwa

(tablice i arkusze kalkulacyjne)

Przygotował:

Dr inż. Wojciech Artichowicz

Katedra Hydrotechniki PG

Zima 2014/15

2

TABLICE ROZKŁADÓW ........................................................................................................ 3

ROZKŁAD NORMALNY ......................................................................................................... 4

ROZKŁAD T-STUDENTA ..................................................................................................... 15

3

TABLICE ROZKŁADÓW

Tablice gęstości lub dystrybuanty:

W obliczeniach statystycznych konieczne jest posługiwanie się teoretycznymi rozkładami

prawdopodobieństwa w celu obliczenia np. prawdopodobieństw osiągnięcia przez zmienną

losową wartości z pewnego przedziału. W tym celu korzysta się z podstawowych własności:

)()( aFaXP ,

)(1)( bFXbP ,

)()()( aFbFbXaP .

Większość rozkładów używanych w rachunku prawdopodobieństwa i statystyce dana jest w

postaci wzorów opisujących ich gęstość prawdopodobieństwa. Dystrybuantę i gęstość

prawdopodobieństwa łączy zależność:

x

dttfxF )()( .

Zatem aby móc obliczyć dystrybuantę dowolnego ciągłego rozkładu prawdopodobieństwa

konieczne jest obliczenie całki z jego gęstości. Zwykle gęstości rozkładów

prawdopodobieństwa opisane są bardzo skomplikowanymi wzorami i nie są znane sposoby

ich analitycznego całkowania. W związku z tym, aby obliczyć wartość dystrybuanty danego

rozkładu konieczne jest wykorzystanie metod numerycznego całkowania. Dawniej kiedy

komputery nie istniały, lub nie były powszechne tworzono tablice dystrybuant różnych

rozkładów na podstawie wartości całek obliczonych numerycznie, dla z góry ustalonych

wartości x i parametrów rozkładów.

Tablice kwantyli:

W testowaniu hipotez statystycznych wygodniej jest korzystać z tablic kwantyli rozkładów.

W rzeczywistości zarówno tablice dystrybuanty jak i kwantyli zawierają te same informacje,

lecz podane w różny sposób ułatwiający ich wykorzystanie w danym zagadnieniu. Kwantyle

oblicza się na podstawie wzoru:

pqF )( ,

gdzie q oznacza szukaną wartość kwantyla, a p jest znanym prawdopodobieństwem. Innymi

słowy poszukiwana jest taka wartość q, dla której dystrybuanta osiąga wartość p.

4

Inne sposoby obliczania prawdopodobieństw lub kwantyli:

Obecnie komputery są tak powszechne, że w praktycznych obliczeniach nie korzysta się z

tablic i są one przydatne jedynie ze względów dydaktycznych. Nawet podstawowe narzędzia

biurowe (np. LibreOffice Calc, czy Microsoft Office Excel) oferują funkcje do obliczania

gęstości, dystrybuanty czy kwantyli popularnych rozkładów prawdopodobieństwa.

ROZKŁAD NORMALNY

W literaturze zwykle spotyka się tablice rozkładu normalnego w postaci jego gęstości lub

dystrybuanty. W praktycznych zastosowaniach najwygodniej jest używać tablic dystrybuanty.

Zadanie 1.

Wykorzystując arkusz kalkulacyjny utwórz tablicę dystrybuanty standaryzowanego rozkładu

normalnego.

Rozwiązanie:

Gęstość rozkładu normalnego opisana jest wzorem:

2

2

1

2

1)(

x

exf ,

gdzie oznacza średnią, a odchylenie standardowe. W przypadku rozkładu normalnego

standaryzowanego = 0 i =1. Zatem

2

2

2

1)(

u

euf

.

Tablice rozkładu normalnego zwykle skonstruowane są w taki sposób, że w pierwszej

kolumnie są wartości odciętych x (dla rozkładu standaryzowanego oznaczane umownie u lub

z). W nagłówku tabeli znajdują się także wartości u (czyli x), ale podane z większą

dokładnością.

Tab. 1. Układ treści w tabeli dystrybuanty

rozkładu normalnego.

u

z dokładnością do 0,01

u

z dokładnością

do 0,1

wartości F(u)

5

Należy zwrócić uwagę na to, że w tabeli znajdują się tylko dodatnie wartości u. Wynika to z

tego, że rozkład normalny jest rozkładem symetrycznym względem wartości średniej (dla

rozkładu standaryzowanego = 0). Zatem wystarczy utworzyć tablicę dla jednej połowy

rozkładu, gdyż druga jest identyczna. Zwykle tablice są utworzone dla prawej połowy

rozkładu. Sytuacja ta jest odwzorowana na Rys. 1.

W celu utworzenia tablicy dystrybuanty rozkładu normalnego należy utworzyć nagłówek

tablicy (liczby od 0,00 do 0,09 z krokiem 0,01) oraz pierwszą kolumnę (liczby od 0,0 do 3,0 z

krokiem 0,1), a następnie odpowiednio blokując odwołania do pierwszej kolumny i nagłówka

tabeli wykorzystać funkcję arkusza obliczającą skumulowane wartości rozkładu normalnego

standaryzowanego. Przykładowe rozwiązanie znajduje się w pliku

TabeleRozkładów.xlsx.

Aby odczytać wartość dystrybuanty dla podanej wartości u należy znaleźć w lewej

kolumnie tę wartość z dokładnością do 0,1, a następnie w nagłówku tabeli z dokładnością do

0,01. W miejscu przecięcia się wiersza (dokładność 0,1) i kolumny (dokładność 0,01)

znajduje się szukana wartość F(u). Przykładowo w celu znalezienia dystrybuanty dla wartości

u=1,25 w pierwszej kolumnie należy odszukać wartość 1,2, a następnie w nagłówku tabeli

wartość 0,05 (w sumie 1,2+0,05=1,25). Szukana wartość wynosi F(u) = 0,894350.

Możliwe jest również odczytanie kwantyla rozkładu normalnego przy wykorzystaniu

tablicy dystrybuanty. Należy znaleźć wartość F(u) najbliższą danej wartości p, a następnie

odczytać wartość u.

6

Rys. 1. Wykres a) rozkładu gęstości i b) dystrybuanty standaryzowanego rozkładu normalnego z zaznaczonym

obszarem ujętym w tablicy dystrybuanty.

Tab. 2. Dystrybuanta rozkładu normalnego standaryzowanego dla 0 ≤ u ≤ 3.

7

Zadanie 2.

Korzystając z tabeli dystrybuanty rozkładu normalnego znaleźć:

a) F(1,25); F(-1,25); F(0); F(-0,1); F(0,1);

b) P(U<1,25); P(U>1,25); P(U<-1,25); P(U>-1,25); P(U>-0,1);

c) P(1<U<1,25); P(-1<U<1,25); P(-1<U<-0,1);

d) P(|U|<1); P(|U|>1);

Dla każdego przypadku wykonaj rysunek i zaznacz rozwiązanie na wykresie gęstości i

dystrybuanty.

Rozwiązanie:

a) W pierwszej kolumnie należy odszukać wartość 1,2, a następnie w nagłówku tabeli wartość

0,05 (w sumie 1,2+0,05=1,25). Szukana wartość wynosi F(1,25) = 0,894350.

Obliczenie F(-1,25) wymaga wykorzystania symetrii funkcji gęstości rozkładu

prawdopodobieństwa. Skoro funkcja f(u) jest symetryczna względem wartości 0, to pola pod

nią w przedziałach (-∞,-1,25) i (1,25,∞) są takie same. Zatem wystarczy skorzystać z

własności

)(1)( uFuF .

Zatem

10565,00,8943501)25,1(1)25,1( FF .

8

Wartość F(0) odczytuje się dla u=0,00 (czyli u=0,0+0,00) i wynosi ona F(0)=0,5.

Wartość F(-0,1) odczytuje się dla u=0,10 (czyli u=0,1+0,00) i odejmuje od 1. Wynosi ona

460172,00,5398281)1,0(1)1,0( FF

9

Wartość F(0,1) odczytuje się dla u=0,10 (czyli u=0,1+0,00). 0,539828)1,0( F

b) W celu obliczenia prawdopodobieństw osiągnięcia przez zmienną losową wartości

mniejszej lub większej od zadanej, należy wyrazić zagadnienie przy pomocy dystrybuanty.

Następnie postępuje się identycznie jak w przykładzie a).

0,894350)25,1()25,1( FUP

10565,0)25,1(1)25,1( FUP

10565,0)25,1(1)25,1( FUP

0,894350))25,1(1(1)25,1(1)25,1( FFUP

0,539828))1,0(1(1)1,0(1)1,0( FFUP

10

c) W celu rozwiązania zadań z tego podpunktu należy wykorzystać fakt, że dla każdej

zmiennej losowej ciągłej )()()( aFbFbXaP .

0.0530050,841345-0,894350)1()25,1()25,11( FFUP

0.7356950,841345)-(1-0,894350))1(1()25,1()1()25,1()25,11( FFFFUP

0.301517=0.841345)-(1-0.539828)-(1

))1(1())1,0(1()1()1,0()1,01(

FFFFUP

11

d) Wyrażenie aU || można zapisać inaczej jako aUaU czyli aUa .

Oznacza ono zbiór pomiędzy wartościami –a i a. Zatem rozwiązanie będzie następujące:

0.682690.841345)-(1-0.841345

))1(1()1()1()1()11()1|(|

FFFFUPUP

Wyrażenie aU || można zapisać inaczej jako aUaU . Oznacza ono zbiór

wartości mniejszych od –a lub większych od a. Zatem rozwiązanie będzie następujące:

0.31731)0.8413451(2))1(1(2))1(1())1(1(

))1(1()1()),1()1,(()1|(|

FFF

FFUPUP

Zadanie 3.

Korzystając z tabeli dystrybuanty rozkładu normalnego znaleźć kwantyle:

a) q0,1;

b) q0,5;

c) q0,9;

Dla każdego przypadku wykonaj rysunek i zaznacz rozwiązanie na wykresie gęstości o

dystrybuanty.

12

Rozwiązanie:

Aby znaleźć kwantyle korzystając z tabeli dystrybuanty należy odnaleźć najbliższą wartość

dystrybuanty do podanej wartości p. Jeśli wartość p<0,5 to należy odszukać F(-q)=1-p, a po

odczytaniu wartości up konieczna jest zmiana jej znaku na przeciwny.

a)

1,0)( 1,0 qF

9,01,01)( 1,0 qF

Wartością najbliższą 0,9 zawartą w tabeli jest 0,899727. Odczytując wartość up dla wiersza i

kolumny otrzymuje się kolejno 1,2 i 0,08, czyli

28,11,0 q

28,11,0 q

b) Kwantyl q0,5 dzieli rozkład na dwie równe części. Wiadomo, że standaryzowany rozkład

normalny jest symetryczny względem wartości 0, czyli P(U<0)=P(U>0)=0,5. Zatem q0,5=0

(Rys. 1).

c)

9,0)( 9,0 qF

Wartością najbliższą 0,9 zawartą w tabeli jest 0,899727. Odczytując wartość u dla wiersza i

kolumny otrzymuje się kolejno 1,2 i 0,08, czyli

28,19,0 q

13

Zadanie 4.

Zmienna losowa X ma rozkład normalny o średniej = 5 i odchyleniu standardowym =15.

Korzystając z tablicy dystrybuanty rozkładu normalnego oblicz prawdopodobieństwa:

a) P(X<3);

b) P(3<X<6);

c) P(X >18).

Rozwiązanie:

W przypadku, gdy zachodzi potrzeba odczytania wartości dystrybuanty dla dowolnego

rozkładu normalnego, konieczne jest dokonanie standaryzacji. Standaryzację przeprowadza

się według wzoru:

xu .

Oznacza to, że dowolny rozkład normalny można sprowadzić do rozkładu standaryzowanego

(w tym przypadku – w celu skorzystania z tablicy dystrybuanty standaryzowanego rozkładu

normalnego).

Aby obliczyć prawdopodobieństwo P(a<X<b) wartości a i b należy odnieść do rozkładu

standardowego zgodnie z wyżej przytoczonym wzorem:

aua ;

bub

Następnie należy obliczyć P(ua<U<ub) identycznie jak w zadaniu 2.

a) Dla P(X<3) obliczenia należy wykonać następujące kroki:

133333,015

2

15

5333

u ;

)()()3( 33 uFuUPXP ,

14

następnie korzystając z tablicy dystrybuanty standaryzowanego rozkładu normalnego

odczytać wartość dystrybuanty dla u=-0,133≈-0,13:

0,448283 0,5517171)13,0(1)13,0( FF .

b) Przebieg obliczeń dla )63( XP będzie identyczny:

133333,015

533

u ; 066667,0

15

566

u

07962,00,448283-0,527903)13,0()07,0(

)()()()63( 3663

FF

uFuFuUuPXP

c)

86667,015

13

15

5181818

u ;

0,19215 0,8078501)87,0(1)(1)()18( 1818 FuFuUPXP .

Zadanie 5.

Zmienna losowa X ma rozkład normalny o średniej =-1 i odchyleniu standardowym

=0,15. Korzystając z tablicy dystrybuanty rozkładu normalnego oblicz kwantyle q0,25 i q0,75.

Rozwiązanie:

Tak samo jak w zadaniu 3, należy odczytać kwantyle rozkładu standaryzowanego korzystając

z tablicy. Otrzymuje się następujące wyniki:

68,025,0 uq ;

68,075,0 uq .

Kolejnym krokiem jest odniesienie ich do danego rozkładu nie będącego rozkładem

standaryzowanym przy użyciu wzoru wykorzystanego do standaryzacji

x

pu

p

qq

u

p

x

p qq

Zatem:

102,1)1()68,0(15,025,025,0 ux qq ;

898,0)1(68,015,075,075,0 ux qq .

15

ROZKŁAD T-STUDENTA

Zadanie 6.

Wykorzystując arkusz kalkulacyjny utwórz tablicę kwantyli rozkładu T-Studenta.

Rozwiązanie:

Gęstość rozkładu T-Studenta opisana jest wzorem:

2

12

1

1

22

1

2

1

)(

df

df

tdf

df

df

tf ,

gdzie df oznacza liczbę stopni swobody (parametr rozkładu). W przypadku tego rozkładu

zwyczajowo zamiast symbolu x używa się symbolu t, oznaczającego wartości zmiennej

losowej. Rozkład T-Studenta przy dużych wartościach df (~30) zbiega do rozkładu

normalnego standaryzowanego. Podobnie jak rozkład normalny standaryzowany jest to

rozkład symetryczny względem wartości t=0.

W praktycznych zastosowaniach najczęściej korzysta się z kwantyli rozkładu T-Studenta.

Z tego powodu konstrukcja tablic rozkładu T-Studenta jest inna niż konstrukcja tablic

rozkładu normalnego. W pierwszej kolumnie znajduje się liczba stopni swobody, która jest

powiązana np. z liczebnością próby. W nagłówku tablicy znajdują się wartości poziomu

istotności , jak dla testu jednostronnego i dwustronnego (Tab. 2). Wewnątrz tabeli są

wartości kwantyli t prawego skrzydła rozkładu T-Studenta.

Tab. 2. Układ treści w tabeli kwantyli

rozkładu T-Studenta.

dla testu jednostronnego

dla testu dwustronnego

df

liczba

stopni

swobody

wartości t

dla prawego skrzydła

rozkładu

W przypadku odczytywania wartości dla testu jednostronnego oznacza to, że całe

prawdopodobieństwo jest pod jednym z ogonów rozkładu

16

Rys. 2. Wykres gęstości rozkładu T-Studenta z zaznaczonym kwantylem t odczytywanym jak dla testu

jednostronnego (prawostronnego).

Rys. 3. Wykres gęstości rozkładu T-Studenta z zaznaczonym kwantylem t odczytywanym jak dla testu

dwustronnego.

Gdy konieczne jest odczytanie kwantyla dla testu lewostronnego, wykorzystuje się symetrię

rozkładu T-Studenta: odczytuje się kwantyl jak dla testu jednostronnego (prawostronnego), a

następnie zmienia się jego znak na przeciwny.

W celu utworzenia tablicy w arkuszu kalkulacyjnym należy określić nagłówek i kolumnę

określającą liczbę stopni swobody. Następnie konieczne jest użycie funkcji zwracającej

kwantyle rozkładu T-Studenta dla wartości 1- (np. w arkuszu Excel:

=ROZKŁ.T.ODWR(1-B$2;$A5)). Przykładowe rozwiązanie znajduje się w pliku

TabeleRozkładów.xlsx.

17

Zadanie 7.

Korzystając z tablic rozkładu T-Studenta odczytać kwantyle:

a) q0,9

b) q0,1

dla df=5.

18

Rozwiązanie:

a) Wartość q0,9 odczytuje się jak dla testu jednostronnego dla =0,1:

1,4758849,0 q .

b) Wartość q0,1 odczytuje się jak dla testu jednostronnego dla =0,1 i zmienia się znak na

przeciwny:

1,4758841,0 q .

Zadanie 8.

Korzystając z tablic rozkładu T-Studenta dla df=15 odczytać wartości krytyczne t spełniające

warunki:

a) P(t>T)=0,01

b) P(t<T)=0,99

c) P(t<T)=0,01

d) P(|T|>t)=0,05

e) P(|T|<t)=0,95

Rozwiązanie:

a) Poszukiwana jest taka wartość t, począwszy od której w kierunku malejących wartości t

zawierać się będzie pole pod wykresem gęstości równe 0,01. Czyli poszukiwany jest kwantyl

rozkładu dla wartości p=0,01, czyli q0,01. Korzystając z tablic, należy odczytać wartość t dla

=0,01, df=15 jak dla testu jednostronnego i zmienić jego znak:

2,602480t .

19

b) Poszukiwana jest taka wartość t, począwszy od której w kierunku rosnących wartości t

zawierać się będzie pole pod wykresem gęstości równe 0,99. Czyli, jak poprzednio

poszukiwany jest kwantyl rozkładu dla wartości p=0,01, q0,01:

2,602480t .

c) Poszukiwana jest taka wartość t, począwszy od której w kierunku rosnących wartości t

zawierać się będzie pole pod wykresem gęstości równe 0,01. Czyli, poszukiwany jest kwantyl

dla p=1-0,01=0,99, q0,99. Korzystając z tablic, należy odczytać wartość t dla =0,01, df=15

jak dla testu jednostronnego:

2,602480t .

d) Poszukiwana jest taka wartość t, dla której zajdzie 05,0))()(( tTtTP , przy czym

)()( tTPtTP . Innymi słowy poszukiwana jest taka wartość t, która na obu ogonach

rozkładu oddzieli takie samo pole równe co do wartości połowie 0,05. Czyli poszukiwane są

kwantyle q0,025 i q0,975. Z tablic należy odczytać wartość jak dla testu dwustronnego przy

=0,05: 2,131450t . Zatem rozwiązaniem zadania są wartości

20

2,131450t .

e) Poszukiwana jest taka wartość t, dla której zajdzie 95,0)( tTtP , przy czym. Innymi

słowy poszukiwana jest taka wartość t, dla której pomiędzy –t, a t będzie pole równe 0,95. W

praktyce jest to przypadek identyczny jak w zadaniu d) bowiem na obu ogonach rozkładu

oddzielone zostanie takie samo pole równe co do wartości połowie 1-0,95=0,05. Czyli jak

poprzednio poszukiwane są kwantyle q0,025 i q0,975. Z tablic należy odczytać wartość jak dla

testu dwustronnego przy =0,05: 2,131450t . Zatem rozwiązaniem zadania są wartości

2,131450t .