CZĘŚĆ II – STATYSTYKA MATEMATYCZNAholmes.iigw.pl/~sweglarc/teksty_pomoc/R05-pom.pdf · 2005. 12. 6. · Część niniejsza – statystyka matematyczna – jest związana z zastosowa-niem

5. Podstawowe pojęcia statystyki 1

© Stanisław Węglarczyk, XII 2005

CZĘŚĆ II – STATYSTYKA MATEMATYCZNA

Rachunek prawdopodobieństwa a statystyka matematyczna. Część I, rachunek prawdopodobieństwa, dostarcza podstawowych pojęć i wzorów – języka, za

pomocą którego możemy rozmawiać w sposób ścisły o problemach dotyczących

zjawisk i procesów, w których czynnik losowy odgrywa niezaniedbywalną rolę.

Rachunek prawdopodobieństwa daje też modele zjawisk (rozkłady prawdopodo-

bieństwa). Część niniejsza – statystyka matematyczna – jest związana z zastosowa-

niem modeli probabilistycznych a jej celem jest formułowanie wniosków dotyczących

określonej zbiorowości (tzw. populacji generalnej, łączonej dalej ze zmienną losową)

na podstawie pewnego podzbioru tej zbiorowości, zwanego próbą lub próbką. Fakt ten oznacza, że statystyka zajmuje się wnioskowaniem o całości (zbiorze) na

podstawie części (podzbioru), czyli wnioskowaniem w warunkach niepełnej infor-macji. Wnioskowanie to jest związane z dwoma następującymi podstawowymi zagad-nieniami.

Dwa podstawowe zagadnienia klasycznej statystyki matematycznej.

Wnioskowanie statystyczne w postaci klasycznej (tzw. klasyczna statystyka mate-matyczna) obejmuje dwa zasadnicze zagadnienia, którymi są (i) estymacja statystyczna (punktowa i przedziałowa) oraz

(ii) weryfikacja hipotez statystycznych (parametrycznych i nieparametrycznych).

Estymacja statystyczna. Podstawowym problemem estymacji statystycznej

jest odpowiedź na pytanie typu "ile wynosi wartość nieznanego parametru g populacji generalnej?" Jeśli podana odpowiedzieć ma postać "g . ĝ", gdzie ĝ jest obliczoną przez nas liczbą, to mamy do czynienia z estymacją punktową. Jeśli natomiast odpowiedź jest typu: "g zawarte jest w przedziale (ĝ1, ĝ2)", to taki przypadek estymacji nazywa się estymacją przedziałową. Weryfikacja hipotez statystycznych oznacza pewien sposób postępowania

(tzw. test statystyczny) pozwalający przyjąć lub odrzucić postawioną hipotezę

statystyczną H0 dotyczącą pewnej charakterystyki. Gdy hipoteza H0 dotyczy

parametru g populacji – np. H0:(g=5) – nazywana jest parametryczną, gdy



natomiast dotyczy funkcji rozkładu populacji – np. H0:(rozkładem populacji jest

rozkład normalny o parametrach µ=1.5 i σ=0.23) – nazywamy ją nieparametryczną, a test z tym związany – testem nieparametrycznym (lub: zgodności).



Rozdział 5 PODSTAWOWE

POJĘCIA STATYSTYKI

W rozdziale tym zostaną omówione takie pojęcia, jak populacja generalna – obiekt badań statystyki, próba losowa, czyli posiadana informacja o populacji generalnej, statystyka – zmienna losowa będąca funkcją próby, oraz rozkłady najważniejszych statystyk – informacja niezbędna dla wnioskowania statystycznego.

5.1 PRÓBA LOSOWA I STATYSTYKA JAKO FUNKCJA PRÓBY

Zbiorowość generalna. Pojęciem podstawowym, podobnie jak w części I, jest doświadczenie losowe. Często używanym da-

lej synonimem tego pojęcia jest słowo obser-wacja. Dotyczy ona pewnej zbiorowości (czyli zbioru), której elementy obserwujemy. Zbio-

rowość ta nosi nazwę zbiorowości generalnej lub populacji generalnej (rys. 5.1) i składa się z pewnych obiektów, które mogą być obiek-

tami materialnymi, np. jakimiś przed-

miotami, lub też obiektami niematerialnymi,

np. wynikami obserwacji, zarówno ilościowy-

mi, jak i jakościowymi. Tak więc zbiorowością

generalną może być zarówno zbiór samocho-

dów danej marki, jakie zostały wyproduko-

wane w danym roku, zbiór prostokątów z rys. 5.1, zbiór wszystkich opadów, jakie

spadły (i spadną) w danym punkcie geograficznym, jak też zbiór wszystkich możliwych wyników pomiarów długości danego przedmiotu. Cecha X populacji generalnej. Wspomniane obiekty – elementy populacji –

badamy zwykle ze względu na pewną cechę (charakterystykę), którą zawsze muszą

posiadać wszystkie elementy danej populacji. Cechę tę zawsze kwantyfikujemy, tzn.

wyrażamy ją liczbowo. W przypadku zbiorowości samochodów cechą tą może być np.

Rys. 5.1. Przykład skończonej zbiorowości generalnej (zbiorowość prostokątów) i podzbioru tej zbiorowości – próby



czas do pierwszej naprawy (jedna liczba dla każdego samochodu), dla zbioru prosto-

kątów z rys. 5.1 – może to być długość i szerokość prostokąta (dwie liczby dla każdego

prostokąta), w przypadku opadów może nas interesować wysokość opadu, czas jego

trwania oraz maksymalne natężenie (trzy liczby na każdy opad), podczas gdy w

ostatnim przypadku – pomiaru długości danego przedmiotu – jest to jedna liczba

(długość) na każdy pomiar.

Badana i skwantyfikowana cecha, nazwijmy ją X, jest z założenia zmienną losową i jako taka posiada pewien rozkład prawdopodobieństwa o dystrybuancie FX(x). Często mówi się też, że dana populacja ma rozkład FX(x)1. Należy tutaj od razu zdać sobie sprawę z faktu, że rozkład ten jest na ogół nieznany (jeśli jest znany, to informacja o

tym pochodzi spoza statystyki). Dysponujemy jednak pewną informacją pochodzącą z

obserwacji – próbą losową {x1, x2, ..., xn}. Informacja ta jest prawie zawsze niepełna, tzn. nie sposób na jej podstawie określić absolutnie dokładnie postać rozkładu FX(x). Niepełność informacji o nieznanym rozkładzie FX(x), pochodzącej z szeroko rozu-mianego eksperymentu, spowodowana jest tym, że eksperyment ten daje pewien

podzbiór zbioru możliwych obserwacji i na podstawie tego podzbioru – tzw. próby – wysuwamy wnioski dotyczące cechy X wszystkich elementów danej zbiorowości.

Przykład 5.1. Zmienna losowa i jej realizacje. Wykonano trzy serie pomiarów długości pewnego odcinka po 5 pomiarów w każdej serii. Tabela 5.1 zawiera uzyskane wyniki.

Tabela 5.1. Wyniki pomiarów długości odcinka

Każda z trzech 5-elemen-

towych serii pomiarów może

być traktowana jako realizacja

5-elementowej próby losowej

(X1,X2,X3,X4,X5), natomiast wartości w kolejnych kolum-

nach są realizacjami kolejnych zmiennych losowych – składowych wektora losowego

(X1,X2,X3,X4,X5). Na przykład liczby 9.99, 10.00 i 10.00 (pierwsza kolumna) są realizacjami zmiennej losowej X1. Oczywiście, realizacji zmiennej losowej X1 (i pozostałych zmiennych) może być nieskończenie wiele.

wynik xi i-go pomiaru w danej serii, m numer serii pomiarów x1 x2 x3 x4 x5

1 9.99 10.02 9.98 9.99 9.98

2 10.00 10.01 9.99 10.01 10.00

3 10.00 10.00 10.00 10.02 9.99

Próba losowa. Niech doświadczenie losowe polega na n-krotnej obserwacji zmiennej losowej X. Wynikiem tego doświadczenia będzie zbiór n liczb x1, x2, ...,xn, gdzie indeks oznacza numer pomiaru. Ponieważ doświadczenie było losowe (nie

mogliśmy z całkowitą pewnością przewidzieć jego wyników i przeprowadzono je tak,

aby nie preferować żadnych wyników), to wartości te są realizacjami pewnych 1 To sformułowanie sugeruje, że każdą populację możemy w końcu rozumieć jako zbiór X liczb (zbiór X możliwych wyników pomiaru) i do takiego spojrzenia prowadzi podejście statystyczne. Dla prawi-dłowego wnioskowania jest wszakże konieczne, aby jak najlepiej rozumieć czego dotyczą liczby x i ich zbiór X.



zmiennych losowych, odpowiednio: X1, X2, ...,Xn, lub inaczej: realizacjami wektora losowego (X1, X2, ...,Xn). Zmienną Xi nazwiemy wynikiem i-tej obserwacji (lub: wynikiem i-go pomiaru) zmiennej losowej X, wektor (X1, X2, ...,Xn) nazwiemy próbą losową, a zbiór liczb (x1, x2, ..., xn) – realizacją tej próby. Formalną definicję próby losowej można znaleźć np. w podręczniku Fisza [11]. Zamiast sformułowania realizacja próby losowej często stosuje się sformułowanie próba losowa, co prowadzi do konfliktu z podanym powyżej określeniem – przeważnie jednak kontekst pozwala

domyślić się, o którym z dwu powyższych terminów jest mowa. Liczba n nazywana jest liczebnością próby i jest to bardzo ważny parametr statystyczny. Losowość próby. Losowość próby jest niezbędnym warunkiem tego, aby można było używać jej do wyciągania wniosków dotyczących całej populacji (aby próba była

reprezentatywna). (Tak więc przedstawiona na rys. 5.1 próba, jeśli tylko jest losowa, może być podstawą wnioskowania o całej populacji prostokątów).

Próba losowa jest podstawą wnioskowania statystycznego o rozkła-

dzie badanej cechy X populacji generalnej. Ponieważ próba jest częścią całej

populacji, zawiera informację lokalną – związaną wyłącznie z samą próbą – i informację globalną, która dotyczy całej populacji. Z punktu widzenia wnioskowania statystycznego informacja lokalna zaciemnia poszukiwaną przez nas informację o

populacji (jest „szumem”), co oznacza, że wnioskowanie statystyczne jest zawsze

obarczone niepewnością.

Prosta próba losowa. Spośród prób losowych szczególne zastosowanie znala-zła prosta (lub: niezależna) próba losowa. Jest to taka próba losowa, która posiada następującą własność:

1 2 1 2( , ,..., ) ( ) ( )... ( )n n X X X nF x x x F x F x F x= (5.1)

gdzie Fn(x1,x2,...,xn) jest dystrybuantą łącznego rozkładu wektora losowego (X1, X2, ..., Xn), FX(·) – nieznaną dystrybuantą zmiennej losowej (cechy) X, a n – dowolną liczbą naturalną.

Powyższa równość oznacza, że zmienne X1,X2,...,Xn (1) mają taki sam rozkład FX(x) oraz że (2) są niezależne (zespołowo).

Możemy więc uważać, że w prostej próbie losowej kolejność jej elementów nie

odgrywa żadnej roli, co oznacza, że wartość kolejnego elementu próby nie zależy od

wartości elementów poprzednich (i następnych). Mówiąc jeszcze inaczej:

œi>1 Fi(xi|xi-1, xi-2,...,x1) = FX(xi).



Wynika z tego dalej, że jeśli poprzez zmianę kolejności wyrazów utworzymy z ciągu

{x1,x2,..., xn} tzw. ciąg uporządkowany (albo inaczej: próbę uporządkowaną) niemalejący {x(1),x(2),...,x(n)}, tj. taki, że:

(1) (2) ( )... nx x x≤ ≤ ≤ (5.2)

lub nierosnący {x(1),x(2),...,x(n)}, tzn. taki, że

(1) (2) ( )... nx x x≥ ≥ ≥ (5.3)

to dostarcza on tyle samo informacji co oryginalny ciąg (x1, x2, ...,xn). Bardzo często założenie (2) przyjmowane jest bez dowodu, co może prowadzić do poważnych

błędów.

Przykład 5.2. Uporządkowana próba losowa. Niech będzie dana 5-elementowa próba losowa {x1, x2, x3, x4, x5} = {2, 4, 1, 3, 7}. Uporządkowana rosnąca próba losowa to {x(1), x(2), x(3), x(4), x(5)} = {1,2,3,4,7}, a próba uporządkowana malejąco to oczywiście {x(1), x(2), x(3), x(4), x(5)} = {7, 4, 3, 2, 1}.

Wyrażając istotę prostej próby losowej w terminach mniej matematycznych, moż-

na powiedzieć, że zasadza się ona na założeniu o identycznych warunkach, w jakich

przeprowadzane jest doświadczenie (obserwacja) oraz równomożliwości (identycz-

nym prawdopodobieństwie) uzyskania wszystkich otrzymanych wyników.

Statystyka. Ponieważ próba losowa jest wektorem losowym, to wynika stąd, że

dowolna funkcja Zn próby (X1, X2,...,Xn)

1 2( , ,..., )n nZ g X X X= (5.4)

jest także zmienną losową. Funkcja Zn nosi nazwę statystyki. Jest więc, na przykład, zmienną losową (i zarazem statystyką) wartość średnia z próby, wariancja z próby,

itp. Wyznaczanie rozkładów statystyk jest jednym z podstawowych zagadnień

statystyki matematycznej. Niektóre rozkłady statystyk są zamieszczone w rozdziale

5.3.

Mała i duża próba. Istnieją dwa podejścia do rozwiązania problemu wyznacza-nia rozkładu danej statystyki. Podejście pierwsze polega na wyznaczeniu dla każdego

n rozkładu ( )nZ

F x statystyki Zn (na podstawie znajomości FX(x), czyli znajomości

rozkładu danej cechy populacji generalnej). Taki rozkład nazywamy dokładnym rozkładem statystyki Zn. Gdy liczba n jest duża, możemy skorzystać z pewnych twierdzeń rachunku prawdopodobieństwa i wyznaczyć rozkład danej statystyki Zn, gdy n zmierza do nieskończoności (taki rozkład nazywa się rozkładem granicznym lub asymptotycz-nym). Rozkłady asymptotyczne statystyk mają tę ważną cechę, że nie zależą od roz-



kładu FX(x) populacji, co czyni z nich bardzo pożądane narzędzie analizy staty-stycznej.

Jeśli n jest tak duże, że możemy skorzystać z rozkładu granicznego badanej statystyki, to taka próba nazywa się dużą próbą (dla danej statystyki). Jeśli natomiast wielkość n nie pozwala na skorzystanie z rozkładu granicznego, to mamy do czynienia z próbą małą (dla danej statystyki).

Ostrzeżenie. Niestety nie istnieje kryterium pozwalające jednoznacznie zdefiniować

próbę małą i dużą – zależy to od rozpatrywanej statystyki. Chyba najczęściej

stosowaną liczbą definiującą dużą próbę jest n=30. Należy jednak mocno podkreślić, że liczba ta dotyczy przede wszystkim statystyki średnia wartość z próby. W każdym innym przypadku liczba ta może być inna.

5.2 PODSTAWOWE TWIERDZENIE STATYSTYKI MATEMATYCZNEJ

Informacją najbardziej pożądaną, jaką chcemy uzyskać o cesze X na podstawie próby losowej jest znajomość rozkładu FX(x). Ponieważ próba losowa niesie z sobą informację o X, to znaczy, że niesie ona informację o rozkładzie FX(x). Poniższe twierdzenie, zwane czasami podstawowym twierdzeniem statystyki matematycznej

lub częściej twierdzeniem Gliwienki albo też Gliwienki-Cantelliego, pozwala zbu-

dować pewien empiryczny odpowiednik nieznanej dystrybuanty FX(x) – tak zwaną dystrybuantę empiryczną Fn(x) i wykazuje użyteczność tego pojęcia.

5.2.1 Dystrybuanta empiryczna

Mamy daną prostą próbę losową (x1, x2, ...,xn) (mówiąc ściśle mamy daną realizację prostej próby losowej, jednakże słowo realizacja często się opuszcza). Dystrybuanta empiryczna Femp(x), gdzie x jest dowolną liczbą rzeczywistą, jest taką funkcją, że

,

( ) i iempliczba elementów x próby takich że x x

F xn

<= (5.5)

Jeśli utworzymy próbę uporządkowaną rosnąco (zwaną też czasem rosnącym cią-giem rozdzielczym) (x(1), x(2),...,x(n)), gdzie x(1)#x(2)#...#x(n), to definicja Femp(x) równo-ważna definicji (5.5) będzie miała postać:

(1)

( ) ( 1)

( )

0,

( ) ,

1,

emp k k

n

dla x x

kF x dla x x x

n

dla x x

+

≤

= ≤

(5.6)



Wzory (5.5) i (5.6) wynikają z przyjmowanego powszechnie założenia o równym

prawdopodobieństwie pojawiania się wyników danej próby losowej (x1, x2, ...,xn):

1

P( ) , 1,2,...,iX x i nn

= = = (5.7)

Można spotkać też inne wzory na dystrybuantę empiryczną, m.in. taki dla próby

uporządkowanej rosnąco x(1)#x(2)#...#x(n). :

( )( ) 1emp k

kF x

n=

+ (5.8)

podający wartości dystrybuanty w punktach jej nieciągłości.

Przykład 5.3. Wykreślanie dystrybu-anty empirycznej.

Dana jest 10-elementowa próba losowa

{xi}i=1,10 = {4.61, 6.90, -1.03, -0.76, 4.50, 0.81, 1.64, 5.84, 5.56, 0.14} wylosowana z

pewnej populacji X, gdzie X oznacza ciągłą zmienną losową.

Zadanie. Wykreślić dystrybuantę empi-ryczną Femp(x) zmiennej losowej X dla tej próby.

Rozwiązanie. Porządkujemy rosnąco pró-bę {xi}i=1,10 i dostajemy próbę uporządko-waną {x(i)}i=1,10 = {-1.03, -0.76, 0.14, 0.81, 1.64, 4.5, 4.61, 5.56, 5.84, 6.9}, po czym

korzystamy ze wzoru (5.6). (Można też

korzystać, co jest często stosowane, ze wzo-

ru(5.8)). Wynik pokazany jest na rys. 5.2.

5.2.2 Podstawowe twierdzenie statystyki matematycznej – twierdzenie Gliwienki-Cantelliego

Jeśli prosta próba losowa (X1,X2,...,Xn) pochodzi z populacji o rozkładzie FX(x), to

nP lim sup ( ) ( ) 0 1emp X

x R

F x F x→∞ ∈

− = = (5.9)

gdzie Femp(.) jest dystrybuantą empiryczną zmiennej losowej X, a P(·) oznacza prawdopodobieństwo. Wzór ten jest teoretycznym uzasadnieniem przekonania, że w

miarę wzrostu liczebności n próby powiększa się nasza wiedza o nieznanym rozkładzie FX(x), co wyraża się mniejszą maksymalną odległością sup|Femp(x)-FX(x)|

Rys. 5.2. Dystrybuanta empiryczna zmiennej X obliczona na podstawie 10-elementowej próby loso-wej.



pomiędzy rozkładem empirycznym

Femp(x) a rzeczywistym rozkładem FX(x) (zob. rys. 5.3, gdzie przedsta-wiono 3 dystrybuanty empiryczne dla

n = 10, 20 i 40). (Istnieją inne możli-wości zdefiniowania odległości pomię-

dzy funkcjami).

Histogram (wykres częstości względnych) jako obraz funkcji gęstości. Dystrybuanta empiryczna

jest eksperymentalnym obrazem rze-

czywistej dystrybuanty badanej

zmiennej X. Na podstawie danej pró-by losowej można także zbudować

empiryczny odpowiednik funkcji gęstości, co jest zilustrowane na rys. 5.4. Należy w

tym celu obrać w sposób mniej lub więcej arbitralny pewne przedziały na osi wartości

zmiennej X, zliczyć liczbę ni realizacji zmiennej w kolejnych przedziałach, obliczyć wartość częstości względnej ni/n, gdzie n jest liczebnością próby, oraz wykreślić

prostokąt o wysokości ni/(n)x) i szerokości )x. Niestety ta reprezentacja – w odróżnieniu od dystrybuanty empirycznej – zawsze gubi część informacji zawartej w

próbie. Dzieje się tak wskutek czynności grupowania elementów próby – "wrzucania"

n wartości zmiennej do n'



w tabelach B, C i D.

Tabela B. 10 przedziałów grupowania wartości 40-elementowej próby losowej (rys. 5.4B) i 1 2 3 4 5 6 7 8 9 10

)xi 5-6 6-7 7-8 8-9 9-10 10-11 11-12 12-13 13-14 14-15

ni 2 1 5 8 5 5 9 1 3 1

Tabela C. 8 przedziałów grupowania wartości 40-elementowej próby losowej (rys. 5.4C) i 1 2 3 4 5 6 7 8

)xi 5.0-6.25 6.25-7.50 7.50-8.75 8.75-10.00 10.00-11.25 11.25-12.50 12.50-13.75 13.75-15.00

ni 2 3 6 10 7 7 4 1

Tabela D. 5 przedziałów grupowania wartości 40-elementowej próby losowej (rys. 5.4D) i 1 2 3 4 5

)xi 5-7 7-9 9-11 11-13 13-15

ni 3 13 13 10 4

Wszystkie histogramy (rys. 5.4B, C i D) są empirycznymi obrazami (reprezentacjami) tej

samej funkcji gęstości

f(x) (rys. 5.4A). Każdy z nich w innym stopniu

niesie informację o

rzeczywistej funkcji

gęstości. Wydaje się, że

histogram B jest zbyt

szczegółowy: za dużo

jest tam informacji po-

wstałej na skutek tego

podziału. Z kolei, histo-

gram D jest zbyt ogólny:

sugeruje, że rzeczywista

funkcja gęstości ma

maksimum na lewym

krańcu przedziału

zmienności. W porów-

naniu z tymi dwoma

histogramami, najlepszy

(w sensie podobieństwa do f(x)), wydaje się histogram C.

6. 8. 10. 12. 14.x

0.05

0.1

0.15

0.2f*HxL nDx=8

C

6. 8. 10. 12. 14.x

0.05

0.1

0.15

0.2f*HxL nDx=5

D

6 8 10 12 14x

0.05

0.1

0.15

0.2fHxL NH10; 2L

A

6. 8. 10. 12. 14.x

0.05

0.1

0.15

0.2

f*HxL nDx=10

B

Rys. 5.4. Wykreślone dla 40-elementowej próbki: A. funkcja gęstości populacji N(10,2) oraz histogramy o przedziałach zliczania B. )x=1.0, C.

)x=1.25 i D. )x=2.

Istnieje inna metoda znajdowania empirycznej funkcji gęstości – tzw. estymacja nieparametryczna funkcji gęstości – pozwalająca uniknąć większości błędów opisa-nego wyżej histogramu. Metoda ta nie będzie jednak tutaj omawiana.



5.3 NAJWAŻNIEJSZE STATYSTYKI I ICH ROZKŁADY

Dana jest próba losowa (X1,X2,...,Xn). Możemy określić dla niej wiele statystyk, czyli zmiennych losowych będących funkcjami próby. Najważniejsze z nich, z prak-

tycznego punktu widzenia, to momenty z próby i ich funkcje. W kolejnych pod-rozdziałach podane zostały równania definicyjne niektórych podstawowych statystyk

wraz z najważniejszymi rozkładami z nimi związanymi. W niektórych podręcznikach

statystyki te oznaczane są małymi literami niezależnie od tego, czy ma ona w danej

chwili sens zmiennej losowej, czy jej wartości. W niniejszym tekście takie rozróżnienie

będzie zachowane. Stosowana dalej pozioma kreska (6) nad symbolem lub grupą

symboli („kreska ponad”) oznacza średnią arytmetyczną liczoną ze względu na

zmienną lub zmienne występujące pod tym znakiem. Jest ona odpowiednikiem

operatora wartości oczekiwanej E używanego dla średniej przy znanym rozkładzie

prawdopodobieństwa.

Przykład 5.5. Działanie operatora kreska ponad.

2 2 2 2

1 1 1

1 1 1( ) ( ) ( ) ( )

n n ndef

i i i

i i i

g x g x x x x x x xn n n= = =

= = − = −∑ ∑ ∑ (5.10)

Wszędzie powyżej zakładamy, że liczebność próby wynosi n.

W kolejnych podrozdziałach przedstawione zostaną ważne statystyki i ich rozkłady

w zależności od tego, czy badana jest populacja jednowymiarowa, dwuwymiarowa,

czy dwie populacje jednowymiarowe.

5.3.1 Populacja jednowymiarowa. Wartość średnia z próby

Dana jest próba losowa (X1, X2, ...,Xn) pobrana z badanej jednowymiarowej popu-lacji X. Statystyka wartość średnia z próby (lub: wartość średnia w próbie) jest zdefiniowana równością

1

1 n

i

i

X Xn =

= ∑ (5.11)

Populacja X normalna ze znaną wartością odchylenia standardowe-

go σσσσ. Jeśli populacja, z której pochodzi n elementowa prosta próba, ma rozkład

normalny: FX=N(µ,σ) ze znaną wartością σ, to statystyka

X

U nµ

σ

−= (5.12)

ma rozkład normalny N(0,1).



Przypadek ten jest często spotykany w praktyce pomiarowej, gdy przyjmujemy tzw.

normalny model niepewności (błędów) pomiarowych, tzn. przyjmujemy za praw-dziwe założenie, że niepewności pomiarowe (zwane często mniej precyzyjnie błędami pomiarowymi) – czyli odchyłki X-µ wyników x pomiaru od nieznanej wartości praw-

dziwej µ – podlegają rozkładowi normalnemu N(0,σ), gdzie σ jest znaną dokładnością przyrządu pomiarowego (dokładnością pojedynczego pomiaru). Inaczej mówimy, że

wynik X pomiaru nieznanej wartości prawdziwej µ podlega rozkładowi normalnemu

N(µ,σ). Fakt, że statystyka (5.12) podlega rozkładowi N(0,1) jest inną formą stwierdzenia, że użycie wartości średniej x z n pomiarów zamiast pojedynczej wartości x daje korzyść polegającą na mniejszej niepewności (mniejszym błędzie),

gdyż zmienna X podlega rozkładowi normalnemu N(µ,σ/ n ) zamiast N(µ,σ) jak dla

X. (Zwróćmy uwagę na fakt, że EX = EX = µ).

Przykład 5.6. Obliczanie liczby pomiarów niezbędnych do 10-krotnego zmniejszenia niepewności pomiaru.

Wykonujemy n pomiarów xi, i=1,2,...,n, długości L pewnego przedmiotu przyrządem o

dokładności σ = 1 mm, po czym obliczamy wartość średnią x . Ile pomiarów trzeba wykonać,

aby prawdopodobieństwo, że uzyskana średnia nie różni się od wartości prawdziwej więcej

niż 0.1 mm było równe 95%?

Odpowiedź. Przyjmujemy, że wartość prawdziwa L odpowiada parametrowi µ statystyki U (5.12), stąd można przyjąć, że warunek postawiony w zadaniu ma postać

( )P | |



1X

t nS

µ−= − (5.15)

ma rozkład Studenta z parametrem 30 rozkłady te są iden-

tyczne. Wartości niektórych kwantyli

tego rozkładu dla 1≤ν≤30 podane są w

tabeli 3 zamieszczonej w Dodatku A.

Populacja X o rozkładzie nie-normalnym lub nieznanym. Gdy rozkład

populacji nie jest znany lub gdy jest znany ale nie jest normalny, to dla dużej próby

(tj. więcej niż ok. 30) ma zastosowanie graniczny rozkład normalny, co oznacza, że

wartość średnia X z n-elementowej próby losowej podlega w przybliżeniu rozkładowi

N( x , sX / n ).

Przykład 5.7. Duża próba. Z populacji X o nieznanym rozkładzie pobrano n=100-elementową prostą próbę losową i znaleziono, że x =28.3 i sX=1.75. Zgodnie z powyższym

twierdzeniem zmienna losowa podlega w przybliżeniu rozkładowi N(28.3, 1.75/ 100 ) =

N(28.3, 0.175).

5.3.2 Populacja jednowymiarowa. Wariancja z próby

Populacja X normalna. Wariancja z próby S2 jest zdefiniowana następująco:

2 2 2

1

1( ) ( )

ndef

i

i

S X X X Xn =

= − = −∑ (5.17)

Rys. 5.5. Im większa liczba stopni swobody ν tym bardziej rozkład Studenta jest bliższy rozkładowi N(0,1) (linia pogrubiona)



Jeśli populacja, z której pochodzi n elementowa prosta próba losowa, ma rozkład

normalny FX=N(µ,σ) z nieznaną wartością σ, to statystyka χ2 (chi-kwadrat)

22

2

nSχ

σ= (5.18)

podlega rozkładowi χ2 z parametrem ν=n-1 (z ν stopniami swobody). Wartość oczeki-wana i wariancja tej zmiennej wyrażają się wzorami

2 2E var 2χ ν χ ν= = (5.19)

skąd (i z (5.18)) wynikają wzory dla S2:

2 2 2 4

2

1 2( 1)E var

n n

n nχ σ χ σ

− −= = (5.20)

Tabela 4 z Dodatku A zawiera niektóre kwantyle tego rozkładu dla liczby stopni

swobody 1 ÷30. Dla ν>30 można stosować rozkład graniczny zmiennej losowej

(2χ2)1/2, która podlega rozkładowi normalnemu N[(2n-1)1/2,1].

Przykład 5.8. Rozkład wariancji z próby. Obliczyć prawdopodobieństwo, że obliczo-na wartość wariancji S2 z próby o liczebności n=20 nie różni się od wartości prawdziwej

wariancji σ2 o więcej niż 5%.

Rozwiązanie. Zadanie można zapisać następująco:

2

2P 0.95 1.05 ?

S

σ

< < =

(5.21)

Biorąc pod uwagę definicję , mamy dalej

( ) ( )

2 2

22 2

2P 0.95 1.05 P 0.95 1.05 P 19 21

(21; 19) (19; 19) 0.663 0.543 0.120

Sn n

F Fχ χ

χ χσ

ν ν

< < = < < = <



5.3.3 Populacja jednowymiarowa. Odchylenie standardowe z próby

Odchylenie standardowe z próby S. Określa je równanie

2 2

1

1( )

ndef

i

i

S S X Xn =

= = −∑ (5.24)

Rozkłady zmiennej losowej S są oczywiście ściśle związane z rozkładami wariancji z próby S2, toteż łatwo obliczyć żądane wartości związane z S na podstawie zależności dotyczących S2.

Przykład 5.9. Rozkład odchylenia standardowego z próby. Obliczyć prawdopodo-bieństwo, że obliczona wartość odchylenia standardowego S z próby o liczebności n=20 nie

różni się od wartości prawdziwej odchylenia standardowego σ o więcej niż 5%. Rozwiązanie. Zadanie jest podobne do zadania z przykładu 5.8:

2

2 2

2P 0.95 1.05 P 0.95 1.05 ?

S S

σ σ

< < = < < =

(5.25)

Jak w przykładzie 5.8, dostajemy dalej dla n=20:

( ) ( )

2 2

22 2 2 2 2 2

2P 0.95 1.05 P 0.95 1.05 P 18.05 22.05

(22.05; 19) (18.05; 19) 0.718 0.481 0.237

Sn n

F Fχ χ

χ χσ

ν ν

< < = < < = <



Rys. 5.6. W miarę wzrostu liczebności n próby rozkłady R1, R2, R3, R4 (R=A, B, C, D) wartości średniej z próby są coraz mniej podobne do rozkładu R zmiennej losowej X skupionego na przedziale (0,1).

Rys. 5.6 ilustruje powyższe twierdzenie dla pierwszego momentu A1≡ X . Przepro-wadzony został następujący eksperyment numeryczny. Wybrane zostały 4 różne (pod

względem symetrii) rozkłady populacji (A, B, C i D), następnie z każdej z tych

populacji losowane było 200 prób o liczebności n i dla każdej próby obliczano wartość średnią x . W ten sposób tworzone były 200-elementowe próby wartości średnich.

Rozkłady częstości względnych wystąpień wartości średniej X , przedstawione na rys.

5.6, już dla n=10 praktycznie nie przypominają rozkładu wyjściowego cechy X populacji.

5.3.5 Populacja jednowymiarowa. Moment centralny Mk rzędu k z próby

Moment centralny Mk rzędu k z próby jest zdefiniowany jak następuje:

1

1( ) ( )

ndefk k

k i

i

M X X X Xn =

= − = −∑ (5.30)

Analogicznie jak moment początkowy, również moment centralny ma swój rozkład

graniczny:



( )2 2 22 1 1 2 1

( ) (E , D )

1E = D = 2

kM k kn

k k k k k k k k

F x N M M

M M k kn

µ µ µ µ µ µ µ

→∞

− + −

→

− − + (5.31)

gdzie µk jest momentem centralnym rzędu k zmiennej X: µk=E(X-EX)k.

Przykład 5.10*******************

5.3.6 Populacja dwuwymiarowa. Współczynnik korelacji R z próby

Mamy daną dwuwymiarową (prostą) próbę losową {(X1,Y1), (X2,Y2), ..., (Xn,Yn)} wziętą z dwuwymiarowej populacji (X,Y). Definiujemy współczynnik korelacji R z próby zmiennych losowych (X,Y):

1

1( )( )

( )( )

n

idefi

XY

X Y

X X Y Yn

R X X Y YS S

=

− −

= − − =∑

(5.32)

gdzie SX i SY są odchyleniami standardowymi (5.24) odpowiednio zmiennej X i Y.

Populacja normalna ze współczynnikiem korelacji DDDD=0. Jeżeli populacja, z której pobrano prostą próbę, podlega dwuwymiarowemu rozkładowi normalnemu

ze współczynnikiem korelacji D=0, to statystyka

22

1

Rt n

R= −

− (5.33)

podlega rozkładowi Studenta o ν=n-2 stopniach swobody.

Przykład 5.11. Rozkład współczynnika korelacji z próby (ρρρρ=0).

Dana jest dwuwymiarowa populacja normalna o współczynniku korelacji ρ=0. Obliczyć

prawdopodobieństwo, że współczynnik korelacji z n=20-elementowej próby nie różni się od zera więcej niż 0.1.

Rozwiązanie. Ponieważ funkcja t(R) jest funkcją rosnącą, to prawdziwa jest następująca równość:

( ) ( )P | | 0.1 P | ( ) | (0.1) ?R t R t< = < = (5.34)

skąd mamy dalej:

( ) ( ) ( )2

0.1P | | 0.1 P | ( ) | (0.1) P | | 20 2 P | | 0.4264

1 0.1

P( 0.4264 0.4264) (0.4264; 18) ( 0.4264; 18)

0.6535 0.3465 0.3070

t t

R t R t t t

t F Fν ν

< = < = < − =



Populacja normalna z dowolnym współczynnikiem korelacji. Jeżeli

populacja, z której pobrano prostą próbę,

podlega dwuwymiarowemu rozkładowi

normalnemu z dowolnym współczynnikiem

korelacji ρ (a więc niekoniecznie ρ=0 jak wyżej) to statystyka Z (tzw. przekształcenie Fishera)

1 1

ln2 1

RZ

R

+=

− (5.36)

(zob. rys. 5.7) ma już dla niedużych n (prak-tycznie dla n$ 20 [?]) rozkład w przybliżeniu normalny

1 1 1

N ln ;2 1 2( 1) 1n n

ρ ρ

ρ

++ − − −

(5.37)

Przykład 5.12. Jakość przybliżenia (5.37), gdy współczynnik korelacji z próby

ρρρρ=0. (Zadanie jak w przykładzie 5.11). Dana jest dwuwymiarowa populacja normalna o

współczynniku korelacji ρ=0. Korzystając z (5.37) obliczyć prawdopodobieństwo, że współ-

czynnik korelacji z n=20-elementowej próby nie różni się od zera więcej niż 0.1. Rozwiązanie. Ponieważ przekształcenie Fishera jest funkcją rosnącą i symetryczną względem punktu (0,0), to można napisać

( ) ( )P | | 0.1 P | ( ) | (0.1) ?R Z R Z< = < = (5.38)

Dalej mamy:

( ) ( )

( )

P | | 0.1 P | ( ) | (0.1)

1 0.1P | | 0.5ln P | | 0.1003 ...

1 0.1

R Z R Z

Z Z

< = <

+ = < = < =

−

(5.39)

Zgodnie z zmienna Z w tym przykładzie podlega rozkładowi N(0, 1/19 ) = N(0,0.2294). Aby

więc móc skorzystać z tablic dystrybuanty Φ(u) rozkładu N(0,1), należy zmienną Z standa-ryzować, co sprowadza się w tym przypadku do podzielenia obu stron nierówności w przez

wartość 0.2294

( )| | 0.1003

... P P | | 0.43720.2294 0.2294

(0.4372) ( 0.4372) 2 (0.4372) 1

2 0.6690 1 0.338

ZU

= < =



wartości prawdopodobieństwa P(|R|



podlega rozkładowi Studenta o n-2 stopniach swobody (tzw. twierdzenie Bartletta). Losowość oceny prawdziwej regresji wyraża się tutaj poprzez losowe współczynniki

regresji A i B, co będzie miało swoją konsekwencję w rozdziale o weryfikacji hipotez statystycznych.

Przykład 5.14. Twierdzenie Bartletta. Dana jest dwuwymiarowa ....

5.3.8 Dwie populacje jednowymiarowe. Różnica 1 2X X− wartości średnich z próby

Dane są dwie proste próby losowe (X1,X2,...,1n

X ) oraz (X1,X2,...,2n

X ) wzięte

niezależnie z dwu badanych populacji jednowymiarowych.

Populacje normalne o znanych odchyleniach standardowych FFFF1 i FFFF2. Jeśli populacje, z których pochodzą n1 i n2-elementowe proste próby losowe, mają

rozkłady normalne, odpowiednio: N(µ1,σ1) i N(µ2,σ2), ze znanymi wartościami σ1 i σ2, to statystyka

( )1 2 1 2

2 2

1 1 2 2

( )

/ /

X XU

n n

µ µ

σ σ

− − −=

+ (5.45)

ma rozkład normalny N(0,1).

Przykład 5.15. Pomiar dwoma przyrządami. Dana jest dwuwymiarowa .... Jakie jest p-stwo

Populacje normalne o nieznanych ale identycznych odchyleniach

standardowych σ1=σ2=σ. Jeśli populacje, z których pochodzą n1 i n2-elementowe

proste próby, mają rozkłady normalne, odpowiednio: N(µ1,σ) i N(µ2,σ), z nieznaną

wspólną wartością σ, to statystyka

( )1 2 1 2

2 2

1 1 2 2

1 2 1 2

( )

1 1

2

X XU

n S n S

n n n n

µ µ− − −=

++

+ −

(5.46)

ma rozkład Studenta z n1+n2-2 stopniami swobody. Przykład 5.16. ......... ....

5.3.9 Dwie populacje jednowymiarowe. Stosunek dwu wariancji z próby

Stosunek dwu wariancji z próby F=S12/S22. Jeśli populacje, z których pochodzą n1 i n2-elementowe proste próby losowe, mają rozkłady normalne, odpo-

wiednio: N(µ1, σ) i N(µ2, σ), z nieznaną wspólną wartością σ, to statystyka



2

1

2

2

SF

S=�

� (5.47)

ma rozkład F Snedecora z odpowiednio n1-1 i n2-1 stopniami swobody. Użyte powyżej symbole oznaczają dla każdej z próby z osobna:

2 2 2

1

1( )

1 1

n

i

i

nS S X X

n n == = −

− −∑� (5.48)

Wartości kwantyli rozkładu F dla wybranych par stopni swobody są podane w Do-datku A (tabela 5).

** wyrzucić? **********************

5.4 STATYSTYKI EKSTREMALNE I ICH ROZKŁADY

Definicja statystyki wartość ekstremalna. Dany jest ciąg wartości x1, x2, ..., xN, obserwacji zmiennej losowej X o (na ogół nieznanym) rozkładzie FX(x). Ciąg ten dzielimy na T podciągów, często o tej samej liczebności m, tak że mT=N. Najczęściej T oznacza długość okresu obserwacji (np. T lat), a m – liczbę obserwacji (np. wartości dobowych, dekadowych czy miesięcznych).

Z każdego podciągu wybieramy największą

(albo najmniejszą) wartość. Powstaje w ten

sposób (r) nowa próba losowa zawierająca

realizację nowej zmiennej losowej: war-tości maksymalnej Xmax (albo minimalnej Xmin). Obie te zmienne noszą wspólną nazwę: wartości ekstremalne i poszukiwanie ich rozkładu, odpowiednio Fmax(x) (albo Fmin(x)) jest ważnym zagadnieniem statystyki znajdującym zastosowanie np. w hydrologii czy gospodarce wodnej.

Wyznaczanie rozkładu wartości ekstremalnych I. Jeśli jest możliwe

wyznaczenie rozkładu FX(x) (bo np. znamy wszystkie wartości z rys. 5.8) i liczebność próby n jest znana, to rozkłady wartości maksymalnej Fmax(x) lub minimalnej Fmin(x) dają się stosunkowo łatwo wyznaczyć, jak to pokazano w rozdziale 2.3.6. I tak np. dla

wartości maksymalnej wyprowadzono następujący wzór

[ ]P( ) ( ) ( )n

max max XX x F x F x< ≡ = (5.49)

Wyznaczanie rozkładu wartości ekstremalnych II. Z reguły jednak sytu-acja wygląda inaczej, a najczęstszym przypadkiem jest taki, gdy dany jest tylko zbiór

wartości ekstremalnych, xmax1, xmax2, ..., xmaxn, (jak na rys. 5.8 wartości kropkowane),

Rys. 5.8. Najczęstszy sposób definiowania war-tości maksymalnej (jako maksimum w danym okresie)



po jednej wartości na każdy podzbiór zbioru wartości zmiennej X (tj. na każdy

przedział )t osi t, gdzie t może być kolejnym numerem danych; może też oznaczać czas).

W takim przypadku możemy traktować zmienną Xmax jak każdą inną zmienną i poszukiwać jej rozkładu używając zwykłych technik estymacyjnych (tzn. założyć

funkcję rozkładu i na podstawie posiadanej próby uzasadnić dokonany wybór, zob.

rozdział 6).

Wyznaczanie rozkładu wartości ekstremalnych III. Istnieje wszakże pewna możliwość potraktowania wartości ekstremalnych w sposób szczególny. Jest to

przypadek, gdy możemy zastosować rozkłady asymptotyczne (czyli gdy mamy dużą

próbę). Oczywiście można wtedy stosować twierdzenia graniczne, które wskazują na

rozkład normalny. Mamy jednak inną możliwość. Otóż udowodniono, że pod

pewnymi warunkami wariancja wartości ekstremalnych jest mniejsza od wariancji

przewidywanej przez twierdzenia graniczne (Yevjevich [30]), co oznacza, że rozkłady te lepiej wykorzystują posiadaną informację od centralnego twierdzenia granicznego.

Zostały wyprowadzone nie-normalne rozkłady asymptotyczne wartości ekstremal-

nych (zwane rozkładami ekstremalnymi), spośród których dwa są znane i stosowane

najszerzej. Są to: rozkład Gumbela o dystrybuancie

( )( ) exp , 0,xmaxF x e x

α α− −∈ = − > >∈ (5.50)

zwany również rozkładem podwójnie wykładniczym (zob. rys. 5.9), i rozkład Fishe-a-Tippeta (zwany też rozkładem Weibulla), którego dystrybuanta może być przedsta-iona następująco (zob. rys. 5.10):

( ) 1 exp ( ) , , 0,maxF x x xβα α β = − − − ∈ > >∈ (5.51)



Dwa znaczenia terminu rozkład ekstremalny. Tak więc pojęcie rozkład ekstremalny ma dwa znaczenia: (i) szersze – rozkład wartości ekstremalnych i (ii) węższe – asymptotyczny rozkład wartości ekstremalnych (rozkłady Gumbela i

Fishera-Tippeta), co może czasami wprowadzać pewne zamieszanie.

Oba powyższe rozkłady mogą być stosowane do analizy wartości minimalnych –

jest to tylko kwestia zmiany przedziału wartości zmiennej X. W przypadku (5.50) oznacza to ujemną wartość współczynnika ", a dla (5.51) zastąpienie wyrażenia (x-ß) wyrażeniem (ß-x), tzn. przejście z przedziału ograniczonego od dołu (wartości maksymalne) do przedziału ograniczonego od góry (wartości minimalne).

Sposób definiowania wartości

ekstrealnych poprzez poziom odcię-

cia. Drugim ważnym sposobem definio-

wania wartości maksymalnych jest ustale-

nie pewnego progu – poziomu odcięcia,

jak to zilustrowano na rys. 5.11 (wartość

x0), i przyjęciu za wartości Xmax wszystkie wartości przekraczające x0. Ten sposób podziału dostępnej informacji wprowadza

dodatkową zmienną losową – liczbę

Rys. 5.9 Funkcja gęstości i dystrybuanta rozkładu

Gumbela dla kilku wartości parametru α Rys. 5.10 Funkcja gęstości i dystrybuanta roz-kładu Weibulla dla kilku wartości parametru ß

Rys. 5.11. Wybór wartości maksymalnych przez określenie poziomu odcięcia (por. z rys. 5.8)



przekroczeń zadanego poziomu, czyli liczbę realizacji zmiennej X przekraczających poziom odcięcia (wartość progową) w jednym okresie. Liczba ta może wynosić zero

(jak w przedziale 1 na rys. 5.11), może być większa od jedności. Oczywiście takie

podejście komplikuje matematyczną stronę problemu, może jednak czasami lepiej

wykorzystać dostępną informację.

Najprostszy sposób analizy tego przypadku polega na tym, że wprowadza się

średnią liczbę, nśr, zdarzeń (przekroczeń zadanego poziomu) na okres i rozwiązanie zadania ma postać analogiczną do wzoru (5.49). Wyrazimy ją tym razem trochę

inaczej – poprzez funkcje prawdopodobieństwa przewyższenia:

[ ]( ) P( ) 1 1 ( ) , 0srn

max max X srp x X x F x n= ≥ = − − > (5.52)

Wzór ten jest wyprowadzany przy założeniu, że w każdym okresie wystąpi z praw-

dopodobieństwem 1 przynajmniej jedno zdarzenie (przekroczenie zadanego pozio-

mu).

, a więc należałoby napisać inaczej lewą stronę równania :

P( ) P( | 1)max maxX x X x I≥ = ≥ ≥ (5.53)

gdzie I oznacza liczbę zdarzeń opadowych w danym okresie (roku). W takim przy-padku, jaki został przedstawiony na rys. 5.11, warunek ten (tj. P(I$1)=1) nie jest speł-niony – trzeba więc uwzględniać prawdopodobieństwo przekroczenia czy nieprzekro-

czenia wartości progowej, a więc, zamiast , napisać tak:

1

P( | 1)= P( | )P( )max maxi

X x I X x I i I i∞

=

≥ ≥ ≥ = =∑ (5.54)

gdzie I oznacza liczbę przekroczeń danego poziomu w zadanym okresie czasu. Jeśli założymy, że liczba ta nie ma wpływu na wartość Xmax, to wzór można uprościć:

1

P( | 1) P( ) P( ) P( )P( 0)max max maxi

X x I X x I i X x I∞

=

≥ ≥ = ≥ = = ≥ >∑ (5.55)

Tak więc wynikowe prawdopodobieństwo zostało teraz zmniejszone o czynnik P(I=0) = 1-P(I>0), tj. prawdopodobieństwo nieprzekroczenia zadanej wartości progowej x0.

Documents

CZĘŚĆ II – STATYSTYKA MATEMATYCZNAholmes.iigw.pl/~sweglarc/teksty_pomoc/R05-pom.pdf · 2005. 12. 6. · Część niniejsza – statystyka matematyczna – jest związana z zastosowa-niem