24
5. Podstawowe pojęcia statystyki 1 © Stanislaw Węglarczyk, XII 2005 CZĘŚĆ II – STATYSTYKA MATEMATYCZNA Rachunek prawdopodobieństwa a statystyka matematyczna. Część I, rachunek prawdopodobieństwa, dostarcza podstawowych pojęć i wzorów – języka, za pomocą którego możemy rozmawiać w sposób ścisly o problemach dotyczących zjawisk i procesów, w których czynnik losowy odgrywa niezaniedbywalną rolę. Rachunek prawdopodobieństwa daje też modele zjawisk (rozklady prawdopodo- bieństwa). Część niniejsza – statystyka matematyczna – jest związana z zastosowa- niem modeli probabilistycznych a jej celem jest formulowanie wniosków dotyczących określonej zbiorowości (tzw. populacji generalnej, lączonej dalej ze zmienną losową) na podstawie pewnego podzbioru tej zbiorowości, zwanego próbą lub próbką. Fakt ten oznacza, że statystyka zajmuje się wnioskowaniem o calości (zbiorze) na podstawie części (podzbioru), czyli wnioskowaniem w warunkach niepelnej infor- macji. Wnioskowanie to jest związane z dwoma następującymi podstawowymi zagad- nieniami. Dwa podstawowe zagadnienia klasycznej statystyki matematycznej. Wnioskowanie statystyczne w postaci klasycznej (tzw. klasyczna statystyka mate- matyczna) obejmuje dwa zasadnicze zagadnienia, którymi są (i) estymacja statystyczna (punktowa i przedzialowa) oraz (ii) weryfikacja hipotez statystycznych (parametrycznych i nieparametrycznych). Estymacja statystyczna. Podstawowym problemem estymacji statystycznej jest odpowiedź na pytanie typu "ile wynosi wartość nieznanego parametru g populacji generalnej?" Jeśli podana odpowiedzieć ma postać "g . ĝ", gdzie ĝ jest obliczoną przez nas liczbą, to mamy do czynienia z estymacją punktową. Jeśli natomiast odpowiedź jest typu: "g zawarte jest w przedziale (ĝ1, ĝ2)", to taki przypadek estymacji nazywa się estymacją przedzialową. Weryfikacja hipotez statystycznych oznacza pewien sposób postępowania (tzw. test statystyczny) pozwalający przyjąć lub odrzucić postawioną hipotezę statystyczną H0 dotyczącą pewnej charakterystyki. Gdy hipoteza H0 dotyczy parametru g populacji – np. H0:(g=5) – nazywana jest parametryczną, gdy

CZĘŚĆ II – STATYSTYKA MATEMATYCZNAholmes.iigw.pl/~sweglarc/teksty_pomoc/R05-pom.pdf · 2005. 12. 6. · Część niniejsza – statystyka matematyczna – jest związana z zastosowa-niem

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • 5. Podstawowe pojęcia statystyki 1

    © Stanisław Węglarczyk, XII 2005

    CZĘŚĆ II – STATYSTYKA MATEMATYCZNA

    Rachunek prawdopodobieństwa a statystyka matematyczna. Część I, rachunek prawdopodobieństwa, dostarcza podstawowych pojęć i wzorów – języka, za

    pomocą którego możemy rozmawiać w sposób ścisły o problemach dotyczących

    zjawisk i procesów, w których czynnik losowy odgrywa niezaniedbywalną rolę.

    Rachunek prawdopodobieństwa daje też modele zjawisk (rozkłady prawdopodo-

    bieństwa). Część niniejsza – statystyka matematyczna – jest związana z zastosowa-

    niem modeli probabilistycznych a jej celem jest formułowanie wniosków dotyczących

    określonej zbiorowości (tzw. populacji generalnej, łączonej dalej ze zmienną losową)

    na podstawie pewnego podzbioru tej zbiorowości, zwanego próbą lub próbką. Fakt ten oznacza, że statystyka zajmuje się wnioskowaniem o całości (zbiorze) na

    podstawie części (podzbioru), czyli wnioskowaniem w warunkach niepełnej infor-macji. Wnioskowanie to jest związane z dwoma następującymi podstawowymi zagad-nieniami.

    Dwa podstawowe zagadnienia klasycznej statystyki matematycznej.

    Wnioskowanie statystyczne w postaci klasycznej (tzw. klasyczna statystyka mate-matyczna) obejmuje dwa zasadnicze zagadnienia, którymi są (i) estymacja statystyczna (punktowa i przedziałowa) oraz

    (ii) weryfikacja hipotez statystycznych (parametrycznych i nieparametrycznych).

    Estymacja statystyczna. Podstawowym problemem estymacji statystycznej

    jest odpowiedź na pytanie typu "ile wynosi wartość nieznanego parametru g populacji generalnej?" Jeśli podana odpowiedzieć ma postać "g . ĝ", gdzie ĝ jest obliczoną przez nas liczbą, to mamy do czynienia z estymacją punktową. Jeśli natomiast odpowiedź jest typu: "g zawarte jest w przedziale (ĝ1, ĝ2)", to taki przypadek estymacji nazywa się estymacją przedziałową. Weryfikacja hipotez statystycznych oznacza pewien sposób postępowania

    (tzw. test statystyczny) pozwalający przyjąć lub odrzucić postawioną hipotezę

    statystyczną H0 dotyczącą pewnej charakterystyki. Gdy hipoteza H0 dotyczy

    parametru g populacji – np. H0:(g=5) – nazywana jest parametryczną, gdy

  • 5. Podstawowe pojęcia statystyki 2

    © Stanisław Węglarczyk, XII 2005

    natomiast dotyczy funkcji rozkładu populacji – np. H0:(rozkładem populacji jest

    rozkład normalny o parametrach µ=1.5 i σ=0.23) – nazywamy ją nieparametryczną, a test z tym związany – testem nieparametrycznym (lub: zgodności).

  • 5. Podstawowe pojęcia statystyki 3

    © Stanisław Węglarczyk, XII 2005

    Rozdział 5 PODSTAWOWE

    POJĘCIA STATYSTYKI

    W rozdziale tym zostaną omówione takie pojęcia, jak populacja generalna – obiekt badań statystyki, próba losowa, czyli posiadana informacja o populacji generalnej, statystyka – zmienna losowa będąca funkcją próby, oraz rozkłady najważniejszych statystyk – informacja niezbędna dla wnioskowania statystycznego.

    5.1 PRÓBA LOSOWA I STATYSTYKA JAKO FUNKCJA PRÓBY

    Zbiorowość generalna. Pojęciem podstawowym, podobnie jak w części I, jest doświadczenie losowe. Często używanym da-

    lej synonimem tego pojęcia jest słowo obser-wacja. Dotyczy ona pewnej zbiorowości (czyli zbioru), której elementy obserwujemy. Zbio-

    rowość ta nosi nazwę zbiorowości generalnej lub populacji generalnej (rys. 5.1) i składa się z pewnych obiektów, które mogą być obiek-

    tami materialnymi, np. jakimiś przed-

    miotami, lub też obiektami niematerialnymi,

    np. wynikami obserwacji, zarówno ilościowy-

    mi, jak i jakościowymi. Tak więc zbiorowością

    generalną może być zarówno zbiór samocho-

    dów danej marki, jakie zostały wyproduko-

    wane w danym roku, zbiór prostokątów z rys. 5.1, zbiór wszystkich opadów, jakie

    spadły (i spadną) w danym punkcie geograficznym, jak też zbiór wszystkich możliwych wyników pomiarów długości danego przedmiotu. Cecha X populacji generalnej. Wspomniane obiekty – elementy populacji –

    badamy zwykle ze względu na pewną cechę (charakterystykę), którą zawsze muszą

    posiadać wszystkie elementy danej populacji. Cechę tę zawsze kwantyfikujemy, tzn.

    wyrażamy ją liczbowo. W przypadku zbiorowości samochodów cechą tą może być np.

    Rys. 5.1. Przykład skończonej zbiorowości generalnej (zbiorowość prostokątów) i podzbioru tej zbiorowości – próby

  • 5. Podstawowe pojęcia statystyki 4

    © Stanisław Węglarczyk, XII 2005

    czas do pierwszej naprawy (jedna liczba dla każdego samochodu), dla zbioru prosto-

    kątów z rys. 5.1 – może to być długość i szerokość prostokąta (dwie liczby dla każdego

    prostokąta), w przypadku opadów może nas interesować wysokość opadu, czas jego

    trwania oraz maksymalne natężenie (trzy liczby na każdy opad), podczas gdy w

    ostatnim przypadku – pomiaru długości danego przedmiotu – jest to jedna liczba

    (długość) na każdy pomiar.

    Badana i skwantyfikowana cecha, nazwijmy ją X, jest z założenia zmienną losową i jako taka posiada pewien rozkład prawdopodobieństwa o dystrybuancie FX(x). Często mówi się też, że dana populacja ma rozkład FX(x)1. Należy tutaj od razu zdać sobie sprawę z faktu, że rozkład ten jest na ogół nieznany (jeśli jest znany, to informacja o

    tym pochodzi spoza statystyki). Dysponujemy jednak pewną informacją pochodzącą z

    obserwacji – próbą losową {x1, x2, ..., xn}. Informacja ta jest prawie zawsze niepełna, tzn. nie sposób na jej podstawie określić absolutnie dokładnie postać rozkładu FX(x). Niepełność informacji o nieznanym rozkładzie FX(x), pochodzącej z szeroko rozu-mianego eksperymentu, spowodowana jest tym, że eksperyment ten daje pewien

    podzbiór zbioru możliwych obserwacji i na podstawie tego podzbioru – tzw. próby – wysuwamy wnioski dotyczące cechy X wszystkich elementów danej zbiorowości.

    Przykład 5.1. Zmienna losowa i jej realizacje. Wykonano trzy serie pomiarów długości pewnego odcinka po 5 pomiarów w każdej serii. Tabela 5.1 zawiera uzyskane wyniki.

    Tabela 5.1. Wyniki pomiarów długości odcinka

    Każda z trzech 5-elemen-

    towych serii pomiarów może

    być traktowana jako realizacja

    5-elementowej próby losowej

    (X1,X2,X3,X4,X5), natomiast wartości w kolejnych kolum-

    nach są realizacjami kolejnych zmiennych losowych – składowych wektora losowego

    (X1,X2,X3,X4,X5). Na przykład liczby 9.99, 10.00 i 10.00 (pierwsza kolumna) są realizacjami zmiennej losowej X1. Oczywiście, realizacji zmiennej losowej X1 (i pozostałych zmiennych) może być nieskończenie wiele.

    wynik xi i-go pomiaru w danej serii, m numer serii pomiarów x1 x2 x3 x4 x5

    1 9.99 10.02 9.98 9.99 9.98

    2 10.00 10.01 9.99 10.01 10.00

    3 10.00 10.00 10.00 10.02 9.99

    Próba losowa. Niech doświadczenie losowe polega na n-krotnej obserwacji zmiennej losowej X. Wynikiem tego doświadczenia będzie zbiór n liczb x1, x2, ...,xn, gdzie indeks oznacza numer pomiaru. Ponieważ doświadczenie było losowe (nie

    mogliśmy z całkowitą pewnością przewidzieć jego wyników i przeprowadzono je tak,

    aby nie preferować żadnych wyników), to wartości te są realizacjami pewnych 1 To sformułowanie sugeruje, że każdą populację możemy w końcu rozumieć jako zbiór X liczb (zbiór X możliwych wyników pomiaru) i do takiego spojrzenia prowadzi podejście statystyczne. Dla prawi-dłowego wnioskowania jest wszakże konieczne, aby jak najlepiej rozumieć czego dotyczą liczby x i ich zbiór X.

  • 5. Podstawowe pojęcia statystyki 5

    © Stanisław Węglarczyk, XII 2005

    zmiennych losowych, odpowiednio: X1, X2, ...,Xn, lub inaczej: realizacjami wektora losowego (X1, X2, ...,Xn). Zmienną Xi nazwiemy wynikiem i-tej obserwacji (lub: wynikiem i-go pomiaru) zmiennej losowej X, wektor (X1, X2, ...,Xn) nazwiemy próbą losową, a zbiór liczb (x1, x2, ..., xn) – realizacją tej próby. Formalną definicję próby losowej można znaleźć np. w podręczniku Fisza [11]. Zamiast sformułowania realizacja próby losowej często stosuje się sformułowanie próba losowa, co prowadzi do konfliktu z podanym powyżej określeniem – przeważnie jednak kontekst pozwala

    domyślić się, o którym z dwu powyższych terminów jest mowa. Liczba n nazywana jest liczebnością próby i jest to bardzo ważny parametr statystyczny. Losowość próby. Losowość próby jest niezbędnym warunkiem tego, aby można było używać jej do wyciągania wniosków dotyczących całej populacji (aby próba była

    reprezentatywna). (Tak więc przedstawiona na rys. 5.1 próba, jeśli tylko jest losowa, może być podstawą wnioskowania o całej populacji prostokątów).

    Próba losowa jest podstawą wnioskowania statystycznego o rozkła-

    dzie badanej cechy X populacji generalnej. Ponieważ próba jest częścią całej

    populacji, zawiera informację lokalną – związaną wyłącznie z samą próbą – i informację globalną, która dotyczy całej populacji. Z punktu widzenia wnioskowania statystycznego informacja lokalna zaciemnia poszukiwaną przez nas informację o

    populacji (jest „szumem”), co oznacza, że wnioskowanie statystyczne jest zawsze

    obarczone niepewnością.

    Prosta próba losowa. Spośród prób losowych szczególne zastosowanie znala-zła prosta (lub: niezależna) próba losowa. Jest to taka próba losowa, która posiada następującą własność:

    1 2 1 2( , ,..., ) ( ) ( )... ( )n n X X X nF x x x F x F x F x= (5.1)

    gdzie Fn(x1,x2,...,xn) jest dystrybuantą łącznego rozkładu wektora losowego (X1, X2, ..., Xn), FX(·) – nieznaną dystrybuantą zmiennej losowej (cechy) X, a n – dowolną liczbą naturalną.

    Powyższa równość oznacza, że zmienne X1,X2,...,Xn (1) mają taki sam rozkład FX(x) oraz że (2) są niezależne (zespołowo).

    Możemy więc uważać, że w prostej próbie losowej kolejność jej elementów nie

    odgrywa żadnej roli, co oznacza, że wartość kolejnego elementu próby nie zależy od

    wartości elementów poprzednich (i następnych). Mówiąc jeszcze inaczej:

    œi>1 Fi(xi|xi-1, xi-2,...,x1) = FX(xi).

  • 5. Podstawowe pojęcia statystyki 6

    © Stanisław Węglarczyk, XII 2005

    Wynika z tego dalej, że jeśli poprzez zmianę kolejności wyrazów utworzymy z ciągu

    {x1,x2,..., xn} tzw. ciąg uporządkowany (albo inaczej: próbę uporządkowaną) niemalejący {x(1),x(2),...,x(n)}, tj. taki, że:

    (1) (2) ( )... nx x x≤ ≤ ≤ (5.2)

    lub nierosnący {x(1),x(2),...,x(n)}, tzn. taki, że

    (1) (2) ( )... nx x x≥ ≥ ≥ (5.3)

    to dostarcza on tyle samo informacji co oryginalny ciąg (x1, x2, ...,xn). Bardzo często założenie (2) przyjmowane jest bez dowodu, co może prowadzić do poważnych

    błędów.

    Przykład 5.2. Uporządkowana próba losowa. Niech będzie dana 5-elementowa próba losowa {x1, x2, x3, x4, x5} = {2, 4, 1, 3, 7}. Uporządkowana rosnąca próba losowa to {x(1), x(2), x(3), x(4), x(5)} = {1,2,3,4,7}, a próba uporządkowana malejąco to oczywiście {x(1), x(2), x(3), x(4), x(5)} = {7, 4, 3, 2, 1}.

    Wyrażając istotę prostej próby losowej w terminach mniej matematycznych, moż-

    na powiedzieć, że zasadza się ona na założeniu o identycznych warunkach, w jakich

    przeprowadzane jest doświadczenie (obserwacja) oraz równomożliwości (identycz-

    nym prawdopodobieństwie) uzyskania wszystkich otrzymanych wyników.

    Statystyka. Ponieważ próba losowa jest wektorem losowym, to wynika stąd, że

    dowolna funkcja Zn próby (X1, X2,...,Xn)

    1 2( , ,..., )n nZ g X X X= (5.4)

    jest także zmienną losową. Funkcja Zn nosi nazwę statystyki. Jest więc, na przykład, zmienną losową (i zarazem statystyką) wartość średnia z próby, wariancja z próby,

    itp. Wyznaczanie rozkładów statystyk jest jednym z podstawowych zagadnień

    statystyki matematycznej. Niektóre rozkłady statystyk są zamieszczone w rozdziale

    5.3.

    Mała i duża próba. Istnieją dwa podejścia do rozwiązania problemu wyznacza-nia rozkładu danej statystyki. Podejście pierwsze polega na wyznaczeniu dla każdego

    n rozkładu ( )nZ

    F x statystyki Zn (na podstawie znajomości FX(x), czyli znajomości

    rozkładu danej cechy populacji generalnej). Taki rozkład nazywamy dokładnym rozkładem statystyki Zn. Gdy liczba n jest duża, możemy skorzystać z pewnych twierdzeń rachunku prawdopodobieństwa i wyznaczyć rozkład danej statystyki Zn, gdy n zmierza do nieskończoności (taki rozkład nazywa się rozkładem granicznym lub asymptotycz-nym). Rozkłady asymptotyczne statystyk mają tę ważną cechę, że nie zależą od roz-

  • 5. Podstawowe pojęcia statystyki 7

    © Stanisław Węglarczyk, XII 2005

    kładu FX(x) populacji, co czyni z nich bardzo pożądane narzędzie analizy staty-stycznej.

    Jeśli n jest tak duże, że możemy skorzystać z rozkładu granicznego badanej statystyki, to taka próba nazywa się dużą próbą (dla danej statystyki). Jeśli natomiast wielkość n nie pozwala na skorzystanie z rozkładu granicznego, to mamy do czynienia z próbą małą (dla danej statystyki).

    Ostrzeżenie. Niestety nie istnieje kryterium pozwalające jednoznacznie zdefiniować

    próbę małą i dużą – zależy to od rozpatrywanej statystyki. Chyba najczęściej

    stosowaną liczbą definiującą dużą próbę jest n=30. Należy jednak mocno podkreślić, że liczba ta dotyczy przede wszystkim statystyki średnia wartość z próby. W każdym innym przypadku liczba ta może być inna.

    5.2 PODSTAWOWE TWIERDZENIE STATYSTYKI MATEMATYCZNEJ

    Informacją najbardziej pożądaną, jaką chcemy uzyskać o cesze X na podstawie próby losowej jest znajomość rozkładu FX(x). Ponieważ próba losowa niesie z sobą informację o X, to znaczy, że niesie ona informację o rozkładzie FX(x). Poniższe twierdzenie, zwane czasami podstawowym twierdzeniem statystyki matematycznej

    lub częściej twierdzeniem Gliwienki albo też Gliwienki-Cantelliego, pozwala zbu-

    dować pewien empiryczny odpowiednik nieznanej dystrybuanty FX(x) – tak zwaną dystrybuantę empiryczną Fn(x) i wykazuje użyteczność tego pojęcia.

    5.2.1 Dystrybuanta empiryczna

    Mamy daną prostą próbę losową (x1, x2, ...,xn) (mówiąc ściśle mamy daną realizację prostej próby losowej, jednakże słowo realizacja często się opuszcza). Dystrybuanta empiryczna Femp(x), gdzie x jest dowolną liczbą rzeczywistą, jest taką funkcją, że

    ,

    ( ) i iempliczba elementów x próby takich że x x

    F xn

    <= (5.5)

    Jeśli utworzymy próbę uporządkowaną rosnąco (zwaną też czasem rosnącym cią-giem rozdzielczym) (x(1), x(2),...,x(n)), gdzie x(1)#x(2)#...#x(n), to definicja Femp(x) równo-ważna definicji (5.5) będzie miała postać:

    (1)

    ( ) ( 1)

    ( )

    0,

    ( ) ,

    1,

    emp k k

    n

    dla x x

    kF x dla x x x

    n

    dla x x

    +

    = ≤

    (5.6)

  • 5. Podstawowe pojęcia statystyki 8

    © Stanisław Węglarczyk, XII 2005

    Wzory (5.5) i (5.6) wynikają z przyjmowanego powszechnie założenia o równym

    prawdopodobieństwie pojawiania się wyników danej próby losowej (x1, x2, ...,xn):

    1

    P( ) , 1,2,...,iX x i nn

    = = = (5.7)

    Można spotkać też inne wzory na dystrybuantę empiryczną, m.in. taki dla próby

    uporządkowanej rosnąco x(1)#x(2)#...#x(n). :

    ( )( ) 1emp k

    kF x

    n=

    + (5.8)

    podający wartości dystrybuanty w punktach jej nieciągłości.

    Przykład 5.3. Wykreślanie dystrybu-anty empirycznej.

    Dana jest 10-elementowa próba losowa

    {xi}i=1,10 = {4.61, 6.90, -1.03, -0.76, 4.50, 0.81, 1.64, 5.84, 5.56, 0.14} wylosowana z

    pewnej populacji X, gdzie X oznacza ciągłą zmienną losową.

    Zadanie. Wykreślić dystrybuantę empi-ryczną Femp(x) zmiennej losowej X dla tej próby.

    Rozwiązanie. Porządkujemy rosnąco pró-bę {xi}i=1,10 i dostajemy próbę uporządko-waną {x(i)}i=1,10 = {-1.03, -0.76, 0.14, 0.81, 1.64, 4.5, 4.61, 5.56, 5.84, 6.9}, po czym

    korzystamy ze wzoru (5.6). (Można też

    korzystać, co jest często stosowane, ze wzo-

    ru(5.8)). Wynik pokazany jest na rys. 5.2.

    5.2.2 Podstawowe twierdzenie statystyki matematycznej – twierdzenie Gliwienki-Cantelliego

    Jeśli prosta próba losowa (X1,X2,...,Xn) pochodzi z populacji o rozkładzie FX(x), to

    nP lim sup ( ) ( ) 0 1emp X

    x R

    F x F x→∞ ∈

    − = = (5.9)

    gdzie Femp(.) jest dystrybuantą empiryczną zmiennej losowej X, a P(·) oznacza prawdopodobieństwo. Wzór ten jest teoretycznym uzasadnieniem przekonania, że w

    miarę wzrostu liczebności n próby powiększa się nasza wiedza o nieznanym rozkładzie FX(x), co wyraża się mniejszą maksymalną odległością sup|Femp(x)-FX(x)|

    Rys. 5.2. Dystrybuanta empiryczna zmiennej X obliczona na podstawie 10-elementowej próby loso-wej.

  • 5. Podstawowe pojęcia statystyki 9

    © Stanisław Węglarczyk, XII 2005

    pomiędzy rozkładem empirycznym

    Femp(x) a rzeczywistym rozkładem FX(x) (zob. rys. 5.3, gdzie przedsta-wiono 3 dystrybuanty empiryczne dla

    n = 10, 20 i 40). (Istnieją inne możli-wości zdefiniowania odległości pomię-

    dzy funkcjami).

    Histogram (wykres częstości względnych) jako obraz funkcji gęstości. Dystrybuanta empiryczna

    jest eksperymentalnym obrazem rze-

    czywistej dystrybuanty badanej

    zmiennej X. Na podstawie danej pró-by losowej można także zbudować

    empiryczny odpowiednik funkcji gęstości, co jest zilustrowane na rys. 5.4. Należy w

    tym celu obrać w sposób mniej lub więcej arbitralny pewne przedziały na osi wartości

    zmiennej X, zliczyć liczbę ni realizacji zmiennej w kolejnych przedziałach, obliczyć wartość częstości względnej ni/n, gdzie n jest liczebnością próby, oraz wykreślić

    prostokąt o wysokości ni/(n)x) i szerokości )x. Niestety ta reprezentacja – w odróżnieniu od dystrybuanty empirycznej – zawsze gubi część informacji zawartej w

    próbie. Dzieje się tak wskutek czynności grupowania elementów próby – "wrzucania"

    n wartości zmiennej do n'

  • 5. Podstawowe pojęcia statystyki 10

    © Stanisław Węglarczyk, XII 2005

    w tabelach B, C i D.

    Tabela B. 10 przedziałów grupowania wartości 40-elementowej próby losowej (rys. 5.4B) i 1 2 3 4 5 6 7 8 9 10

    )xi 5-6 6-7 7-8 8-9 9-10 10-11 11-12 12-13 13-14 14-15

    ni 2 1 5 8 5 5 9 1 3 1

    Tabela C. 8 przedziałów grupowania wartości 40-elementowej próby losowej (rys. 5.4C) i 1 2 3 4 5 6 7 8

    )xi 5.0-6.25 6.25-7.50 7.50-8.75 8.75-10.00 10.00-11.25 11.25-12.50 12.50-13.75 13.75-15.00

    ni 2 3 6 10 7 7 4 1

    Tabela D. 5 przedziałów grupowania wartości 40-elementowej próby losowej (rys. 5.4D) i 1 2 3 4 5

    )xi 5-7 7-9 9-11 11-13 13-15

    ni 3 13 13 10 4

    Wszystkie histogramy (rys. 5.4B, C i D) są empirycznymi obrazami (reprezentacjami) tej

    samej funkcji gęstości

    f(x) (rys. 5.4A). Każdy z nich w innym stopniu

    niesie informację o

    rzeczywistej funkcji

    gęstości. Wydaje się, że

    histogram B jest zbyt

    szczegółowy: za dużo

    jest tam informacji po-

    wstałej na skutek tego

    podziału. Z kolei, histo-

    gram D jest zbyt ogólny:

    sugeruje, że rzeczywista

    funkcja gęstości ma

    maksimum na lewym

    krańcu przedziału

    zmienności. W porów-

    naniu z tymi dwoma

    histogramami, najlepszy

    (w sensie podobieństwa do f(x)), wydaje się histogram C.

    6. 8. 10. 12. 14.x

    0.05

    0.1

    0.15

    0.2f*HxL nDx=8

    C

    6. 8. 10. 12. 14.x

    0.05

    0.1

    0.15

    0.2f*HxL nDx=5

    D

    6 8 10 12 14x

    0.05

    0.1

    0.15

    0.2fHxL NH10; 2L

    A

    6. 8. 10. 12. 14.x

    0.05

    0.1

    0.15

    0.2

    f*HxL nDx=10

    B

    Rys. 5.4. Wykreślone dla 40-elementowej próbki: A. funkcja gęstości populacji N(10,2) oraz histogramy o przedziałach zliczania B. )x=1.0, C.

    )x=1.25 i D. )x=2.

    Istnieje inna metoda znajdowania empirycznej funkcji gęstości – tzw. estymacja nieparametryczna funkcji gęstości – pozwalająca uniknąć większości błędów opisa-nego wyżej histogramu. Metoda ta nie będzie jednak tutaj omawiana.

  • 5. Podstawowe pojęcia statystyki 11

    © Stanisław Węglarczyk, XII 2005

    5.3 NAJWAŻNIEJSZE STATYSTYKI I ICH ROZKŁADY

    Dana jest próba losowa (X1,X2,...,Xn). Możemy określić dla niej wiele statystyk, czyli zmiennych losowych będących funkcjami próby. Najważniejsze z nich, z prak-

    tycznego punktu widzenia, to momenty z próby i ich funkcje. W kolejnych pod-rozdziałach podane zostały równania definicyjne niektórych podstawowych statystyk

    wraz z najważniejszymi rozkładami z nimi związanymi. W niektórych podręcznikach

    statystyki te oznaczane są małymi literami niezależnie od tego, czy ma ona w danej

    chwili sens zmiennej losowej, czy jej wartości. W niniejszym tekście takie rozróżnienie

    będzie zachowane. Stosowana dalej pozioma kreska (6) nad symbolem lub grupą

    symboli („kreska ponad”) oznacza średnią arytmetyczną liczoną ze względu na

    zmienną lub zmienne występujące pod tym znakiem. Jest ona odpowiednikiem

    operatora wartości oczekiwanej E używanego dla średniej przy znanym rozkładzie

    prawdopodobieństwa.

    Przykład 5.5. Działanie operatora kreska ponad.

    2 2 2 2

    1 1 1

    1 1 1( ) ( ) ( ) ( )

    n n ndef

    i i i

    i i i

    g x g x x x x x x xn n n= = =

    = = − = −∑ ∑ ∑ (5.10)

    Wszędzie powyżej zakładamy, że liczebność próby wynosi n.

    W kolejnych podrozdziałach przedstawione zostaną ważne statystyki i ich rozkłady

    w zależności od tego, czy badana jest populacja jednowymiarowa, dwuwymiarowa,

    czy dwie populacje jednowymiarowe.

    5.3.1 Populacja jednowymiarowa. Wartość średnia z próby

    Dana jest próba losowa (X1, X2, ...,Xn) pobrana z badanej jednowymiarowej popu-lacji X. Statystyka wartość średnia z próby (lub: wartość średnia w próbie) jest zdefiniowana równością

    1

    1 n

    i

    i

    X Xn =

    = ∑ (5.11)

    Populacja X normalna ze znaną wartością odchylenia standardowe-

    go σσσσ. Jeśli populacja, z której pochodzi n elementowa prosta próba, ma rozkład

    normalny: FX=N(µ,σ) ze znaną wartością σ, to statystyka

    X

    U nµ

    σ

    −= (5.12)

    ma rozkład normalny N(0,1).

  • 5. Podstawowe pojęcia statystyki 12

    © Stanisław Węglarczyk, XII 2005

    Przypadek ten jest często spotykany w praktyce pomiarowej, gdy przyjmujemy tzw.

    normalny model niepewności (błędów) pomiarowych, tzn. przyjmujemy za praw-dziwe założenie, że niepewności pomiarowe (zwane często mniej precyzyjnie błędami pomiarowymi) – czyli odchyłki X-µ wyników x pomiaru od nieznanej wartości praw-

    dziwej µ – podlegają rozkładowi normalnemu N(0,σ), gdzie σ jest znaną dokładnością przyrządu pomiarowego (dokładnością pojedynczego pomiaru). Inaczej mówimy, że

    wynik X pomiaru nieznanej wartości prawdziwej µ podlega rozkładowi normalnemu

    N(µ,σ). Fakt, że statystyka (5.12) podlega rozkładowi N(0,1) jest inną formą stwierdzenia, że użycie wartości średniej x z n pomiarów zamiast pojedynczej wartości x daje korzyść polegającą na mniejszej niepewności (mniejszym błędzie),

    gdyż zmienna X podlega rozkładowi normalnemu N(µ,σ/ n ) zamiast N(µ,σ) jak dla

    X. (Zwróćmy uwagę na fakt, że EX = EX = µ).

    Przykład 5.6. Obliczanie liczby pomiarów niezbędnych do 10-krotnego zmniejszenia niepewności pomiaru.

    Wykonujemy n pomiarów xi, i=1,2,...,n, długości L pewnego przedmiotu przyrządem o

    dokładności σ = 1 mm, po czym obliczamy wartość średnią x . Ile pomiarów trzeba wykonać,

    aby prawdopodobieństwo, że uzyskana średnia nie różni się od wartości prawdziwej więcej

    niż 0.1 mm było równe 95%?

    Odpowiedź. Przyjmujemy, że wartość prawdziwa L odpowiada parametrowi µ statystyki U (5.12), stąd można przyjąć, że warunek postawiony w zadaniu ma postać

    ( )P | |

  • 5. Podstawowe pojęcia statystyki 13

    © Stanisław Węglarczyk, XII 2005

    1X

    t nS

    µ−= − (5.15)

    ma rozkład Studenta z parametrem 30 rozkłady te są iden-

    tyczne. Wartości niektórych kwantyli

    tego rozkładu dla 1≤ν≤30 podane są w

    tabeli 3 zamieszczonej w Dodatku A.

    Populacja X o rozkładzie nie-normalnym lub nieznanym. Gdy rozkład

    populacji nie jest znany lub gdy jest znany ale nie jest normalny, to dla dużej próby

    (tj. więcej niż ok. 30) ma zastosowanie graniczny rozkład normalny, co oznacza, że

    wartość średnia X z n-elementowej próby losowej podlega w przybliżeniu rozkładowi

    N( x , sX / n ).

    Przykład 5.7. Duża próba. Z populacji X o nieznanym rozkładzie pobrano n=100-elementową prostą próbę losową i znaleziono, że x =28.3 i sX=1.75. Zgodnie z powyższym

    twierdzeniem zmienna losowa podlega w przybliżeniu rozkładowi N(28.3, 1.75/ 100 ) =

    N(28.3, 0.175).

    5.3.2 Populacja jednowymiarowa. Wariancja z próby

    Populacja X normalna. Wariancja z próby S2 jest zdefiniowana następująco:

    2 2 2

    1

    1( ) ( )

    ndef

    i

    i

    S X X X Xn =

    = − = −∑ (5.17)

    Rys. 5.5. Im większa liczba stopni swobody ν tym bardziej rozkład Studenta jest bliższy rozkładowi N(0,1) (linia pogrubiona)

  • 5. Podstawowe pojęcia statystyki 14

    © Stanisław Węglarczyk, XII 2005

    Jeśli populacja, z której pochodzi n elementowa prosta próba losowa, ma rozkład

    normalny FX=N(µ,σ) z nieznaną wartością σ, to statystyka χ2 (chi-kwadrat)

    22

    2

    nSχ

    σ= (5.18)

    podlega rozkładowi χ2 z parametrem ν=n-1 (z ν stopniami swobody). Wartość oczeki-wana i wariancja tej zmiennej wyrażają się wzorami

    2 2E var 2χ ν χ ν= = (5.19)

    skąd (i z (5.18)) wynikają wzory dla S2:

    2 2 2 4

    2

    1 2( 1)E var

    n n

    n nχ σ χ σ

    − −= = (5.20)

    Tabela 4 z Dodatku A zawiera niektóre kwantyle tego rozkładu dla liczby stopni

    swobody 1 ÷30. Dla ν>30 można stosować rozkład graniczny zmiennej losowej

    (2χ2)1/2, która podlega rozkładowi normalnemu N[(2n-1)1/2,1].

    Przykład 5.8. Rozkład wariancji z próby. Obliczyć prawdopodobieństwo, że obliczo-na wartość wariancji S2 z próby o liczebności n=20 nie różni się od wartości prawdziwej

    wariancji σ2 o więcej niż 5%.

    Rozwiązanie. Zadanie można zapisać następująco:

    2

    2P 0.95 1.05 ?

    S

    σ

    < < =

    (5.21)

    Biorąc pod uwagę definicję , mamy dalej

    ( ) ( )

    2 2

    22 2

    2P 0.95 1.05 P 0.95 1.05 P 19 21

    (21; 19) (19; 19) 0.663 0.543 0.120

    Sn n

    F Fχ χ

    χ χσ

    ν ν

    < < = < < = <

  • 5. Podstawowe pojęcia statystyki 15

    © Stanisław Węglarczyk, XII 2005

    5.3.3 Populacja jednowymiarowa. Odchylenie standardowe z próby

    Odchylenie standardowe z próby S. Określa je równanie

    2 2

    1

    1( )

    ndef

    i

    i

    S S X Xn =

    = = −∑ (5.24)

    Rozkłady zmiennej losowej S są oczywiście ściśle związane z rozkładami wariancji z próby S2, toteż łatwo obliczyć żądane wartości związane z S na podstawie zależności dotyczących S2.

    Przykład 5.9. Rozkład odchylenia standardowego z próby. Obliczyć prawdopodo-bieństwo, że obliczona wartość odchylenia standardowego S z próby o liczebności n=20 nie

    różni się od wartości prawdziwej odchylenia standardowego σ o więcej niż 5%. Rozwiązanie. Zadanie jest podobne do zadania z przykładu 5.8:

    2

    2 2

    2P 0.95 1.05 P 0.95 1.05 ?

    S S

    σ σ

    < < = < < =

    (5.25)

    Jak w przykładzie 5.8, dostajemy dalej dla n=20:

    ( ) ( )

    2 2

    22 2 2 2 2 2

    2P 0.95 1.05 P 0.95 1.05 P 18.05 22.05

    (22.05; 19) (18.05; 19) 0.718 0.481 0.237

    Sn n

    F Fχ χ

    χ χσ

    ν ν

    < < = < < = <

  • 5. Podstawowe pojęcia statystyki 16

    © Stanisław Węglarczyk, XII 2005

    Rys. 5.6. W miarę wzrostu liczebności n próby rozkłady R1, R2, R3, R4 (R=A, B, C, D) wartości średniej z próby są coraz mniej podobne do rozkładu R zmiennej losowej X skupionego na przedziale (0,1).

    Rys. 5.6 ilustruje powyższe twierdzenie dla pierwszego momentu A1≡ X . Przepro-wadzony został następujący eksperyment numeryczny. Wybrane zostały 4 różne (pod

    względem symetrii) rozkłady populacji (A, B, C i D), następnie z każdej z tych

    populacji losowane było 200 prób o liczebności n i dla każdej próby obliczano wartość średnią x . W ten sposób tworzone były 200-elementowe próby wartości średnich.

    Rozkłady częstości względnych wystąpień wartości średniej X , przedstawione na rys.

    5.6, już dla n=10 praktycznie nie przypominają rozkładu wyjściowego cechy X populacji.

    5.3.5 Populacja jednowymiarowa. Moment centralny Mk rzędu k z próby

    Moment centralny Mk rzędu k z próby jest zdefiniowany jak następuje:

    1

    1( ) ( )

    ndefk k

    k i

    i

    M X X X Xn =

    = − = −∑ (5.30)

    Analogicznie jak moment początkowy, również moment centralny ma swój rozkład

    graniczny:

  • 5. Podstawowe pojęcia statystyki 17

    © Stanisław Węglarczyk, XII 2005

    ( )2 2 22 1 1 2 1

    ( ) (E , D )

    1E = D = 2

    kM k kn

    k k k k k k k k

    F x N M M

    M M k kn

    µ µ µ µ µ µ µ

    →∞

    − + −

    − − + (5.31)

    gdzie µk jest momentem centralnym rzędu k zmiennej X: µk=E(X-EX)k.

    Przykład 5.10*******************

    5.3.6 Populacja dwuwymiarowa. Współczynnik korelacji R z próby

    Mamy daną dwuwymiarową (prostą) próbę losową {(X1,Y1), (X2,Y2), ..., (Xn,Yn)} wziętą z dwuwymiarowej populacji (X,Y). Definiujemy współczynnik korelacji R z próby zmiennych losowych (X,Y):

    1

    1( )( )

    ( )( )

    n

    idefi

    XY

    X Y

    X X Y Yn

    R X X Y YS S

    =

    − −

    = − − =∑

    (5.32)

    gdzie SX i SY są odchyleniami standardowymi (5.24) odpowiednio zmiennej X i Y.

    Populacja normalna ze współczynnikiem korelacji DDDD=0. Jeżeli populacja, z której pobrano prostą próbę, podlega dwuwymiarowemu rozkładowi normalnemu

    ze współczynnikiem korelacji D=0, to statystyka

    22

    1

    Rt n

    R= −

    − (5.33)

    podlega rozkładowi Studenta o ν=n-2 stopniach swobody.

    Przykład 5.11. Rozkład współczynnika korelacji z próby (ρρρρ=0).

    Dana jest dwuwymiarowa populacja normalna o współczynniku korelacji ρ=0. Obliczyć

    prawdopodobieństwo, że współczynnik korelacji z n=20-elementowej próby nie różni się od zera więcej niż 0.1.

    Rozwiązanie. Ponieważ funkcja t(R) jest funkcją rosnącą, to prawdziwa jest następująca równość:

    ( ) ( )P | | 0.1 P | ( ) | (0.1) ?R t R t< = < = (5.34)

    skąd mamy dalej:

    ( ) ( ) ( )2

    0.1P | | 0.1 P | ( ) | (0.1) P | | 20 2 P | | 0.4264

    1 0.1

    P( 0.4264 0.4264) (0.4264; 18) ( 0.4264; 18)

    0.6535 0.3465 0.3070

    t t

    R t R t t t

    t F Fν ν

    < = < = < − =

  • 5. Podstawowe pojęcia statystyki 18

    © Stanisław Węglarczyk, XII 2005

    Populacja normalna z dowolnym współczynnikiem korelacji. Jeżeli

    populacja, z której pobrano prostą próbę,

    podlega dwuwymiarowemu rozkładowi

    normalnemu z dowolnym współczynnikiem

    korelacji ρ (a więc niekoniecznie ρ=0 jak wyżej) to statystyka Z (tzw. przekształcenie Fishera)

    1 1

    ln2 1

    RZ

    R

    +=

    − (5.36)

    (zob. rys. 5.7) ma już dla niedużych n (prak-tycznie dla n$ 20 [?]) rozkład w przybliżeniu normalny

    1 1 1

    N ln ;2 1 2( 1) 1n n

    ρ ρ

    ρ

    ++ − − −

    (5.37)

    Przykład 5.12. Jakość przybliżenia (5.37), gdy współczynnik korelacji z próby

    ρρρρ=0. (Zadanie jak w przykładzie 5.11). Dana jest dwuwymiarowa populacja normalna o

    współczynniku korelacji ρ=0. Korzystając z (5.37) obliczyć prawdopodobieństwo, że współ-

    czynnik korelacji z n=20-elementowej próby nie różni się od zera więcej niż 0.1. Rozwiązanie. Ponieważ przekształcenie Fishera jest funkcją rosnącą i symetryczną względem punktu (0,0), to można napisać

    ( ) ( )P | | 0.1 P | ( ) | (0.1) ?R Z R Z< = < = (5.38)

    Dalej mamy:

    ( ) ( )

    ( )

    P | | 0.1 P | ( ) | (0.1)

    1 0.1P | | 0.5ln P | | 0.1003 ...

    1 0.1

    R Z R Z

    Z Z

    < = <

    + = < = < =

    (5.39)

    Zgodnie z zmienna Z w tym przykładzie podlega rozkładowi N(0, 1/19 ) = N(0,0.2294). Aby

    więc móc skorzystać z tablic dystrybuanty Φ(u) rozkładu N(0,1), należy zmienną Z standa-ryzować, co sprowadza się w tym przypadku do podzielenia obu stron nierówności w przez

    wartość 0.2294

    ( )| | 0.1003

    ... P P | | 0.43720.2294 0.2294

    (0.4372) ( 0.4372) 2 (0.4372) 1

    2 0.6690 1 0.338

    ZU

    = < =

  • 5. Podstawowe pojęcia statystyki 19

    © Stanisław Węglarczyk, XII 2005

    wartości prawdopodobieństwa P(|R|

  • 5. Podstawowe pojęcia statystyki 20

    © Stanisław Węglarczyk, XII 2005

    podlega rozkładowi Studenta o n-2 stopniach swobody (tzw. twierdzenie Bartletta). Losowość oceny prawdziwej regresji wyraża się tutaj poprzez losowe współczynniki

    regresji A i B, co będzie miało swoją konsekwencję w rozdziale o weryfikacji hipotez statystycznych.

    Przykład 5.14. Twierdzenie Bartletta. Dana jest dwuwymiarowa ....

    5.3.8 Dwie populacje jednowymiarowe. Różnica 1 2X X− wartości średnich z próby

    Dane są dwie proste próby losowe (X1,X2,...,1n

    X ) oraz (X1,X2,...,2n

    X ) wzięte

    niezależnie z dwu badanych populacji jednowymiarowych.

    Populacje normalne o znanych odchyleniach standardowych FFFF1 i FFFF2. Jeśli populacje, z których pochodzą n1 i n2-elementowe proste próby losowe, mają

    rozkłady normalne, odpowiednio: N(µ1,σ1) i N(µ2,σ2), ze znanymi wartościami σ1 i σ2, to statystyka

    ( )1 2 1 2

    2 2

    1 1 2 2

    ( )

    / /

    X XU

    n n

    µ µ

    σ σ

    − − −=

    + (5.45)

    ma rozkład normalny N(0,1).

    Przykład 5.15. Pomiar dwoma przyrządami. Dana jest dwuwymiarowa .... Jakie jest p-stwo

    Populacje normalne o nieznanych ale identycznych odchyleniach

    standardowych σ1=σ2=σ. Jeśli populacje, z których pochodzą n1 i n2-elementowe

    proste próby, mają rozkłady normalne, odpowiednio: N(µ1,σ) i N(µ2,σ), z nieznaną

    wspólną wartością σ, to statystyka

    ( )1 2 1 2

    2 2

    1 1 2 2

    1 2 1 2

    ( )

    1 1

    2

    X XU

    n S n S

    n n n n

    µ µ− − −=

    ++

    + −

    (5.46)

    ma rozkład Studenta z n1+n2-2 stopniami swobody. Przykład 5.16. ......... ....

    5.3.9 Dwie populacje jednowymiarowe. Stosunek dwu wariancji z próby

    Stosunek dwu wariancji z próby F=S12/S22. Jeśli populacje, z których pochodzą n1 i n2-elementowe proste próby losowe, mają rozkłady normalne, odpo-

    wiednio: N(µ1, σ) i N(µ2, σ), z nieznaną wspólną wartością σ, to statystyka

  • 5. Podstawowe pojęcia statystyki 21

    © Stanisław Węglarczyk, XII 2005

    2

    1

    2

    2

    SF

    S=�

    � (5.47)

    ma rozkład F Snedecora z odpowiednio n1-1 i n2-1 stopniami swobody. Użyte powyżej symbole oznaczają dla każdej z próby z osobna:

    2 2 2

    1

    1( )

    1 1

    n

    i

    i

    nS S X X

    n n == = −

    − −∑� (5.48)

    Wartości kwantyli rozkładu F dla wybranych par stopni swobody są podane w Do-datku A (tabela 5).

    ** wyrzucić? **********************

    5.4 STATYSTYKI EKSTREMALNE I ICH ROZKŁADY

    Definicja statystyki wartość ekstremalna. Dany jest ciąg wartości x1, x2, ..., xN, obserwacji zmiennej losowej X o (na ogół nieznanym) rozkładzie FX(x). Ciąg ten dzielimy na T podciągów, często o tej samej liczebności m, tak że mT=N. Najczęściej T oznacza długość okresu obserwacji (np. T lat), a m – liczbę obserwacji (np. wartości dobowych, dekadowych czy miesięcznych).

    Z każdego podciągu wybieramy największą

    (albo najmniejszą) wartość. Powstaje w ten

    sposób (r) nowa próba losowa zawierająca

    realizację nowej zmiennej losowej: war-tości maksymalnej Xmax (albo minimalnej Xmin). Obie te zmienne noszą wspólną nazwę: wartości ekstremalne i poszukiwanie ich rozkładu, odpowiednio Fmax(x) (albo Fmin(x)) jest ważnym zagadnieniem statystyki znajdującym zastosowanie np. w hydrologii czy gospodarce wodnej.

    Wyznaczanie rozkładu wartości ekstremalnych I. Jeśli jest możliwe

    wyznaczenie rozkładu FX(x) (bo np. znamy wszystkie wartości z rys. 5.8) i liczebność próby n jest znana, to rozkłady wartości maksymalnej Fmax(x) lub minimalnej Fmin(x) dają się stosunkowo łatwo wyznaczyć, jak to pokazano w rozdziale 2.3.6. I tak np. dla

    wartości maksymalnej wyprowadzono następujący wzór

    [ ]P( ) ( ) ( )n

    max max XX x F x F x< ≡ = (5.49)

    Wyznaczanie rozkładu wartości ekstremalnych II. Z reguły jednak sytu-acja wygląda inaczej, a najczęstszym przypadkiem jest taki, gdy dany jest tylko zbiór

    wartości ekstremalnych, xmax1, xmax2, ..., xmaxn, (jak na rys. 5.8 wartości kropkowane),

    Rys. 5.8. Najczęstszy sposób definiowania war-tości maksymalnej (jako maksimum w danym okresie)

  • 5. Podstawowe pojęcia statystyki 22

    © Stanisław Węglarczyk, XII 2005

    po jednej wartości na każdy podzbiór zbioru wartości zmiennej X (tj. na każdy

    przedział )t osi t, gdzie t może być kolejnym numerem danych; może też oznaczać czas).

    W takim przypadku możemy traktować zmienną Xmax jak każdą inną zmienną i poszukiwać jej rozkładu używając zwykłych technik estymacyjnych (tzn. założyć

    funkcję rozkładu i na podstawie posiadanej próby uzasadnić dokonany wybór, zob.

    rozdział 6).

    Wyznaczanie rozkładu wartości ekstremalnych III. Istnieje wszakże pewna możliwość potraktowania wartości ekstremalnych w sposób szczególny. Jest to

    przypadek, gdy możemy zastosować rozkłady asymptotyczne (czyli gdy mamy dużą

    próbę). Oczywiście można wtedy stosować twierdzenia graniczne, które wskazują na

    rozkład normalny. Mamy jednak inną możliwość. Otóż udowodniono, że pod

    pewnymi warunkami wariancja wartości ekstremalnych jest mniejsza od wariancji

    przewidywanej przez twierdzenia graniczne (Yevjevich [30]), co oznacza, że rozkłady te lepiej wykorzystują posiadaną informację od centralnego twierdzenia granicznego.

    Zostały wyprowadzone nie-normalne rozkłady asymptotyczne wartości ekstremal-

    nych (zwane rozkładami ekstremalnymi), spośród których dwa są znane i stosowane

    najszerzej. Są to: rozkład Gumbela o dystrybuancie

    ( )( ) exp , 0,xmaxF x e x

    α α− −∈ = − > >∈ (5.50)

    zwany również rozkładem podwójnie wykładniczym (zob. rys. 5.9), i rozkład Fishe-a-Tippeta (zwany też rozkładem Weibulla), którego dystrybuanta może być przedsta-iona następująco (zob. rys. 5.10):

    ( ) 1 exp ( ) , , 0,maxF x x xβα α β = − − − ∈ > >∈ (5.51)

  • 5. Podstawowe pojęcia statystyki 23

    © Stanisław Węglarczyk, XII 2005

    Dwa znaczenia terminu rozkład ekstremalny. Tak więc pojęcie rozkład ekstremalny ma dwa znaczenia: (i) szersze – rozkład wartości ekstremalnych i (ii) węższe – asymptotyczny rozkład wartości ekstremalnych (rozkłady Gumbela i

    Fishera-Tippeta), co może czasami wprowadzać pewne zamieszanie.

    Oba powyższe rozkłady mogą być stosowane do analizy wartości minimalnych –

    jest to tylko kwestia zmiany przedziału wartości zmiennej X. W przypadku (5.50) oznacza to ujemną wartość współczynnika ", a dla (5.51) zastąpienie wyrażenia (x-ß) wyrażeniem (ß-x), tzn. przejście z przedziału ograniczonego od dołu (wartości maksymalne) do przedziału ograniczonego od góry (wartości minimalne).

    Sposób definiowania wartości

    ekstrealnych poprzez poziom odcię-

    cia. Drugim ważnym sposobem definio-

    wania wartości maksymalnych jest ustale-

    nie pewnego progu – poziomu odcięcia,

    jak to zilustrowano na rys. 5.11 (wartość

    x0), i przyjęciu za wartości Xmax wszystkie wartości przekraczające x0. Ten sposób podziału dostępnej informacji wprowadza

    dodatkową zmienną losową – liczbę

    Rys. 5.9 Funkcja gęstości i dystrybuanta rozkładu

    Gumbela dla kilku wartości parametru α Rys. 5.10 Funkcja gęstości i dystrybuanta roz-kładu Weibulla dla kilku wartości parametru ß

    Rys. 5.11. Wybór wartości maksymalnych przez określenie poziomu odcięcia (por. z rys. 5.8)

  • 5. Podstawowe pojęcia statystyki 24

    © Stanisław Węglarczyk, XII 2005

    przekroczeń zadanego poziomu, czyli liczbę realizacji zmiennej X przekraczających poziom odcięcia (wartość progową) w jednym okresie. Liczba ta może wynosić zero

    (jak w przedziale 1 na rys. 5.11), może być większa od jedności. Oczywiście takie

    podejście komplikuje matematyczną stronę problemu, może jednak czasami lepiej

    wykorzystać dostępną informację.

    Najprostszy sposób analizy tego przypadku polega na tym, że wprowadza się

    średnią liczbę, nśr, zdarzeń (przekroczeń zadanego poziomu) na okres i rozwiązanie zadania ma postać analogiczną do wzoru (5.49). Wyrazimy ją tym razem trochę

    inaczej – poprzez funkcje prawdopodobieństwa przewyższenia:

    [ ]( ) P( ) 1 1 ( ) , 0srn

    max max X srp x X x F x n= ≥ = − − > (5.52)

    Wzór ten jest wyprowadzany przy założeniu, że w każdym okresie wystąpi z praw-

    dopodobieństwem 1 przynajmniej jedno zdarzenie (przekroczenie zadanego pozio-

    mu).

    , a więc należałoby napisać inaczej lewą stronę równania :

    P( ) P( | 1)max maxX x X x I≥ = ≥ ≥ (5.53)

    gdzie I oznacza liczbę zdarzeń opadowych w danym okresie (roku). W takim przy-padku, jaki został przedstawiony na rys. 5.11, warunek ten (tj. P(I$1)=1) nie jest speł-niony – trzeba więc uwzględniać prawdopodobieństwo przekroczenia czy nieprzekro-

    czenia wartości progowej, a więc, zamiast , napisać tak:

    1

    P( | 1)= P( | )P( )max maxi

    X x I X x I i I i∞

    =

    ≥ ≥ ≥ = =∑ (5.54)

    gdzie I oznacza liczbę przekroczeń danego poziomu w zadanym okresie czasu. Jeśli założymy, że liczba ta nie ma wpływu na wartość Xmax, to wzór można uprościć:

    1

    P( | 1) P( ) P( ) P( )P( 0)max max maxi

    X x I X x I i X x I∞

    =

    ≥ ≥ = ≥ = = ≥ >∑ (5.55)

    Tak więc wynikowe prawdopodobieństwo zostało teraz zmniejszone o czynnik P(I=0) = 1-P(I>0), tj. prawdopodobieństwo nieprzekroczenia zadanej wartości progowej x0.