79
Projekt pn. „Wzmocnienie potencjalu dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczychrealizowany w ramach Poddzialania 4.1.1 Programu Operacyjnego Kapital Ludzki Statystyka i eksploracja danych Treść wykladów Adam Jakubowski UMK Toruń 2011 Projekt wspólfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Spolecznego

Statystyka i eksploracja danych - adjakubo/sed_euro.pdf · Repetytorium z teorii prawdopodo-bieństwa”, Toruń 2011. Należy podkreślić, żepodczas egzaminu wiadomości zawarte

  • Upload
    dodan

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

Projekt pn. „Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych”

realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki

Statystykai eksploracja danych

Treść wykładów

Adam Jakubowski

UMK Toruń 2011

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

Spis treści

Wstęp 1

1 Formalizm teorii prawdopodobieństwa 3Po co nam formalizm matematyczny? . . . . . . . . . . . . . . . . . . . 3Co to jest ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3Przestrzeń probabilistyczna . . . . . . . . . . . . . . . . . . . . . . . . 4Przykłady przestrzeni probabilistycznych . . . . . . . . . . . . . . . 7Przestrzeń statystyczna . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Zmienne losowe i charakterystyki ich rozkładów 9Zmienna losowa i jej rozkład . . . . . . . . . . . . . . . . . . . . . . . . 9Wartość oczekiwana zmiennej losowej . . . . . . . . . . . . . . . . . . 10Dystrybuanta zmiennej losowej . . . . . . . . . . . . . . . . . . . . . . 11Rozkłady dyskretne i absolutnie ciągłe . . . . . . . . . . . . . . . . . 12Momenty, wariancja, odchylenie standardowe . . . . . . . . . . . . . 13Mediana, kwantyle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3 Wektory losowe i charakterystyki ich rozkładów 15Wektory losowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15Macierz kowariancji wektora losowego . . . . . . . . . . . . . . . . . 16Współczynnik korelacji . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4 Niezależność 19Brak korelacji a niezależność zmiennych losowych . . . . . . . . . 19Niezależność zmiennych losowych . . . . . . . . . . . . . . . . . . . . . 21Kryteria niezależności . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22Niezależność zdarzeń . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23Niezależność parami . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

5 Estymatory 25Jak wyliczyć współczynnik korelacji? . . . . . . . . . . . . . . . . . . 25Próba prosta z populacji . . . . . . . . . . . . . . . . . . . . . . . . . . . 26Estymator nieobciążony . . . . . . . . . . . . . . . . . . . . . . . . . . . 27Zgodność ciągu estymatorów . . . . . . . . . . . . . . . . . . . . . . . . 29

i

ii Spis treści

6 Estymatory II 31Estymatory największej wiarogodności . . . . . . . . . . . . . . . . . 31Estymatory minimalnej wariancji . . . . . . . . . . . . . . . . . . . . . 33Rodziny wykładnicze rozkładów . . . . . . . . . . . . . . . . . . . . . . 34Estymatory nieobciążone minimalnej wariancji . . . . . . . . . . . . 36

7 Przedziały ufności 39Obszar ufności . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39Przedział ufności . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40Rozkład t-Studenta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41Rozkład chi-kwadrat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42Rozkład F -Snedecora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43Asymptotyczne przedziały ufności . . . . . . . . . . . . . . . . . . . . . 44

8 Prognoza. Warunkowa wartość oczekiwana 47Zagadnienie prognozowania . . . . . . . . . . . . . . . . . . . . . . . . . 47Warunkowa wartość oczekiwana . . . . . . . . . . . . . . . . . . . . . . 48Prognoza liniowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50Procesy gaussowskie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

9 Testowanie hipotez statystycznych 53Test hipotezy, poziom istotności, moc testu . . . . . . . . . . . . . . 53Lemat Neymana-Pearsona . . . . . . . . . . . . . . . . . . . . . . . . . . 55Konkluzje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

10 Testowanie hipotez - przykłady 59Dystrybuanta empiryczna i tw. Gniedenki-Cantellego . . . . . . . . 59Test zgodności Kołmogorowa . . . . . . . . . . . . . . . . . . . . . . . . 60Porównywanie średnich . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62Test χ2 Pearsona . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

11 Metoda najmniejszych kwadratów i regresja liniowa 65Model liniowy i regresja liniowa . . . . . . . . . . . . . . . . . . . . . 65Metoda najmniejszych kwadratów . . . . . . . . . . . . . . . . . . . . . 66Twierdzenie Gaussa-Markowa . . . . . . . . . . . . . . . . . . . . . . . . 67

12 Redukcja wymiaru danych 69Procedura standaryzacji danych . . . . . . . . . . . . . . . . . . . . . 69Analiza składowych głównych . . . . . . . . . . . . . . . . . . . . . . . 71Analiza czynnikowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

Literatura 75

Wstęp

Plan studiów na kierunku „Informatyka” na Wydziale Matematyki i Informatyki Uni-wersytetu Mikołaja Kopernika w Toruniu przewiduje na pierwszym roku studiów drugie-go stopnia obowiązkowy blok statystyczno-probabilistyczny, składający się z przedmio-tów „Statystyka i eksploracja danych” i „Metody i modele probabilistyczne”. Wedługzałożeń programowych realizacja tego bloku ma stanowić podstawę do szerokiego sto-sowania metod stochastycznych, w zagadnieniach algorytmicznych, obliczeniowych i wmodelowaniu systemów złożonych.

Przedmiot „Statystyka i analiza danych” prowadzony jest w semestrze zimowym, wwymiarze 30 godzin wykładu i 30 godzin ćwiczeń rachunkowo-laboratoryjnych, w dużejmierze wykorzystujących najnowsze wersje pakietu SPSS.

Zaliczenie przedmiotu polega na uzyskaniu zaliczenia ćwiczeń rachunkowo-laborato-ryjnych oraz zdaniu dwuczęściowego egzaminu, składającego się z egzaminu praktycznegow laboratorium (wykonanie analizy przykładowych danych) oraz egzaminu ustnego zteorii.

Do wykładu prowadzone są kursy wyrównawcze, podczas których osoby mające trud-ności z podstawowymi pojęciami teorii prawdopodobieństwa lub rachunkami mogą uzu-pełnić swoje umiejętności. Podstawą zajęć wyrównawczych jest materiał dydaktycznyAdam Jakubowski „Statystyka i eksploracja danych. Repetytorium z teorii prawdopodo-bieństwa”, Toruń 2011. Należy podkreślić, że podczas egzaminu wiadomości zawarte w„Repetytorium” są bezwzględnie wymagane.

Ćwiczenia dydaktyczne prowadzone są w oparciu o materiały dydaktyczne JoannaKarłowska-Pik „Statystyka i eksploracja danych. Ćwiczenia i zadania”, Toruń 2011.

Niniejsze opracowanie zawiera treści przekazywane w trakcie wykładów. Najważniej-sze definicje i twierdzenia przedstawiane są w postaci zrzutu ekranowego odpowiedniejtransparencji. Podstawowy materiał uzupełniany jest komentarzami i przykładami. Za-gadnienia omawiane na wykładach, wraz z ewentualnymi uzupełnieniami, są dostępnena:

https://plas.mat.umk.pl/moodle/

w kategorii Studia stacjonarne/Statystyka i eksploracja danych.Całość materiału podzielono na 12 jednostek, z grubsza odpowiadających dwugo-

dzinnemu wykładowi. Istotne poszerzenie zakresu materiału wydaje się mało prawdopo-dobne, ze względu na konieczność „wyrównania poziomu” podczas pierwszych wykładów.

1

2 Wstęp

Doświadczenie wskazuje bowiem, że studenci drugiego stopnia „Informatyki” posiadająbardzo różne przygotowanie w zakresie metod probabilistycznych, często ograniczającesię do elementarnego rachunku prawdopodobieństwa wykładanego w ramach „Matema-tyki dyskretnej”. Należy podkreślić, że pewne aspekty analizy danych (np. metody ba-yesowskie) są przekazywane w ramach przedmiotu „Metody i modele probabilistyczne”,po systematycznej prezentacji dynamicznych metod Monte Carlo (MCMC).

Literatura podstawowa przedmiotu zawiera książki: W. Niemiro „Rachunek praw-dopodobieństwa i statystyka matematyczna”, Szkoła Nauk Ścisłych, Warszawa 1999,oraz D.T. Larose „Metody i modele eksploracji danych”, Wydawnictwo Naukowe PWN,Warszawa 2008.

Jako literatura uzupełniająca zalecane są ksiązki: J. Jakubowski i R. Sztencel „Wstępdo teorii prawdopodobieństwa”, Script, Warszawa 2004, D.T. Larose „Odkrywanie wie-dzy z danych. Wprowadzenie do eksploracji danych”, Wydawnictwo Naukowe PWN,Warszawa 2006, oraz R. Zieliński „Siedem wykładów wprowadzających do statystykimatematycznej”, PWN Warszawa 1990.

Adam Jakubowski

1. Formalizm teorii prawdopodobieństwa

Po co nam formalizm matematyczny?

• Podstawa porozumienia - aby skutecznie porozumiewać się z innymi przy realizacjiprojektów lub w trakcie rozwiązywania problemów.

• Możliwość uzyskania pomocy - aby umieć postawić specjalistom problem do roz-wiązania.

• Lepsze zrozumienie materii - np. naturalnych ograniczeń stosowanych narzędzi.

Co to jest ...

• Rachunek prawdopodobieństwa to sztuka (umiejętność) obliczania prawdopodo-bieństw zdarzeń.

• Teoria prawdopodobieństwa to dział matematyki, na którym opierają się praktycz-ne obliczenia dokonywane w rachunku prawdopodobieństwa.

• Statystyka to sztuka (umiejętność) wnioskowania na podstawie próby losowej.

• Statystyka matematyczna to dział matematyki, który rozwija metody uzasadnia-jące poprawność wnioskowania statystycznego.

• Eksploracja danych (drążenie danych, ekstrakcja danych) to umiejętność wydoby-wania użytecznych informacji z dużych zbiorów danych.

Uwaga: Przyjmuje się, że twórcą matematycznego formalizmu teorii prawdopodobień-stwa był rosyjski matematyk A.N. Kołmogorow (1903-1987), który w 1933 roku opubli-kował książkę „Grundbegriffe der Wahrscheinlichkeitsrechnung”.

3

4 1. Formalizm teorii prawdopodobieństwa

Przestrzeń probabilistyczna

Uwaga: Pojęcia występujące w definicji przestrzeni probabilistycznej można interpreto-wać w sposób następujący:

• Ω to zbiór wszystkich możliwych wyników eksperymentu losowego.

• Zdarzenia (elementy F) reprezentują fakty, których zajście możemy stwierdzić,tzn. dla A ∈ F zawsze możemy powiedzieć, czy wynik ω ∈ A, czy ω 6∈ A. W tensposób F reprezentuje całość wiedzy, którą możemy uzyskać w wyniku realizacjieksperymentu losowego.

• ∅ ∈ F nigdy nie może zajść (jest zdarzeniem „niemożliwym”), więc P (∅) = 0. Aleidziemy dalej: P (A) = 0 oznacza, że zdarzenie A jest „niemożliwe”, choć może byćA 6= ∅.

• Ω ∈ F zachodzi „zawsze” (jest zdarzeniem „pewnym”), więc P (Ω) = 1. Podobnie:P (A) = 1 oznacza, że zdarzenie A jest „pewne”, choć A może być właściwympodzbiorem Ω.

Przestrzeń probabilistyczna 5

6 1. Formalizm teorii prawdopodobieństwa

Przykłady przestrzeni probabilistycznych 7

Przykłady przestrzeni probabilistycznych

• „Klasyczna definicja prawdopodobieństwa”. Niech Ω będzie zbiorem skończonymi niech F = 2Ω. Określamy

P (A) =#A#Ω

.

(„Zasada racji dostatecznej Laplace’a”.)

• „Prawdopodobieństwo dyskretne”. Niech Ω0 = ω1, ω2, . . . będzie podzbioremprzeliczalnym zbioru Ω. Niech p1, p2, . . . ­ 0,

∑j pj = 1. Przyjmując z definicji∑

∅ ≡ 0, określamyP (A) =

∑j :ωj∈A

pj .

(F = 2Ω!)

• Niech Ω = R1 i p(x) ­ 0 będzie funkcją na R1 taką, że∫+∞−∞ p(x) dx = 1. Określa-

my:

P ((a, b]) =∫ b

ap(x) dx, a < b, a, b ∈ R1.

Uwaga: Jak wygląda F? To problem badany przez teorię miary i całki Lebesgue’a. Możnapokazać, że nie istnieje prawdopodobieństwo Q : 2R

1 → [0, 1] pokrywające się z P naodcinkach.

8 1. Formalizm teorii prawdopodobieństwa

Z drugiej strony istnieje σ-algebra B1 (tzw. zbiorów borelowskich) na którą możnarozszerzyć funkcję P , tak aby spełnione były własności prawdopodobieństwa.

Przestrzeń statystyczna

2. Zmienne losowe i charakterystyki ichrozkładów

Zmienna losowa i jej rozkład

9

10 2. Zmienne losowe

Wartość oczekiwana zmiennej losowej

Uwaga: zmienna losowa X ma skończoną wartość oczekiwaną dokładnie wtedy, gdyE|X| < +∞. Mówimy również, że zmienna X jest całkowalna i piszemy X ∈ L1(P ).

2.1 Twierdzenie (Własności wartości oczekiwanej)

1. Jeżeli X ­ 0, to EX ­ 0. Jeżeli X ­ 0 i EX = 0, to P (X = 0) = 1.

2. |EX| ¬ E|X|.

3. Jeżeli E|X| < +∞ i E|Y | < +∞, to dla dowolnych liczb α, β ∈ R1 funkcjaαX + βY jest zmienna losową i ma miejsce równość:

E (αX + βY ) = αEX + βEY.

4. Jeżeli Y ­ X, to EY ­ EX pod warunkiem, że wartości oczekiwane istnieją.

Dystrybuanta zmiennej losowej 11

Dystrybuanta zmiennej losowej

2.2 Twierdzenie (Własności dystrybuanty zmiennej losowej)

1. Jeżeli u ¬ v, to FX(u) ¬ FX(v) (monotoniczność).

2. FX jest funkcją prawostronnie ciągłą.

3.

limu→−∞

FX(u) = 0, limu→+∞

FX(u) = 1.

2.3 Twierdzenie Twierdzenie (O dystrybuantach) Jeżeli funkcja F : R1 → [0, 1] speł-nia warunki 1-3 z powyższego twierdzenia, to istnieje zmienna losowa X taka, że F = FX .

12 2. Zmienne losowe

Rozkłady dyskretne i absolutnie ciągłe

2.4 Fakt (Skoki dystrybuanty) PXx = P (X = x) > 0 wtedy i tylko wtedy, gdydystrybuanta FX ma skok w punkcie x i FX(x)− FX(x−) = P (X = x).

2.5 Twierdzenie (Gęstość a pochodna dystrybuanty) Każda dystrybuanta F jest`-prawie wszędzie różniczkowalna i pochodna F ′ (określona `-prawie wszędzie) spełniawarunek

F (x) ­∫

(−∞,x]F ′(x) dx.

Uwaga: Może się zdarzyć, że∫R1 F

′(x) dx < 1.

2.6 Twierdzenie Jeżeli∫R1 F

′(x) dx = 1, to rozkład odpowiadający dystrybuancie Fjest absolutnie ciągły z gęstością p(x) = F ′(x).

2.7 Twierdzenie (Obliczanie EX dla rozkładu dyskretnego) Jeżeli X ma rozkładdyskretny, to dla dowolnej funkcji f : R1 → R1

Ef(X) =∞∑i=1

f(xi)P (X = xi) =∞∑i=1

f(xi)pi,

Momenty, wariancja, odchylenie standardowe 13

przy czym Ef(X) istnieje dokładnie wtedy, gdy

∞∑i=1

|f(xi)|pi < +∞.

2.8 Twierdzenie (Obliczanie EX dla rozkładu absolutnie ciągłego) Jeżeli Xma rozkład absolutnie ciągły o gęstości p(x), to dla dowolnej funkcji (borelowskiej) f :R1 → R1

Ef(X) =∫ +∞

−∞f(x)p(x) dx,

przy czym Ef(X) istnieje dokładnie wtedy, gdy∫+∞−∞ |f(x)|p(x) dx < +∞.

Momenty, wariancja, odchylenie standardowe

14 2. Zmienne losowe

Mediana, kwantyle

3. Wektory losowe i charakterystyki ichrozkładów

Wektory losowe

Podobnie jak w przypadku zmiennych losowych, dystrybuantą wektora losowego ~Xnazywamy funkcję F ~X : IRd → [0, 1], zadaną wzorem

F ~X(a1, a2, . . . , ad) := P ~X (X1 ¬ a1, X2 ¬ a2, . . . , Xd ¬ ad) .

Uwaga: dystrybuanta wektora losowego określa rozkład wektora losowego. W jaki spo-sób?Uwaga: nie każda funkcja na IRd, która jest niemalejąca po współrzędnych, zadaje dys-trybuantę! (Przykład!)

15

16 3. Wektory losowe

Macierz kowariancji wektora losowego

80

80

Współczynnik korelacji 17

3.1 Twierdzenie (Równoważna definicja wartości oczekiwanej) Niech E‖ ~X‖ <+∞. Wartość oczekiwana wektora ~X to jedyny wektor m ∈ IRd taki, że

E〈x, ~X〉 = 〈x,m〉, x ∈ IRd.

3.2 Twierdzenie (Równoważna definicja macierzy kowariancji) Niech E‖ ~X‖2 <+∞. Macierz kowariancji wektora ~X jest jedyną symetryczną macierzą Σ wymiaru d×dwyznaczoną przez formę kwadratową

E〈x, ~X − E ~X〉2 = Var (〈x, ~X〉) = 〈x,Σ x〉, x ∈ IRd.

Cov ( ~X) jest więc jedyną macierzą Σ spełniającą związek

E〈x, ~X − E ~X〉〈y, ~X − E ~X〉 = cov (〈x, ~X〉, 〈y, ~X〉) = 〈x,Σ y〉, x,y ∈ IRd.

3.3 Twierdzenie (Charakteryzacja macierzy kowariancji) Macierz kowariancjiwektora losowego ~X jest symetryczna i nieujemnie określona. Na odwrót, dla dowolnejsymetrycznej i nieujemnie określonej macierzy Σ rozmiaru d × d istnieje d-wymiarowywektor losowy ~X taki, że

Cov ( ~X) = Σ.

Współczynnik korelacji

3.4 Twierdzenie (Interpretacja wspólczynnika korelacji) |r(X,Y )| = 1 wtedy, itylko wtedy, gdy istnieją stałe α, β takie, że X = αY + β lub Y = αX + β.

18 3. Wektory losowe

4. Niezależność

Brak korelacji a niezależność zmiennych losowych

Niech zmienne losowe X i Y będą jak na stronie 18. Rozważmy zmienne X2 i Y 2.

19

20 4. Niezależność

Niezależność zmiennych losowych 21

Niezależność zmiennych losowych

Uwaga: Jeżeli rodzina Xii∈II jest niezależna, to niezależna jest również każda rodzinapostaci gi(Xi)i∈II .

4.1 Twierdzenie (Niezależność pociąga nieskorelowanie) Jeżeli zmienne losoweX i Y są niezależne i całkowalne, to iloczyn XY jest całkowalną zmienną losową iEXY = EX · EY. W szczególności niezależne zmienne losowe są nieskorelowane.

Uwaga: Bez założenia o niezależności warunek dostateczny dla całkowalności iloczynuXY odwołuje się do nierówności Holdera.

E|XY | ¬ (E|X|p)1/p (E|Y |q)1/q ,1p

+1q

= 1.

4.2 Wniosek (Mnożenie wartości oczekiwanych) Niech X1, X2, . . . , Xd będą nie-zależne. Jeżeli funkcje fi sa takie, że f1(X1), f2(X2), . . . , fd(Xd) są całkowalnymi zmien-nymi losowymi, tj. E|fi(Xi)| < +∞, i = 1, 2, . . . , d, to

Ef1(X1)f2(X2) · · · fd(Xd) = Ef1(X1) · Ef2(X2) · · · · Efd(Xd).

22 4. Niezależność

Kryteria niezależności

4.3 Twierdzenie Zmienne losowe X1, X2, . . . , Xd są niezależne wtedy, i tylko wtedy,gdy dla dowolnych liczb a1, a2, . . . , ad ma miejsce równość

P (X1 ¬ a1, X2 ¬ a2, . . . , Xd ¬ ad)= P (X1 ¬ a1)P (X2 ¬ a2) · . . . · P (Xd ¬ ad).

Innymi słowy

F(X1,X2,...,Xd)(a1, a2, . . . , ad) = FX1(a1) · FX2(a2) · . . . · FXd(ad),

tzn. dystrybuanta rozkładu łącznego jest iloczynem dystrybuant brzegowych.

4.4 Przykład (Klasyczne prawdopodobieństwo na produkcie) Niech wyniki i-tego eksperymentu będą elementami skończonej przestrzeni Ωi. Połóżmy Ω = Ω1×Ω2×. . .× Ωd. Niech P będzie klasycznym prawdopodobieństwem na Ω.

Wtedy dla dowolnych funkcji fi : Ωi → IR1, zmienne losowe

Xi(ω1, ω2, . . . , ωd) = fi(ωi)

są stochastycznie niezależne.

Uwaga: W tym szczególnym przypadku niezależność stochastyczna pokrywa się z nieza-leżnością funkcyjną (zmienne Xi w istocie są funkcjami różnych argumentów). Przewaganiezależności stochastycznej polega na uwolnieniu tej własności od konkretnej przestrzenifunkcyjnej.

Niezależność zdarzeń 23

4.5 Twierdzenie (Niezależność dyskretnych zmiennych losowych) Niech roz-kłady zmiennych X1, X2, . . . , Xd będą dyskretne.

Zmienne losowe X1, X2, . . . , Xd są niezależne dokładnie wtedy, gdy dla dowolnychx1, x2, . . . , xd ∈ IR1 ma miejsce związek

P (X1 = x1, X2 = x2, . . . , Xd = xd)

= P (X1 = x1)P (X2 = x2) · · ·P (Xd = xd).

4.6 Twierdzenie (Niezależność absolutnie ciągłych zmiennych losowych)

Niech rozkłady zmiennych X1, X2, . . . , Xd będą absolutnie ciągłe z gęstościami p1(x), p2(x), . . . , pd(x).

Zmienne losowe X1, X2, . . . , Xd są niezależne dokładnie wtedy, gdy rozkład łącznytych zmiennych jest absolutnie ciągły (tzn. posiada gęstość względem miary Lebesgue’ana IRd) i jego gęstość ma postać

p ~X(x1, x2, . . . , xd) = p1(x1)p2(x2) · · · pd(xd).

Niezależność zdarzeń

24 4. Niezależność

Niezależność parami

5. Estymatory

Jak wyliczyć współczynnik korelacji?

• W przykładach podanych na poprzednim wykładzie dane maja postać chmurypunktów (wektorów dwuwymiarowych).

• Na podstawie danych, za pomocą odpowiedniego wzoru, wyliczamy liczbę, którastanowi pewną charakterystykę zbioru danych.

• Nasuwają się następujące naturalne pytania:

– Skąd wiemy, że to, co policzyliśmy, odpowiada naszym oczekiwaniom?

– Jaka jest jakość uzyskanego wyniku?

– A raczej: Jak mierzyć jakość naszego wyniku?

– Jak znajdować „odpowiednie wzory”?

5.1 Przykład (n-krotny pomiar jednym przyrządem) Xk = m + εk, gdzie m- „rzeczywista wartość pomiaru”, a εk - błąd k-tego pomiaru. Co przyjąć za wynikpomiaru?

Xn =X1 +X2 + . . .+Xn

n.

Dlaczego?

• Prawo wielkich liczb stwierdza, że

ε1 + ε2 + . . .+ εnn

→ Eε1,

gdzie Eε1 = 0 dla przyrządu poprawnie skalibrowanego („brak błędu systematycz-nego”).

• Powyżej korzystamy z modelu „błędu pomiaru” w postaci ciągu niezależnychzmiennych losowych o jednakowym rozkładzie, z wartością oczekiwaną zero.

• Inne spojrzenie:EXn = m,

jeśli brak jest błędu systematycznego (obciążenia).

25

26 5. Estymatory

Próba prosta z populacji

5.2 Przykład (Losowanie ze zwracaniem) Jesteśmy zainteresowani rozkładem da-nej cechy U w populacji Ω. Losujemy (ze zwracaniem) N „osobników” i badamy wartościcechy. Jak określić odpowiednią przestrzeń statystyczną (X ,B, Pθθ∈Θ)?

Niech X0 = U(ω) : ω ∈ Ω ⊂ IRd . Kładziemy:

• X = (X0)N ;

• B =? (jak wynika z kontekstu);

• Θ = P(X0) (zbiór wszystkich rozkładów prawdopodobieństwa na X0);

Pθ = θ × θ × . . .× θ︸ ︷︷ ︸N razy

.

Estymator nieobciążony 27

Estymator nieobciążony

28 5. Estymatory

5.3 Przykład (Estymator wartości oczekiwanej) Θ = θ ∈ P(IR1) : E|Y | <+∞, jeśli Y ∼ θ,

g(θ) = EY , jeśli Y ∼ θ.

g(X1, X2, . . . , XN ) = XN =X1 +X2 + . . .+XN

N.

5.4 Przykład (Nieobciążony estymator wariancji) Θ = θ ∈ P(IR1) : EY 2 <+∞, jeśli Y ∼ θ,

g(θ) = Var (Y ) = EY 2 − (EY )2, jeśli Y ∼ θ.

g(X1, X2, . . . , XN ) = S2N =

=(X1 − XN )2 + (X2 − XN )2 + . . .+ (XN − XN )2

N − 1.

5.5 Przykład (Nieobciążony estymator wariancji przy znanej wartości ocze-kiwanej) Θ = θ ∈ P(IR1) : EY 2 < +∞, EY = µ, jeśli Y ∼ θ,

g(θ) = Var (Y ) = EY 2 − µ2, jeśli Y ∼ θ.

g(X1, X2, . . . , XN ) =(X1 − µ)2 + (X2 − µ)2 + . . .+ (XN − µ)2

N.

5.6 Przykład (Estymator prawdopodobieństwa sukcesu w schemacie Berno-ullego) Θ = rozkład dwupunktowy, P (Y = 1) = θ = 1− P (Y = 0),

Zgodność ciągu estymatorów 29

g(θ) = θ.

g(X1, X2, . . . , XN ) =X1 +X2 + . . .+XN

N.

5.7 Przykład (Dwa estymatory dla P (X = 0) z rozkładu Poissona)Θ = rozkład Poissona z parametrem θ ∈ IR+,

g(θ) = e−θ(= Pθ(Y = 0)).

g1(X1, X2, . . . , XN ) =1I X1=0 + 1I X2=0 + . . .+ 1I XN=0

N.

g2(X1, X2, . . . , XN ) =(

1− 1N

)X1+X2+...+XN.

Zgodność ciągu estymatorów

Uwaga: Jeśli ciąg gn jest mocno zgodny, to jest słabo zgodny. Jeśli ciąg gn jestzgodny w sensie L2, to jest słabo zgodny.

5.8 Przykład Jeśli istnieją drugie momenty, to ciąg estymatorów Xn jest zgodny wsensie L2.

30 5. Estymatory

5.9 Wniosek

• Ciąg estymatorów Xn jest mocno zgodny.

• Zgodność obu ciągów estymatorów wariancji.

• Zgodność ciągu estymatorów prawdopodobieństwa sukcesu w schemacie Bernoulle-go.

• Zgodność obu ciągów estymatorów dla P (Y = 0) z rozkładu Poissona.

6. Estymatory II

Estymatory największej wiarogodności

Uwaga: Na poprzednim wykładzie pojawiło się wiele wzorów, które miały rozmaite dobrewłasności. Czy istnieje metoda znajdowania takich wzorów?

Uwaga: gdy wszystkie rozkłady Pθ są dyskretne i skoncentrowane na tym samym zbio-rze przeliczalnym X0, jako miarę referencyjną możemy wybrać miarę liczącą: Λ(A) =#A, A ⊂ X0. Wtedy „gęstość w punkcie” x ∈ X0 jest dana wzorem

pθ(x) = Pθ(x).

31

32 6. Estymatory II

Uwagi:

• ENW nie musi być nieobciążony.

• ENW może nie istnieć.

• ENW może nie być określony jednoznacznie lub jego wyznaczenie może być bardzotrudne.

6.1 Przykłady

• ENW dla prawdopodobieństwa sukcesu w schemacie N prób Bernoullego.

p(X1, X2, . . . , XN ) =X1 +X2 + . . .+XN

N.

• ENW dla wartości oczekiwanej i wariancji dla próby prostej gaussowskiej długościN .

µ =X1 +X2 + . . .+XN

N

(= XN

).

σ2 =(X1 − XN )2 + (X2 − XN )2 + . . .+ (XN − XN )2

N

(=N − 1N

S2N

).

Estymatory minimalnej wariancji 33

Estymatory minimalnej wariancji

6.2 Przykład (Porównywanie estymatorów) Przypomnijmy dwa estymatory dlaP (X = 0) z rozkładu Poissona Θ = rozkład Poissona z parametrem θ ∈ IR+, g(θ) =e−θ(= Pθ(X = 0)).

g1(X1, X2, . . . , XN ) =1I X1=0 + 1I X2=0 + . . .+ 1I XN=0

N.

g2(X1, X2, . . . , XN ) =(

1− 1N

)X1+X2+...+XN.

Który jest lepszy i w jakim sensie?

Var θ(g2) < Var θ(g1) !

Uwaga: Istnieje piękna teoria, równie pięknie przedstawiona w książce R. Zieliński, Sie-dem wykładów wprowadzających do statystyki matematycznej, PWN Warszawa 1990,która pojęcie „estymator nieobciążony minimalnej wariancji” analizuje z punktu widze-nia tzw. statystyk dostatecznych (tzn. zawierających pełną informację o modelu staty-stycznym). Na wykładzie podamy tylko najważniejsze zastosowanie tej teorii.

34 6. Estymatory II

Rodziny wykładnicze rozkładów

6.3 Przykład Rozkład dwupunktowy (Bernoullego) Pθ1 = θ = 1−Pθ0 ma gęstośćna 0, 1

pθ(x) = exp(x ln

θ

1− θ+ ln(1− θ)

).

W reprezentacji

pθ(x) = exp

k∑j=1

cj(θ)Tj(x)− b(θ)

· h(x),

mamy:

• T1(x) = x,

• c1(θ) = ln(θ/(1− θ)

),

• b(θ) = − ln(1− θ),

• h(x) ≡ 1.

6.4 Przykład Rozkład normalny N (µ, σ2) ma gęstość na IR1

pµ,σ(x) = exp

(− 1

2σ2 · x2 +

µ

σ2 · x− [µ2

2σ2 + ln(σ√

2π)]

).

W reprezentacji pθ(x) = exp(∑k

j=1 cj(θ)Tj(x)− b(θ))· h(x), mamy θ = (µ, σ2) oraz:

Rodziny wykładnicze rozkładów 35

• T1(x) = x2,

• c1(θ) = −1/(2σ2),

• T2(x) = x,

• c2(θ) = µ/σ2,

• b(θ) = µ2/(2σ2) + ln(σ√

2π),

• h(x) ≡ 1.

6.5 Przykład Rozkład gamma Γ(α, λ), α > −1, γ > 0 ma gęstość na IR1

pα,λ(x) = exp(− 1λ· x+ (α− 1) · lnx− ln[λαΓ(α)]

)· 1I [0,∞)(x).

W reprezentacji pθ(x) = exp(∑k

j=1 cj(θ)Tj(x)− b(θ))· h(x), mamy θ = (α, γ) oraz:

• T1(x) = x,

• c1(θ) = −1/λ,

• T2(x) = lnx,

• c2(θ) = α− 1,

• b(θ) = ln(λαΓ(α)

),

• h(x) = 1I [0,∞)(x)..

6.6 Przykład Rozkład Poissona z parametrem λ ma gęstość na IN

pλ(x) = exp (lnλ · x− λ) · 1x!.

W reprezentacji pθ(x) = exp(∑k

j=1 cj(θ)Tj(x)− b(θ))· h(x), mamy (θ = λ):

• T1(x) = x,

• c1(λ) = lnλ,

• b(λ) = λ,

• h(x) = 1/x!.

6.7 Przykład Próba prosta długościN z rozkładu Bernoullego z prawdopodobieństwemsukcesu θ ∈ (0, 1) ma gęstość na przestrzeni 0, 1N

pNθ (x1, x2, . . . , xN ) = pθ(x1) · pθ(x2) · . . . · pθ(xN )

= exp(

(x1 + x2 + . . . xN ) lnθ

1− θ+N · ln(1− θ)

).

W reprezentacji pNθ (x) = exp(∑k

j=1 cj(θ)Tj(x)− b(θ))· h(x) mamy więc:

36 6. Estymatory II

• T1(x1, x2, . . . , xN ) = x1 + x2 + . . .+ xN ,

• c1(θ) = ln(θ/(1− θ)

),

• b(θ) = −N · ln(1− θ),

• h(x) ≡ 1.

Podobnie transformują się gęstości dla prób prostych z innych rodzin wykładniczych.

Estymatory nieobciążone minimalnej wariancji

6.8 Przykłady

• Populacja normalna, µ znane.

ENMW (σ2) =(X1 − µ)2 + (X2 − µ)2 + . . .+ (XN − µ)2

N.

• Populacja normalna, µ znane.

ENMW (σ) =Γ(n2 )√

2Γ(n+12 )

√(X1 − µ)2 + (X2 − µ)2 + . . .+ (XN − µ)2.

Estymatory nieobciążone minimalnej wariancji 37

• Populacja normalna, σ znane.

ENMW (µ) = XN .

• Populacja normalna, µ i σ nie są znane.

ENMW (µ) = XN .

• Populacja normalna, µ i σ nie są znane.

ENMW (σ2) =(X1 − XN )2 + (X2 − XN )2 + . . .+ (XN − XN )2

(N − 1).

• Populacja normalna, µ i σ nie są znane. Estymator kwantyla rzędu p ∈ (0, 1), tzn.liczby up spełniającej relację p = Φµ,σ(up) lub up = µ+ σ · Φ−1(p).

ENMW (up) = XN +Γ(N−1

2 )√2Γ(N2 )

· σN · Φ−1(p),

gdzie

σN =√

(X1 − XN )2 + (X2 − XN )2 + . . .+ (XN − XN )2.

Uwaga:

• Estymatory nieobciążone nie zawsze istnieją.

• ENMW może nie istnieć, mimo że istnieją estymatory nieobciążone.

• ENMW może mieć większy błąd średniokwadratowy (funkcję ryzyka)

R(δ, θ) = Eθ(δ − g(θ))2

od estymatora obciążonego.

• ENMW może być zupełnie nieprzydatny.

38 6. Estymatory II

7. Przedziały ufności

Obszar ufności

Problem: jak ocenić jakość przybliżenia parametru przez estymator?

Niech(X ,B, Pθθ∈Θ

)będzie modelem statystycznym i niech g : X → IRd będzie

estymatorem parametru g : Θ→ IRd.

• W modelach ciągłych (tzn. Pθ(x) = 0 dla każdego x ∈ X i θ ∈ Θ) najczęściejmamy

Pθ(g = y0

)= 0.

• Tymczasem na podstawie estymacji „przyjmujemy” g(θ) = y0. Na ile można ufaćtakiej ocenie wartości parametru?

• Wyjściem może być stosowanie estymatorów jako odwzorowań przestrzeni próbeko wartościach w „masywnych” zbiorach.

39

40 7. Przedziały ufności

Przedział ufności

7.1 Przykład (Przedział ufności dla średniej ze znaną wariancją) Niech X1, X2,. . . , XN będzie próbą prostą z rozkładu N (µ, σ2). Zakładamy, że σ2 jest znane (np.dokonujemy pomiaru skalibrowanym przyrządem o znanej dokładności). Jeśli położymy

XN = X1+X2+...+XNN ∼ N

(µ, σ

2

N

), to

XN − µσ/√N∼ N (0, 1).

Niech ζ = ζ1−α/2 będzie takie, że Φ(−ζ) = 1− Φ(ζ) = α/2. Wtedy

Pµ(XN −

σ · ζ1−α/2√N

¬ µ ¬ XN +σ · ζ1−α/2√

N

)= 1− α.

Piszemy:

µ = XN ±σ · ζ1−α/2√

N.

Rozkład t-Studenta 41

Rozkład t-Studenta

7.2 Przykład (Przedział ufności dla średniej z nieznaną wariancją) NiechX1, X2,. . . , XN będzie próbą prostą z rozkładu N (µ, σ2). Nie znamy ani µ, ani σ2. Niech

SN =

√(X1 − XN )2 + (X2 − XN )2 + . . .+ (XN − XN )2

N − 1.

7.3 Twierdzenie Zmienna losowa

tN−1 =XN − µSN/√N

ma rozkład t-Studenta z N − 1 stopniami swobody.

7.4 Wniosek Jeżeli FtN−1(τ1−α/2) = 1− α/2, to na poziomie ufności α

µ = XN ±SN · τ1−α/2√

N.

42 7. Przedziały ufności

Rozkład chi-kwadrat

7.5 Przykład (Przedział ufności dla wariancji) Podobnie jak poprzednio X1, X2,. . . , XN jest próbą prostą z rozkładu N (µ, σ2), gdzie µ i σ2 nie są znane.

7.6 Twierdzenie Zmienna losowa

χ2N−1 =

(N − 1)S2N

σ2

ma rozkład chi-kwadrat z N − 1 stopniami swobody.

7.7 Wniosek Jeśli Fχ2N−1(ξα/2) = α/2 i Fχ2N−1(ξ1−α/2) = 1 − α/2, to przedziałem uf-ności dla σ2 na poziomie ufności α jest

[(N − 1)S2

N

ξ1−α/2,(N − 1)S2

N

ξα/2

].

Rozkład F -Snedecora 43

Rozkład F -Snedecora

7.8 Przykład (Przedział ufności dla ilorazu wariancji) Niech X1, X2, . . . , XN bę-dzie próbą prostą z rozkładu N (µX , σ2

X), a Y1, Y2, . . . , YM próbą prostą z rozkładuN (µY , σ2

Y ), gdzie nie znamy ani µX i σ2X , ani µY i σ2

Y . Niech S2X będzie statystyką

S2N zbudowaną na próbce Xk, a S2

Y będzie statystyką S2M zbudowaną na próbce Yk.

7.9 Twierdzenie Zmienna losowa

FN−1,M−1 =S2X · σ2

Y

S2Y · σ2

X

,

ma rozkład F -Snedecora z N − 1 stopniami swobody licznika i M − 1 stopniami swobodymianownika.

7.10 Wniosek Niech

FFN−1,M−1(φα/2) = α/2, FFN−1,M−1(φ1−α/2) = 1− α/2.

Przedziałem ufności dla σ2Y /σ

2X na poziomie ufności α jest[

φα/2S2Y

S2X

, φ1−α/2S2Y

S2X

].

44 7. Przedziały ufności

Asymptotyczne przedziały ufności

7.11 Przykład (Przedziały ufności dla prawdopodobieństwa sukcesu w sche-macie Bernoullego) Niech X1, X2, . . . będzie schematem Bernoullego z prawdopodo-bieństwem sukcesu θ ∈ (0, 1), a SN liczbą sukcesów w N próbach. Rozkład SN jestznany (dwumianowy). Teoretycznie znamy więc również rozkład zmiennej standaryzo-wanej SN/N−θ√

θ(1−θ)/√N

. W praktyce lepiej jednak używać przybliżenia danego przez sławne

twierdzenie de Moivre’a-Laplace’a.

7.12 Wniosek Jeśli Φ(ζ1−α/2) = 1− α/2, mamy „asymptotycznie”:

Pθ(ζ2

1−α/2θ(1− θ) ­ N(SN/N − θ

)2) ≈ 1− α.

W szczególności na „przybliżonym” poziomie ufności α

θ =SN + ζ2

1−α/2/N

N + ζ21−α/2

±ζ1−α/2

√SN (N−SN )

N +ζ21−α/2

4

N + ζ21−α/2

.

7.13 Przykład (Nieparametryczne przedziały ufności dla kwantyli) NiechX1, X2, . . .będzie próbą prostą z rozkładu o dystrybuancie F = FX1 . Niech ξp będzie kwantylemrzędu p rozkładu F (zakładamy, że F jest ciągła i ściśle rosnąca w otoczeniu ξp, więc ξp

Asymptotyczne przedziały ufności 45

jest określony jednoznacznie). Połóżmy

LN =N∑j=1

1I Xj¬ξp.

Zmienna LN ma rozkład dwumianowy! Z twierdzenia de Moivre’a-Laplace’a wynika, że

limN→∞

P

(−ζ1−α/2 ¬

(LN/N − p

)√p(1− p)N

¬ ζ1−α/2

)= Φ(ζ1−α/2)− Φ(−ζ1−α/2) = 1− α.

Niech kN i kN będą takie, że

limN→∞

kN/N − p√p(1− p)/N

= −ζ1−α/2, limN→∞

kN/N − p√p(1− p)/N

= ζ1−α/2.

WtedylimN→∞

PF(kN ¬ LN ¬ kN

)= 1− α,

lub równoważnielimN→∞

PF(XkN :N ¬ ξp ¬ XkN :N

)= 1− α,

gdzie Xk:N jest k-tą statystyką porządkową z próby prostej N -elementowej.

Uwaga: Szczególny charakter rozkładu normalnego najbardziej widoczny jest w central-nym twierdzeniu granicznym.

46 7. Przedziały ufności

8. Prognoza. Warunkowa wartość oczekiwana

Zagadnienie prognozowania

• Przypuśćmy, że mamy dany ciąg liczb x1, x2, . . . , xn, stanowiących wyniki pomiarupewnej zmiennej w czasie wielkości x, w chwilach t1 < t2 < . . . < tn. Inaczejmówiąc, mamy dany „szereg czasowy”.

• Zagadnienie prognozowania: Niech T > tn. Jaką wartość przyjmie badana wielkośćw chwili T?

• Jeżeli x jest funkcją tylko czasu t, tzn. xk = f(tk), k = 1, 2, . . . , tn, możemy próbo-wać odgadnąć postać funkcji f , np.

– znajdując współczynniki wielomianu interpolacyjnego,

– lub amplitudę, częstość i przesunięcie sygnału sinusoidalnego,

– lub parametry przekształcenia S, którego kolejne iteracje S(t0), S2(t0), . . . Sn(t0)dają nam kolejne wartości x1, x2, . . . , xn.

• To jest jednak rzadka sytuacja. Na ogół musimy zakładać, że liczby x1, x2, . . . , xnsą wartościami ciągu zmiennych losowych.

47

48 8. Prognoza. Warunkowa wartość oczekiwana

Warunkowa wartość oczekiwana

Niech ~Y i ~Z będą wektorami losowymi o wartościach w IRm i IRn, określonymi natej samej przestrzeni probabilistycznej (Ω,F , P ). Jeżeli P (~Z = ~z) > 0, to rozkłademwarunkowym wektora ~Y gdy ~Z = ~z nazywamy prawdopodobieństwo

IRm ⊃ A 7→ P~Y |~Z=~z(A) = P (~Y ∈ A|~Z = ~z)

(=P (~Y ∈ A, ~Z = ~z)

P (~Z = ~z)

).

Pytanie: jak określić rozkład warunkowy w ogólnym przypadku? Jeżeli P(Y,Z) jest abso-lutnie ciągły z gęstością pY,Z(y, z), to można określić gęstość rozkładu PY |Z=z za pomocąwzoru

pY |Z=z(y) =

pY,Z(y,z)∫ +∞

−∞ pY,Z(u,z) du, jeśli

∫pY,Z(u, z) du > 0

1I [0,1](y), jeśli∫pY,Z(u, z) du = 0

.

Warunkowa wartość oczekiwana 49

Uwaga: w terminach przestrzeni Hilberta L2(Ω,F , P ) warunkowa wartość oczekiwanajest rzutem ortogonalnym na podprzestrzeń funkcji postaci h(~Z), czyli funkcji σ(~Z)-mierzalnych. W tym kontekście (niemal) oczywiste są następujące fakty:

50 8. Prognoza. Warunkowa wartość oczekiwana

• Jeżeli E|Y | < +∞ i g : IRn → IRm, to

E(E(Y |~Z)

∣∣g(~Z))

= E(Y |g(~Z)).

• Jeżeli ~Z jest funkcją stałą, to E(Y |~Z) = EY .

• Co by było, gdybyśmy minimalizowali E|Y − h(~Z)|?

Prognoza liniowa

Procesy gaussowskie 51

Procesy gaussowskie

Wnioski z definicji: Biorąc ~α = (0, . . . , 0, 1, 0, . . . , 0)T , otrzymujemy rozkład normalnydla składowych Xk ∼ N (mk, σ

2k). W ogólności,

m~α = E(α1X1 + α2X2 + · · ·+ αnXn) = E〈~α, ~X〉 = 〈~α,E ~X〉.

Podobnieσ2~α = Var (〈~α, ~X〉) = 〈~α,Cov ( ~X) ~α〉.

8.1 Twierdzenie (Transformacja liniowa zmiennych gaussowskich) Jeżeli wek-tor losowy ~X = (X1, X2, . . . , Xn)T ma składowe gaussowskie, przy czym E ~X = ~m iCov (X) = Σ) i jezeli A : IRn → IRm jest odwzorowaniem liniowym, to składowe wektoraA( ~X) też są gaussowskie, przy czym

EA( ~X) = A(~m), Cov (A( ~X)) = AΣAT .

8.2 Twierdzenie (Konstrukcja zmiennych gaussowskich) Jeżeli ~m ∈ IRn i Σ jestmacierzą n × n, symetryczną i nieujemnie określoną, to istnieje wektor losowy ~X oskładowych gaussowskich, który spełnia związki

E ~X = ~m, Cov ( ~X) = Σ.

8.3 Twierdzenie (Charakterystyka rozkładu łącznego zmiennych gaussowskich)Rozkład łączny zmiennych losowych gaussowskich (X1, X2, . . . , Xn) (nazywany n-wymiarowymrozkładem normalnym) jest w pełni określony przez swoja wartość oczekiwaną ~m i ma-cierz kowariancji Σ. Piszemy ~X ∼ N (m,Σ).

52 8. Prognoza. Warunkowa wartość oczekiwana

8.4 Twierdzenie (Absolutna ciągłość rozkładu normalnego) Rozkład normalnyjest absolutnie ciągły dokładnie wtedy, gdy macierz Σ jest nieosobliwa (det(Σ) 6= 0). Wtakim przypadku gęstość zadana jest wzorem:

p~m,Σ(~x) =1

(√

2π)d1√

det Σexp

(− 1

2〈~x− ~m,Σ−1 (~x− ~m)〉

).

8.5 Twierdzenie (Niezależność zmiennych gaussowskich) Zmienne gaussowskieX1, X2, . . . , Xn są niezależne dokładnie wtedy, gdy są nieskorelowane:

cov (Xi, Xj) = 0, i, j = 1, 2, . . . , n, i 6= j.

9. Testowanie hipotez statystycznych

Test hipotezy, poziom istotności, moc testu

53

54 9. Testowanie hipotez statystycznych

Lemat Neymana-Pearsona 55

Lemat Neymana-Pearsona

56 9. Testowanie hipotez statystycznych

9.1 Przykład (za R. Zielińskim „Siedem wykładów ...”) Niech X = IN . Rozważ-my hipotezę prostą H0 = B(10; 0, 1) (rozkład dwumianowy: liczba sukcesów 10, p-stwosukcesu 0, 01) przeciw hipotezie prostej H1 = Po(1) (rozkład Poissona z parametrem1).

x B(10; 0, 1) Po(1) Po(1)B(10;0,1)

0 0,3468 0, 36788 1,055061 0,38742 0,36788 0,949562 0,19371 0,18394 0,949563 0,05739 0,06131 1,068304 0,01116 0,01533 1,373665 0,00149 0,00307 2,060406 0,00014 0,00051 3,642867 0,00001 0,00007 7,00008 0,00000 0,00001 +∞

obszar krytyczny K PH0(K) PH1(K)

x : x ­ 8 0,00000 0,00001x : x ­ 7 0,00001 0,00008x : x ­ 6 0,00015 0,00059x : x ­ 5 0,00164 0,00366x : x ­ 4 0,01280 0,01899x : x ­ 3 0,07019 0,08030

Test niezrandomizowany na poziomie istotności α = 0, 05:

φ(x) =

1, gdy x ­ 4

0, gdy x < 4.

Rozmiar testu EPH0φ = PH0x : x ­ 4 = 0, 01280.Jeśli γ = 0, 6482, to

PH0x : x ­ 4+ γPH0x : x = 3 = 0, 05.

Test zrandomizowany na poziomie istotności α = 0, 05

φ(x) =

1, gdy x ­ 4

0, 6482 gdy x = 3

0, gdy x ¬ 2.

ma również rozmiar 0, 05.Jaka jest moc tego testu? Tylko 0, 05873!Interpretacja: prawdopodobieństwo nieodrzucenia weryfikowanej hipotezyH0 = B(10; 0, 1),

gdy prawdziwa jest hipoteza alternatywna H1 = Po(1), wynosi 0,94127.

Konkluzje 57

Konkluzje

• W przypadku hipotez złożonych teorię Neymana-Pearsona można przenieść na tzw.modele z monotonicznym ilorazem wiarogodności.

• Teoria porównywania testów ma ograniczone znaczenie praktyczne.

58 9. Testowanie hipotez statystycznych

10. Testowanie hipotez - przykłady

Dystrybuanta empiryczna i tw. Gniedenki-Cantellego

59

60 10. Testowanie hipotez - przykłady

Test zgodności Kołmogorowa

Przypuścmy, że X1, X2, . . . , XN jest próba prostą z nieznanego rozkładu. Rozważmyhipotezę H0 : zmienne maja rozkład o dystrybuancie F , przeciw alternatywie H1 :zmienne mają inny rozkład o dystrybuancie G 6= F . Jak przetestować tę hipotezę?

• Niech zmienne będą miały rozkład G i niech GN będzie odpowiednią dystrybuantąempiryczną. Określamy statystykę

DN = supx∈IR1

|GN (x)− F (x)|.

• Jeżeli G = F , to statystyka powinna przyjmować małe wartości; jeżeli G 6= F ,to wartości powinny być znacząco większe. Określamy więc zbiór krytyczny dlapoziomu istotności α wzorem

KDN ,α = DN > DN (α),

gdzie PF (KDN ,α) ¬ α.

• Problem: PF (KDN ,α) zależy od F ! Jak obliczyć to prawdopodobieństwo dla każ-dego F? Na szczęście w obszernej klasie rozkładów PF (KDN ,α) nie zależy od F !

• Jeżeli f jest funkcją niemalejącą, to dla dowolnej zmiennej losowej X i t ∈ IR1

f(X) < f(t) ⊂ X ¬ t ⊂ f(X) ¬ f(t).

Test zgodności Kołmogorowa 61

• Niech F będzie dystrybuantą zmiennej losowej X. Jeśli F jest ciągła, to

F (X) ∼ U(0, 1).

• NiechX1, X2, . . . , XN będzie próbką prostą z F . Jeżeli F jest ciągła, to F (X1), F (X2), . . .jest próbką prostą z rozkładu U(0, 1).

62 10. Testowanie hipotez - przykłady

Porównywanie średnich

Przypomnijmy, że rozkładem t-Studenta o k stopniach swobody nazywamy rozkład

Test χ2 Pearsona 63

zmiennej losowej

T =Z0√

Z21 + Z2

2 + . . . Z2k

√k,

gdzie Z0, Z1, . . . Zk są niezależne o rozkładzie N (0, 1).

Test χ2 Pearsona

• Niech niezależne zmienne losowe X1, X2, . . . , XN przyjmują wartości ai z prawdo-podobieństwem pi > 0, p1 + . . .+ pk = 1.

• Określamy:

νi =N∑j=1

1I Xj=ai.

• Jeśli n1 + n2 + . . . nk = N i spełnione są pewne inne założenia, to

P (ν1 = n1, ν2 = n2, . . . , νk = nk) =N !

n1!n2! . . . nk!pn11 pn22 . . . pnkk .

(rozkład wielomianowy).

Przypomnijmy, że rozkład χ2 z k-stopniami swobody to rozkład zmiennej losowej

χ2k ∼ X2

1 +X22 + . . .+X2

k ,

64 10. Testowanie hipotez - przykłady

gdzie X1, X2, . . . , Xk są niezależne o rozkładzie N (0, 1). Rozkład χ2k jest rozkładem

Gamma(k/2, 1/2).

11. Metoda najmniejszych kwadratów iregresja liniowa

Model liniowy i regresja liniowa

65

66 11. Metoda najmniejszych kwadratów i regresja liniowa

Metoda najmniejszych kwadratów

Twierdzenie Gaussa-Markowa 67

Twierdzenie Gaussa-Markowa

68 11. Metoda najmniejszych kwadratów i regresja liniowa

12. Redukcja wymiaru danych

Procedura standaryzacji danych

12.1 Definicja (Standaryzacja zmiennej losowej) Niech X będzie zmienną losowąo skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową

Z =X − EX√

Var (X).

Uwaga: EZ = 0, Var (Z) = 1.Uwaga: Jeżeli ~X = (X1, X2, . . . , Xd)T jest wektorem losowym o macierzy kowariancjiΣ, to wektor standaryzowany (po współrzędnych) ~Z ma wartość oczekiwaną E ~Z = 0 imacierz kowariancji R = [rij ] równą macierzy KORELACJI wektora ~X, tj.

rij = ρij =cov (Xi, Xj)√

Var (Xi)Var (Xj).

Uwaga: prosta baza danych + ewentualna liczbowa etykietyzacja niektórych pól = ciągwartości wektorów ~Xn (rekordów), których składowe mierzone są na ogół w różnych jed-nostkach. Wartości poszczególnych pól (współrzędnych rekordów), nawet jeśli mają po-dobny charakter, mogą być mierzone w różnych jednostkach, co powoduje, że w analiziedominować mogą wielkości marginalne. Z tego powodu przed rozpoczęciem statystycznejanalizy danych przeprowadza się standaryzację lub normalizację.

12.2 Definicja (Empiryczna standaryzacja ciągu wektorów losowych) Niech~Xn = (Xn1, Xn2, . . . , Xnd)T , n = 1, 2, . . . , N będzie ciągiem wektorów losowych. Niech

Xj =1N

N∑n=1

Xnj , Sj =

√∑Nn=1(Xnj − Xj)2

N − 1.

Standaryzacją ciągu ~Xn nazywamy ciąg wektorów losowych ~Zn o składowych

Znj =(Xnj − Xj)

Sj.

69

70 12. Redukcja wymiaru danych

Analiza składowych głównych 71

Analiza składowych głównych

Uwaga: Innymi słowy, w analizie składowych głównych (PCA) szukamy:

72 12. Redukcja wymiaru danych

• k możliwie małego (w stosunku do d), które spełnia warunek

• λi/d+ λ2/d+ . . .+ λk/d > α,

• i dla którego odpowiednie kombinacje liniowe zmiennych wyjściowych posiadająsensowną interpretację.

Analiza czynnikowa

W szczególności:

Σ = E( ~X − E ~X)( ~X − E ~X)T = E(L~F + ~ε)(L~F + ~ε)T

= E(L~F ~F TLT ) + E(L~F~εT ) + E(~ε ~F TLT ) + E(~ε~εT )

= LLT + Λε.

Rozwiązanie powyższego równania oraz poszukiwanie czynników ~F przeprowadza sięnumerycznie.Uwagi:

• Niech (~F , L) będzie rozwiązaniem dla modelu analizy czynnikowej. Nich B będziedowolnym odwzorowaniem ortogonalnym. Wówczas (B ~F ,LBT ) tez jest rozwiąza-niem i konieczna jest dodatkowa analiza i wybór odpowiedniej „rotacji czynników”.

Analiza czynnikowa 73

• Analiza czynnikowa, mimo bogatej literatury i mnogości algorytmów pozostajezawsze narzędziem bardzo kontrowersyjnym.

74 12. Redukcja wymiaru danych

Literatura

Literatura podstawowa

1. W. Niemiro „Rachunek prawdopodobieństwa i statystyka matematyczna”, SzkołaNauk Ścisłych, Warszawa 1999.

2. D.T. Larose „Metody i modele eksploracji danych”, Wydawnictwo Naukowe PWN,Warszawa 2008.

Literatura uzupełniająca

1. J. Jakubowski i R. Sztencel „Wstęp do teorii prawdopodobieństwa”, Script, War-szawa 2000, 2001, 2004.

2. D.T. Larose „Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych”,Wydawnictwo Naukowe PWN, Warszawa 2006.

3. R. Zieliński „Siedem wykładów wprowadzających do statystyki matematycznej”,PWN Warszawa 1990.

75