73
Statystyka dla doktorantów: Preliminaria Przemysław Borys Wydział Chemiczny Politechniki Śląskiej

Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Embed Size (px)

Citation preview

Page 1: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Statystyka dla doktorantów: Preliminaria

Przemysław BorysWydział ChemicznyPolitechniki Śląskiej

Page 2: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Przykładowa literatura, wykorzystana w przygotowaniu wykładu

J. B. Czermiński, A. Iwaszkiewicz, Z. Paszek, A. Sikorski, „Metody statystyczne dla chemików”, PWN, Warszawa 1992.

W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska, M. Wasilewski, „Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach”, PWN, Warszawa 2000.

M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd. UMCS, Lublin 2006. (Są również wydania PWN).

S. Brandt, „Metody statystyczne i obliczeniowe analizy danych”, PWN, Warszawa 1976.

Page 3: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

PrawdopodobieństwoDefinicja klasyczna: jeśli w przestrzeni równoprawdopodobnych i wykluczających się zdarzeń elementarnych Ω, obejmującej n zdarzeń elementarnych, m zdarzeń elementarnych odpowiada zdarzeniu A ze zb. zdarzeń nieelem. Σ, to prawdopodobieństwo:

P(A)=mnWady:

1. potrzebna skończona ilość zdarzeń elementarnych.

2. zdarzenie muszą być równoprawdopodobne. (a dopiero definiujemy P!)

Page 4: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Przykład: losowanie 1 z 6 kul z urny (P=1/6)

Page 5: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Przykład: rzut kostką, każda ścianka jednakowo prawdopodobna (P=1/6)

Page 6: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Prawdopodobieństwo

Definicja statystyczna: prawdopodobieństwo określa częstość występowania zdarzenia A w realizacjach procesu losowego przy liczbie realizacji zmierzającej do nieskończoności:

P(A)=lim n→∞

n (A )

nWada: nie da się wykonać nieskończonej liczby pomiarów.

Page 7: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Przykład: rzut monetą (Po=P

r=1/2)

Dla 10 000 rzutów (losowanych komputerowo) uzyskałem: 5036 orłów i 4964 reszki... Niedostatecznie liczna próba?

Page 8: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Przestrzeń probabilistyczna

Trójkę (Ω,Σ,P), tzn. zestaw:

przestrzeni zdarzeń elementarnych zbioru rozpatrywanych zdarzeń zbioru prawdopodobieństw rozpatrywanych zdarzeń

nazywamy:

Przestrzenią probabilistyczną

Page 9: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Przykład przestrzeni probabilistycznej

Rozpatrzmy rzut dwiema kostkami do gry. Możliwych kombinacji ułożeń kostek jest 6∙6=36. Są to zdarzenia elementarne Ω. Ich prawdopodobieństwa wynoszą 1/36.

Przyjmijmy teraz, że interesuje nas zdarzenie, mówiące o sumie liczby oczek. Zbiorem zdarzeń Σ jest:

2 ≡ 1,1, 3 ≡ 1,2∪2,1, 4≡1,3∪2,2∪3,1, 5≡1,4∪2,3∪3,2∪4,1, 6≡1,5∪2,4∪3,3∪4,2∪5,1, 7≡1,6∪2,5∪3,4∪4,3,∪5,2∪6,1, 8≡2,6∪3,5∪4,4,∪5,3∪6,2, 9≡3,6∪4,5∪5,4,∪6,3, 10≡4,6∪5,5∪6,4, 11≡5,6∪6,5, 12≡6,6.

Prawdopodobieństwa wynikają ze stosunku liczby kombinacji zgodnych ze zdarzeniem do liczby zdarzeń elementarnych (36).

Page 10: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Własności prawdopodobieństwa

P(Ω) = 1 – realizacja jakiegokolwiek z wykluczających się zdarzeń elementarnych jest zdarzeniem pewnym;

Przykład: wylosowanie jakiejkolwiek ścianki w rzucie kostką.

P(∅) = 0 – prawdopodobieństwo zdarzenia niemożliwego (nie występującego w zb. zdarzeń elementarnych) jest zerowe;

Przykład: niewylosowanie żadnej ścianki w rzucie kostką do gry.

Page 11: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Własności prawdopodobieństwa 1≥P(A)≥0 – prawdopodobieństwo dowolnego

zdarzenia jest nieujemne i nie przekracza prawdopodobieństwa zdarzenia pewnego;

Przykład: dla rzutu dwóch kostek, suma oczek nigdy nie jest realizowana przez większą liczbę kombinacji niż 36, a w najgorszym razie nie jest realizowana w żadnej kombinacji.

A ⊂ B ⇒ P(A) ≤ P(B)

Przykład: W rzucie kostką interesują nas zdarzenia wyniku liczby oczek: P(n<3) oraz P(n<5). Zdarzenia odpowiadające n<3 zawierają się w zbiorze zdarzeń n<5, toteż P(n<3)<P(n<5)

Page 12: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Własności prawdopodobieństwa

P(A) + P(A) = 1 – suma prawdopodobieństwa zdarzenia i zdarzenia przeciwnego jest prawdopodobieństwem zdarzenia pewnego

Przykład: w rzucie kostką szansa wyrzucenia n<3 wynosi P(n<3)=2/6 (sprzyjają temu 2 możliwości: 1, 2). Dla n3 P(n3)=4/6 (4 możliwości: 3, 4, 5, 6). 2/6+4/6=1.

Dla wykluczających się zdarzeń An zachodzi:

P(An∪An+1∪...∪Am)=∑i=n

mP(A i)

Np. dla rzutu kostką P(n1,23,4,5) = 2/6 + 3/6 = 5/6.

Page 13: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Prawdopodobieństwo sumy zbiorów zdarzeń

Jeśli prawdopodobieństwa się nie wykluczają (np. zdarzenia występują łącznie i niezerowe jest P(A∩B)), to suma P(A)+P(B) spowoduje dwukrotne zliczenie wariantu zdarzenia P(A∩B)! Korygujemy to pisząc:

P(A∪B)=P(A)+P(B)-P(A∩B)

W przypadku trzech zdarzeń będzie to:

P(A∪B∪C)=

P(A)+P(B)+P(C)-P(A∩B)-P(A∩C)-P(B∩C)

(wystarczy popatrzeć co ile razy zliczono)

Page 14: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Ilustracja do prawdopodobieństwa sumy

Page 15: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Prawdopodobieństwo sumy 3 zbiorów

Page 16: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Prawdopodobieństwo łączne

Prawdopodobieństwo łączne P(A∩B) jednoczesnego wystąpienia zdarzeń A oraz B można wyrazić za pomocą prawdopodobieństwa warunkowego, tj. prawdopodobieństwa A obecnego w sytuacji gdy wylosowano już zdarzenie B – P(A/B). Wówczas:

P(A∩B)=P(B)P(A/B)

Tzn. przestrzeń zdarzeń ograniczamy do zdarzeń B ułamkiem P(B), a tą ilość do zdarzeń zawierających A ułamkiem P(A/B).

Page 17: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Prawdopodobieństwo warunkowe

Przekształcając wzór na prawdopodobieństwo łączne, uzyskujemy wzór na prawdopodobieństwo warunkowe:

P(A /B)=P (A∩B)

P (B)

Tzn (w sensie definicji klasycznej) liczność zbioru zdarzeń B, w których występuje A dzielimy przez liczność zbioru wszystkich zdarzeń B.

Page 18: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Przykład: rzut dwóch kostek

Rzucajmy dwiema kostkami i zapytajmy o prawdopodobień-stwo wyrzucenia sumy większej niż 9 (zdarzenie A) pod warunkiem, że pierwszą kostką wyrzucono „5” (zdarzenie B).

Rzuty, które odpowiadają zbiorowi A∩B to: 5,5,5,6 (2 rzuty). P(A∩B)=2/36.

Prawdopodobieństwo wyrzucenia „5” jedną kostką to P(B)=1/6.

Zatem P(A/B)=P(A∩B)/P(B)=2/6.

I tak jest istotnie, bo jeśli do sumy już mamy 5 oczek, trzeba do niej dołożyć drugą kostką 5 lub 6. 2 zdarzenia z 6 możliwych.

Dodatkowo, P(A)≠P(A/B), bo A sprzyja 4,6,6,4,5,5,5,6,6,5,6,6 (P(A)=6/36=1/6)

Page 19: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wzór Bayesa

P(A i /B)=P(A i∩B)

P(B) Licznik wyrażamy prawdopodobieństwemwarunkowym, mianownik sumą prawdopodobieństw warunkowych

P(A i /B)=P (Ai)P (B/ Ai)

∑i=1

nP(A i)P(B /A i)

mamy P( aposteriori ) wyrażone za pomocą P( apriori )

Page 20: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wzór Bayesa - rysunek

P(A3/B)=

P(B /A3)=

Page 21: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wzór Bayesa - przykład

P(A i /B)=P(A i)P(B /A i)

∑i=1

nP(A i)P(B/ A i)

Przykład: pytamy czy zeskanowana skanerem litera jest literą Ai = a,b,c …, z z alfabetu. W tym celu mierzymy jej kilka charakterystyk, np. ilość skrzyżowań linii, brzuszków, itd., uzyskując wektor cech B.

Następnie wykorzystujemy bazę danych, która nauczona na różnych przykładach mówi o tym jakie jest prawdopodobieństwo pojawienia się np. brzuszka ze skrzyżowaniem linii pod warunkiem wystąpienia konkretnej litery P(B/Ai). Jeśli wiemy jak często w języku polskim występuje dana litera, mamy też P(Ai). Wstawiamy to do wzoru Bayesa i mamy prawdopodobieństwo wczytania konkretnej litery.

Page 22: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wzór Bayesa – chemia?

Czy podobne problemy klasyfikacyjne można spotkać w chemii?

Można. Przykładowo, analiza danych spektroskopowych, próby zaklasyfikowania badanych związków na podstawie tablicowych charakterystyk widmowych.

Page 23: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Niezależność zespołowa i parami

Mówimy, że zespół zdarzeń jest niezależny, jeżeli prawdopodobieństwo koniunkcji wyraża się relacją:

P(A1,A2,...,An)=P(A1)P(A2)...P(An)

Często zamiast tego warunku wystarcza niezależność parami: dla dowolnego i ≠ j (dla

dowolnej pary) mamy wówczas

∀i≠j P(Ai,Aj)=P(Ai)P(Aj)

Page 24: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Zmienna losowa Zmienna losowa jest funkcją, która przyporządkowuje

zdarzeniom losowym wartości liczbowe. Na przykład zdarzeniu pomiaru masy

przyporządkowywany jest liczbowy wynik, zależny od losowych własności mierzonego obiektu i warunków środowiskowych.

Dobitniejszy przykład: dla rzutu dwiema kostkami do gry, można skonstruować zmienną losową, będącą sumą liczby oczek, iloczynem, ilorazem, różnicą, potęgą jednej cyfry do drugiej, sinusem liczby jednej oczek razy kosinus drugiej, itd...

Zmienną losową oznaczamy dużą literą, np. X, a jej realizacje małymi literami, np. x1, x2, …, xn.

Page 25: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Zmienna losowa

Zmienna losowa może być ciągła, jeśli wartość mierzona przyjmuje ciągły zestaw wartości (np. temperatura, masa, długość).

Zmienna losowa może być dyskretna, jeśli wartość mierzona przyjmuje wartości dyskretne (np. ilość rozpadów promieniotwórczych w jednostce czasu, liczba oczek na kostce do gry, itd.).

Page 26: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Przykład ciągłej zmiennej losowej: roczne temperatury na Ziemi

Page 27: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Przykład dyskretnej zmiennej losowej: prąd on/off kanału jonowego

Page 28: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Prawdopodobieństwo i gęstość prawdopodobieństwa

Jeśli zmienna losowa jest dyskretna i przyjmuje skończoną ilość wartości n, to można określić częstościowe prawdopodobieństwa P(xi)=ni/n.

Jeśli zmienna losowa jest ciągła, szansa częstościowego trafienia dokładnie w wartość x jest jak 1 do nieskończoności... P(x)→0!!!

...Ale dla przedziałów P(x∈(x1,x2))>0, podobnie jak P(x∈(x1,x2))/(x2-x1)!

Jeśli zejdziemy z różnicą x2-x1→0, to dostajemy gęstość prawdopodobieństwa:

p(x )=limx2−x1→0

P(x∈(x1 , x2))

x 2−x1

=dP (x)

dx

Page 29: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Przykład: prawdopodobieństwo położenia upadającego kamyka: gdy przedziały rozdzielcze się zmniejszają, P → 0.

Page 30: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Te same wykresy co poprzednio, ale wysokość każdego słupka podzielono przez ∆x

Page 31: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Prawdopodobieństwo i gęstość prawdopodobieństwa

Między gęstością prawdopodobieństwa i prawdopodobieństwem zachodzi więc związek:

P(x∈(x1 , x2))=∫x1

x2

p( x)dx

Page 32: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Dystrybuanta

Dystrybuanta określa prawdopodobieństwo, że zmienna losowa przyjmuje wartość mniejszą, bądź równą x.

Dla rozkładu dyskretnego wyraża się sumą prawdopodobieństw, dla ciągłego całką:

F( x)=P(X≤x )F (x)=∑y i< x

p( y i) , rozkład dyskretny

F ( x)=∫−∞

xp ( y )dy , rozkład ciągły

p (x)=F ' (x ), rozkład ciągły

Page 33: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Dystrybuanta - ilustracja

lim x→−∞ F (x)=0 , limx→∞ F (x)=1

Page 34: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wartość oczekiwana

Pojęcie wartości oczekiwanej bliskie jest pojęciu średniej ze zmiennej losowej (lub ogólniej funkcji zmiennej losowej, która jest zasadniczo kolejną zmienną losową).

f (x )=1n∑i=1

nf (x i)

Przechodzimy od sumowania po realizacjach do sumowania poklasach dopuszczalnych wartości

f (x )=1n∑

α=1

mf (xα)nα

f (x )=∑α=1

mf (xα )

n

f ( x)≈∑α=1

mf (xα)P(xα)

Page 35: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Przykład przejścia od średniej po realizacjach do średniej po klasach

Jeżeli dokonujemy rzutów kostką, w których uzyskamy szereg 24 realizacji:

5,3,2,4,2,5,6,2,1,4,1,5,6,1,2,4,3,1,3,6,3,2,4,5 To średnią zapiszemy jako

(5+3+2+4+2+5+6+2+1+4+1+5+6+1+2+4+3+1+3+6+3+2+4+5)/24=3.33

Możemy to jednak też inaczej poukładać:

(1+1+1+1+2+2+2+2+3+3+3+3+4+4+4+4+5+5+5+5+6+6+6)/24=

(1x4+2x4+3x4+4x4+5x4+6x3)/24= 1x1/6+2x1/6+3x1/6+4x1/6+5x1/6+6x1/8

(pogrubione liczby mają sens... prawdopodobieństw)

Page 36: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wartość oczekiwana dla rozkładu ciągłego

f (x )≈∑α=1

mf (xα)P (xα)

dopuszczalne wartości x przyjmują terazzakres od −∞ do +∞ , a prawdopodobieństwa

P( x)=p (x )dxzatem:

f (x )≈∑x=−∞

f (x ) p (x)dx

co na mocy tw. o sumie Riemanna daje

f (x)≈∫−∞

f (x) p(x )dx

Page 37: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wartości oczekiwaneOstatecznie, wartości oczekiwane z funkcji f(x), oznaczane symbolem E[f(X)] zapiszemy jako:

E [ f (X )]=∑α=1

mf ( xα)P (xα) , rozkł. dyskretny

E [ f (X )]=∫−∞

f (x) p(x )dx , rozkł. ciągły

Tym razem nie mamy już symbolu „≈”, ale prawdziwa równość. To jest różnica między średnią, a wartością oczekiwaną. Ta pierwsza liczona jest z dostępnych pomiarów (np. z niedokładnego oszacowania P(x)).

Ta druga wymaga dokładnego rozkładu P(x). Dlatego te dwie charakterystyki równe są jedynie przy

nieskończenie wielu pomiarach.

Page 38: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wartość oczekiwana zmiennej X

Mówiąc „wartość oczekiwana” zmiennej losowej mamy na myśli wartość oczekiwaną tej zmiennej, a nie jakiejś jej funkcji (co musielibyśmy wyraźnie zaznaczyć). Wobec tego:

EX=∑ix i P(x i)

lub

EX=∫−∞

x p(x )dx

Ta charakterystyka wyraża przeciętną wartość zmiennej losowej, a w granicy nieskończenie wielu pomiarów mamy EX=x.

Page 39: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Własności wartości oczekiwanejE[a X ]=a E [X ] , mnożenie zm. losowej przez stałą

E[∑i=1

nX i ]=∑i=1

nE [X i] , dla dowolnych zmiennych losowych

E [∏i=1

nX i ]=∏i=1

nE [X i] , dla NIEZALEŻNYCH zm. losowych

Dlaczego trzecia własność tylko dla niezależnych zmiennych losowych?

Weźmy zmienną losową X o wartości oczekiwanej EX=0. Weźmy też drugą zmienną Y=X3, zależną od X. Widać, że tak jak dla X, również EY=0.

A jednak iloczyn XY=X4 jest zawsze dodatni i średnia z X4 jest większa od zera.

Page 40: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Ilustracja przykładu – kształt funkcji

Page 41: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Ilustracja przykładu - histogramy

Page 42: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wariancja

Wariancja zmiennej losowej X wyznacza wartość oczekiwaną z kwadratu odchylenia tej zmiennej od wartości przeciętnej:

σX2 =D2 X=E [(X−EX )2]

D 2 X=E[X 2−2 XEX+EX 2]Można wyciągnąć stałe EX spod znaku E[...]

D2 X=E[X 2]−2EX E [X ]+EX 2

D2 X=E [X2]−EX 2

Page 43: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wariancja – interpretacja – średni kwadrat odchylenia od średniej

Page 44: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wariancja sumy niezależnych zmiennych losowych

D2(∑i=1

nX i)=E [(∑i=1

nX i−EX i)

2

]

D2(∑i=1

nX i)=E [∑i=1

n

∑ j=1

n(X i−EX i)(X j−EX j)]

Jeżeli Xi oraz Xj są niezależne, to nawiasy po przeciwnej stronie z jednakowym prawdopodobieństwem mogą być dodatnie lub ujemne i uśredniają się do zera jeśli i≠j.

Jeżeli i=j, wynik mnożenia nawiasów jest zawsze dodatni i się nie kasuje.

D2(∑i=1

nX i)=E [∑i=1

n(X i−EX i)

2]=∑i=1

nE[(X i−EX i)

2]=∑i=1

nD 2 X i

Page 45: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Graficzna ilustracja sumy wariancji

Page 46: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wariancja średniej

Jeśli przyjąć twierdzenie o dodawaniu wariancji niezależnej zmiennej losowej (slajd-1), to można określić wariancję sumy kolejnych realizacji xi jako

D2(∑i

X i)=∑iD2 X i=n D2 X

Jeżeli tę sumę podzielimy przez n (średnia), to wariancja zostanie podzielona przez n2, ponieważ wyraża miarę odchyleń od średniej kwadratów zmiennej losowej. W sumie:

D2 X=D2 Xn

Page 47: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wariancja średniej

Im więcej pomiarów, tym większa pewność odnośnie średniej.

Obrazowo mówiąc, przy kilku pomiarach dołożenie kolejnego może średnią łatwo zmienić.

Przy kilkuset pomiarach, dołożenie kolejnego ma znacznie mniejszy wpływ.

Page 48: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Ilustracja rozkładu 100 tysięcy średnich liczonych z próby o długości 1, 10, 100 elementów

Page 49: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Momenty zmiennej losowej

Pojęcia średniej i wariancji uogólnić można za pomocą koncepcji momentów.

Moment zwykły: mk=E[Xk] (np. wartość oczekiwana m1 dla k=1)

Moment centralny: μk=E[(X-EX)k] (np. wariancja μ2 dla k=2)

Page 50: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Szacowanie momentów za pomocą danych statystycznych

Z reguły nie mamy do dyspozycji rozkładu prawdopodobieństwa aby obliczyć momenty takie, jak wartość oczekiwana czy wariancja.

Aby oszacować te parametry na podstawie danych statystycznych, wykorzystuje się estymację punktową, a jako jej narzędzia funkcje próby, zwane charakterystykami, w szczególności estymatory, będące funkcjami próby, służącymi wyznaczaniu parametrów rozkładu.

Page 51: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Własności estymatorów

W zależności od tego jak dobry jest estymator, może się on pochwalić różnymi właściwościami.

Estymator zgodny to estymator, który dla nieskończenie wielkiej liczby pomiarów daje mierzony parametr rozkładu.

∀ϵ>0 lim n→∞ P (|m−m|<ϵ)=1

Page 52: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Ilustracja zgodności estymatora średniej N(2,3) w powiązaniu z odchyleniem standardowym średniej i przykładową dokładnością ε=0.2

Page 53: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Własności estymatorów

Estymator nieobciążony to estymator, którego wartością oczekiwaną jest parametr rozkładu:

(za chwilę przykład dla estymatora wariancji)

Estymator efektywny to estymator, którego wariancja wyznaczenia parametru jest najmniejsza ze wszystkich estymatorów.

E [m ]=m

Page 54: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Podstawowe estymatory punktowe

μ≈ x=1n∑i=1

nx i

D2 X≈S2=

1n−1

∑i=1

n( x i− x )2

Dlaczego estymator wariancji (średni kwadrat odchylenia od przeciętnej) dzielimy przez „n-1” zamiast przez „n”?

Inaczej estymator byłby obciążony. Nie znamy bowiem wartości oczekiwanej i nasze obliczenia są obarczone dodatkową niepewnością wyznaczenia średniej.

Page 55: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Ilustracja problemu obciążenia

Weźmy obciążony i nieobciążony estymator wariancji:

S12=

1n∑i=1

n(x i− x )2 , S2

2=

1n−1∑i=1

n(x i− x )2

Weźmiemy wektor miliona próbek losowych o rozkładzie N(2,3) i podzielimy go na 5-elementowe podciągi.0.6,2.6,2.4,2.5,-2.5, -0.5,-2.2,2.8,1.4,-2.6, 2.4,4.0,-2.7,6.7,2.0, 3.8,1.2,-0.8,5.5,2.6, 2.4,5.2,-0.9,3.7,8.6, 4.9,-0.8,1.2,9.0,5.5, 7.0,2.8,-2.7,2.3,0.3, ...

Dla każdego (krótkiego!) podciągu policzymy wariancję metodą 1 i metodą 2, a wynik uśrednimy względem 200 tysięcy realizacji.

Wynik: <S12>=7.19, <S2

2>=8.99 a z rozkładu σ2=32=9 !

Page 56: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Analiza obciążenia estymatora wariancji

S2=E [ 1n−1

∑i=1

n(x i− x)2]= 1

n−1E [∑i=1

n(x i−μ+μ− x)2 ]

S2=

1n−1

E [∑i=1

n( x i−μ)

2+2( x i−μ)(μ− x )+(μ− x)2 ]

S2=

1n−1 ∑i=1

nE [(x i−μ)

2 ]+2 E [(μ− x)∑i=1

n( xi−μ)]+∑i=1

nE [(μ− x )2 ]

S2=

1n−1

nσ x2+2 E [(μ− x )( x−μ)n ]+nσ x

2

S2=

1n−1

nσ x2−2n E [( x−μ)

2 ]+nσ x2

S2=

1n−1

nσ x2−2nσ x

2+nσ x

2 = 1n−1

nσ x2−nσ x

2

S2=1

n−1 nσ x2−n

σ x2

n =σ x2

Page 57: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Mediana

Inną metodą szacowania przeciętnego reprezentanta próby (obok wartości średniej) jest mediana. Zalicza się ona do statystyk pozycyjnych. Badaną próbę szeregujemy wg relacji:

x1 ≤ x2 ≤ … ≤ xn

Z tego szeregu wybieramy wartość środkową x(n+1)/2, a jeżeli nie jest to liczba całkowita, to średnią arytmetyczną 0.5(xn/2+xn/2+1).

Page 58: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Mediana

Skoro mediana wyznacza coś innego niż średnia lub wartość oczekiwana, po co jej używać?

Mediana jest mniej wrażliwa na duże zakłócenia danych pomiarowych.

Do średniej takie pomiary wchodzą i zaburzają mocno wynik, a mediana ich nie bierze pod uwagę.

Np. w przetwarzaniu obrazów można jej użyć do usunięcia kropkowych zakłóceń, które dla filtra uśredniajacego zaburzyłyby barwę obrazu.

Page 59: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Szum: filtr medianowy i uśredniający

Page 60: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Dominanta, modalna

Dominanta jest wartością, która najczęściej występuje w próbie statystycznej.

Odpowiada ona zatem maksimum wykresu prawdopodobieństwa.

Maksimum to nie musi się pokrywać z wartością oczekiwaną.

Dominanta d, mediana m i wartość średnia x wiążą się wzorem przybliżonym:

x−d=3 ( x−m)

Page 61: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Rozstęp rozkładu

Rozstęp jest charakterystyką pozycyjną, podobnie jak mediana. Jest to różnica pomiędzy największą i najmniejszą wartością realizacji zmiennej losowej. Dla szeregu

x1 ≤ x2 ≤ … ≤ xn

mamy: rn=xn-x1. Pomiędzy rn i σx istnieje relacja rn=dnσx, przy czym wartości dn są stablicowane dla różnych długości próby:

n 2 3 4 5 6 7 8 9 10

dn

1,128 1,693 2.059 2,326 2,534 2,704 2,847 2,976 3,078

Page 62: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Kombinatoryka

W opisie podstawowych problemów probabilistycznych przydatna jest znajomość relacji kombinatorycznych, które opisują co na ile sposobów można rozmieścić w wektorze cech o zadanej długości i o zadanej różnorodności cech.

Page 63: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Permutacje bez powtórzeń

Dysponujemy wektorem n obiektów a1, a2, … an. Pytamy na ile sposobów możemy rozmieścić te obiekty bez powtórzeń w uporządkowanej sekwencji.

Pierwszemu obiektowi możemy przypisać dowolną z n pozycji. Drugiemu pozostaje n-1 pozycji, itd., aż ostatniemu zostaje tylko jedna pozycja do wyboru. Łącznie,

Pn=n(n-1)(n-2)...3∙2∙1=n!

Page 64: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Permutacje bez powtórzeń

Page 65: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Przykłady Ilość możliwych sekwencji wylosowania n

ponumerowanych kul z urny wynosi n! Ilość możliwych rozmieszczeń n gości na n

krzesłach wynosi n! Permutacje mają znaczenie dla pojęcia

wyznacznika, który ogólnie oblicza się jako:

det (A)=∑i=1

n(−1)inv ( pi) A1 pi1

⋅A2 pi 2⋅⋅⋅Anpi n

gdzie:p i - wektor i-tej permutacji sekwencji 1,2,3,. .. , n

inv( p i) - liczba przestawień symboli w i -tej permutacji

Page 66: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Permutacje n-elementowe z powtórzeniami

Rozpatrujemy zagadnienie podobne do poprzedniego z tym, że tym razem początkowy wektor k elementów próbujemy rozmieścić w wektorze n elementowym (n>k), w którym wystąpią powtórzenia i-tego elementu ni razy, w taki sposób, że n1+n2+...+nk=n.

Wykorzystamy poprzedni wynik, duplikując w początkowym wektorze symbole i dokonując ich permutacji n!.

W powstałych wektorach pojawią się identyczne sekwencje spowodowane identycznością niektórych symboli! Jeśli mamy r identycznych symboli, to istnieje r! permutacji dla każdego ich układu, które są nierozróżnialne! Dlatego dzielimy:

Pnn1,... , nk=

n !n1! ...nk !

Page 67: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Permutacje n-elementowe z powtórzeniami

Pnn1,... , nk=

n !n1! ...nk !

Page 68: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Przykłady

Liczba możliwych ciągów utworzonych z liter słowa MISSISSIPI to 10!/4!/4!

Jeżeli w urnie znajdują się 4 kule białe, 5 kul zielonych i 6 kul czarnych, to sekwencja kolorów losowanych kul będzie jedną z 15!/4!/5!/6! permutacji z powtórzeniami.

Mamy taśmy o długości 10cm, 20cm, 20cm, 20cm, 30cm. Na ile sposobów można je połączyć w taśmę o długości 100cm?

Mamy 3 glicyny, 4 alaniny i 2 seryny: ile różnych łańcuchów o długości 9 można z nich uzyskać?

Page 69: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wariacje bez powtórzeń

Zagadnieniem podobnym do permutacji bez powtórzeń są wariacje bez powtórzeń. W tym zagadnieniu początkowy ciąg n elementowy odwzorowuje się na mniejszy od niego ciąg k elementowy.

Zamiast jednak mapować elementy zbioru na pozycje, przypiszemy pozycje wariacji elementom zbioru. I tak pierwszą pozycję można przypisać jednemu z n elementów, drugą jednemu z n-1 sposobów, itd. aż do k-tej pozycji, którą można przypisać na (n-k+1) sposobów.

V nk=n(n−1)(n−2) ...(n−k+1)=

n !(n−k )!

Page 70: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wariacje bez powtórzeń

Page 71: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Kombinacje

Pojęciem podobnym do wariacji bez powtórzeń są kombinacje. Tutaj również zbiór n-elementowy odwzorowujemy w zbiór k-elementowy (k<n), przy czym kolejność elementów uznajemy za nieistotną. Ważna jest tylko zawartość zbioru.

Musimy więc pomniejszyć ilość wariacji bez powtórzeń o ilość możliwych przetasowań ciągu k-elementowego (a więc o ilość jego permutacji k!):

Cnk=

n!k ! (n−k )!

Page 72: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Wariacje z powtórzeniami

W tym przypadku mamy wektor n elementów (np. zbiór cyfr 0..9), z którego chcemy utworzyć k wyrazowy ciąg, z możliwymi powtórzeniami symboli.

Np. z cyfr możemy utworzyć liczbę. Wówczas na pierwszej pozycji mamy n możliwości obsadzenia, na drugiej pozycji kolejne n możliwości, itd. aż do pozycji k.

Mnożymy więc n∙n∙∙∙ ∙n (k mnożeń) = nk.

Vnk = nk

Page 73: Statystyka dla doktorantów: Preliminariamer.chemia.polsl.pl/~pborys/dydaktyka/statystyka/preliminaria.pdf · M. Sobczyk, „Statystyka: aspekty praktyczne i teoretyczne”, Wyd

Pytania

Jaka jest klasyczna i statystyczna definicja prawdopodobieństwa?

Jaka jest różnica między wartością średnią i oczekiwaną?

Jaki jest wzór na łączne zajście zależnych zdarzeń A, B?

Jaki jest wzór na wariancję sumy niezależnych zmiennych losowych?

Jaki jest wzór na alternatywę zdarzeń zależnych A, B? Jak wyprowadzić wzór na ilość permutacji?