24
Statystyka- wykład I 25.02.2007 Podręczniki: 1. Amir D. Aczel, Statystyka w zarządzaniu, PWN 2000 2. Maria Pociecha, Metody statystyczne w zarządzaniu turystyką, ALBIS 2002 3. Statystyka ogólna, pod red. Michała Woźniaka, AE w Krakowie 1994 Statystyka - jest to nauka o ilościowych metodach badania prawidłowości dotyczących zjawisk masowych. Właściwości prawidłowości występujących w otaczającej nas rzeczywistości są kształtowane i przejawiają się tylko w procesie masowym. Każde zjawisko jest kształtowane przez dwojakiego rodzaju przyczyny: Główne ( podstawowe, typowe, systematyczne) Uboczne ( przypadkowe) My zajmujemy się tylko przyczynami głównymi. Opisując liczbowo zjawiska masowe należy określić 2 składniki: o Systematyczny- jako wyraz oddziaływania przyczyn głównych o Przypadkowy- odzwierciedlający wpływ czynnika losowego Zastosowanie do analizy odpowiednich metod statystycznych pozwala nam na: Porządkowanie i klasyfikacja danych Dokładniejszy opis danego zjawiska Badanie różnego rodzaju powiązań Formułowanie uogólnień Prognozowanie analizowanych wielkości Opracowanie statystyczne składa się z 4 etapów: Formułowanie hipotezy merytorycznej Gromadzenie danych liczbowych i ich klasyfikacja Opracowania statystycznego wg wybranych metod Weryfikacji hipotezy merytorycznej Zbiorowością statystyczną nazywamy zbiór obiektów ( osób, przedmiotów, zdarzeń) posiadających cechy wspólne. Poszczególne elementy składowe zbiorowości statystycznej noszą nazwę jednostek statystycznych. Rozróżnia się dwa rodzaje zbiorowości statystycznych : Zbiorowość generalną ( populacja) Zbiorowość próbną ( próba, próbka) Zbiorowość generalna tworzą wszystkie obiekty będące przedmiotem badania. Musi być ona jednorodna i jednoznacznie określona. Zbiorowość próbna ( próbka) jest podzbiorem zbiorowości generalnej. Próba powinna być reprezentatywna tzn. taka aby z przyjęta dokładnością opisywała strukturę zbiorowości generalnej. Reprezentatywność próby zapewnia nam jej losowy wybór.

Statystyka w

Embed Size (px)

Citation preview

Page 1: Statystyka w

Statystyka- wykład I

25.02.2007Podręczniki:

1. Amir D. Aczel, Statystyka w zarządzaniu, PWN 20002. Maria Pociecha, Metody statystyczne w zarządzaniu turystyką, ALBIS 20023. Statystyka ogólna, pod red. Michała Woźniaka, AE w Krakowie 1994

Statystyka- jest to nauka o ilościowych metodach badania prawidłowości dotyczących zjawisk masowych.Właściwości prawidłowości występujących w otaczającej nas rzeczywistości są kształtowane i przejawiają się tylko w procesie masowym.

Każde zjawisko jest kształtowane przez dwojakiego rodzaju przyczyny: Główne ( podstawowe, typowe, systematyczne) Uboczne ( przypadkowe)

My zajmujemy się tylko przyczynami głównymi.

Opisując liczbowo zjawiska masowe należy określić 2 składniki:o Systematyczny- jako wyraz oddziaływania przyczyn głównycho Przypadkowy- odzwierciedlający wpływ czynnika losowego

Zastosowanie do analizy odpowiednich metod statystycznych pozwala nam na: Porządkowanie i klasyfikacja danych Dokładniejszy opis danego zjawiska Badanie różnego rodzaju powiązań Formułowanie uogólnień Prognozowanie analizowanych wielkości

Opracowanie statystyczne składa się z 4 etapów:Formułowanie hipotezy merytorycznejGromadzenie danych liczbowych i ich klasyfikacjaOpracowania statystycznego wg wybranych metodWeryfikacji hipotezy merytorycznej

Zbiorowością statystyczną nazywamy zbiór obiektów ( osób, przedmiotów, zdarzeń) posiadających cechy wspólne.Poszczególne elementy składowe zbiorowości statystycznej noszą nazwę jednostek statystycznych.Rozróżnia się dwa rodzaje zbiorowości statystycznych:

Zbiorowość generalną ( populacja) Zbiorowość próbną ( próba, próbka)

Zbiorowość generalna tworzą wszystkie obiekty będące przedmiotem badania.Musi być ona jednorodna i jednoznacznie określona.

Zbiorowość próbna ( próbka) jest podzbiorem zbiorowości generalnej.Próba powinna być reprezentatywna tzn. taka aby z przyjęta dokładnością opisywała strukturę zbiorowości generalnej.Reprezentatywność próby zapewnia nam jej losowy wybór.Losowo tzn. tak, że każdy element populacji ma jednakowa szansę (prawdopodobieństwo) znalezienia się w próbie. Próba wybierana jest na drodze losowania.

Metoda reprezentacyjna- zajmuje się różnymi sposobami………………………………………..

Relacje między populacją a próbą

Page 2: Statystyka w

I etap: statystyka opisowa (opis próby)II etap: statystyka matematyczna (wnioskowanie na temat populacji na podstawie próby)

Właściwości jakimi odznaczają się jednostki tworzące badana zbiorowość nazywamy cechami statystycznymi.Cechy można podzielić na:

Jakościowe (niemierzalne) np. płeć Ilościowe (mierzalne) np. przeciętny dochód , wyrażane w zł, kg, cm.

Cecha mierzalna z punktu widzenia matematycznego jest zmienną.Wyróżnia się zmienne mierzalne:

Skokowe (przyjmują wartości ze zbioru skończonego lub przeliczalnego) Ciągłe (przyjmują wartości z określonego przedziału liczb rzeczywistych)

Obiekt nr Cecha x Cecha y Cecha z1 x1 y1 z1

2 x2 y2 z2

….. ….. ….. …..i xi yi zi

….. ….. ….. …..n xn yn zn

Jeżeli cecha x- zmienna jednowymiarowaJeżeli cecha x, y- zmienna dwuwymiarowaJeżeli cecha x, y, z- zmienna trójwymiarowa

Szereg statystyczny jest to uporządkowany zbiór (ciąg) wartości zmiennej. Szczegółowe Strukturalne Kumulacyjne Geograficzne Dynamiczne

Charakterystyki liczbowe rozkładu badanej cechyCzym różnią się badane zbiorowości

Populacja

Próba

Rachunek prawdopodobieństwa

Page 3: Statystyka w

Krzywa Gaosa La Plaza

Inna zmienność w obrębie

Asymetria prawostronna

Asymetria lewostronna

Page 4: Statystyka w

Najczęściej do opisu struktury badanej zbiorowości wykorzystuje się:Miary położeniaMiary zmienności ( rozproszenia, dyspersji)Miary asymetriiMiary spłaszczenia i koncentracji

MIARY POŁOŻENIA

Średnie klasyczne:Średnia arytmetyczna- jest równa sumie wartości zmiennej podzielonej przez ich liczbę

xi- wartość zmiennej n- liczba jednostek statystycznych badanej zbiorowości

Średnia ważona (dla szeregu rozdzielczego)

x’i- wartość zmiennejni- liczebność n-tej klasyk- liczba klas

Średnia geometryczna- pierwiastek n-tego stopnia z iloczynu wartości pomiaru

xi- wartość zmiennejn- ogólna liczebnośćGdy wartości zmiennej podane są w formie przyrostów (zwłaszcza w %)

Średnia harmoniczna- jest odwrotnością średniej arytmetycznej z odwrotności wartości pomiarów. Stosujemy ją tam gdzie pomiar wyrażony jest w przeliczeniu na inne jednostki (km/h, os/km2, itp.)

xi- wartość zmiennejn- ogólna liczebność

Średnia kwadratowa- stosujemy ja kiedy chcemy określić przeciętne zróżnicowanie obiektów

Xi- wartość zmiennejn- ogólna liczebność

Przeciętne pozycyjne oraz kwartyle

Modalna (wartość najczęstsza, typowa, dominanta) –jest to wartość zmiennej która występuje największą liczbę razy w zbiorowości statystycznejPrzykład:-2,2,2,2,3,4,4,4,4,5,7,7,10,12,12

Page 5: Statystyka w

Modalna wynosi 4. Oznacza to, że najczęściej w biurach podróży zatrudniane są 4 osoby.

Modalna dla szeregu rozdzielczego

s- numer przedziału najliczniejszegoxs- dolna granica s-tego przedziału ns- liczebność w przedziale modalnejns-1- liczebność w przedziale poprzednimns+1- liczebność w przedziale następnymh- rozpiętość (interwał) przedziału

11.03.2007Statystyka-wykład II

Przeciętne pozycyjne: Modalna: Dla szeregu rozdzielczego:

Gdzie:s- nr przedziału najliczniejszegoxs- dolna granica s-tego przedziałuns- liczebność w przedziale modalnejns-1- liczebność w przedziale poprzednimns+1- liczebność w przedziale następnymh- rozpiętość (interwał) przedziału

Modalna przedział najliczniejszy

Może się zdarzyć że przedział może mieć 2 modalne.

Mediana- (wartość środkowa)Mediana jest tą wartością cechy która dzieli szereg statystyczny na 2 równe części ze względu na liczbę jednostek. Połowa obiektów posiada wartość cech nie większą, a pozostałe 50% nie mniejszą od mediany.

Mediana dla nieparzystej liczby obiektów :

Biura podróży wg liczby zatrudnionych osób w pewnej miejscowości (dane umowne):2,2,2,3,4,4,4,4,4,5,7,7,10,12,12, Me= 4 osobyPołowa spośród badanych biur podróży zatrudnia nie więcej niż 4 pracowników.

Mediana dla parzystej liczby obiektów :

Page 6: Statystyka w

Biura podróży wg zatrudnionych osób w pewnej miejscowości (dane umowne):2,2,2,3,4,4,4,4,4,5,7,7,10,12,12,13,13,14,14,16,Me=6 osóbPołowa spośród badanych biur zatrudnia nie więcej niż 6 pracowników.

Mediana dla szeregu rozdzielczego:

Gdzie:e- nr przedziału medianyxe- dolna granica przedziału medianyh- rozpiętość (interwał) przedziałune- liczebność przedziału medianyΣ ni- suma liczebności przedziałów od pierwszego do przedziału poprzedzającego przedział mediany

Kwartyle (wartości ćwiartkowe)- podają wartości zmiennej jakiego nie przekracza określona część zbiorowości.Kwartyl pierwszy i trzeci:

Analogicznie do przedziału mediany

MIARY ZMIENNOŚCIDwie zbiorowości o różnym poziomie zmienności.

Na rysunku pokazano dwa diagramy częstości (1) i (2).

Page 7: Statystyka w

Dla uproszczenia miary położenia (średnia, mediana i modalna) są sobie równe i identyczne dla obu zbiorowości.

Mniejsze rozproszenie wokół średniej występuje w zbiorowości (1).Diagram jest smuklejszy i wyższy.

Większe rozproszenie wokół średniej występuje w zbiorowości (2).Diagram jest bardziej rozłożysty i niższy.

Podstawowe miary zmienności (rozproszenia, dyspersji): Rozstęp Wariancja Odchylenie standardowe Współczynnik zmienności

Rozstęp- jest to różnica między największą a najmniejszą wartością zmiennej w danej zbiorowości. Rozstęp określa obszar zmienności analizowanej cechy.

Wariancja- jest średnią arytmetyczną z kwadratów różnic poszczególnych wartości zmiennej od ich średniej arytmetycznej.

Wariancja –szereg szczegółowy

Gdzie:xi- wartość zmiennejx- średnia arytmetycznan- ogólna liczebność

Wariancja szereg rozdzielczy:

Gdzie:xi’- środek przedziałux- średnia arytmetycznani- liczebność w klasach

Odchylenie standardowe- określa, o ile średnio jednostki zbiorowości różnią się od średniej arytmetycznej.

Współczynnik zmienności- jest względną miarą rozproszenia

Gdzie:s-odchylenie standardowex- średnia arytmetyczna

MIARY ASYMETRII

Współczynnik asymetrii

Page 8: Statystyka w

Rozkład symetryczny- jest wtedy gdy średnia arytmetyczna jest równa medianie i modalnej.

X= Me= Mo

Współczynnik asymetrii:

Gdzie:x-średnia arytmetycznaMo- modalnas- odchylenie standardowe

Asymetria prawostronna:As>0

Asymetria lewostronnaAs<0

SKALE POMIARUPomiarem nazywamy czynność przyporządkowania przedmiotom, wydarzeniom liczb zgodnie z pewnym zbiorem reguł (relacje między liczbami np. reguły tożsamości, reguły uporządkowania, reguły addytywności- one decydują o skali pomiaru)

Rozróżnia się następujące skale pomiaru:a) Cechy jakościowe

Nominalna Porządkowa

b) Cechy ilościowe (mierzalne) Interwałowa

As=0

Mo x

x Mo

Page 9: Statystyka w

Ilorazowa

Skala nominalna:- to taki zbiór kategorii jakościowych, który uniemożliwia zupełną i rozłączną klasyfikację obiektów- np. ze względu na płeć, miejsce zamieszkania, wykonywany zawód

Skala porządkowa:-W skali porządkowej można porównać pary jednostek (większe lub mniejsze) ponieważ mierzone jest natężenie badanej cechy- np. wykształcenie: podstawowe, średnie, licencjackie, wyższe

Skala interwałowa (przedziałowa, równomierna):- występuje wtedy gdy uporządkowany zbiór wartości zmiennej składa się z liczb rzeczywistych. Zero w tej skali jest ustalone dowolnie- np. temperatura w skali Celsjusza, czas kalendarzowy itp.Skala ilorazowa (stosunkowa):-Pomiary w tej skali charakteryzują się bezwzględnym zerem oraz pozwalają na obliczenie stosunku analizowanych wielkości czyli stwierdzenie ile razy dany obiekt jest większy lub mniejszy od innego-np. temperatura w skali Kelvina, masa, odległość itp.

25.03.2007Statystyka-wykład III

METODY ANALIZY WSPÓŁZALEŻNOŚCI:a. Współczynnik korelacjib. Funkcja regresji liniowej.

Współczynnik korelacji:

Numer obiektu Wartości zmiennej (X, Y)1 (x1, y1)2 (x2, y2)… …i (xi, yi)

… …n (xn, yn)

Diagram korelacyjny

Rozróżnia się 2 rodzaje zależności: Funkcyjną (matematyczną)- wtedy znając wartości xi można dokładnie podać wartości yi

Stochastyczną (statystyczną)- wtedy jednej wartości zmiennej mogą odpowiadać różne wartości drugiej zmiennej

Najprostszą miarą współzależności jest KOWARIANCJA

Wartości yi

Wartości xi

Wartości empiryczne

Page 10: Statystyka w

Kowariancja jest średnią arytmetyczną sumy iloczynów różnic między pomiarami zmiennej X i Y a jej średnimi arytmetycznymi.

Gdzie:xi, yi- wartości zmiennych X i Y

-średnie arytmetyczne odpowiednio X i Yn- ogólna liczebność

Współczynnik korelacji liniowej Pearsona (dla cech mierzalnych)

sx, sy- odchylenia standardowe odpowiednio zmiennych

Współczynnik korelacji liniowej Pearsona (dla cech mierzalnych): Jest symetryczny tzn. rx,y= ry,x

Przyjmuje wartości z przedziału -1=<r<=1 Znak współczynnika dodatni- zależności wprost proporcjonalna Znak współczynnika ujemny- zależność odwrotnie proporcjonalna Im wartość bezwzględna współczynnika korelacji jest:

o Bliższa 1 tym zależność korelacyjna jest silniejszao A im bliższa 0 tym zależność słabsza

Korelacja rang Spearmana (dla cech jakościowych):

Do badania korelacji w przypadku, gdy jedna lub obie składowe zmiennej dwuwymiarowej są cechami jakościowymi mierzonymi w skali porządkowej stosuje się współczynnik rang Spearmana.

Gdzie:di- różnica między rangami zmiennej X i Yn- liczna jednostek statystycznych

Rangowanie polega na nadawaniu kolejnym obiektom numerów zgodnie z nasileniem się zmiennej. Jeżeli te same kategorie powtarzają się to jako rangę przyporządkowujemy im średnią arytmetyczną z kolejno przypadających dla nich numerów.Współczynnik korelacji rang Spearmana posiada te same własności i jest identycznie interpretowany jak współczynnik Pearsona.

Liniowa funkcja regresji:Rozpatrujemy zależności między dwiema cechami X i Y.

X- pełni rolę zmiennej niezależnej (objaśniającej) Y- jest zmienną zależną (objaśnianą) Zależność średnich warunkowych jednej zmiennej od zmian w wartościach drugiej zmiennej nazywamy

zależnością regresyjną

Page 11: Statystyka w

Liniowa funkcja regresji- wzór

a0,a1- parametry funkcji określają one położenie prostejyi- wartości funkcji

Epsilony to są różnice rzeczywiste

Wielkość tych różnic zależy od wartości funkcji regresji.

Najczęściej dopasowuje się funkcje regresji metodą najmniejszych kwadratów (MNK)Kryterium metody najmniejszych kwadratów jest takie wyznaczenie parametrów dla których funkcja:

osiąga minimum.

Minimum funkcji wyznacza się obliczając pierwsze pochodne względem szacowanych parametrów i porównując je do zera.

Po wykonaniu wskazanych działań i przekształceń otrzymujemy „układ równań normalnych”:

Wartości parametrów można również obliczyć z następujących wzorów:

Liniowa funkcja regresji: Wartość a1 nosi nazwę współczynnika regresji liniowej. Informuje on, o ile średnio zmieni się wartość zmiennej zależnej Y, gdy zmienna niezależna X wzrośnie

o jednostkę.

Miary dobroci dopasowania funkcji regresji do danych empirycznych: Wariancja resztowa Odchylenie standardowe resztowe Współczynnik zmienności resztowej Współczynnik zbieżności Współczynnik determinacji

15.04.2007Statystyka-wykład IV

wydatki

dochody

Wartości empiryczne Funkcja regresji

Page 12: Statystyka w

Miary dobroci dopasowania funkcji regresji do danych empirycznych:

Wariancja resztowa

Wariancja resztowa jest średnią arytmetyczną kwadratów reszt :

Gdzie:

Odchylenie standardowe resztoweDo interpretacji wykorzystuje się pierwiastek z wariancji resztowej czyli odchylenie standardowe resztowe:

Informuje ono o tym, o ile średnio biorąc wartości zmiennej objaśnianej Y różnią się od wartości obliczonych .

Współczynnik zmienności resztowejWspółczynnik zmienności resztowej jest stosunkiem odchylenia standardowego resztowego od średniej arytmetycznej:

Informuje on jaki procent stanowią odchylenia przypadkowe w zmienności zmiennej zależnej.

Współczynnik zbieżności

Gdzie:- wartości zmiennej objaśnianej ( i=1, …, n)

-wartości obliczone z funkcji regresji

-średnia arytmetycznaWspółczynnik zbieżności wskazuje jaka część zmienności w wartościach zmiennej zależnej Y nie jest związana ze zmiennością w wartościach zmiennej objaśniającej X.Wartości zawierają się w przedziale <0,1>. Im jest bliższe zeru, tym oszacowana funkcja regresji jest lepiej dopasowana do danych empirycznych.

Współczynnik determinacji

Współczynnik determinacji wskazuje jaka część zmienności w wartościach zmiennej zależnej Y związana jest ze zmiennością w wartościach zmiennej objaśniającej X w sensie przyjętych funkcji regresji.Wartości zawierają się w przedziale <0,1>. Im jest bliższe 1, tym oszacowana funkcja regresji jest lepiej dopasowana do danych empirycznych.Zachodzi relacja typu:

Istnieje związek między współczynnikiem determinacji a współczynnikiem korelacji

Page 13: Statystyka w

ELEMENTY RACHUNKU PRAWDOPODOBIEŃSTWA Podstawowe pojęcia:W rachunku prawdopodobieństwa określenie „prawdopodobieństwo” odnosi się do możliwych wyników doświadczeniaZdarzenie elementarne jest pojęciem pierwotnym, czyli takim pojęciem, którego się nie definiuje.Możliwe wyniki jakiegoś doświadczenia nazywamy zdarzeniami elementarnymi a ich zbiór przestrzenią zdarzeń elementarnych.

Definicja prawdopodobieństwa:Jeżeli przestrzeń zdarzeń elementarnych E składa się z n zdarzeń elementarnych i zdarzenia jednoelementowe są jednakowo prawdopodobne (prawdopodobieństwo to wynosi 1/n) to prawdopodobieństwo dowolnego zdarzenia A składającego się z k zdarzeń elementarnych przestrzeni E wyraża się równością:

Gdzie:k- liczba zdarzeń sprzyjającychn- ogólna liczba zdarzeń elementarnych

Jednowymiarowe zmienne losoweZmienną losową nazywamy taką zmienną, która w wyniku doświadczenia przyjmuje określoną wartość (znaną po zrealizowaniu doświadczenia) ze zbioru wszystkich możliwych wartości.Wyróżnia się 2 rodzaje zmiennych losowych:

Zmienne skokowe (dyskretne) Zmienne ciągłe

Zmiennymi losowymi skokowymi nazywamy takie zmienne losowe, które mają skończony lub przeliczalny zbiór wartości.Zmiennymi losowymi ciągłymi są zmienne losowe, które przybierają dowolne wartości z pewnego przedziału liczbowego.Zmienne losowe są więc wartościami cech jednostek statystycznych wylosowanych ze zbiorowości generalnej. Oznacza to, że każdej wartości x może być przyporządkowane odpowiednie prawdopodobieństwo, czyli że prawdopodobieństwo to jest funkcją x.

Zmienna losowa typu skokowegoZmienna losowa jest typu skokowego (dyskretnego) jeżeli zbiór jej wartości

Jest skończony

Jest przeliczalny

Wartościom zmiennej odpowiadają prawdopodobieństwa pi zdefiniowane następująco:

Funkcje określoną na zbiorze Wx przyporządkowującą wartościom xi odpowiednio wartości prawdopodobieństwa dla których spełniony jest warunek:

nazywamy funkcją rozkładu prawdopodobieństwa.

Dystrybuantą zmiennej losowej skokowej x nazywamy funkcję, która przyporządkowuje prawdopodobieństwo tego że zmienna losowa X przyjmuje wartości mniejsze od x. Dystrybuantę zmiennej losowej X w punkcie x oznacza się symbolem F(x). Możemy wiec zapisać:

Dla zmiennej skokowej:

Rozkład dla doświadczenia polegającego na rzucie kostką do gry:a) Zmienna losowa X przyjmuje wartości: 1,2,3,4,5,6

Z prawdopodobieństwami:

Z prawdopodobieństwami: x 1 2 3 4 5 6pi 1/6 1/6 1/6 1/6 1/6 1/6

Z prawdopodobieństwami:

Page 14: Statystyka w

Dystrybuanta dla doświadczenia polegającego na rzucie kostką do gry

x (-∞,1> (1,2> (2,3> (3,4> (4,5> (5,6> (6,+∞)F(x) 0 1/6 2/6 3/6 4/6 5/6 1

Parametry rozkładu

Wartość oczekiwana ( nadzieja matematyczna)Wartością oczekiwaną E(X) (nadzieją matematyczną) nazywamy sumę iloczynów wartości zmiennej i odpowiadających im prawdopodobieństw.

Dla naszego rozkładu:

WariancjaWariancją nazywamy liczbę zdefiniowaną:

Dla naszego przykładu:

Stąd odchylenie standardowe wynosi:

Na egzaminie może być:Definicja prawdopodobieństwaJak dzielą się zmienne: skokowe, ciągłeDla zmiennej skokowej podstawowe charakterystyki to rozkład i dystrybuantaParametry dla określenia zmiennej (nadzieja matematyczna, wariancja)

29.04.2007Statystyka-wykład V

Page 15: Statystyka w

1. Zmienna losowa typu ciągłego. Rozkład normalny

Wartość oczekiwana i wariancja zmiennej losowej x przekształconej następująco:

Gdzie:E(x)- wartość oczekiwana zmiennej losowej xD(x)- odchylenie standardowe zmiennej losowej xPrzekształcenie to nosi nazwę STANDARYZACJI.

Wartość oczekiwana i wariancja dla zmiennej standaryzowanej:

Wynosi: E(U)=0 D2(U)=1

Zmienna losowa typu ciągłego: Zmienną losową x przyjmującą wszystkie wartości z pewnego przedziału, dla której istnieje nieujemna

funkcja f taka, że dystrybuanta F(x) wyraża się wzorem:

dla

Nazywamy zmienną losową typu ciągłego a funkcję f, jej gęstością. Zmienna losowa ciągła x podlega rozkładowi normalnemu, jeżeli jej funkcja gęstości wyraża się

następującym wzorem:

Gdzie:E(x)- wartość oczekiwanaD2(x)- wariancjaexp[x]- ex

e≈ 2,71828- podstawa logarytmu naturalnegoΠ≈ 3,14159…

Wartość parametrów w rozkładzie normalnym. Przyjęło się oznaczenie Fakt że zmienna losowa podlega rozkładowi normalnemu zapisuje się w skrócie:

X~N(m,σ) Przy takich oznaczeniach funkcję gęstości rozkładu normalnego zapisuje się następująco:

Wykresem funkcji f(x) jest krzywa Gaussa- Laplace’a

m-σ m m+σ x

Cechy rozkładu:Funkcja ta :

W całej dziedzinie przyjmuje wartości dodatnieW punkcie x=m osiąga maksimumDla x=m-σ i x=m+σ posiada punkty przecięciaWykres jest symetryczny względem prostej x=m

F(x)

Page 16: Statystyka w

Dystrybuantę zmiennej w rozkładzie normalnym zapisuje się następująco:

Wprowadzając standaryzację zmiennej: X~N(m,σ)

Według znanej już zasady

Otrzymujemy funkcję rozkładu w postaci

I dystrybuantę:

Wykres funkcji gęstości f(u) zmiennej standaryzowanej: X~N(m,σ)

Jest symetryczny względem osi rzędnych Funkcja osiąga maksimum dla U=0 Dla w=-1 i u=1 posiada punkty przecięcia

Wartości dystrybuanty zmiennejX~N(m,σ)Zostały tablicowane, co oznacza, że tablice podają dla każdej wartości U0 zmiennej U, wartość dystrybuanty F(U0)

2.Weryfikacja hipotez statystycznychHipotezą statystyczną nazywamy sąd o zbiorowości generalnej, wyrażony bez wprowadzenia badania pełnego (wyczerpującego).W oparciu o wyniki otrzymane z próby podejmujemy decyzję o podjęciu lub odrzuceniu podstawionej hipotezy.Algorytmy weryfikacji hipotez statystycznych posiadają pewne wspólne cechy:Ho: m=mo Ho- hipoteza zerowamo- wartość złożona (konkretna wartość)

Hipoteza zerowa jest podstawową hipotezą sprawdzanąZakłada się, że interesująca nas zmienna ciągła ma rozkład normalny o nieznanych parametrachOprócz hipotezy zerowej należy sformułować hipotezę alternatywną

H1: m≠mo; H1: m< mo ; H1: m>mo; Ponieważ wnioskowanie prowadzone jest na podstawie niepełnej informacji o populacji, to podejmując decyzję o przyjęciu lub odrzuceniu hipotezy możemy popełnić błąd:

Istnieją 2 rodzaje błędów:o Błąd pierwszego rodzajuo Błąd drugiego rodzaju

DecyzjaHo

PRAWDZIWA FAŁSZYWA

Przyjąć Decyzja poprawnaBłąd II rodzaju;

prawdopodobieństwo wystąpienia błędu= β

OdrzucićBłąd I rodzaju;

prawdopodobieństwo wystąpienia błędu= α

Decyzja poprawna

Udowodniono, że dla danej liczebności próby zmniejszenia prawdopodobieństwa α powoduje wzrost prawdopodobieństwa β.Prawdopodobieństwo 1- β nazywa się mocą testu. Spośród możliwych do wykorzystania testów należy wybrać test najmocniejszy.

Page 17: Statystyka w

W praktyce wykorzystuje się najczęściej tak zwane testy istotności czyli takie, które pozwalają odrzucić hipotezę zerową z małym ryzykiem popełnienia błędu I rodzaju.Prawdopodobieństwo α wystąpienia błędu I rodzaju nosi nazwę poziomu istotności i ustala go osoba prowadząca badania statystyczne. Najczęściej przyjmuje się wartości α na poziomie 0,01; 0,02; 0,05.

Kryterium podejmowania decyzji o weryfikacji hipotezy stanowi wartość empiryczna statystyki testuW testach istotności, statystyką testu jest najlepszy estymator danego parametru. Statystyka ma więc znany rozkład prawdopodobieństwa.Na podstawie wyników próby losowej oblicza się wartości tej statystyki Zn.W końcowym etapie weryfikacji podstawionej hipotezy ustala się tak zwany zbiór (obszar) krytyczny K.Jest to zbiór tak ustalony, aby prawdopodobieństwo tego, że wartość statystyki Z, znajduje się na obszarze krytycznym, gdy prawdziwa jest H0 było równe lub mniejsze od α.

Jeżeli wartość statystyki sprawdzającej Zn należy do zbioru krytycznego, to z prawdopodobieństwem α odrzucamy sprawdzoną hipotezę H0 na korzyść hipotezy alternatywnej H1

Natomiast w przypadku, gdy obliczona z próby statystyka Zn nie należy do zbioru krytycznego K, to nie ma podstaw do odrzucenia H0.

13.05.2007Statystyka-wykład VI

Cdn. Hipotezy statystyczneWartość krytyczną Zα wyznaczającą granice zbioru K można odczytać z tablic właściwych dla rozkładu danego sprawdzianu Zn. Większość programów komputerowych podaje dokładną wartość prawdopodobieństwa p dla wyliczonej z próby wartości Zn.Zbiory krytyczne ustala się w zależności od postaci hipotezy alternatywnej:

Jeżeli hipoteza alternatywna ma postać H1: m≠m0 to obszar krytyczny jest zbiorem dwustronnym. H1: m≠m0

-Zα 0 ZαJeżeli hipoteza alternatywna ma postać H1: m>m0 to obszar krytyczny jest zbiorem prawostronnym.

H1: m>m0

Zα Jeżeli hipoteza alternatywna ma postać H1: m<m0 to obszar krytyczny jest zbiorem lewostronnym

H1: m<m0

-ZαTesty statystyczne służące do weryfikacji hipotez dotyczących parametrów rozkładu zmiennej losowej nazywają się testami parametrycznymi

Page 18: Statystyka w

A testy wykorzystywane do weryfikacji hipotez nieparametrycznych testami nieparametrycznymi

Testy dla wartości przeciętnejPrzypadek 1.

Zmienna losowa ma rozkład X~N(m,σ)Parametr m jest nieznany natomiast σ jest znaneWeryfikujemy hipotezę o postaci H0: m=m0

Wobec hipotez alternatywnej H1: m≠m0

lub m>m0

m<m0

Z populacji pobieramy n elementową próbę losową,a następnie obliczamy na podstawie wyników z próby wartość statystyki postaci

Statystyka ta ma standaryzowany rozkład normalny N(0,1)Aby podjąć decyzję odnośnie H0 konstruujemy odpowiednio obszar krytycznyJeżeli obszar krytyczny jest:

Dwustronny to dla poziomu istotności α spełniona jest relacja

Gdzie uα nazywane jest wartością krytyczną

Wartość krytyczną odczytujemy z tablic dystrybuanty standaryzowanego rozkładu normalnego

Jeżeli z próby obliczamy wartość u statystyki U taką, że: to hipotezę H0 odrzucamy na korzyść hipotezy alternatywnej

< uα to nie ma podstaw do odrzucenia H0 (hipotezę zerową przyjmujemy)

Przypadek 2.Jeżeli chcemy zweryfikować hipotezęGdy H0: m=m0

Parametry rozkładu populacji m i σ są nieznanePróba jaką dysponujemy jest mała n≤ 30Wykorzystuje się statystykę

Statystyka ta ma rozkład t- studenta o v=n-1 stopniach swobodyDwustronny obszar krytyczny

Określa relacja

Prawostronny

Lewostronny

Wartość krytyczną tα,v należy odczytać z tablic wartości krytycznych rozkładu t- studenta dla zadanego poziomu istotności α i v=n-1 stopni swobody

Przypadek 3.H0: m=m0

Gdy parametry rozkładu populacji m i σ są nieznanePróba jaką dysponujemy jest duża (n>30)Wykorzystuje się statystykę

Gdy prawdziwa jest H0 statystyka U ma w przybliżeniu standaryzowany rozkład normalny N(0,1). Zbiór krytyczny konstruowany jest wg tych samych zasad jak w przypadku 1.

Przykład 1.Automat w fabryce czekolady wytwarza tabliczki o minimalnej wadze 250gWiadomo że rozkład wagi produkowanych tabliczek jest normalny N(m,5)

Page 19: Statystyka w

Kontrola techniczna pobrała w pewnym dniu próbę losową 16 tabliczek i otrzymała ich średnią wagę 244g. Czy można twierdzić, że automat rozregulował się i produkuje tabliczki o mniejszej niż przewiduje norma wadze?Na poziomie istotności α=0,05 zweryfikować odpowiednią hipotezę statystyczną.H0: m=250H1: m<250Obliczamy wartość statystyki sprawdzającej (przypadek 1)

Z tablic rozkładu normalnego N(0,1) odczytujemy uα=-1,64Ponieważ wartość ta znalazła się w obszarze krytycznym, gdyż u<uα więc H0 hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej.Z prawdopodobieństwem błędu mniejszym niż 0,05 możemy stwierdzić że waga tabliczek jest za niska.

Przykład 2.Ustalono na podstawie analizy kosztów, że będzie opłacać się wybudowanie motelu przy trasie komunikacyjnej, jeżeli będzie przejeżdżać tą trasą więcej niż 800 samochodów dziennie. W losowo wybrane dni roku liczono ilość przejeżdżających samochodów i otrzymano następujące rezultaty:792, 810, 820, 886, 910, 840, 1025, 790, 972, 830, 810, 780, 815, 954, 810, 930, 820.Na poziomie istotności α=0,05 zweryfikować hipotezę o opłacalności podejmowanej inwestycji.H0: m=800H1: m>800Z uwagi na to że próba jest mała (n=17) zastosujemy statystykę (przypadek 2). Wartości średniej arytmetycznej oraz odchylenia standardowego (s) wyliczamy z próby. W prezentowanym przykładzie wynoszą one:

Obliczamy wartości statystyki testu.

Zbiór krytyczny jest zbiorem prawostronnym. Dla 16 stopni swobody i poziomu istotności α=0,05 wartość krytyczna t0,05;16=1,74Statystyka testu należy do zbioru krytycznego (t>tα) zatem H0 należy odrzucić. Możemy więc przyjąć że planowana inwestycja będzie się opłacać.

Przykład 3.W szpitalu wylosowano niezależnie spośród pacjentów leczonych na pewną chorobę próbę 26 chorych i otrzymano średnią ciśnienia tętniczego 135 oraz odchylenie standardowe 45. Na poziomie istotności α=0,05 (2,06) zweryfikować hipotezę, że pacjenci ci pochodzą z populacji o przeciętnym ciśnieniu 120.H0: m=120H1: m≠120Próba mała (26chorych)

Ponieważ 1,67<2,06 brak podstaw do odrzucenia hipotezy zerowej. Na poziomie istotności 0,05 przyjmujemy że przeciętne ciśnienie chorych jest w normie, a różnica uzyskana z próby Ne jest w stosunku do przeciętnej normy statystycznie istotna tzn da się usprawiedliwić przypadkiem.

Zadanie!!! Zastanowić się nad rozwiązaniem w domuBadając w pewnym zakładzie przemysłowym absencję pracujących tam kobiet stwierdzono, że w wylosowanej próbie 100 pracownic średni czas przebywania ich na zwolnieniach lekarskich wyniósł 38dni, a odchylenie standardowe 16dni. Czy można na tej podstawie twierdzić, że przeciętny roczny czas zwolnień lekarskich jest dłuższy niż miesiąc tj. 31dni. Przyjmując poziom istotności α=0,01 (2,33).