24
Biostatystyka, #1 /Weterynaria I/ dr n. mat. Zdzislaw Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Glęboka 28, p. 221 bud. CIW, e-mail: [email protected] materialy: http://kzmi.up.lublin.pl/˜zotachel/Wet konsultacje: wtorek, środa 10.00-12.00 Lublin, 2021 dr n. mat. Zdzislaw Otachel Biostatystyka, # 1 /Weterynaria I/

Biostatystyka, # 1 /Weterynaria I/kzmi.up.lublin.pl/~zotachel/Wet/Wyk/Biostat01.pdfBiostatystyka,# 1 /Weterynaria I/ dr n. mat. Zdzisław Otachel Uniwersytet Przyrodniczy w Lublinie

  • Upload
    others

  • View
    42

  • Download
    0

Embed Size (px)

Citation preview

  • Biostatystyka,# 1

    /Weterynaria I/

    dr n. mat. Zdzisław Otachel

    Uniwersytet Przyrodniczy w LublinieKatedra Zastosowań Matematyki i Informatyki

    ul. Głęboka 28, p. 221 bud. CIW,e-mail: [email protected]

    materiały: http://kzmi.up.lublin.pl/˜zotachel/Wetkonsultacje: wtorek, środa 10.00-12.00

    Lublin, 2021

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Zakres materiału

    • Statystyka opisowa• Podstawowe pojęcia rachunku prawdopodobieństwa• Zmienne losowe i ich rozkłady• Estymacja punktowa i przedziałowa• Testowanie hipotez statystycznych

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Literatura

    Hanusz Z., Tarasińska J. Statystyka matematyczna, Wyd. ARLublin 2006.Kala R. Statystyka dla przyrodników, Wyd. AR, Poznań, 2002.Koronacki J., Mielniczuk J. Statystyka dla studentówkierunków technicznych i przyrodniczych, WNT, 2001.Łomnicki A. Wprowadzenie do statystyki dla przyrodników,PWN, W-wa 2002.Parlińska M., Parliński J. Badania statystyczne z Excelem,Wyd. SGGW W-wa 2003.Smolik S. Zadania z rachunku prawdopodobieństwa istatystyki matematycznej dla Akademii Rolniczych. Wyd.SGGW W-wa 1994.Stanisz A. Biostatystyka. Wyd. UJ, 2006.Cezary Watała, Biostatystyka - wykorzystanie metodstatystycznych w pracy badawczej w naukach biomedycznych.Wyd. Alfa Medica Press, Bielsko-Biała 2002.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Statystyka opisowa

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Podstawowe pojęcia statystyczne

    Przedmiotem badań statystycznych są populacje - zbioryokreślonych istot, rzeczy lub zjawisk. Będą one analizowane przezpryzmat cech tj. funkcji, które przyporządkowują każdemuelementowi populacji wartość liczbową, będącą wynikiem pomiaru.Cechy podzielimy na:Skokowe - przyjmujące skończoną lub przeliczalną liczbęwartości np. ocena studenta na zaliczeniu z biostatystyki, ilośćszczeniąt w miocie, ilość detekcji cząstek gamma w jednostceczasu - tzw. poziom promieniowania, itp.Ciągłe - przyjmujące dowolne wartości z pewnego przedziału,np. każda wielkość metryczna obiektu biologicznego (waga,długość,pole powierzchni, objętość itp.), czas życia zwierzęcialub populacji, poziom interesującego związku chemicznego wbadanym układzie (np. SO2 w powietrzu, glukozy we krwi,saturacja krwi tlenem), wielkości meteorologiczne(temperatura, wilgotność, siła wiatru), wielkości fizyczne(prędkość, pęd, masa cząstki), itp, itd.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Całkowite i częściowe badanie populacji

    Wnioskując o cechach pewnej populacji można wykonaćnastępujące rodzaje badań statystycznych:

    Badanie całkowite - mierząc wartości interesujących cech dlakażdego elementu populacji,

    Badanie częściowe - oznaczając wartości cech dlawytypowanych na drodze losowania niektórych elementówpopulacji i uogólniając wyniki, za pomocą technikstatystycznych, na całą populację.

    Ze statystycznego punktu widzenia interesujący jest tylko ten drugirodzaj badania.Część populacji podlegającą badaniu częściowemu nazywamypróbą. Elementy populacji są kwalifikowane do próby poprzezlosowanie. Każdy element populacji musi mieć taką samą szansęwylosowania.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Szereg statystyczny

    Badanie częściowe określonej cechy prowadzi do uzyskaniapierwotnego szeregu statystycznego. Jest to ciąg pomiarów tejsamej cechy x na N obiektach populacji, wybranych do badania wsposób losowy, mianowicie:

    x1, x2, . . . , xN ,

    gdzie xi jest wartością (obserwacją lub pomiarem) cechy x dlai-tego elementu wytypowanego z populacji do badania, a N ilościąprzebadanych obiektów (rozmiarem, liczebnością, długością szeregustatystycznego).Ciąg pomiarów tej samej cechy nazywa się też próbą liczbową,natomiast (hipotetyczny) zbiór wszystkich pomiarów (nawszystkich elementach populacji) - przestrzenią próby.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Statystyczne szeregi rozdzielcze

    Rozstęp szeregu statystycznego (R) to różnica:

    R = xmax − xmin,

    gdzie xmax i xmin oznacza odpowiednio największy i najmniejszyzaobserwowany pomiar.Pierwotny szereg statystyczny zawiera nieistotne informacje,dlatego podlega obróbce mającej na celu pominięcie tychże, aprzez to zyskanie na przejrzystości. Takie zabiegi prowadzą dootrzymania następujących, przetworzonych danych statystycznych:Szereg szczegółowy - pomiary uporządkowane w kolejnościrosnącej lub malejącej,Szereg rozdzielczy - zestawienie uporządkowanychzaobserwowanych wartości lub zakresów (przedziałówklasowych) z odpowiadającymi im liczebnościami.

    Szeregi rozdzielcze tworzy się z licznych (zawierających więcej niż30 obserwacji) szeregów statystycznych lub, gdy w szereguwystępują powtarzające się wartości.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Rodzaje szeregów rozdzielczych

    • Punktowy szereg rozdzielczy - dla cech skokowych przyjmującychskończoną liczbę wartości; ma on postać zestawienia:

    (xi , li ),

    gdzie xi - i-ta w kolejności wzrostu zaobserwowana wartość, li -ilość powtórzeń w szeregu statystycznym.• Klasowy szereg rozdzielczy - dla cech ciągłych lub skokowych olicznych różnych wartościach (w praktyce, więcej niż 30) i ma onpostać zestawienia:

    (πi , li ), lub (xi , li ),

    gdzie πi - i-ty przedział klasowy o środku xi , li - ilość obserwacjinależących do tego przedziału, tzn. skupiających się wokół xi .Przedziały klasowe na ogół są jednakowej długości, muszą byćrozłączne i ich suma ma pokrywać wszystkie wartości szeregurozdzielczego. Suma liczebności jest zawsze równa długości szeregustatystycznego: l1 + l2 + · · ·+ lr = N.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Zależność liczby klas od ilości pomiarów

    Liczba pomiarów (N) Liczba klas (k)30-60 6-8

    60-100 7-10100-200 9-12200-500 11-17

    500-1500 16-25

    Liczbę klas można wyznaczyć także na podstawie jednej zzależności:

    k ¬ 5 lnN, k ≈ 1 + 3, 332 lnN, k ≈√N.

    Nie stosuje się większej ilości klas niż 30. Długość przedziałuklasowego obliczamy dzieląc rozstęp R przez liczbę klas k .Graficzne przedstawienie szeregu rozdzielczego to histogram (dlaszeregów klasowych) lub diagram liczebności (dla szeregówpunktowych).

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Rozkład empiryczny

    Zastępując w szeregu rozdzielczym liczebności li przez częstościfi = li/N otrzymujemy zestawienie zwane empirycznym rozkłademcechy. Zauważmy i zapamiętajmy, że∑

    i

    fi = 1.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Charakterystyki używane do opisu danych statystycznych

    Zbiór danych statystycznych – szereg statystyczny – zawierainformację o cesze trudną do przetwarzania.Łatwiej operować częścią tej informacji, którą zawierającharakterystyki (miary) danych liczbowych. Są to funkcjezdefiniowane na elementach szeregu statystycznego.Do takich charakterystyk (miar) najczęściej wykorzystywanych przyopisie struktury zbiorowości liczbowych należą:

    miary średnie (przeciętne, położenia) – podają one tą wartośćwokół której skupiają się pozostałe liczby (obserwacje), jeżelix jest taką miarą, to zawsze

    xmin ¬ x ¬ xmax ;

    miary zmienności (rozproszenia, zróżnicowania, dyspersji) –określają stopień zróżnicowania wartości w analizowanejzbiorowości, jeżeli d jest taką miarą, to

    d 0,

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • przypadek d = 0 oznacza brak zmienności, wszystkie wartości sąrówne swojej średniej;

    miary asymetrii (skośności) – określają kierunek zróżnicowaniawartości;

    miary koncentracji – określają stopień skupienia wartościwokół średniej.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Miary średnie (przeciętne)

    średnia arytmetyczna,

    dominanta (moda, wartość modalna, najczęstsza),

    kwartyle

    Średnia arytmetyczna jest obliczana na podstawie wszystkichwartości szeregu statystycznego, pozostałe miary średnie (tzw.pozycyjne) są wartościami konkretnych wyrazów szereguwyróżniających się pod pewnym względem.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Średnia arytmetyczna

    Średnią x cechy x na podstawie szeregu statystycznegox1, x2, . . . , xN najczęściej policzymy posługując się średniąarytmetyczną:

    x =x1 + x2 + · · ·+ xN

    N=

    ∑Ni=1 xiN

    .

    Ale ta sama średnia dla szeregu rozdzielczego będzie liczona wgwzoru na średnią ważoną, gdzie wagami są liczebności:

    x =x1l1 + x2l2 + · · ·+ xr lr

    l1 + l2 + · · ·+ lr=

    ∑ri=1 xi li∑ri=1 li

    ,

    gdzie x1, x2, . . . , xr oznaczają tu wartości zaoobserwowane dlaszeregu punktowego lub środki przedziałów klasowych dla szereguklasowego. Średnia arytmetyczna jest miarą wiarygodną tylko dlazbiorowości o niewielkim stopniu zróżnicowania obserwacji. Gdyrośnie asymetria (histogram nie ma osi symetrii) lub zbiorowośćjest wielomodalna (histogram ma więcej niż jedno maksimum)stosowalność wzoru traci sens.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Średnie pozycyjne

    Dominanta (moda) D – to taka wartość obserwacji, która wszeregu statystycznym występuje najczęściej, ma sens tylko dlazbiorowości jednomodalnych (o jednej wartości maksymalnej).Kwartyle: Q1 (dolny),Q2 (środkowy – mediana), Q3 (górny) dzieląszereg na 4 części, równe pod względem liczebności (po 25%obserwacji). Mediana (Me) – wartość znajdująca się dokładnie wśrodku szeregu uporządkowanego. Liczba obserwacji mniejszych odmediany jest równa ilości obserwacji większych o mediany. Medianato środkowy kwartyl.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Miary zmienności (dyspersji) – wariancja

    Wariancja pomiarów cechy x (ozn.: S2x := S2) – średnia

    arytmetyczna z kwadratów różnic poszczególnych,zaobserwowanych wartości cechy x od średniej arytmetycznej xwszystkich obserwacji.Dla szeregu surowego lub szczegółowego liczymy ją wg wzoru:

    S2 =1N

    N∑i=1

    (xi − x)2,

    Dla szeregów rozdzielczych użyjemy wzoru z wagami:

    S2 =1N

    r∑i=1

    li (xi − x)2, N =r∑

    i=1

    li .

    gdzie tutaj xi są wartościami zaobserwowanymi lub środkamiprzedziałów klasowych, natomiast li - liczebnościami związanymi zzaobserwowanymi wartościami xi lub ilościami obserwacjinależących do kolejnych przedziałów klasowych.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Wariancja - cd.

    W każdej sytuacji słuszny jest wzór:

    S2 = x2 − (x)2,

    gdzie x2 oznacza średnią arytmetyczną kwadratów obserwacji (tzw.średni kwadrat), tj.:

    x2 ==x21 + x

    22 + · · ·+ x2NN

    =

    ∑Ni=1 x

    2i

    N

    dla szeregu nieuporządkowanego, lub

    x2 =x21 l1 + x

    22 l2 + · · ·+ x2r lr

    l1 + l2 + · · ·+ lr=

    ∑ri=1 x

    2i li∑r

    i=1 li,

    dla szeregów rozdzielczych, gdzie x1, x2, . . . , xr oznaczają tuwartości obserwowane (szeregi punktowe) lub środki przedziałówklasowych (szeregi klasowe) związane z liczebnościami l1, l2, . . . , lr .Wariancja jest zawsze liczbą nieujemną, wyrażoną w kwadraciejednostki fizycznej użytej do pomiaru cechy x . Duża jej wartośćświadczy o dużym zróżnicowaniu (zmienności) obserwacji.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Odchylenie standardowe

    Odchylenie standardowe pomiarów cechy x (ozn.: Sx := S) jestpierwiastkiem kwadratowym z wariancji:

    S =√S2

    i określa o ile średnio obserwacje różnią się od średniejarytmetycznej pomiarów badanej cechy. Odchylenie standardowesłuży do do konstrukcji typowego przedziału zmienności dlabadanej cechy. W tym obszarze mieści się około 2/3 wszystkichwartości obserwowanych dla tej cechy. Typowy przedziałzmienności określa wzór:

    x − S ¬ x ¬ x + S .

    By porównywać zmienność dwóch zbiorowości użyjemyniemianowanego współczynnika zmienności (ozn. V ):

    V =S

    x· 100%.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Momenty

    Niech r będzie liczbą naturalną.Moment zwykły mr rzędu r dla szeregu x1, . . . , xN to

    mr =1N

    N∑i=1

    x ri .

    Moment centralny Mr rzędu r dla szeregu x1, . . . , xN to

    Mr =1N

    N∑i=1

    (xi − x)r .

    Dla szeregów rozdzielczych

    (xi , li ), i = 1, . . . , n, l1 + l2 + · · ·+ ln = N :

    mr =1N

    n∑i=1

    x ri li , Mr =1N

    n∑i=1

    (xi − x)r li .

    Pierwszy moment zwykły m1 jest średnią arytmetyczną. Pierwszymoment centralny M1 jest zawsze równy 0. Drugi momentcentralny M2 jest wariancją.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Miary asymetrii

    Dla rozkładów symetrycznych - histogram ma oś symetriiprzechodzacą przez wspólną wartość średniej arytmetycznej,dominanty i mediany - momenty centralne rzedów nieparzystych sąrówne 0. Stąd trzeci moment centralny wykorzystano dokonstrukcji współczynnika asymetrii (skośności)

    As =M3S3

    .

    Wartość AS jest:

    równa zero, dla zbiorowości symetrycznej,

    dodatnia, dla zbiorowości o asymetrii prawostronnej,

    ujemna, dla zbiorowości o asymetrii lewostronnej.

    Im większa wartość bezwzględna współczynnika skośności tymwiększa asymetria badanej zbiorowości.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • Miary koncetracji

    Czwarty moment centralny służy do pomiaru koncentracji(skupienia)

    K =M4S4

    .

    Współczynnik ten nazywa sie też kurtozą. Inny współczynnik tegorodzaju to eksces (współczynnik spłaszczenia), obliczamy gonastępujaco:

    K − 3 = M4S4− 3.

    Zachodzi ścisły związek między koncentracją wartości cechy wokółśredniej (smukłość histogramu) a ich dyspersją. Im większa jestdyspersja tym mniejsza jest koncentracja i vice versa.

    dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/

  • dr n. mat. Zdzisław Otachel Biostatystyka, # 1 /Weterynaria I/