54
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez statystycznych 5. Testy parametryczne (na przykładzie testu t ) 6. Testy nieparametryczne (na przykładzie testu 2 ) 7. Korelacja i regresja liniowa i nieliniowa 8. Analiza wariancji Copyright ©2010, Joanna Szyda

STATYSTYKA MATEMATYCZNAgen.up.wroc.pl/ddakt/statystyka/wyklad7.pdf · 2012. 10. 15. · STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

  • STATYSTYKA MATEMATYCZNA

    1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki

    2. Zmienne losowe i ich rozkłady3. Populacje i próby danych, estymacja parametrów4. Testowanie hipotez statystycznych5. Testy parametryczne (na przykładzie testu t )6. Testy nieparametryczne (na przykładzie testu 2 )7. Korelacja i regresja liniowa i nieliniowa8. Analiza wariancji

    Copyright ©2010, Joanna Szyda

  • KORELACJA

    Copyright ©2010, Joanna Szyda

    1. Korelacja liniowa Pearsona• obliczanie• testowanie

    2. Korelacja rangowa Spearmana• obliczanie• testowanie

    WSPÓŁCZYNNIK KORELACJI – miara wielkości (siły)zależności dwóch zmiennych losowych

  • Copyright ©2010, Joanna Szyda

    WSPÓŁCZYNNIK KORELACJI PEARSONA

  • WSPÓŁCZYNNIK KORELACJI PEARSONA - definicja

    yxyx

    xyyxyxr

    ).cov(),cov(22

    Copyright ©2010, Joanna Szyda

    gdzie:

    1)(

    1)( 22

    22

    nyy

    nxx i

    yi

    x ,

    1))((

    ),cov(

    nyyxx

    yx

    wariancje

    kowariancja

    (n – liczba par obserwacji w próbie)

  • WSPÓŁCZYNNIK KORELACJI PEARSONA - obliczanie

    1. Miara siły zależności dwóch zmiennych (x, y)2. Założenia:

    • zmienne x, y - ciągłe• normalny rozkład zmiennych• zależność liniowa

    3. rxy przyjmuje wartości z przedziału [ -1, 1 ]

    n

    i

    n

    iii

    n

    iii

    yxxy

    yyxx

    yyxxyxr

    1 1

    22

    1).cov(

    Copyright ©2010, Joanna Szyda

  • Copyright ©2010, Joanna Szyda

    WSPÓŁCZYNNIK KORELACJI PEARSONA - przykłady

  • Copyright ©2010, Joanna Szyda

    WSPÓŁCZYNNIK KORELACJI PEARSONA - przykłady

  • Copyright ©2010, Joanna Szyda

    PRÓBA DANYCH

    MASACIAŁA

    ZAW. TŁUSZCZU

    89 28

    88 27

    66 24

    59 23

    93 29

    73 25

    82 29

    77 25

    100 30

    67 23

    rmt = 0.94

    WSPÓŁCZYNNIK KORELACJI PEARSONA - przykłady

  • Copyright ©2010, Joanna Szyda

    WSPÓŁCZYNNIK KORELACJI PEARSONA - testowanie

    1. Hipotezy• H0: brak korelacji między masą ciała, a zaw. tłuszczu• H1: istnieje korelacja między masą ciała, a zaw. tłuszczu• H0: rmt = 0 H1: rmt 0

    2. Założone maksymalne prawdopodobieństwo błędu MAX = 0.013. Test:

    4. Prawdopodobieństwo błędu dla t=7.47 wynosi T=0.00007

    5. MAX > T6. H17. Występuje dodatnia korelacja między masą ciała, a zawartością

    tłuszczu

    22~

    1

    2

    N

    mt

    mt tr

    Nrt

  • WSPÓŁCZYNNIK KORELACJI SPEARMANA

  • Copyright ©2010, Joanna Szyda

    WSPÓŁCZYNNIK KORELACJI SPEARMANA - definicja

    1. Miara zależności dwóch zmiennych (x,y)

    2. Brak założeń dotyczących rozkładu zmiennych

    3. Brak założeń dotyczących liniowej zależności

    4. Test nieparametryczny

    5. Wykorzystuje ranking obserwacji

    6. Przyjmuje wartości z przedziału [ -1, 1 ]

    16

    1 21

    2

    NN

    dn

    ii

    xy

    d - różnica w rankingu

    zmiennych x i y

  • Copyright ©2010, Joanna Szyda

    WSPÓŁCZYNNIK KORELACJI SPEARMANA - przykłady

  • Copyright ©2010, Joanna Szyda

    PRÓBA DANYCH1. 18 samców Fregata magnificens

    2. Powiązanie objętości worka z częstotliwością wydawanego dźwięku

    objętość[cm3]

    częstotliwość[Hz]

    1760 529

    2040 566

    2440 473

    2550 461

    2730 465

    2740 532

    3010 484

    3080 527

    3370 488

    3740 485ct = - 0.76

    WSPÓŁCZYNNIK KORELACJI SPEARMANA- przykłady

  • Copyright ©2010, Joanna Szyda

    1. Hipotezy• H0: brak korelacji między objętością, a częstotliwością• H1: istnieje korelacja między objętością, a częstotliwością• H0: ct = 0 H1: ct 0

    2. Założone maksymalne prawdopodob. błędu MAX = 0.013. Test:

    4. Prawdopodobieństwo błędu dla t=-4.68 wynosi T=0.00019

    5. MAX > T6. H17. Występuje ujemna korelacja między objętością worka, a

    częstotliwością dźwięku

    22~

    12

    Nt

    Nt

  • KORELACJA → określanie siły zależności(podobieństwa) zmiennych zależnych (przy pomocy współczynnika korelacji)

    Jeśli zmienne są zależne → można próbowaćprzewidzieć wartości jednej zmiennej na podstawie wartości przyjmowanych przez drugą

    REGRESJA → określanie modelu zależności zmiennych i wykorzystanie tego modelu do przewidywania wartości nieznanych na podstawie wartości obserwowanych (zmierzonych)

    Ten matematyczny model to równanie regresji

  • REGRESJA

    Regresja liniowa

    1. Równanie regresji liniowej

    2. Estymacja współczynników prostej regresji

    3. Przykłady równań regresji

    Regresja nieliniowa

    1. Dane pochodzące z rozkładu dwumianowego

    2. Transformacje danych dwumianowych

    3. Równanie regresji logistycznej

    Dopasowanie równania regresji

    Copyright ©2010, Joanna Szyda

  • REGRESJA LINIOWA

  • Copyright ©2010, Joanna Szyda

    22

    2324

    2526

    27

    2829

    30

    50 60 70 80 90 100

    masa ciała

    zaw

    . tłu

    szcz

    u

    RÓWNANIE REGRESJI

  • Copyright ©2010, Joanna Szyda

    RÓWNANIE REGRESJI

    xyxxyyxxyy

    xxyy

    10

    11

    11

    1 )(

    2

    ),cov(

    x

    yxxy 1

  • Copyright ©2010, Joanna Szyda

    22

    2324

    2526

    27

    2829

    30

    50 60 70 80 90 100

    masa ciała

    zaw

    . tłu

    szcz

    u

    22

    2324

    2526

    27

    2829

    30

    50 60 70 80 90 100

    masa ciała

    zaw

    . tłu

    szcz

    u

    nachylenie

    błąd

    wyraz wolny

    RÓWNANIE REGRESJI

    xy 10

    0

    1

  • Copyright ©2010, Joanna Szyda

    22

    2324

    2526

    27

    2829

    30

    50 60 70 80 90 100

    masa ciała

    zaw

    . tłu

    szcz

    u

    RÓWNANIE REGRESJI

    22

    2324

    2526

    27

    2829

    30

    50 60 70 80 90 100

    masa ciała

    zaw

    . tłu

    szcz

    uWartość zaobserwowana (y)

    Wartość przewidziana (ŷ)

  • Copyright ©2010, Joanna Szyda

    METODA NAJMNIEJSZYCH KWADRATÓWJak wyznaczyć parametry równania regresji ?

    xy 10 Tak aby odległości obserwacji od prostej były jak najmniejsze:

    metoda najmniejszych kwadratów

    22

    2324

    2526

    27

    2829

    30

    50 60 70 80 90 100

    masa ciała

    zaw

    . tłu

    szcz

    u

  • Copyright ©2010, Joanna Szyda

    METODA NAJMNIEJSZYCH KWADRATÓW

    22

    2324

    2526

    27

    2829

    30

    50 60 70 80 90 100

    masa ciała

    zaw

    . tłu

    szcz

    u

    ( )2 → minimum

  • Copyright ©2010, Joanna Szyda

    METODA NAJMNIEJSZYCH KWADRATÓW

    minˆ1

    210

    1

    2

    N

    iii

    N

    iii xyyy

    00

    1

    1

    210

    0

    1

    210

    N

    iii

    N

    iii xy

    ixy

    02021

    101

    10

    N

    iiii

    N

    iii xyxixy

  • Copyright ©2010, Joanna Szyda

    METODA NAJMNIEJSZYCH KWADRATÓW

    xy 10

    N

    ii

    N

    iii

    x xx

    yyxxyx

    1

    2

    12

    ),cov(

    xy 1

  • Copyright ©2010, Joanna Szyda

    WSPÓŁCZYNNIK REGRESJI A WSPÓŁCZYNNIK KORELACJI

    x

    y

    x

    ryxb

    2

    ),cov(

    Współczynnik regresji informuje, o ile zmieni sięwartość zmiennej y, jeśli wartość zmiennej x zmieni się o 1

    y – zmienna objaśniana, zmienna zależna, zmienna nieznana (niedostępna, niemierzona, nieobserwowana)

    x – zmienna objaśniająca, zmienna niezależna (znana, dostępna, obserwowana, zmierzona)

  • Copyright ©2010, Joanna Szyda

    WAŻONA METODA NAJMNIEJSZYCH KWADRATÓW

    xy 10

    JAK WYZNACZYĆ PARAMETRY RÓWNANIA REGRESJI JEŻELI x MIERZONE SĄ ZE ZRÓŻNICOWANĄ

    DOKŁADNOŚCIĄ?

    WAŻENIE OBSERWACJI

  • Copyright ©2010, Joanna Szyda

    WAŻONA METODA NAJMNIEJSZYCH KWADRATÓW

    xy 1

    WAŻENIE OBSERWACJI

    xy 10

    2

    ),(cov

    ixi

    ii

    wyxw

  • Copyright ©2010, Joanna Szyda

    PRZYKŁADY RÓWNAŃ REGRESJI

    WIELOMIANY

    xy 10 1. stopnia

    2. stopnia 3. stopnia2

    210 xxy 332

    210 xxxy

  • Copyright ©2010, Joanna Szyda

    PRZYKŁADY RÓWNAŃ REGRESJI

    REGRESJA LOGARYTMICZNA

    110 ln xy

  • Copyright ©2010, Joanna Szyda

    PRZYKŁADY RÓWNAŃ REGRESJI

    REGRESJA WIELOKROTNA

    MASACIAŁA WZROST

    ZAW. TŁUSZCZU

    89 154 28

    88 176 27

    66 166 24

    59 189 23

    93 199 29

    73 160 25

    82 178 29

    77 158 25

    100 173 30

    67 169 23

    110 xy ztztzt

    110 xy wzwzwz

    wz

    zt

    wz

    zt

    wz

    zt

    zt

    x

    xx

    y

    yy

    1

    1

    0

    0

    1

    2

    1

    1

    2

    1

    010............001001

    ...

  • REGRESJA NIELINIOWA

  • Copyright ©2010, Joanna Szyda

    DANE

    PRÓBA DANYCHchore zdrowe

    gr. badawcza 21 2

    gr. kontrolna 19 13

    1. Grupa badawcza – staty kontakt z dymem tytoniowym2. Grupa kontrolna – brak kontaktu3. Wynik sekcji po 1 roku badań – zmiany nowotworowe w

    płucach

  • Copyright ©2010, Joanna Szyda

    DANE

    PRÓBA DANYCH

    1. Dane nie mają rozkładu normalnego

    2. Y { chory, zdrowy } → rozkład dwumianowy

    3. Określamy prawdopodobieństwo zachorowania w każdej grupie

    choroba [y]

    grupa [x]

    1 0=b.

    1 0

    0 0

    ... ...

    1 1=k.

    1 1

    0 1

  • Copyright ©2010, Joanna Szyda

    TRANSFORMACJA DANYCH

    0prawdopodobieństwo 1

    - funkcja

    prawdopodobieństwa +

    transformacja

  • Copyright ©2010, Joanna Szyda

    TRANSFORMACJA DANYCH

    Transformacja logistyczna

    p

    pp

    1

    lnlogit

    p→0 logit(p)→-

    p→1 logit(p)→+

    p=0.5 logit(p)=0

  • Copyright ©2010, Joanna Szyda

    TRANSFORMACJA DANYCH

    Transformacja logistyczna

    p

    pp

    1

    lnlogit

    zależność nieliniowa

    zależność liniowa

  • Copyright ©2010, Joanna Szyda

    1. Transformacja logit - najczęściej stosowana

    2. Inne transformacje „prawdopodobieństwo → funkcja prawdopodobieństwa”:

    • probit (podobna do logit, trudniejsza do obliczenia)

    • log-log (stosowana przy niesymetrycznościwzględem p=0.5)

    TRANSFORMACJA DANYCH

  • Copyright ©2010, Joanna Szyda

    RÓWNANIE REGRESJI LOGISTYCZNEJ

    x

    xe

    ep

    xppp

    p

    p

    p

    10

    10)(logit

    )(logit

    10

    exp1 exp

    1

    )1ln()ln(1

    lnplogit

  • Copyright ©2010, Joanna Szyda

    PRÓBA DANYCH

    1. Równanie regresjichoroba

    [y]grupa

    [x]1 0=b.1 00 0... ...1 1=k.1 10 1

    xp

    p 972.1351.21

    lnplogit

    3. Prawdopodobieństwo zachorowania w grupie badawczej:

    913.00972.1351.2exp10972.1351.2exp

    bp

    2. Prawdopodobieństwo zachorowania jest mniejsze w grupie kontrolnej

    4. Prawdopodobieństwo zachorowania w grupie kontrolnej:

    594.01972.1351.2exp1

    1972.1351.2exp

    kp

    PRZYKŁAD

  • PRZYKŁADY

  • Copyright ©2010, Joanna Szyda

    INTERPRETACJA WYNIKÓW RÓWNAŃ REGRESJI

  • Copyright ©2010, Joanna Szyda

    INTERPRETACJA RÓWNAŃ REGRESJI

    temp21.036.8interval

    1. Wraz ze wzrostem temperatury czas pomiędzy odgłosami skraca się

    2. Wzrost temperatury o 1°C powoduje skrócenie odstępu o 0.21 s.

    3. W temperaturze 10°C osobniki wydają dogłosy średnio co 6.26 s. :

    26.61021.036.8interval

  • Copyright ©2010, Joanna Szyda

    INTERPRETACJA RÓWNAŃ REGRESJI

  • Copyright ©2010, Joanna Szyda

    INTERPRETACJA RÓWNAŃ REGRESJI

    1. Model:

    2. Partnerzy, którzy w 2003 r. mieli średnio 40 lat oraz, u których mąż jest starszy o 15 mają średnio 2.42 dzieci:

    3. Partnerzy, którzy w 2003 r. mieli średnio 25 lat oraz, u których mąż jest starszy o 4 mają średnio 2.66 dzieci:

    2r_w002.0r_w03.0wiek01.082.2n_dzieci

    42.215002.01503.04001.082.2n_dzieci 2

    66.24002.0403.02501.082.2n_dzieci 2

  • Copyright ©2010, Joanna Szyda

    PRZYKŁAD

  • DOPASOWANIE RÓWNANIA REGRESJI LINIOWEJ

  • Copyright ©2010, Joanna Szyda

    RÓWNANIE REGRESJI

    BŁĄD → różnica między y a ŷ

    22

    2324

    2526

    27

    2829

    30

    50 60 70 80 90 100

    masa ciała

    zaw

    . tłu

    szcz

    uWartość zaobserwowana (y)

    Wartość przewidziana (ŷ)

  • Copyright ©2010, Joanna Szyda

    DOPASOWANIE REGRESJI LINIOWEJ

    zmienność "y"

    wyjaśniona przez równanie regresji

    wyjaśniona przez równanie regresji

    zaobserwowanazaobserwowana

    n

    ii yy

    1

    n

    ii yy

    1

    2

    n

    ii

    n

    ii

    yy

    yyR

    1

    2

    1

    2

    2

    ˆ

  • Copyright ©2010, Joanna Szyda

    n

    ii

    n

    ii

    yy

    yyR

    1

    2

    1

    2

    DOPASOWANIE REGRESJI LINIOWEJ

    jaka częśćobserwowanej

    zmienności została wyjaśniona przez równanie regresji

    WSPÓŁCZYNNIK DETERMINACJI

    przyjmuje wartości od 0 do 1;

    im bliższy 1 tym lepsze dopasowanie modelu

    regresji

  • Copyright ©2010, Joanna Szyda

    DOPASOWANIE REGRESJI LINIOWEJ - przykład

    PRÓBA DANYCH

    1. Zmienna niezależna

    2. Zmienna zależna, rozkład ciągłyMASACIAŁA

    ZAW. TŁUSZCZU

    89 28

    88 27

    66 24

    59 23

    93 29

    73 25

    82 29

    77 25

    100 30

    67 23

    masa_ciała19.057.11tluszcz

    R2 = 0.37

  • Copyright ©2010, Joanna Szyda

    HISTOGRAM DIAGNOSTYCZNY

    2,0~ˆ eiii Neyy Założenie regresji liniowej:

  • KORELACJA - podsumowanie

    Copyright ©2010, Joanna Szyda

    1. Współczynnik korelacji liniowej Pearsona

    • obliczanie

    • testowanie

    2. Współczynnik korelacji rangowej Spearmana

    • obliczanie

    • testowanie

  • REGRESJA

    Regresja liniowa

    1. Równanie regresji liniowej

    2. Estymacja współczynników regresji

    3. Przykłady równań regresji

    Regresja nieliniowa

    Regresja logistyczna - przykład

    Dopasowanie równania regresji

    Copyright ©2010, Joanna Szyda