37
Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014

Statystyka i Analiza Danych - Wydział Fizyki Technicznej ... wiedzy/stat-an-dan... · czynników głównych i czynników ubocznych. Janusz Wątroba (StatSoft Polska) – Zastosowania

Embed Size (px)

Citation preview

Warsztaty

Statystyka i Analiza Danych

Gdańsk, 20-22 lutego 2014

Zastosowania analizy wariancji w opracowywaniu

wyników badań empirycznych

Centrum Zastosowań Matematyki - Warsztaty - Statystyka i Analiza Danych

Janusz Wątroba

StatSoft Polska

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Plan wystąpienia

• Analiza wariancji – metoda analizy danych czy coś więcej

• Trochę o źródłach zmienności

• Przykład analizy wyników eksperymentu jednoczynnikowego

• Opracowanie wyników eksperymentu dwuczynnikowego z powtarzanymi pomiarami i efektem interakcji

• Bez obliczeń się nie obejdzie

• Analiza wyników eksperymentu zaplanowanego w układzie losowanych bloków (eliminacja niepożądanej zmienności systematycznej)

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Co oznacza termin: analiza wariancji?

• W węższym znaczeniu analizę wariancji można traktować jako uogólnienie testów istotności różnic pomiędzy wartościami oczekiwanymi w przypadku dwóch populacji

• W szerszym znaczeniu analiza wariancji obejmuje techniki analizy danych wykorzystywane w ramach działu statystycznej analizy stosowanej określanego terminem planowanie doświadczeń (ang. experimental design)

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Planowanie eksperymentu – trzy podstawowe decyzje

• Wybór zmiennej zależnej

• Ustalenie czynnika (ów) eksperymentalnych

• Dobór jednostek eksperymentalnych

Źródła zmienności wyników

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

• Zmienność powodowana przez czynniki eksperymentalne (pożądana)

• Zmienność związana z błędem pomiaru zmiennej zależnej (niepożądana)

• Zmienność wynikająca ze zróżnicowania materiału badawczego (niepożądana)

Rodzaje zmienności wyników

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

• Zmienność systematyczna, zaplanowana (pożądana)

• Zmienność przypadkowa (z którą można sobie poradzić)

• Zmienność systematyczna, niepożądana (może uniemożliwić wykazanie efektu, na którym zależy badaczowi)

Analiza wariancji od kuchni (bez obliczeń się nie obejdzie)

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Z punktu widzenia badacza wśród czynników mających wpływ

na zmienność wyników eksperymentu możemy wyróżnić

czynniki główne i czynniki uboczne

Jeśli eksperyment ma być naukową metodą rozwiązywania

problemów badawczych, to powinien być tak zaplanowany

by przy analizie jego wyników można było oddzielić wpływ

czynników głównych i czynników ubocznych

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Umowną miarą całkowitej zmienności wyników eksperymentu

jest suma kwadratów odchyleń poszczególnych wyników od

średniej ogólnej:

𝑆𝐾𝑐𝑎𝑙𝑘 = (𝑦𝑖𝑗 − 𝑦 )2

𝑛

𝑗=1

𝑝

𝑖=1

Analiza wariancji (ANOVA) polega na podziale całkowitej

zmienności wyników eksperymentu na dwa składniki,

odpowiadające zmienności spowodowanej przez czynniki główne

(zmienność międzygrupowa) oraz zmienności przypisanej

czynnikom ubocznym (zmienność wewnątrzgrupowa).

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Liczbową miarą pierwszego składnika jest suma kwadratów

odchyleń średnich grupowych od średniej ogólnej, nazywana

międzygrupową sumą kwadratów:

𝑆𝐾𝑚𝑖ę𝑑𝑧𝑦 = 𝑛 (𝑦𝑖 − 𝑦 )2

𝑝

𝑖=1

Liczbową miarą drugiego składnika jest suma kwadratów

odchyleń poszczególnych pomiarów w grupach od

odpowiednich średnich grupowych, nazywana

wewnątrzgrupową suma kwadratów odchyleń:

𝑆𝐾𝑤𝑒𝑤𝑛 = (𝑦𝑖𝑗 − 𝑦𝑖 )2

𝑛

𝑗=1

𝑝

𝑖=1

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Z poszczególnymi źródłami zróżnicowania wyników

eksperymentu są związane odpowiednie liczby stopni swobody

Wynoszą one odpowiednio:

𝑑𝑓𝑐𝑎𝑙𝑎 = p·n - 1

𝑑𝑓𝑚𝑖ę𝑑𝑧𝑦 = p - 1

𝑑𝑓𝑤𝑒𝑤𝑛 = p·(n - 1)

W następnym etapie oblicza się tzw. średnie kwadraty odchyleń

będące nieobciążonymi estymatorami wariancji z próby.

Aby obliczyć wartość średniego kwadratu dla danego źródła

zmienności sumy kwadratów dzieli się przez odpowiednie liczby

stopni swobody:

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Ś𝐾𝑐𝑎𝑙𝑎 = Ś𝐾𝑐𝑎𝑙𝑎

𝑑𝑓𝑐𝑎𝑙𝑎

Ś𝐾𝑚𝑖ę𝑑𝑧𝑦 = Ś𝐾𝑚𝑖ę𝑑𝑧𝑦

𝑑𝑓𝑚𝑖ę𝑑𝑧𝑦

Ś𝐾𝑤𝑒𝑤𝑛 = Ś𝐾𝑤𝑒𝑤𝑛

𝑑𝑓𝑤𝑒𝑤𝑛

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

ANOVA jednoczynnikowa jest metodą statystyczną, która

umożliwia ocenę prawdopodobieństwa tego, że różnice między

średnimi wyników p (p > 2) grup porównawczych nie są dziełem

przypadku

Formalnie hipoteza zerowa orzeka, że wartości średnich

grupowych p populacji są takie same (równe wartości średniej

ogólnej), czyli:

𝐻0: 𝜇1 = 𝜇2 = . . . = 𝜇𝑝 = 𝜇

Hipoteza alternatywna (H1) mówi, że w populacji średnie

grupowe nie są równe, czyli :

𝐻1: 𝑛𝑖𝑒𝑝𝑟𝑎𝑤𝑑𝑎, ż𝑒 𝐻0

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Miarą rozbieżności między hipotetycznym a rzeczywistym

stanem rzeczy (czyli rozbieżności między H0 a H1) jest w ANOVA

stosunek (iloraz) średnich kwadratów:

Ś𝐾𝑚𝑖ę𝑑𝑧𝑦

Ś𝐾𝑤𝑒𝑤𝑛

Jeżeli poziomy czynnika głównego nie mają wpływu na pomiary

zmiennej zależnej, to iloraz powinien być równy jedności

Jeżeli jednak poziomy czynnika głównego oddziałują w sposób

zróżnicowany na zmienną zależną, czyli inaczej mówiąc jeżeli H0

jest fałszywa wówczas powyższy iloraz będzie większy od

jedności. O ile większy, to zależy od różnicy między

zaobserwowanymi (zmierzonymi) średnimi grupowymi

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Interesująca nas miara rozbieżności między stanem rzeczy

wynikającym z hipotezy zerowej a stanem rzeczy wynikającym z

danych eksperymentalnych, czyli iloraz średnich kwadratów ma

postać statystyki F:

F = Ś𝐾𝑚𝑖ę𝑑𝑧𝑦

Ś𝐾𝑤𝑒𝑤𝑛

o odpowiednio stopniach swobody p-1 i p·(n-1)

Ocenę prawdziwości hipotezy zerowej dokonuje się w oparciu o

te same zasady jak w przypadku innych testów

Podstawowe założenia ANOVA

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

• Zmienna zależna powinna być wyrażona przynajmniej na skali przedziałowej

• Zmienna zależna powinna podlegać rozkładowi normalnemu w obrębie grup porównawczych

• Wariancje w obrębie różnych grup układu powinny być równe; założenie to jest określane jako założenie o jednorodności (homogeniczności) wariancji

Jednoczynnikowa analiza wariancji (przykład analizy w STATISTICA)

• Problem badawczy: Ocena zróżnicowania odsetka zębów

objętych próchnicą przy stosowaniu czterech różnych

substancji słodzących

• Badana zbiorowość: 48 samic szczurów w wieku 6 tyg.

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Sprawdzenie założeń – normalność rozkładu

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Sprawdzenie założeń – równość wariancji

Ocena istotności efektu zróżnicowania – test F

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Graficzna ilustracja efektu zróżnicowania

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Porównania szczegółowe – testy post-hoc

Graficzna ilustracja danych surowych

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Dwuczynnikowa analiza wariancji (przykład analizy w STATISTICA)

• Problem badawczy: Ocena wpływu dwóch różnych leków

na przebieg i efekty leczenia

• Badana zbiorowość: Pacjenci hospitalizowani

z rozpoznaniem zespołu maniakalno-depresyjnego

o przebiegu depresji

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Ocena istotności efektów – testy F

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Graficzna ilustracja efektów prostych

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Graficzna ilustracja efektu interakcji

Porównania zaplanowane szczegółowych różnic

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Analiza wariancji dla układu blokowego (przykład analizy w STATISTICA)

• Problem badawczy: Ocena skuteczności różnych sposobów

zwalczania chwastów w przypadku uprawy ziemniaków

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Ocena istotności efektu zróżnicowania – test F (bez uwzględnienia bloków)

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Graficzna ilustracja efektu zróżnicowania

Porównania szczegółowe – testy post-hoc (bez uwzględnienia bloków)

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Porównania szczegółowe – testy post-hoc (bez uwzględnienia bloków)

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Ocena istotności efektu zróżnicowania – test F (z uwzględnieniem bloków)

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Porównania szczegółowe – testy post-hoc (z uwzględnieniem bloków)

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Porównania szczegółowe – testy post-hoc (z uwzględnieniem bloków)

Janusz Wątroba (StatSoft Polska) – Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych

Dziękuję za uwagę !

[email protected]