Upload
doanmien
View
234
Download
0
Embed Size (px)
Citation preview
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
1
Instrukcja do laboratorium
LaboratoriumV: Podstawy korelacji i regresji
Spis treści Laboratorium V: Podstawy korelacji i regresji ......................................................................................1
Wiadomości ogólne ............................................................................................................................2
1. Wstęp teoretyczny. .................................................................................................................2
1.1 Korelacja. ..............................................................................................................................2
1.2 Funkcja regresji. ....................................................................................................................5
2. Korelacja i regresja w STATISTICE ............................................................................................6
2.1 Macierz korelacji wszystkich zmiennych. ...............................................................................6
2.2 Macierz korelacji dla wybranych zmiennych. .........................................................................8
2.3 Test istotności związku pomiędzy zmiennymi. .......................................................................9
2.4 Kolorowa mapa korelacji ..................................................................................................... 10
2.5 Wykresy rozrzutu dla korelacji liniowej. ............................................................................... 10
2.6 Dopasowanie krzywej regresji do zależności liniowych i nieliniowych. ................................. 11
Ćwiczenia.......................................................................................................................................... 13
Częśd I ....................................................................................................................................... 13
Częśd II ...................................................................................................................................... 14
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
2
Instrukcja do laboratorium
Wiadomości ogólne
1. Wstęp teoretyczny.
1.1 Korelacja.
Korelacja to narzędzie matematyczne służące do dokładnego określenia stopnia, w jakim dwie
zmienne są ze sobą powiązane. W badaniach korelacji określa się siłę, kształt oraz kierunek takiego
powiązania.
Jeśli chodzi o postad, można mówid o dwóch rodzajach zależności (rys.1):
Liniowej;
Krzywoliniowej;
Rys.1 Wykresy rozrzutu obrazujące zależności pomiędzy zmiennymi X i Y: liniową i przykładową
krzywoliniową.
Istnieją też dwa rodzaje związku pomiędzy zmiennymi: funkcyjny i statystyczny. Funkcyjny ma
miejsce wtedy, gdy każdej wartości zmiennej niezależnej X odpowiada dokładnie jedna wartośd
zmiennej zależnej Y. Związek statystyczny polega na tym, że określonym wartościom jednej zmiennej
odpowiadają ściśle określone wartości drugiej zmiennej. Można zatem obliczyd wartośd zmiennej
zależnej Y w zależności od wartości zmiennej niezależnej X. Na rys.1 związki pomiędzy zmiennymi
mają charaktery statystyczny. Wykresy ilustrujące związki pomiędzy zmiennymi to wykresy rozrzutu.
Na osi pionowej zaznacza się zmienną zależną, natomiast na poziomej – niezależną. Najczęściej
punkty odpowiadające poszczególnym wartościom cech leżą mniej więcej wzdłuż linii korelacji.
Korelacja dodatnia występuje wtedy, gdy wraz ze wzrostem wartości jednej cechy, wzrastają
wartości drugiej.
Korelacja ujemna – gdy wraz ze wzrostem wartości jednej cechy maleją wartości drugiej.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
3
Instrukcja do laboratorium
Rys.2 Od lewej: korelacja dodatnia, korelacja ujemna, brak korelacji pomiędzy zmiennymi.
Siłę związku pomiędzy zmiennymi określa się przy pomocy wielu parametrów liczbowych. Pierwszym
z nich jest kowariancja. Załóżmy, że w wyniku pewnego doświadczenia uzyskano pary liczb ,
gdzie Tak przedstawioną zmienną nazywamy dwuwymiarową zmienną losową
i oznaczamy jako . Kowariancję dla takiej próby wyliczamy wg wzoru:
Gdzie oraz to średnie obu zmiennych. Wyliczona w ten sposób na podstawie próby kowariancja
jest oczywiście estymatorem kowariancji populacji. Jeżeli małym wartościom zmiennej X
odpowiadają małe wartości zmiennej Y, natomiast dużym wartościom X – duże wartości Y, to
kowariancja przyjmuje wartośd dodatnią – obydwa iloczyny są w większości dodatnie. Dodatnia
wartośd kowariancji oznacza, że przy wzroście wartości zmiennej X wzrastają także wartości zmiennej
Y, a więc mamy do czynienia z korelacją dodatnią. Jeśli ze wzrostem wartości zmiennej X, wartości
zmiennej Y maleją – korelacja ujemna. Gdy zmienne nie są skorelowane, wówczas .
Wadą kowariancji jest fakt, że jej wartośd zależy od jednostek pomiaru cech – nie można zatem
oceniad siły zależności.
Okazuje się jednak, że wystarczy kowariancję podzielid przez iloczyn odchyleo standardowych, aby
otrzymad miarę siły powiązania niezależną od jednostki pomiarowej, przyjmującą wartości
z przedziału . Jest to współczynnik korelacji liniowej Pearsona:
Gdzie oraz to średnie obu zmiennych, natomiast oraz to odchylenia standardowe. Znak
współczynnika informuje o kierunku korelacji („+” oznacza korelację dodatnią, natomiast „-
”ujemną), natomiast wartośd bezwzględna mówi o sile związku (patrz Tab.1). Współczynnik
stosuje się, gdy zależnośd pomiędzy zmiennymi jest liniowa.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
4
Instrukcja do laboratorium
Tab.1 Siła związku na podstawie współczynnika korelacji liniowej Pearsona.
rxy = 0 zmienne nie są skorelowane;
0 < rxy <0,1 korelacja nikła;
0,1 ≤rxy<0,3 korelacja słaba;
0,3 ≤rxy<0,5 korelacja przeciętna;
0,5 ≤rxy <0,7 korelacja wysoka;
0,7 ≤rxy <0,9 korelacja bardzo wysoka;
0,9 ≤rxy <1 korelacja prawie pełna.
Podobnie jak w przypadku innych parametrów statystycznych, współczynnik korelacji liniowej
Pearsona dla populacji generalnej nie jest znany. Należy go oszacowad na podstawie danych z próby.
Wyznaczony w ten sposób parametr jest estymatorem współczynnika korelacji w populacji
generalnej, oznaczanego jako ρ. Na podstawie wartości rxy wyznaczonej dla danych z próby można
wnioskowad na temat występowania związku i jego siły pomiędzy cechami dla całej populacji. Do
sprawdzenia, czy w populacji również występuje związek pomiędzy zmiennymi, wykorzystuje się
odpowiednie testy statystyczne.
Test istotności współczynnika korelacji Pearsona.
Założenia testu: zmienne X i Y mają dwuwymiarowy rozkład normalny o nieznanym współczynniku
korelacji liniowej . Z populacji wylosowano n-elementową próbę, na podstawie której wyliczono
parametr rxy. Hipotezy wyglądają następująco:
H0: ρ = 0
H1: ρ ≠ 0 (lub ρ <0, lub ρ >0)
Do zweryfikowania tak sformułowanej hipotezy zerowej wykorzystujemy statystykę testową:
Test z o rozkładzie normalnym
Dla
Test t o rozkładzie t-Studenta o (n-1) stopniach swobody
Dla
Przeprowadzenie testu istotności dla współczynnika korelacji pozwala stwierdzid, czy zależnośd
pomiędzy zmiennymi X i Y widoczna dla danych z próby jest tylko przypadkowa, czy jest
prawidłowością dla całej populacji.
Podsumowując rozważania na temat korelacji, przy interpretacji współczynnika należy pamiętad:
Najważniejsza jest istotnośd korelacji – nie interesują nas korelacja, która jest bardzo wysoka,
ale nie jest istotna;
Wartośd współczynnika korelacji linowej bliska 0, nie zawsze oznacza brak jakiejkolwiek
korelacji, jedynie brak korelacji liniowej.
Na wartośd współczynnika duży wpływ mają wartości odstające.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
5
Instrukcja do laboratorium
1.2 Funkcja regresji.
Funkcja regresji jest z kolei narzędziem do badania mechanizmu powiązania pomiędzy zmiennymi.
Wybór postaci funkcji regresji dokonuje się po wstępnej analizie materiału statystycznego, na
podstawie wykresu rozrzutu lub źródeł literaturowych opisujących zależności, jakich dla danych
zmiennych można się spodziewad. Najprostszymi, a jednocześnie najczęściej spotykanymi
zależnościami są te, które mają postad liniową. Krzywe regresji dla postaci liniowej to proste regresji,
mające następującą postad:
y = ax +b
Gdzie: x oraz y to wartości cech odpowiednio dla zmiennej X oraz Y. Parametry równania dla prostej
regresji szacuje się metodą najmniejszych kwadratów. Parametr a nosi nazwę parametru regresji,
natomiast parametr b to wyraz wolny równania regresji. Parametr jest estymatorem współczynnika
regresji liniowej. Określa o ile jednostek zmieni się (wzrośnie lub zmaleje) wartośd zmiennej zależnej,
podczas gdy wartośd zmiennej niezależnej zmieni się (wzrośnie lub zmaleje) o jedną jednostkę.
Współczynnik ten ma duże znaczenie przy interpretacji zależności. Na wykresach rozrzutu
sporządzanych w STATISTICE obok prostej zaznaczane są przerywane linie określające 95% przedział
ufności dla prostej. Daje to pełniejszą informację o linii regresji. Wyznaczone granice ufności są różne
dla różnych wartości zmiennej X, ulegają rozszerzeniu wraz z oddalaniem się od wartości średniej dla
tej zmiennej. Obszar pomiędzy tymi krzywymi to przedział ufności.
Rys.3 Prosta regresji wraz z 95% przedziałem ufności, którego granice wyznaczają przerywane linie.
W wyniku dopasowywania prostej regresji pakiet STATISTICA wylicza również współczynnik
determinacji R2. Współczynnik ten jest jedną z podstawowych miar jakości dopasowania modelu.
Współczynnik determinacji wyliczamy jako iloraz:
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
6
Instrukcja do laboratorium
Współczynnik ten określa jaka częśd zmienności całkowitej zmiennej losowej Y została wyjaśniona
regresją liniową względem zmiennej X. Gdzie sumy kwadratów odchyleo spełniają równanie:
Równośd ta wyraża podział całkowitej sumy kwadratów odchyleo dla zmiennej Y na dwa
składniki: – sumę kwadratów odchyleo wyjaśnioną efektem regresji oraz – resztową
sumę kwadratów odchyleo nie wyjaśnioną regresją. Czyli biorąc pod uwagę odchylenia od średniej
wszystkich punktów zmiennej Y:
2. Korelacja i regresja w STATISTICE
2.1 Macierz korelacji wszystkich zmiennych.
Z poziomu menu głównego można też wejśd do okna służącego do analizy regresji:
Statystyka/Regresja wieloraka:
Rys.4 Okno regresji wielorakiej.
W oknie tym naciskając na przycisk Zmienne, dokonuje się wyboru zmiennych do analizy. Jako
zmienną niezależną należy wskazad Czas, natomiast jako zmienne zależne, pozostałe zmienne. W tym
samym oknie, ale w zakładce Więcej można zaznaczyd dodatkowo opcję Przeglądaj statystyki
opisowe, macierze korelacji. Można tu wybrad także działanie dla sytuacji, w której brakuje danych –
najczęściej zaznacza się usuwanie przypadkami. Po wciśnięciu przycisku OK pojawia się okno:
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
7
Instrukcja do laboratorium
Rys.5. Przegląd statystyk opisowych.
W oknie tym w poszczególnych zakładkach znajdują się różne przyciski, najwięcej w zakładce Więcej.
Aby uzyskad wykresy rozrzutu dla wszystkich poszczególnych zmiennych ze sobą należy kliknąd na
przycisk Macierzowy wykres korelacji.
Rys.6 Macierz korelacji dla wszystkich zmiennych.
Analiza tych wykresów, pozwala stwierdzid pomiędzy którymi zmiennymi będzie występowała
korelacja, jaka jest też jej postad. W dwiczeniu najbardziej interesuje nas wpływ Czasu na rozwój
komórek w poszczególnych środowiskach (wykresy rozrzutu, w których czas jest na osi poziomej). Na
podstawie analizy Macierzowego wykresu korelacji można stwierdzid w których środowiskach
komórki mają sprzyjające warunki wzrostu, w których nie.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
8
Instrukcja do laboratorium
2.2 Macierz korelacji dla wybranych zmiennych.
W celu zgromadzenia na jednym wykresie macierzowym tylko tych zmiennych, które charakteryzują
się np. korelacją ujemną należy wejśd w menu głównym w Statystyki/Statystyki podstawowe
i tabele, a następnie wybrad Macierze korelacji:
Rys.7 Statystyki podstawowe i tabele.
Po wejściu do Macierzy korelacji pojawia się okno:
Rys.8 Okno korelacji, po lewej zakładka Podstawowe, po prawej zakładka Więcej.
Przycisk Macierz wykresów rozrzutu dla wybranych zmiennych pozwala sporządzid taki macierzowy
wykres jedynie dla wybranych zmiennych. W przypadku dwiczenia należy pamiętad, że zmienna czas
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
9
Instrukcja do laboratorium
będzie odpowiadad osi x. Na rys. 9 przedstawiono wykresy rozrzutu dla wszystkich zmiennych, które
wykazują ujemną korelację utworzony za pomocą przycisku Macierz wykresów rozrzutu:
Rys.9 Macierzowy wykres korelacji dla danych wykazujących ujemna korelację.
2.3 Test istotności związku pomiędzy zmiennymi.
Następnie w zakładce Opcje w oknie z rys. 10 można przeprowadzid test statystyczny istotności
korelacji. Hipoteza zerowa domyślnie zakłada brak korelacji pomiędzy zmiennymi, alternatywna
natomiast mówi o tym, że korelacja występuje (zobacz jak wyglądają hipotezy w teście istotności
współczynnika korelacji liniowej w rozdz.1.1). W odpowiednim miejscu można wybrad wartośd
poziomu istotności, dla którego test zostanie przeprowadzony.
Rys.10 Wybór parametrów testu korelacji.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
10
Instrukcja do laboratorium
Aby przeprowadzid test, należy wcisnąd przycisk Podsumowanie dostępny w prawym górnym rogu
okna, a następnie wskazad zmienne dla których zostaną jednocześnie wyliczone współczynniki
korelacji liniowej Pearsona oraz zostanie przeprowadzony test. W jednej liście zmiennych należy
wskazad wszystkie zmienne zależne, a w osobnej zmienną niezależną. W wyniku tego działania
wyświetli się tabela zawierająca wartości współczynnika korelacji liniowej Pearsona wszystkich
wybranych zmiennych zależnych ze zmienną niezależną.
Rys.11 Wynik testu, współczynniki korelacji.
Podświetlone na czerwono wartości wskazują, gdzie na zadanym poziomie istotności (jeśli został
ustawiony dla podświetlenia) należy odrzucid hipotezę zerową mówiąca o braku korelacji między
zmiennymi. Na podstawie znaku oraz wartości tego parametru można określid siłę związku.
2.4 Kolorowa mapa korelacji
W zakładce Kolory można jeszcze wybrad, jakie parametry zostaną wyświetlone w macierzy korelacji
– najlepiej wybrad Prostą macierz (wartości r). Dostępny w tej zakładce przycisk mapa kolorowa
pozwala uzyskad macierz korelacji pokolorowaną w zależności od wielkości i znaku współczynnika r.
Rys.12 Kolorowa mapa korelacji.
2.5 Wykresy rozrzutu dla korelacji liniowej.
Przy pozostawieniu takiego samego wyboru zmiennych, zmieniając zakładkę w oknie Korelacji
(rys.13) na zakładkę Więcej, można sporządzid osobne wykresy rozrzutu dla każdej zmiennej
względem czasu.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
11
Instrukcja do laboratorium
Rys.13 Okno korelacji, zakładka Więcej.
Wystarczy kliknąd przycisk 2W Rozrzutu i w skoroszycie pojawią się wszystkie potrzebne wykresy.
Nad każdym wykresem widoczne jest również równanie prostej regresji.
2.6 Dopasowanie krzywej regresji do zależności liniowych i nieliniowych.
W przypadku widocznego związku nieliniowego do rozrzutu punktów można dopasowad
odpowiednią krzywą wchodząc przez menu główne Wykresy/Wykresy 2W/Wykresy rozrzutu.
Rys.14 Dostęp do ogólnych modeli regresji.
W oknie które pojawi się na ekranie w wyniku tego działania należy wybrad zakładkę Więcej, a w niej
odpowiednią krzywą do dopasowania:
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
12
Instrukcja do laboratorium
Rys.15 Wykresy rozrzutu 2W.
Dopasowując w tym samym oknie prostą regresji dla zależności liniowej, można wyliczyd także
parametry: R2, współczynnik korelacji liniowej oraz wyznaczyd równanie prostej regresji.
Rys.16 Wykresy rozrzutu 2W. Dopasowanie funkcji liniowej z wyliczeniem statystyk i pasem ufności.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
13
Instrukcja do laboratorium
Ćwiczenia
Część I
Dwie osoby przeprowadziły pomiary wzrostu dzieci w różnym wieku. Każda z osób dokonała
pomiarów wzrostu tej samej grupy dzieci, wyniki pomiarów przedstawiają poniższe tabele:
Pomiary osoby 1:
i Wiek (X) Wzrost (Y)
1 12 142 -2,5 -10 25
2 13 145 -1,5 -7 10,5
3 14 150 -0,5 -2 1
4 15 154 0,5 2 1
5 16 159 1,5 7 10,5
6 17 162 2,5 10 25
wiek: ,
wzrost: ,
Pomiary osoby 2:
(średni wiek: średni wzrost: ):
i Wiek (X) Wzrost (Y)
1 12 1,42 -2,5 -0,01 0,25
2 13 1,45 -1,5 -0,007 0,105
3 14 1,50 -0,5 -0,002 0,01
4 15 1,54 0,5 0,002 0,01
5 16 1,59 1,5 0,007 0,105
6 17 1,62 2,5 0,01 0,25
wiek: ,
wzrost: ,
1) Na podstawie powyższych wyników oblicz wartości parametrów kowariancji oraz
współczynnika korelacji liniowej Pearsona dla pomiarów wykonanych przez każdą z osób:
Kto wykonał pomiary?
Osoba 1
Osoba 2
2) Co można powiedzied na podstawie porównania wartości parametrów wyliczonych dla każdej
z osób?
3) Przeprowadź test istotności dla współczynnika korelacji liniowej Pearsona w oparciu
o pomiary wykonane przez osobę 1. Test wykonaj na poziomie istotności . Zanotuj
hipotezę zerową oraz alternatywną i kolejne kroki weryfikacji. Do odczytania wartości
krytycznej wykorzystaj Kalkulator prawdopodobieństwa.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
14
Instrukcja do laboratorium
Część II
Dane znajdują się w pliku dane5.sta. Zawierają informację na temat ilości komórek na jednostkę
powierzchni, hodowanych w różnych warunkach, w środowiskach, które zawierały różne czynniki
wpływające na szybkośd namnażania (litery od A do I). W czasie zerowym można przyjąd, że ilośd
komórek na jednostkę powierzchni dla każdej zmiennej była taka sama.
1. Wczytaj plik z danymi.
Wskazówka: W kolejnych punktach przyjmuj zmienną Czas za zmienną niezależną, a pozostałe zmienne
jako zależne.
2. Sporządź macierz korelacji dla wszystkich zmiennych (patrz rozdz. 2.1). Na podstawie macierzy
wyznacz te zmienne, które charakteryzują się korelacją liniową dodatnią, korelacją liniową ujemną
i brakiem korelacji liniowej ze zmienną Czas.
Korelacja liniowa dodatnia Korelacja liniowa ujemna Brak korelacji liniowej
Zmienne
3. Sporządź macierz korelacji tylko dla tych zmiennych, które charakteryzują się dodatnią korelacją ze
zmienną Czas. (patrz rozdz. 2.2).
4. Zweryfikuj hipotezy zerowe mówiące o istnieniu związku pomiędzy poszczególnymi zmiennymi
i zmienną Czas na poziomie istotności 0,05. Wykorzystaj informacje z rozdz. 2.3. Które ze zmiennych
wykazują istotne związki ze zmienną Czas?
Wskazówka: przy wyborze zmiennych wybierz dwie listy zmiennych – w pierwszej wprowadź Czas, a
w drugiej pozostałe zmienne, w zakładce Opcje zaznacz opcję, aby macierz korelacji wyświetlała r, p
i N.
5. Wykorzystując Tab.1 określ siłę związku każdej ze zmiennych ze zmienną Czas. W celu zilustrowania
siły związków sporządź kolorową mapę korelacji dla wszystkich zmiennych (rozdz. 2.4).
6. Dla zmiennych, dla których test wskazał występowanie istotnego związku ze zmienną czas sporządź
wykresy rozrzutu z 95% przedziałem ufności. Skorzystaj z rozdz.2.5.
a. Zapisz równania dla prostych regresji dla tych przypadków.
Wskazówka: równania wyświetlają się nad każdym wykresem rozrzutu.
b. Który z nich odpowiada najsilniejszej korelacji dodatniej, a który najsilniejszej ujemnej?
c. O ile jednostek zmieni się (wzrośnie lub zmaleje) wartośd zmiennej zależnej dla przypadków
z podpunktu b), podczas gdy wartośd zmiennej Czas zmieni się o jedną jednostkę?
7. Na podstawie macierzy korelacji sporządzonej w punkcie 2 wskaż zmienną która charakteryzuje się
korelacją nieliniową. Dopasuj do niej odpowiednią krzywą regresji i wykonaj wykres rozrzutu z 95%
pasem ufności. Skorzystaj z informacji z rozdz. 2.6
8. Wykorzystując wykresy rozrzutu dostępne z menu Wykresy/Wykresy2D/Wykresyrozrzutu sporządź
wykres rozrzutu dla zmiennej I z 95% pasem ufności, dopasowując funkcję liniową, zaznaczając
statystyki:
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
15
Instrukcja do laboratorium
a. Zanotuj równanie prostej regresji, wartośd współczynnika korelacji liniowej oraz
współczynnika determinacji. Na podstawie równania wylicz ile komórek na jednostkę
powierzchni będzie przypadad po 100, a ile po 200 godzinach.
b. Klikając prawym klawiszem na sporządzonym w ten sposób wykresie rozrzutu na obserwację
odstającą, z podręcznego menu wybierz Włącz/Wyłącz. W wyniku tego działania zaznaczony
punkt zostaje usunięty z analizy. Zanotuj nowe równanie regresji i wartośd współczynnika
korelacji liniowej. Na podstawie tego równania wylicz ile komórek na jednostkę powierzchni
będzie przypadad po 100, a ile po 200 godzinach.
c. Co można powiedzied o wpływie obserwacji odstającej na wyniki analizy z podpunktu a?