15
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych 1 Instrukcja do laboratorium LaboratoriumV: Podstawy korelacji i regresji Spis treści Laboratorium V: Podstawy korelacji i regresji ......................................................................................1 Wiadomości ogólne ............................................................................................................................2 1. Wstęp teoretyczny. .................................................................................................................2 1.1 Korelacja. ..............................................................................................................................2 1.2 Funkcja regresji. ....................................................................................................................5 2. Korelacja i regresja w STATISTICE ............................................................................................6 2.1 Macierz korelacji wszystkich zmiennych................................................................................6 2.2 Macierz korelacji dla wybranych zmiennych. .........................................................................8 2.3 Test istotności związku pomiędzy zmiennymi. .......................................................................9 2.4 Kolorowa mapa korelacji ..................................................................................................... 10 2.5 Wykresy rozrzutu dla korelacji liniowej. ............................................................................... 10 2.6 Dopasowanie krzywej regresji do zależności liniowych i nieliniowych. ................................. 11 Ćwiczenia.......................................................................................................................................... 13 Częśd I ....................................................................................................................................... 13 Częśd II ...................................................................................................................................... 14

LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Embed Size (px)

Citation preview

Page 1: LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

1

Instrukcja do laboratorium

LaboratoriumV: Podstawy korelacji i regresji

Spis treści Laboratorium V: Podstawy korelacji i regresji ......................................................................................1

Wiadomości ogólne ............................................................................................................................2

1. Wstęp teoretyczny. .................................................................................................................2

1.1 Korelacja. ..............................................................................................................................2

1.2 Funkcja regresji. ....................................................................................................................5

2. Korelacja i regresja w STATISTICE ............................................................................................6

2.1 Macierz korelacji wszystkich zmiennych. ...............................................................................6

2.2 Macierz korelacji dla wybranych zmiennych. .........................................................................8

2.3 Test istotności związku pomiędzy zmiennymi. .......................................................................9

2.4 Kolorowa mapa korelacji ..................................................................................................... 10

2.5 Wykresy rozrzutu dla korelacji liniowej. ............................................................................... 10

2.6 Dopasowanie krzywej regresji do zależności liniowych i nieliniowych. ................................. 11

Ćwiczenia.......................................................................................................................................... 13

Częśd I ....................................................................................................................................... 13

Częśd II ...................................................................................................................................... 14

Page 2: LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

2

Instrukcja do laboratorium

Wiadomości ogólne

1. Wstęp teoretyczny.

1.1 Korelacja.

Korelacja to narzędzie matematyczne służące do dokładnego określenia stopnia, w jakim dwie

zmienne są ze sobą powiązane. W badaniach korelacji określa się siłę, kształt oraz kierunek takiego

powiązania.

Jeśli chodzi o postad, można mówid o dwóch rodzajach zależności (rys.1):

Liniowej;

Krzywoliniowej;

Rys.1 Wykresy rozrzutu obrazujące zależności pomiędzy zmiennymi X i Y: liniową i przykładową

krzywoliniową.

Istnieją też dwa rodzaje związku pomiędzy zmiennymi: funkcyjny i statystyczny. Funkcyjny ma

miejsce wtedy, gdy każdej wartości zmiennej niezależnej X odpowiada dokładnie jedna wartośd

zmiennej zależnej Y. Związek statystyczny polega na tym, że określonym wartościom jednej zmiennej

odpowiadają ściśle określone wartości drugiej zmiennej. Można zatem obliczyd wartośd zmiennej

zależnej Y w zależności od wartości zmiennej niezależnej X. Na rys.1 związki pomiędzy zmiennymi

mają charaktery statystyczny. Wykresy ilustrujące związki pomiędzy zmiennymi to wykresy rozrzutu.

Na osi pionowej zaznacza się zmienną zależną, natomiast na poziomej – niezależną. Najczęściej

punkty odpowiadające poszczególnym wartościom cech leżą mniej więcej wzdłuż linii korelacji.

Korelacja dodatnia występuje wtedy, gdy wraz ze wzrostem wartości jednej cechy, wzrastają

wartości drugiej.

Korelacja ujemna – gdy wraz ze wzrostem wartości jednej cechy maleją wartości drugiej.

Page 3: LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

3

Instrukcja do laboratorium

Rys.2 Od lewej: korelacja dodatnia, korelacja ujemna, brak korelacji pomiędzy zmiennymi.

Siłę związku pomiędzy zmiennymi określa się przy pomocy wielu parametrów liczbowych. Pierwszym

z nich jest kowariancja. Załóżmy, że w wyniku pewnego doświadczenia uzyskano pary liczb ,

gdzie Tak przedstawioną zmienną nazywamy dwuwymiarową zmienną losową

i oznaczamy jako . Kowariancję dla takiej próby wyliczamy wg wzoru:

Gdzie oraz to średnie obu zmiennych. Wyliczona w ten sposób na podstawie próby kowariancja

jest oczywiście estymatorem kowariancji populacji. Jeżeli małym wartościom zmiennej X

odpowiadają małe wartości zmiennej Y, natomiast dużym wartościom X – duże wartości Y, to

kowariancja przyjmuje wartośd dodatnią – obydwa iloczyny są w większości dodatnie. Dodatnia

wartośd kowariancji oznacza, że przy wzroście wartości zmiennej X wzrastają także wartości zmiennej

Y, a więc mamy do czynienia z korelacją dodatnią. Jeśli ze wzrostem wartości zmiennej X, wartości

zmiennej Y maleją – korelacja ujemna. Gdy zmienne nie są skorelowane, wówczas .

Wadą kowariancji jest fakt, że jej wartośd zależy od jednostek pomiaru cech – nie można zatem

oceniad siły zależności.

Okazuje się jednak, że wystarczy kowariancję podzielid przez iloczyn odchyleo standardowych, aby

otrzymad miarę siły powiązania niezależną od jednostki pomiarowej, przyjmującą wartości

z przedziału . Jest to współczynnik korelacji liniowej Pearsona:

Gdzie oraz to średnie obu zmiennych, natomiast oraz to odchylenia standardowe. Znak

współczynnika informuje o kierunku korelacji („+” oznacza korelację dodatnią, natomiast „-

”ujemną), natomiast wartośd bezwzględna mówi o sile związku (patrz Tab.1). Współczynnik

stosuje się, gdy zależnośd pomiędzy zmiennymi jest liniowa.

Page 4: LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

4

Instrukcja do laboratorium

Tab.1 Siła związku na podstawie współczynnika korelacji liniowej Pearsona.

rxy = 0 zmienne nie są skorelowane;

0 < rxy <0,1 korelacja nikła;

0,1 ≤rxy<0,3 korelacja słaba;

0,3 ≤rxy<0,5 korelacja przeciętna;

0,5 ≤rxy <0,7 korelacja wysoka;

0,7 ≤rxy <0,9 korelacja bardzo wysoka;

0,9 ≤rxy <1 korelacja prawie pełna.

Podobnie jak w przypadku innych parametrów statystycznych, współczynnik korelacji liniowej

Pearsona dla populacji generalnej nie jest znany. Należy go oszacowad na podstawie danych z próby.

Wyznaczony w ten sposób parametr jest estymatorem współczynnika korelacji w populacji

generalnej, oznaczanego jako ρ. Na podstawie wartości rxy wyznaczonej dla danych z próby można

wnioskowad na temat występowania związku i jego siły pomiędzy cechami dla całej populacji. Do

sprawdzenia, czy w populacji również występuje związek pomiędzy zmiennymi, wykorzystuje się

odpowiednie testy statystyczne.

Test istotności współczynnika korelacji Pearsona.

Założenia testu: zmienne X i Y mają dwuwymiarowy rozkład normalny o nieznanym współczynniku

korelacji liniowej . Z populacji wylosowano n-elementową próbę, na podstawie której wyliczono

parametr rxy. Hipotezy wyglądają następująco:

H0: ρ = 0

H1: ρ ≠ 0 (lub ρ <0, lub ρ >0)

Do zweryfikowania tak sformułowanej hipotezy zerowej wykorzystujemy statystykę testową:

Test z o rozkładzie normalnym

Dla

Test t o rozkładzie t-Studenta o (n-1) stopniach swobody

Dla

Przeprowadzenie testu istotności dla współczynnika korelacji pozwala stwierdzid, czy zależnośd

pomiędzy zmiennymi X i Y widoczna dla danych z próby jest tylko przypadkowa, czy jest

prawidłowością dla całej populacji.

Podsumowując rozważania na temat korelacji, przy interpretacji współczynnika należy pamiętad:

Najważniejsza jest istotnośd korelacji – nie interesują nas korelacja, która jest bardzo wysoka,

ale nie jest istotna;

Wartośd współczynnika korelacji linowej bliska 0, nie zawsze oznacza brak jakiejkolwiek

korelacji, jedynie brak korelacji liniowej.

Na wartośd współczynnika duży wpływ mają wartości odstające.

Page 5: LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

5

Instrukcja do laboratorium

1.2 Funkcja regresji.

Funkcja regresji jest z kolei narzędziem do badania mechanizmu powiązania pomiędzy zmiennymi.

Wybór postaci funkcji regresji dokonuje się po wstępnej analizie materiału statystycznego, na

podstawie wykresu rozrzutu lub źródeł literaturowych opisujących zależności, jakich dla danych

zmiennych można się spodziewad. Najprostszymi, a jednocześnie najczęściej spotykanymi

zależnościami są te, które mają postad liniową. Krzywe regresji dla postaci liniowej to proste regresji,

mające następującą postad:

y = ax +b

Gdzie: x oraz y to wartości cech odpowiednio dla zmiennej X oraz Y. Parametry równania dla prostej

regresji szacuje się metodą najmniejszych kwadratów. Parametr a nosi nazwę parametru regresji,

natomiast parametr b to wyraz wolny równania regresji. Parametr jest estymatorem współczynnika

regresji liniowej. Określa o ile jednostek zmieni się (wzrośnie lub zmaleje) wartośd zmiennej zależnej,

podczas gdy wartośd zmiennej niezależnej zmieni się (wzrośnie lub zmaleje) o jedną jednostkę.

Współczynnik ten ma duże znaczenie przy interpretacji zależności. Na wykresach rozrzutu

sporządzanych w STATISTICE obok prostej zaznaczane są przerywane linie określające 95% przedział

ufności dla prostej. Daje to pełniejszą informację o linii regresji. Wyznaczone granice ufności są różne

dla różnych wartości zmiennej X, ulegają rozszerzeniu wraz z oddalaniem się od wartości średniej dla

tej zmiennej. Obszar pomiędzy tymi krzywymi to przedział ufności.

Rys.3 Prosta regresji wraz z 95% przedziałem ufności, którego granice wyznaczają przerywane linie.

W wyniku dopasowywania prostej regresji pakiet STATISTICA wylicza również współczynnik

determinacji R2. Współczynnik ten jest jedną z podstawowych miar jakości dopasowania modelu.

Współczynnik determinacji wyliczamy jako iloraz:

Page 6: LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

6

Instrukcja do laboratorium

Współczynnik ten określa jaka częśd zmienności całkowitej zmiennej losowej Y została wyjaśniona

regresją liniową względem zmiennej X. Gdzie sumy kwadratów odchyleo spełniają równanie:

Równośd ta wyraża podział całkowitej sumy kwadratów odchyleo dla zmiennej Y na dwa

składniki: – sumę kwadratów odchyleo wyjaśnioną efektem regresji oraz – resztową

sumę kwadratów odchyleo nie wyjaśnioną regresją. Czyli biorąc pod uwagę odchylenia od średniej

wszystkich punktów zmiennej Y:

2. Korelacja i regresja w STATISTICE

2.1 Macierz korelacji wszystkich zmiennych.

Z poziomu menu głównego można też wejśd do okna służącego do analizy regresji:

Statystyka/Regresja wieloraka:

Rys.4 Okno regresji wielorakiej.

W oknie tym naciskając na przycisk Zmienne, dokonuje się wyboru zmiennych do analizy. Jako

zmienną niezależną należy wskazad Czas, natomiast jako zmienne zależne, pozostałe zmienne. W tym

samym oknie, ale w zakładce Więcej można zaznaczyd dodatkowo opcję Przeglądaj statystyki

opisowe, macierze korelacji. Można tu wybrad także działanie dla sytuacji, w której brakuje danych –

najczęściej zaznacza się usuwanie przypadkami. Po wciśnięciu przycisku OK pojawia się okno:

Page 7: LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

7

Instrukcja do laboratorium

Rys.5. Przegląd statystyk opisowych.

W oknie tym w poszczególnych zakładkach znajdują się różne przyciski, najwięcej w zakładce Więcej.

Aby uzyskad wykresy rozrzutu dla wszystkich poszczególnych zmiennych ze sobą należy kliknąd na

przycisk Macierzowy wykres korelacji.

Rys.6 Macierz korelacji dla wszystkich zmiennych.

Analiza tych wykresów, pozwala stwierdzid pomiędzy którymi zmiennymi będzie występowała

korelacja, jaka jest też jej postad. W dwiczeniu najbardziej interesuje nas wpływ Czasu na rozwój

komórek w poszczególnych środowiskach (wykresy rozrzutu, w których czas jest na osi poziomej). Na

podstawie analizy Macierzowego wykresu korelacji można stwierdzid w których środowiskach

komórki mają sprzyjające warunki wzrostu, w których nie.

Page 8: LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

8

Instrukcja do laboratorium

2.2 Macierz korelacji dla wybranych zmiennych.

W celu zgromadzenia na jednym wykresie macierzowym tylko tych zmiennych, które charakteryzują

się np. korelacją ujemną należy wejśd w menu głównym w Statystyki/Statystyki podstawowe

i tabele, a następnie wybrad Macierze korelacji:

Rys.7 Statystyki podstawowe i tabele.

Po wejściu do Macierzy korelacji pojawia się okno:

Rys.8 Okno korelacji, po lewej zakładka Podstawowe, po prawej zakładka Więcej.

Przycisk Macierz wykresów rozrzutu dla wybranych zmiennych pozwala sporządzid taki macierzowy

wykres jedynie dla wybranych zmiennych. W przypadku dwiczenia należy pamiętad, że zmienna czas

Page 9: LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

9

Instrukcja do laboratorium

będzie odpowiadad osi x. Na rys. 9 przedstawiono wykresy rozrzutu dla wszystkich zmiennych, które

wykazują ujemną korelację utworzony za pomocą przycisku Macierz wykresów rozrzutu:

Rys.9 Macierzowy wykres korelacji dla danych wykazujących ujemna korelację.

2.3 Test istotności związku pomiędzy zmiennymi.

Następnie w zakładce Opcje w oknie z rys. 10 można przeprowadzid test statystyczny istotności

korelacji. Hipoteza zerowa domyślnie zakłada brak korelacji pomiędzy zmiennymi, alternatywna

natomiast mówi o tym, że korelacja występuje (zobacz jak wyglądają hipotezy w teście istotności

współczynnika korelacji liniowej w rozdz.1.1). W odpowiednim miejscu można wybrad wartośd

poziomu istotności, dla którego test zostanie przeprowadzony.

Rys.10 Wybór parametrów testu korelacji.

Page 10: LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

10

Instrukcja do laboratorium

Aby przeprowadzid test, należy wcisnąd przycisk Podsumowanie dostępny w prawym górnym rogu

okna, a następnie wskazad zmienne dla których zostaną jednocześnie wyliczone współczynniki

korelacji liniowej Pearsona oraz zostanie przeprowadzony test. W jednej liście zmiennych należy

wskazad wszystkie zmienne zależne, a w osobnej zmienną niezależną. W wyniku tego działania

wyświetli się tabela zawierająca wartości współczynnika korelacji liniowej Pearsona wszystkich

wybranych zmiennych zależnych ze zmienną niezależną.

Rys.11 Wynik testu, współczynniki korelacji.

Podświetlone na czerwono wartości wskazują, gdzie na zadanym poziomie istotności (jeśli został

ustawiony dla podświetlenia) należy odrzucid hipotezę zerową mówiąca o braku korelacji między

zmiennymi. Na podstawie znaku oraz wartości tego parametru można określid siłę związku.

2.4 Kolorowa mapa korelacji

W zakładce Kolory można jeszcze wybrad, jakie parametry zostaną wyświetlone w macierzy korelacji

– najlepiej wybrad Prostą macierz (wartości r). Dostępny w tej zakładce przycisk mapa kolorowa

pozwala uzyskad macierz korelacji pokolorowaną w zależności od wielkości i znaku współczynnika r.

Rys.12 Kolorowa mapa korelacji.

2.5 Wykresy rozrzutu dla korelacji liniowej.

Przy pozostawieniu takiego samego wyboru zmiennych, zmieniając zakładkę w oknie Korelacji

(rys.13) na zakładkę Więcej, można sporządzid osobne wykresy rozrzutu dla każdej zmiennej

względem czasu.

Page 11: LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

11

Instrukcja do laboratorium

Rys.13 Okno korelacji, zakładka Więcej.

Wystarczy kliknąd przycisk 2W Rozrzutu i w skoroszycie pojawią się wszystkie potrzebne wykresy.

Nad każdym wykresem widoczne jest również równanie prostej regresji.

2.6 Dopasowanie krzywej regresji do zależności liniowych i nieliniowych.

W przypadku widocznego związku nieliniowego do rozrzutu punktów można dopasowad

odpowiednią krzywą wchodząc przez menu główne Wykresy/Wykresy 2W/Wykresy rozrzutu.

Rys.14 Dostęp do ogólnych modeli regresji.

W oknie które pojawi się na ekranie w wyniku tego działania należy wybrad zakładkę Więcej, a w niej

odpowiednią krzywą do dopasowania:

Page 12: LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

12

Instrukcja do laboratorium

Rys.15 Wykresy rozrzutu 2W.

Dopasowując w tym samym oknie prostą regresji dla zależności liniowej, można wyliczyd także

parametry: R2, współczynnik korelacji liniowej oraz wyznaczyd równanie prostej regresji.

Rys.16 Wykresy rozrzutu 2W. Dopasowanie funkcji liniowej z wyliczeniem statystyk i pasem ufności.

Page 13: LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

13

Instrukcja do laboratorium

Ćwiczenia

Część I

Dwie osoby przeprowadziły pomiary wzrostu dzieci w różnym wieku. Każda z osób dokonała

pomiarów wzrostu tej samej grupy dzieci, wyniki pomiarów przedstawiają poniższe tabele:

Pomiary osoby 1:

i Wiek (X) Wzrost (Y)

1 12 142 -2,5 -10 25

2 13 145 -1,5 -7 10,5

3 14 150 -0,5 -2 1

4 15 154 0,5 2 1

5 16 159 1,5 7 10,5

6 17 162 2,5 10 25

wiek: ,

wzrost: ,

Pomiary osoby 2:

(średni wiek: średni wzrost: ):

i Wiek (X) Wzrost (Y)

1 12 1,42 -2,5 -0,01 0,25

2 13 1,45 -1,5 -0,007 0,105

3 14 1,50 -0,5 -0,002 0,01

4 15 1,54 0,5 0,002 0,01

5 16 1,59 1,5 0,007 0,105

6 17 1,62 2,5 0,01 0,25

wiek: ,

wzrost: ,

1) Na podstawie powyższych wyników oblicz wartości parametrów kowariancji oraz

współczynnika korelacji liniowej Pearsona dla pomiarów wykonanych przez każdą z osób:

Kto wykonał pomiary?

Osoba 1

Osoba 2

2) Co można powiedzied na podstawie porównania wartości parametrów wyliczonych dla każdej

z osób?

3) Przeprowadź test istotności dla współczynnika korelacji liniowej Pearsona w oparciu

o pomiary wykonane przez osobę 1. Test wykonaj na poziomie istotności . Zanotuj

hipotezę zerową oraz alternatywną i kolejne kroki weryfikacji. Do odczytania wartości

krytycznej wykorzystaj Kalkulator prawdopodobieństwa.

Page 14: LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

14

Instrukcja do laboratorium

Część II

Dane znajdują się w pliku dane5.sta. Zawierają informację na temat ilości komórek na jednostkę

powierzchni, hodowanych w różnych warunkach, w środowiskach, które zawierały różne czynniki

wpływające na szybkośd namnażania (litery od A do I). W czasie zerowym można przyjąd, że ilośd

komórek na jednostkę powierzchni dla każdej zmiennej była taka sama.

1. Wczytaj plik z danymi.

Wskazówka: W kolejnych punktach przyjmuj zmienną Czas za zmienną niezależną, a pozostałe zmienne

jako zależne.

2. Sporządź macierz korelacji dla wszystkich zmiennych (patrz rozdz. 2.1). Na podstawie macierzy

wyznacz te zmienne, które charakteryzują się korelacją liniową dodatnią, korelacją liniową ujemną

i brakiem korelacji liniowej ze zmienną Czas.

Korelacja liniowa dodatnia Korelacja liniowa ujemna Brak korelacji liniowej

Zmienne

3. Sporządź macierz korelacji tylko dla tych zmiennych, które charakteryzują się dodatnią korelacją ze

zmienną Czas. (patrz rozdz. 2.2).

4. Zweryfikuj hipotezy zerowe mówiące o istnieniu związku pomiędzy poszczególnymi zmiennymi

i zmienną Czas na poziomie istotności 0,05. Wykorzystaj informacje z rozdz. 2.3. Które ze zmiennych

wykazują istotne związki ze zmienną Czas?

Wskazówka: przy wyborze zmiennych wybierz dwie listy zmiennych – w pierwszej wprowadź Czas, a

w drugiej pozostałe zmienne, w zakładce Opcje zaznacz opcję, aby macierz korelacji wyświetlała r, p

i N.

5. Wykorzystując Tab.1 określ siłę związku każdej ze zmiennych ze zmienną Czas. W celu zilustrowania

siły związków sporządź kolorową mapę korelacji dla wszystkich zmiennych (rozdz. 2.4).

6. Dla zmiennych, dla których test wskazał występowanie istotnego związku ze zmienną czas sporządź

wykresy rozrzutu z 95% przedziałem ufności. Skorzystaj z rozdz.2.5.

a. Zapisz równania dla prostych regresji dla tych przypadków.

Wskazówka: równania wyświetlają się nad każdym wykresem rozrzutu.

b. Który z nich odpowiada najsilniejszej korelacji dodatniej, a który najsilniejszej ujemnej?

c. O ile jednostek zmieni się (wzrośnie lub zmaleje) wartośd zmiennej zależnej dla przypadków

z podpunktu b), podczas gdy wartośd zmiennej Czas zmieni się o jedną jednostkę?

7. Na podstawie macierzy korelacji sporządzonej w punkcie 2 wskaż zmienną która charakteryzuje się

korelacją nieliniową. Dopasuj do niej odpowiednią krzywą regresji i wykonaj wykres rozrzutu z 95%

pasem ufności. Skorzystaj z informacji z rozdz. 2.6

8. Wykorzystując wykresy rozrzutu dostępne z menu Wykresy/Wykresy2D/Wykresyrozrzutu sporządź

wykres rozrzutu dla zmiennej I z 95% pasem ufności, dopasowując funkcję liniową, zaznaczając

statystyki:

Page 15: LaboratoriumV: Podstawy korelacji i regresjihome.agh.edu.pl/.../dydaktyka/adp/podstawy_korelacji_i_regresji.pdf · Ćwiczenia ... Analiza danych pomiarowych 2 ... W wyniku dopasowywania

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

15

Instrukcja do laboratorium

a. Zanotuj równanie prostej regresji, wartośd współczynnika korelacji liniowej oraz

współczynnika determinacji. Na podstawie równania wylicz ile komórek na jednostkę

powierzchni będzie przypadad po 100, a ile po 200 godzinach.

b. Klikając prawym klawiszem na sporządzonym w ten sposób wykresie rozrzutu na obserwację

odstającą, z podręcznego menu wybierz Włącz/Wyłącz. W wyniku tego działania zaznaczony

punkt zostaje usunięty z analizy. Zanotuj nowe równanie regresji i wartośd współczynnika

korelacji liniowej. Na podstawie tego równania wylicz ile komórek na jednostkę powierzchni

będzie przypadad po 100, a ile po 200 godzinach.

c. Co można powiedzied o wpływie obserwacji odstającej na wyniki analizy z podpunktu a?