13
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych 1 Instrukcja do laboratorium Laboratorium II: Analiza opisowa Spis treści Laboratorium II: Analiza opisowa ........................................................................................................1 Wiadomości ogólne ............................................................................................................................2 1. Zarządzanie danymi. ...................................................................................................................2 1.2 Scalanie danych. ....................................................................................................................2 1.2 Sprawdzanie danych. .............................................................................................................3 1.3 Sortowanie danych. ...............................................................................................................4 1.4 Tworzenie podzbiorów. .........................................................................................................4 1.5 Standaryzowanie danych. ......................................................................................................5 2. Analiza opisowa w STATISTICE .....................................................................................................5 2.1 Miary położenia i zmienności .................................................................................................5 2.2 Szeregi rozdzielcze.................................................................................................................8 2.3 Histogramy ............................................................................................................................9 2.4 Wykresy pudełkowe ............................................................................................................ 10 Ćwiczenie.......................................................................................................................................... 12

Laboratorium II: Analiza opisowa - Strona główna AGHhome.agh.edu.pl/~mmd/_media/dydaktyka/adp/analiza_opisowa.pdf · 4 Instrukcja do laboratorium ... Statystyka/Statystyki podstawowe

Embed Size (px)

Citation preview

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

1

Instrukcja do laboratorium

Laboratorium II: Analiza opisowa

Spis treści

Laboratorium II: Analiza opisowa ........................................................................................................1

Wiadomości ogólne ............................................................................................................................2

1. Zarządzanie danymi. ...................................................................................................................2

1.2 Scalanie danych. ....................................................................................................................2

1.2 Sprawdzanie danych. .............................................................................................................3

1.3 Sortowanie danych. ...............................................................................................................4

1.4 Tworzenie podzbiorów. .........................................................................................................4

1.5 Standaryzowanie danych. ......................................................................................................5

2. Analiza opisowa w STATISTICE .....................................................................................................5

2.1 Miary położenia i zmienności .................................................................................................5

2.2 Szeregi rozdzielcze .................................................................................................................8

2.3 Histogramy ............................................................................................................................9

2.4 Wykresy pudełkowe ............................................................................................................ 10

Ćwiczenie.......................................................................................................................................... 12

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

2

Instrukcja do laboratorium

Wiadomości ogólne

1. Zarządzanie danymi.

1.2 Scalanie danych.

Jeśli dane pomiarowe zapisane są w osobnych plikach, możliwe jest ich scalenie. Jeżeli dane nie są

zapisane w formacie STATISTIKI, zawierające je pliki należy otworzyd w osobnych arkuszach,

a następnie wybrad z menu głównego Dane/Scal. W wyniku tego zostaje wyświetlone okno:

Rys.1 Okno przedstawiające Opcje scalania: po lewej dodanie zmiennych, po prawej dodanie przypadków.

Pliki, które mają zostad scalone wybiera się klikając przyciski Plik 1 oraz Plik 2. W zależności od tego,

jak wyglądają dane, można je scalid na dwa sposoby (wybór odpowiedniej zakładki okna

przedstawionego na rys.1):

poprzez scalenie zmiennych (okno Opcje scalania, zakładka Zmienne, Tryb: Konkatenacja,

patrz Rys.1 po lewej). Wynikiem scalenia jest arkusz z taką samą liczba przypadków, ale

z większa liczbą zmiennych:

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

3

Instrukcja do laboratorium

poprzez scalenie przypadków(okno Opcje scalania, zakładka Przypadki, Tryb: Scal wg nazw

zmiennych, patrz Rys.1 po prawej). Wynikiem scalenia jest arkusz z taką samą liczą

zmiennych, ale z większa liczbą przypadków:

1.2 Sprawdzanie danych.

Istnieje także możliwośd sprawdzenia poprawności wprowadzonych do arkusza danych. Sprawdzenia

dokonuje się poprzez wybór z menu głównego Dane/Sprawdzanie danych/Sprawdź. Formułując

odpowiednie warunki (z wykorzystaniem operatorów arytmetycznych, logicznych, relacyjnych oraz

nazw zmiennych (v1, v2, LEK1, LEK2)) w polach dla kolejnych warunków. Warto zwrócid uwagę na

możliwośd wyboru czy gdy zmienne spełniają dany warunek, to jest to przypadek poprawny czy

niepoprawny – rys.2. Niepoprawne przypadki zostają podświetlone po kliknięciu na przycisk

Podświetl niepoprawne. Wskazanie niepoprawnych, pozwala na poprawę danych lub

wyeliminowanie konkretnych przypadków z dalszych analiz.

Rys.2 Okno Sprawdzania danych.

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

4

Instrukcja do laboratorium

1.3 Sortowanie danych.

Sortowanie jest możliwe po wciśnięciu przycisku z paska narzędziowego lub wybrania z menu

głównego Dane/Sortuj. W oknie z opcjami sortowania należy wybrad zmienne, które mają byd brane

pod uwagę w trakcie sortowania. Dodanie kolejnej zmiennej skutkuje tym, że jeśli zmienna1 będzie

przyjmowad kilka takich samych wartości, przypadki, które to obejmuje zostaną posortowane na

podstawie kolejnej dodanej zmiennej, w wybranym porządku. W przykładzie przedstawionym na

rys.3, jeśli przypadki zmiennej1 będą przyjmowały takie same wartości, sortowanie odbędzie się

w kierunku malejących wartości zmiennej2.

Rys.3.Okno z opcjami sortowania.

1.4 Tworzenie podzbiorów.

Podzbiór, dla którego chcemy przeprowadzid analizę można utworzyd wybierając przycisk ,

dostępny z poziomu każdego okna, w którym tworzy się wykresy, wylicza parametry statystyczne, np.

(np. w oknie Statystyki opisowe, rys. 6). Opcja ta jest również dostępna z menu Selekcja,

znajdującego się w pasku stanu (na dole okna STATISTIKI). Wciśnięcie przycisku lub wybranie

Selekcji powoduje otwarcie okna, w którym wpisuje się warunki, jakie mają spełniad przypadki, aby

zostały wyselekcjonowane (patrz instrukcja do Laboratorium I). W zakładce Podzbiór w oknie Selekcji,

przyciskając przycisk Podzbiór można utworzyd nowy arkusz zawierający jedynie wyselekcjonowane

przypadki. Okno przedstawiono na rys.4.

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

5

Instrukcja do laboratorium

Rys.4 Selekcja przypadków. Tworzenie nowego arkusza z wyselekcjonowanymi przypadkami.

1.5 Standaryzowanie danych.

Zmienna standaryzowana charakteryzuje się tym, że jej średnia jest równa 0, a odchylenie

standardowe 1 (przypomnienie: dwiczenia ze Statystyki w semestrze zimowym). Dzięki standaryzacji

zmienne otrzymane z różnych źródeł (w różnych jednostkach) mogą byd ze sobą porównywane.

Opcja standaryzowania danych jest dostępna w menu Dane/Standaryzuj… . Wybierając odpowiednie

zmienne lub przypadki w oknie Standaryzuj zmienne, można wybrad te dane, które mają zostad

poddane standaryzacji.

2. Analiza opisowa w STATISTICE

2.1 Miary położenia i zmienności

Statystyki opisowe dostępne w menu głównym: Statystyka/Statystyki podstawowe i tabele. Po

wybraniu tej opcji wyświetla się okno:

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

6

Instrukcja do laboratorium

Rys.5 Statystyki podstawowe i tabele.

Aby przejśd do statystyk opisowych należy dwukrotnie kliknąd na ikonę z takim właśnie podpisem

dostępną w tym oknie. W wyniku tego działania wyświetli się okno przedstawione poniżej:

Rys.6 Okno Statystyki opisowe.

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

7

Instrukcja do laboratorium

Miary położenia i zmienności będą wyliczone dla zmiennej (lub kilku zmiennych na raz) wskazanej

poprzez naciśnięcie przycisku Zmienne (lewy górny róg okna) i wybór pożądanej zmiennej

(zmiennych) z listy. Gdy analiza ma byd wykonana na raz dla kilku zmiennych, w pole „Wybierz

zmienne” należy wpisad odpowiednie numery. Jeśli analizowane mają byd wszystkie zmienne od 2 do

4, to należy wpisad 2-4; natomiast jeśli tylko 2 i 4, to wpisad należy ich numery rozdzielone spacją.

Przycisk dostępny w tym oknie na prawo od zakładek umożliwia dokonanie wyboru

przypadków, które mają zostad poddane analizie, bez potrzeby umieszczania ich w osobnym arkuszu.

Po wciśnięciu tego przycisku pojawia się okno selekcji, w którym należy włączyd oraz określid warunki

selekcji tych przypadków, które mają zostad poddane analizie.

W kolejnych zakładkach widocznych w tym oknie można wykonad następujące czynności:

a) zakładka Podstawowe (widoczna również na Rys.6), kolejne przyciski:

Statystyki – otwiera skoroszyt z wyliczonymi parametrami statystycznymi dla

wybranej zmiennej (domyślnie program wylicza: liczebnośd, minimum, maksimum,

średnia i odchylenie standardowe, można to zmienid w zakładce Więcej);

Tabele liczności – otwiera dodatkowy skoroszyt z tabelą liczności dla danej zmiennej

(czyli z szeregiem rozdzielczym, przyjmuje domyślną ilośd klas);

Histogramy – tworzy histogram dla wskazanej zmiennej;

Wykres ramka wąsy – tworzy wykres ramkowy dla wybranej zmiennej;

Podsumowujący wykres porównawczy – w przypadku wyboru kilku zmiennych do

analizy, tworzone jest zestawienie histogramów, wykresów ramkowych oraz

wybranych parametrów statystycznych dla wszystkich zmiennych;

b) zakładka Więcej:

Rys.7 Zakładka Więcej w oknie Statystyk opisowych.

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

8

Instrukcja do laboratorium

W tej zakładce znajduje się cała lista parametrów statystycznych, spośród których

należy wskazad, które mają zostad wyliczone dla wybranej zmiennej. Można wybrad

różne parametry opisujące położenie rozkładu, miary zmienności, a także zakresy,

kwartyle i percentyle;

Naciskając przycisk Statystyki, uzyskamy osobny skoroszyt zawierający wyliczone

parametry;

Dostępne są tu też przyciski W1 oraz W2. Po wciśnięciu przycisku W1 otrzymujemy

podsumowanie analizy statystycznej dla wybranej zmiennej: histogram, rozkład

prawdopodobieostwa, wykres ramkowy, oraz wyliczone parametry statystyczne. Dla

przycisku W2 uzyskujemy: histogram, rozkład gęstości prawdopodobieostwa, wykres

ramkowy, przedział ufności i wyznaczone parametry statystyczne.

2.2 Szeregi rozdzielcze

Można je stworzyd na kilka sposobów:

1) Klikając przycisk Tabele liczności w oknie Statystyki opisowe – Rys.6. Przyjmowana jest

domyślna ilośd przedziałów.

2) Wchodząc w opcje Tabele liczności w oknie Statystyki podstawowe i tabele – Rys. 5. Wybierając

tą opcję, wyświetla się okno Tabele liczności (Rys.8). W zakładce Więcej można dokonad wyboru

liczby przedziałów, a także początku pierwszego przedziału, natomiast w zakładce Opcje można

wybrad opcje wyświetlania (liczności skumulowane, procenty, częstości).

Rys.8 Zakładka Więcej w oknie Tabele liczności.

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

9

Instrukcja do laboratorium

2.3 Histogramy

Histogramy również można wykonad na kilka sposobów:

1) Klikając przycisk Histogramy w oknie Statystyki opisowe – Rys. 6. Dla tak wykonanego

histogramu, przyjmowana jest domyślna ilośd przedziałów;

2) Wchodząc w menu Wykresy/Histogramy. Po wyborze tej opcji wyświetla się okno (Rys. 9):

Rys.9 Okno wyświetlające się na ekranie po wejściu w menu: Wykresy/Histogramy.

W zakładce Podstawowe można dokonad wyboru ilości przedziałów. W zakładce Skategoryzowane

(Rys. 10) można wykonad histogramy skategoryzowane, czyli takie, które uwzględniają przynależnośd

przypadków do różnych kategorii.

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

10

Instrukcja do laboratorium

Rys. 10Okno Histogramy, zakładka Skategoryzowane.

2.4 Wykresy pudełkowe

Również wykresy pudełkowe można wykonad na różne sposoby, m.in.:

1) W oknie Statystyki opisowe (Rys. 6) w zakładce Podstawowe, klikając na przycisk Wykres ramka-

wąsy. Wtedy powstaje wykres pudełkowy dla wybranej zmiennej, domyślnie przyjmowane są

parametry określające położenie „ramki” i „wąsów”;

2) W oknie Statystyki opisowe (Rys. 6) w zakładce Opcje można dokonad wyboru parametrów

determinujących położenie „ramki” oraz „wąsów” (Rys.11).

Rys. 11 Statystyki opisowe, opcje wykresu ramka-wąsy (wykresu pudełkowego).

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

11

Instrukcja do laboratorium

Po wybraniu odpowiednich parametrów, aby wyświetlił się wykres, wystarczy kliknąd na

dostępny w prawym górnym rogu okna przycisk Podsumowanie.

3) Można tez wykonad skategoryzowane wykresy pudełkowe. W tym celu w oknie Statystyki

opisowe (Rys. 6) w zakładce W. skategoryzowane należy wybrad Skategoryzowane wykresy

Ramka wąsy. Następnie należy wybrad zmienne grupujące, od jednej, do trzech. W wyniku

wyboru zmiennych grupujących wyświetli się okno:

Rys.12 Okno wyboru kodów dla 2 zmiennych grupujących: Group i Gender.

Aby wziąd pod uwagę wszystkie występujące kategorie, należy przy każdej zmiennej

grupującej wcisnąd przycisk Wszystko, a następnie OK.

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

12

Instrukcja do laboratorium

Ćwiczenie

Dane poddawane analizie zawierają informację na temat wieku, wag, wzrostu, a także prędkości

chodu osób zdrowych i cierpiących na chorobę Parkinsona. Dane pochodzą ze strony:

http://www.physionet.org/physiobank/database/gaitpdb/

1. Otwórz plik dane2a.txt oraz dane2b.txt w notatniku, przyglądnij się, co zawierają. Następnie

każdy z plików otwórz w osobnym arkuszu programu STATISTICA. Importuj arkusz jako

swobodny. W opcjach importu zaznacz, że w pierwszym wierszu znajdują się nazwy

zmiennych. Ustal odpowiedni separator dziesiętny oraz kod oznaczający brak danych jako

NaN.

2. Scal dane z pliku dane2a z danymi z pliku dane2b, zwracając uwagę na kolejnośd scalanych

plików (dane2a jako Plik1, a dane2b jako Plik2). W wyniku scalenia w nowopowstałym

arkuszu powinny się znajdowad 166 przypadki.

Wskazówka: Scalenia dokonaj w zakładce Przypadki, zaznaczając tryb scalenia: Scal wg nazw

zmiennych.

3. Częśd danych dotyczących wzrostu została zapisana w metrach, a częśd w centymetrach.

Dodaj nową zmienną Wzrost_popr, w której przedstawisz wszystkie dane w takich samych

jednostkach. Wskazówka: jednym z możliwych rozwiązao jest wykorzystanie odpowiedniej

formuły wykorzystującej operator „iif”.

4. Sprawdź poprawnośd wprowadzonych danych. Okazuje się, że niektóre wartości dla zmiennej

Wiek oraz Prędkośd mogły zostad wprowadzone nieprawidłowo. W zmiennej wiek czasami do

liczby dopisano na koocu zero tak, że np. z 76 powstało 760 lat, natomiast w danych

Prędkości w niektórych przypadkach brakuje w liczbie przecinka. Podświetl nieprawidłowo

wprowadzone przypadki i skoryguj ręcznie błędnie wprowadzone wartości.

5. Stwórz szereg rozdzielczy dla zmiennej Wiek, przyjmując domyślną ilośd klas. Osób w jakim

wieku jest najwięcej wśród badanych?

6. Dodaj nową zmienną Prędkośd_stand. Zapisz w niej standaryzowane wartości prędkości.

7. Plik info.txt zawiera dodatkowe informacje o wszystkich przypadkach wczytanych z pliku

dane2a oraz dane2b. Scal dane z tego pliku z danymi, które powstały po połączeniu plików

dane2a i dane2b. W wyniku scalenia powinien się pojawid arkusz z dodanymi nowymi

zmiennymi. Wskazówka: Scalanie wykonaj poprzez dodanie zmiennych, zaznaczając tryb

scalenia: Dodanie (konkatenacja).

Przypadki, dla których zmienna Group przyjmuje wartośd PD oznacza osoby cierpiące na

chorobę Parkinsona, osoby zdrowe oznaczone są jako CO.

8. Wyznacz następujące parametry statystyczne dla zmiennejPrędkośd: liczebnośd (N ważnych),

średnią arytmetyczną, odchylenie standardowe, 95% przedział ufności dla średniej, rozstęp,

rozstęp kwartylowy. Parametry wyznacz osobno dla osób chorych, osobno dla zdrowych.

Parametry zestaw w tabeli (patrz Tab.1 poniżej). Wskazówka: wykorzystaj przycisk Select

Cases znajdujący się w oknie Statystyki opisowe. Po wyliczeniu statystyk opisowych,

powstają w Skoroszycie tabelki zawierające wskazane parametry. Tabelki można potem scalid

wykorzystując opcję w menu głównym Dane/Scal. Aby ułatwid sobie scalenie, każdej z tabelek

w Skoroszycie można zmienid nazwę na taką, która ułatwi identyfikację tabelki przy scalaniu.

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

13

Instrukcja do laboratorium

Tab.1 Przykładowe zestawienie parametrów statystycznych dla pewnej zmiennej.

Zmienna Prędkośd

Liczebnośd Średnia

Odchylenie standardowe

Przedział ufności dla

średniej

Rozstęp

Rozstęp kwartylny

Chorzy

Zdrowi

9. Wykorzystując znajomośd wzoru na liczbę klas histogramu:

Gdzie k – ilośd klas (kategorii), a n – liczebnośd próby, sporządź histogram dla zmiennej

Prędkośd.

10. Sporządź skategoryzowane histogramy prędkości chodu wybierając zmienną Gender jako

Kategorię X, a zmienną Group jako Kategorię Y. Histogramy wykonaj w dwóch układach:

Oddzielnie i Nałożone, zostaw domyślną liczbę kategorii.

11. Sporządź skategoryzowane wykresy pudełkowe dla prędkości chodu, jako zmienne grupujące

wybierz jako pierwszą Group, jako drugą Gender. W oknie Wybierz kody zmiennych

grupujących przy każdej zmiennej wybierz Wszystko.

12. Jakie wnioski na temat prędkości chodu można wysnud na podstawie histogramów,

wykresów pudełkowych i parametrów położenia i zmienności? Zanotuj wnioski.

Do zaliczenia:

Poprawione zmienne: Wzrost, Wiek, Prędkośd;

Szereg rozdzielczy dla zmiennej Wiek;

Zmienna Prędkosd_stand;

Uzupełniona Tab.1;

Histogram dla zmiennej Prędkośd;

Skategoryzowane histogramy;

Skategoryzowane wykresy pudełkowe;

Wnioski.