Upload
dangmien
View
219
Download
0
Embed Size (px)
Citation preview
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
1
Instrukcja do laboratorium
Laboratorium II: Analiza opisowa
Spis treści
Laboratorium II: Analiza opisowa ........................................................................................................1
Wiadomości ogólne ............................................................................................................................2
1. Zarządzanie danymi. ...................................................................................................................2
1.2 Scalanie danych. ....................................................................................................................2
1.2 Sprawdzanie danych. .............................................................................................................3
1.3 Sortowanie danych. ...............................................................................................................4
1.4 Tworzenie podzbiorów. .........................................................................................................4
1.5 Standaryzowanie danych. ......................................................................................................5
2. Analiza opisowa w STATISTICE .....................................................................................................5
2.1 Miary położenia i zmienności .................................................................................................5
2.2 Szeregi rozdzielcze .................................................................................................................8
2.3 Histogramy ............................................................................................................................9
2.4 Wykresy pudełkowe ............................................................................................................ 10
Ćwiczenie.......................................................................................................................................... 12
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
2
Instrukcja do laboratorium
Wiadomości ogólne
1. Zarządzanie danymi.
1.2 Scalanie danych.
Jeśli dane pomiarowe zapisane są w osobnych plikach, możliwe jest ich scalenie. Jeżeli dane nie są
zapisane w formacie STATISTIKI, zawierające je pliki należy otworzyd w osobnych arkuszach,
a następnie wybrad z menu głównego Dane/Scal. W wyniku tego zostaje wyświetlone okno:
Rys.1 Okno przedstawiające Opcje scalania: po lewej dodanie zmiennych, po prawej dodanie przypadków.
Pliki, które mają zostad scalone wybiera się klikając przyciski Plik 1 oraz Plik 2. W zależności od tego,
jak wyglądają dane, można je scalid na dwa sposoby (wybór odpowiedniej zakładki okna
przedstawionego na rys.1):
poprzez scalenie zmiennych (okno Opcje scalania, zakładka Zmienne, Tryb: Konkatenacja,
patrz Rys.1 po lewej). Wynikiem scalenia jest arkusz z taką samą liczba przypadków, ale
z większa liczbą zmiennych:
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
3
Instrukcja do laboratorium
poprzez scalenie przypadków(okno Opcje scalania, zakładka Przypadki, Tryb: Scal wg nazw
zmiennych, patrz Rys.1 po prawej). Wynikiem scalenia jest arkusz z taką samą liczą
zmiennych, ale z większa liczbą przypadków:
1.2 Sprawdzanie danych.
Istnieje także możliwośd sprawdzenia poprawności wprowadzonych do arkusza danych. Sprawdzenia
dokonuje się poprzez wybór z menu głównego Dane/Sprawdzanie danych/Sprawdź. Formułując
odpowiednie warunki (z wykorzystaniem operatorów arytmetycznych, logicznych, relacyjnych oraz
nazw zmiennych (v1, v2, LEK1, LEK2)) w polach dla kolejnych warunków. Warto zwrócid uwagę na
możliwośd wyboru czy gdy zmienne spełniają dany warunek, to jest to przypadek poprawny czy
niepoprawny – rys.2. Niepoprawne przypadki zostają podświetlone po kliknięciu na przycisk
Podświetl niepoprawne. Wskazanie niepoprawnych, pozwala na poprawę danych lub
wyeliminowanie konkretnych przypadków z dalszych analiz.
Rys.2 Okno Sprawdzania danych.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
4
Instrukcja do laboratorium
1.3 Sortowanie danych.
Sortowanie jest możliwe po wciśnięciu przycisku z paska narzędziowego lub wybrania z menu
głównego Dane/Sortuj. W oknie z opcjami sortowania należy wybrad zmienne, które mają byd brane
pod uwagę w trakcie sortowania. Dodanie kolejnej zmiennej skutkuje tym, że jeśli zmienna1 będzie
przyjmowad kilka takich samych wartości, przypadki, które to obejmuje zostaną posortowane na
podstawie kolejnej dodanej zmiennej, w wybranym porządku. W przykładzie przedstawionym na
rys.3, jeśli przypadki zmiennej1 będą przyjmowały takie same wartości, sortowanie odbędzie się
w kierunku malejących wartości zmiennej2.
Rys.3.Okno z opcjami sortowania.
1.4 Tworzenie podzbiorów.
Podzbiór, dla którego chcemy przeprowadzid analizę można utworzyd wybierając przycisk ,
dostępny z poziomu każdego okna, w którym tworzy się wykresy, wylicza parametry statystyczne, np.
(np. w oknie Statystyki opisowe, rys. 6). Opcja ta jest również dostępna z menu Selekcja,
znajdującego się w pasku stanu (na dole okna STATISTIKI). Wciśnięcie przycisku lub wybranie
Selekcji powoduje otwarcie okna, w którym wpisuje się warunki, jakie mają spełniad przypadki, aby
zostały wyselekcjonowane (patrz instrukcja do Laboratorium I). W zakładce Podzbiór w oknie Selekcji,
przyciskając przycisk Podzbiór można utworzyd nowy arkusz zawierający jedynie wyselekcjonowane
przypadki. Okno przedstawiono na rys.4.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
5
Instrukcja do laboratorium
Rys.4 Selekcja przypadków. Tworzenie nowego arkusza z wyselekcjonowanymi przypadkami.
1.5 Standaryzowanie danych.
Zmienna standaryzowana charakteryzuje się tym, że jej średnia jest równa 0, a odchylenie
standardowe 1 (przypomnienie: dwiczenia ze Statystyki w semestrze zimowym). Dzięki standaryzacji
zmienne otrzymane z różnych źródeł (w różnych jednostkach) mogą byd ze sobą porównywane.
Opcja standaryzowania danych jest dostępna w menu Dane/Standaryzuj… . Wybierając odpowiednie
zmienne lub przypadki w oknie Standaryzuj zmienne, można wybrad te dane, które mają zostad
poddane standaryzacji.
2. Analiza opisowa w STATISTICE
2.1 Miary położenia i zmienności
Statystyki opisowe dostępne w menu głównym: Statystyka/Statystyki podstawowe i tabele. Po
wybraniu tej opcji wyświetla się okno:
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
6
Instrukcja do laboratorium
Rys.5 Statystyki podstawowe i tabele.
Aby przejśd do statystyk opisowych należy dwukrotnie kliknąd na ikonę z takim właśnie podpisem
dostępną w tym oknie. W wyniku tego działania wyświetli się okno przedstawione poniżej:
Rys.6 Okno Statystyki opisowe.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
7
Instrukcja do laboratorium
Miary położenia i zmienności będą wyliczone dla zmiennej (lub kilku zmiennych na raz) wskazanej
poprzez naciśnięcie przycisku Zmienne (lewy górny róg okna) i wybór pożądanej zmiennej
(zmiennych) z listy. Gdy analiza ma byd wykonana na raz dla kilku zmiennych, w pole „Wybierz
zmienne” należy wpisad odpowiednie numery. Jeśli analizowane mają byd wszystkie zmienne od 2 do
4, to należy wpisad 2-4; natomiast jeśli tylko 2 i 4, to wpisad należy ich numery rozdzielone spacją.
Przycisk dostępny w tym oknie na prawo od zakładek umożliwia dokonanie wyboru
przypadków, które mają zostad poddane analizie, bez potrzeby umieszczania ich w osobnym arkuszu.
Po wciśnięciu tego przycisku pojawia się okno selekcji, w którym należy włączyd oraz określid warunki
selekcji tych przypadków, które mają zostad poddane analizie.
W kolejnych zakładkach widocznych w tym oknie można wykonad następujące czynności:
a) zakładka Podstawowe (widoczna również na Rys.6), kolejne przyciski:
Statystyki – otwiera skoroszyt z wyliczonymi parametrami statystycznymi dla
wybranej zmiennej (domyślnie program wylicza: liczebnośd, minimum, maksimum,
średnia i odchylenie standardowe, można to zmienid w zakładce Więcej);
Tabele liczności – otwiera dodatkowy skoroszyt z tabelą liczności dla danej zmiennej
(czyli z szeregiem rozdzielczym, przyjmuje domyślną ilośd klas);
Histogramy – tworzy histogram dla wskazanej zmiennej;
Wykres ramka wąsy – tworzy wykres ramkowy dla wybranej zmiennej;
Podsumowujący wykres porównawczy – w przypadku wyboru kilku zmiennych do
analizy, tworzone jest zestawienie histogramów, wykresów ramkowych oraz
wybranych parametrów statystycznych dla wszystkich zmiennych;
b) zakładka Więcej:
Rys.7 Zakładka Więcej w oknie Statystyk opisowych.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
8
Instrukcja do laboratorium
W tej zakładce znajduje się cała lista parametrów statystycznych, spośród których
należy wskazad, które mają zostad wyliczone dla wybranej zmiennej. Można wybrad
różne parametry opisujące położenie rozkładu, miary zmienności, a także zakresy,
kwartyle i percentyle;
Naciskając przycisk Statystyki, uzyskamy osobny skoroszyt zawierający wyliczone
parametry;
Dostępne są tu też przyciski W1 oraz W2. Po wciśnięciu przycisku W1 otrzymujemy
podsumowanie analizy statystycznej dla wybranej zmiennej: histogram, rozkład
prawdopodobieostwa, wykres ramkowy, oraz wyliczone parametry statystyczne. Dla
przycisku W2 uzyskujemy: histogram, rozkład gęstości prawdopodobieostwa, wykres
ramkowy, przedział ufności i wyznaczone parametry statystyczne.
2.2 Szeregi rozdzielcze
Można je stworzyd na kilka sposobów:
1) Klikając przycisk Tabele liczności w oknie Statystyki opisowe – Rys.6. Przyjmowana jest
domyślna ilośd przedziałów.
2) Wchodząc w opcje Tabele liczności w oknie Statystyki podstawowe i tabele – Rys. 5. Wybierając
tą opcję, wyświetla się okno Tabele liczności (Rys.8). W zakładce Więcej można dokonad wyboru
liczby przedziałów, a także początku pierwszego przedziału, natomiast w zakładce Opcje można
wybrad opcje wyświetlania (liczności skumulowane, procenty, częstości).
Rys.8 Zakładka Więcej w oknie Tabele liczności.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
9
Instrukcja do laboratorium
2.3 Histogramy
Histogramy również można wykonad na kilka sposobów:
1) Klikając przycisk Histogramy w oknie Statystyki opisowe – Rys. 6. Dla tak wykonanego
histogramu, przyjmowana jest domyślna ilośd przedziałów;
2) Wchodząc w menu Wykresy/Histogramy. Po wyborze tej opcji wyświetla się okno (Rys. 9):
Rys.9 Okno wyświetlające się na ekranie po wejściu w menu: Wykresy/Histogramy.
W zakładce Podstawowe można dokonad wyboru ilości przedziałów. W zakładce Skategoryzowane
(Rys. 10) można wykonad histogramy skategoryzowane, czyli takie, które uwzględniają przynależnośd
przypadków do różnych kategorii.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
10
Instrukcja do laboratorium
Rys. 10Okno Histogramy, zakładka Skategoryzowane.
2.4 Wykresy pudełkowe
Również wykresy pudełkowe można wykonad na różne sposoby, m.in.:
1) W oknie Statystyki opisowe (Rys. 6) w zakładce Podstawowe, klikając na przycisk Wykres ramka-
wąsy. Wtedy powstaje wykres pudełkowy dla wybranej zmiennej, domyślnie przyjmowane są
parametry określające położenie „ramki” i „wąsów”;
2) W oknie Statystyki opisowe (Rys. 6) w zakładce Opcje można dokonad wyboru parametrów
determinujących położenie „ramki” oraz „wąsów” (Rys.11).
Rys. 11 Statystyki opisowe, opcje wykresu ramka-wąsy (wykresu pudełkowego).
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
11
Instrukcja do laboratorium
Po wybraniu odpowiednich parametrów, aby wyświetlił się wykres, wystarczy kliknąd na
dostępny w prawym górnym rogu okna przycisk Podsumowanie.
3) Można tez wykonad skategoryzowane wykresy pudełkowe. W tym celu w oknie Statystyki
opisowe (Rys. 6) w zakładce W. skategoryzowane należy wybrad Skategoryzowane wykresy
Ramka wąsy. Następnie należy wybrad zmienne grupujące, od jednej, do trzech. W wyniku
wyboru zmiennych grupujących wyświetli się okno:
Rys.12 Okno wyboru kodów dla 2 zmiennych grupujących: Group i Gender.
Aby wziąd pod uwagę wszystkie występujące kategorie, należy przy każdej zmiennej
grupującej wcisnąd przycisk Wszystko, a następnie OK.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
12
Instrukcja do laboratorium
Ćwiczenie
Dane poddawane analizie zawierają informację na temat wieku, wag, wzrostu, a także prędkości
chodu osób zdrowych i cierpiących na chorobę Parkinsona. Dane pochodzą ze strony:
http://www.physionet.org/physiobank/database/gaitpdb/
1. Otwórz plik dane2a.txt oraz dane2b.txt w notatniku, przyglądnij się, co zawierają. Następnie
każdy z plików otwórz w osobnym arkuszu programu STATISTICA. Importuj arkusz jako
swobodny. W opcjach importu zaznacz, że w pierwszym wierszu znajdują się nazwy
zmiennych. Ustal odpowiedni separator dziesiętny oraz kod oznaczający brak danych jako
NaN.
2. Scal dane z pliku dane2a z danymi z pliku dane2b, zwracając uwagę na kolejnośd scalanych
plików (dane2a jako Plik1, a dane2b jako Plik2). W wyniku scalenia w nowopowstałym
arkuszu powinny się znajdowad 166 przypadki.
Wskazówka: Scalenia dokonaj w zakładce Przypadki, zaznaczając tryb scalenia: Scal wg nazw
zmiennych.
3. Częśd danych dotyczących wzrostu została zapisana w metrach, a częśd w centymetrach.
Dodaj nową zmienną Wzrost_popr, w której przedstawisz wszystkie dane w takich samych
jednostkach. Wskazówka: jednym z możliwych rozwiązao jest wykorzystanie odpowiedniej
formuły wykorzystującej operator „iif”.
4. Sprawdź poprawnośd wprowadzonych danych. Okazuje się, że niektóre wartości dla zmiennej
Wiek oraz Prędkośd mogły zostad wprowadzone nieprawidłowo. W zmiennej wiek czasami do
liczby dopisano na koocu zero tak, że np. z 76 powstało 760 lat, natomiast w danych
Prędkości w niektórych przypadkach brakuje w liczbie przecinka. Podświetl nieprawidłowo
wprowadzone przypadki i skoryguj ręcznie błędnie wprowadzone wartości.
5. Stwórz szereg rozdzielczy dla zmiennej Wiek, przyjmując domyślną ilośd klas. Osób w jakim
wieku jest najwięcej wśród badanych?
6. Dodaj nową zmienną Prędkośd_stand. Zapisz w niej standaryzowane wartości prędkości.
7. Plik info.txt zawiera dodatkowe informacje o wszystkich przypadkach wczytanych z pliku
dane2a oraz dane2b. Scal dane z tego pliku z danymi, które powstały po połączeniu plików
dane2a i dane2b. W wyniku scalenia powinien się pojawid arkusz z dodanymi nowymi
zmiennymi. Wskazówka: Scalanie wykonaj poprzez dodanie zmiennych, zaznaczając tryb
scalenia: Dodanie (konkatenacja).
Przypadki, dla których zmienna Group przyjmuje wartośd PD oznacza osoby cierpiące na
chorobę Parkinsona, osoby zdrowe oznaczone są jako CO.
8. Wyznacz następujące parametry statystyczne dla zmiennejPrędkośd: liczebnośd (N ważnych),
średnią arytmetyczną, odchylenie standardowe, 95% przedział ufności dla średniej, rozstęp,
rozstęp kwartylowy. Parametry wyznacz osobno dla osób chorych, osobno dla zdrowych.
Parametry zestaw w tabeli (patrz Tab.1 poniżej). Wskazówka: wykorzystaj przycisk Select
Cases znajdujący się w oknie Statystyki opisowe. Po wyliczeniu statystyk opisowych,
powstają w Skoroszycie tabelki zawierające wskazane parametry. Tabelki można potem scalid
wykorzystując opcję w menu głównym Dane/Scal. Aby ułatwid sobie scalenie, każdej z tabelek
w Skoroszycie można zmienid nazwę na taką, która ułatwi identyfikację tabelki przy scalaniu.
Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych
13
Instrukcja do laboratorium
Tab.1 Przykładowe zestawienie parametrów statystycznych dla pewnej zmiennej.
Zmienna Prędkośd
Liczebnośd Średnia
Odchylenie standardowe
Przedział ufności dla
średniej
Rozstęp
Rozstęp kwartylny
Chorzy
Zdrowi
9. Wykorzystując znajomośd wzoru na liczbę klas histogramu:
Gdzie k – ilośd klas (kategorii), a n – liczebnośd próby, sporządź histogram dla zmiennej
Prędkośd.
10. Sporządź skategoryzowane histogramy prędkości chodu wybierając zmienną Gender jako
Kategorię X, a zmienną Group jako Kategorię Y. Histogramy wykonaj w dwóch układach:
Oddzielnie i Nałożone, zostaw domyślną liczbę kategorii.
11. Sporządź skategoryzowane wykresy pudełkowe dla prędkości chodu, jako zmienne grupujące
wybierz jako pierwszą Group, jako drugą Gender. W oknie Wybierz kody zmiennych
grupujących przy każdej zmiennej wybierz Wszystko.
12. Jakie wnioski na temat prędkości chodu można wysnud na podstawie histogramów,
wykresów pudełkowych i parametrów położenia i zmienności? Zanotuj wnioski.
Do zaliczenia:
Poprawione zmienne: Wzrost, Wiek, Prędkośd;
Szereg rozdzielczy dla zmiennej Wiek;
Zmienna Prędkosd_stand;
Uzupełniona Tab.1;
Histogram dla zmiennej Prędkośd;
Skategoryzowane histogramy;
Skategoryzowane wykresy pudełkowe;
Wnioski.