PODSTAWY STATYSTYKI - Katedra i Zakład Epidemiologiiepidemiologia2.sum.edu.pl/wp-content/uploads/2015/11/SEMIINTERNET1.pdf · podstawy statystyki seminarium 1! uwaga ! slajdy wybrane

PODSTAWY STATYSTYKISEMINARIUM 1

! UWAGA !

SLAJDY WYBRANE I ZMODYFIKOWANE

POD KĄTEM PREZENTACJI W INTERNECIE

Jan E. Zejda

Katedra Epidemiologii – WLK, SUM

STUDIUM DOKTORANCKIE WLK

TREŚĆ SEMINARIUM 1

• Rola biostatystyki w medycznych badaniach naukowych

• Baza danych

• Zmienne

• Statystyka opisowa

• Szacowanie



• Baza danych

• Zmienne


• Szacowanie

NAJCZĘSTSZE PRZYCZYNY

„PORAŻKI PUBLIKACYJNEJ”

0

5

10

15

20

25

30

35

40

BŁĄD METODY NIEADEKWATNE

WYNIKI

NIEWŁAŚCIWA

ANALIZA

PROBLEMY

EDYCYJNE

%

Byrne D.W.: Common reasons for rejecting manuscripts at medical journals:

a survey of editors and peer reviewers. Science Editor 2000;23:39-44

NIEWŁAŚCIWE METODY

STATYSTYCZNE:

11%

STATYSTYKA

Dyscyplina nauki zajmująca się formułowaniem metod liczbowego

przetwarzania indywidualnych informacji statystycznych w celu

opisu i wnioskowania statystycznego

Nowa Encyklopedia Powszechna PWN, 1997

informacje o zjawiskach biologicznych

Pojęcie „statystyka” posiada więcej znaczeń

1) Nauka zajmująca się zbieraniem, analizą i interpretacją w/w danych

2) Numeryczne dane dotyczące agregatów złożonych z pewnych jednostek - zagregowaną,

charakteryzującą więcej niż 1 jednostkę daną jest np. średnia masa ciała 10 dziewcząt (jedna liczba

dla opisu zjawiska pochodzącego z 10 obserwacji), wartość odchylenia standardowego, częstość,

różnica pomiędzy dwoma wartościami średnimi

Statystyką nazywamy także liczbę reprezentującą wynik testu statystycznej znamienności – np.

statystyka ‘t’ lub statystyka ‘chi-kwadrat’

STATYSTYKA

W PRAKTYCE

albo opis

albo szacowanie

albo testowanie hipotez*

* - hipotezy odnośnie różnic lub zależności

BIOSTATYSTYKA

Biostatystyka jest to gałąź statystyki uwzględniająca specyfikę

zjawisk biologicznych, a w szczególności skutki zmienności

biologicznej stanowiącej przejaw zróżnicowania procesów

fizjologicznych i patologicznych, charakteryzujących stan zdrowia

i choroby.

SPECYFIKA BIOSTATYSTYKI

Zmienność biologiczna w zakresie:

• narażenia;

• podatności;

• odpowiedzi biologicznej;

• wywiadu chorobowego;

• etc.

zidentyfikować i kontrolować źródła zmienności

KLASYFIKACJA ZMIENNOŚCI

BIOLOGICZNEJ

• Zmienność międzyosobnicza: np. skurczowe ciśnienie tętnicze krwi u 10 zdrowych studentów w wieku 24-25 lat

• Zmienność wewnątrzosobnicza: np. skurczowe ciśnienie tętnicze krwi u 1 zdrowego studenta, zmierzone codziennie o godzinie 8:00 przez 7 dni

SYGNAŁ vs SZUM

Gdy istnieje duży sygnał jest on widoczny (ergo: wykrywalny)

nawet w obecności dużego szumu

Niewielki sygnał „tonie” w szumie

Sposoby kontroli szumu

- Model badania (np. restrykcja wieku, płci, narażenia na tzw.

czynniki zakłócające)

- Analiza danych (stratyfikacja w zakresie czynników

zakłócających, statystyczna kontrola szumu)

Co jest sygnałem, co jest szumem ?

Identyfikacja i pomiar sygnału wymaga wiedzy

na temat potencjalnych źródeł szumu,

umiejętności wykazania jego obecności,

kontroli jego maskującego wpływu

Biostatystyka raz jeszcze

ale

Biostatystyka to nie panaceum – to tylko

narzędzie

Przede wszystkim METODOLOGIA !!



• Baza danych

• Zmienne


• Szacowanie

AMATORSKA BAZA DANYCH

Nazwisko Płeć Masa Mała masa

urodzeniowa

Apgar w 5

i 10 min.

Rodzaj Leku USG Głowy Antybiotyk

Grupa 1

Abeski N. c. 2,78 Nie 5 -7 Dexametzaon IVHI Nie

Adam Beski C 3500 Nie 8 Deksamet. IVH I Vankomycyna

S. Ceski M 4100 Nie 9 Celeston IVH 1 Ampicylin

z. Dada D 2 950 Nie 6, 7 Dexaren IVH II Wankomycina

Efeska Ż 3,540 Nie IVH I Nie

Fafka A. D 3100 Nie 7 Dexametazon -

Grupa 2

Goga Anna D 2,58? Nie 4 (7) Dexametazon IVH 2 Ampicylina

Hawil D. C 2300 Tak 6 Celeston Ivh I -

T. Iwak M 4320 nie 10 Celeston Nie

w. Jutul M 2,8 Nie 6 - IVH nie Nie

Grupa 3

Celski S. M 3850 + - norma -

PROFESJONALNA BAZA DANYCH

NR GRUPA PLEC MASA APGAR5 APGAR10 LEK1 USGGL LEK2

1 1 1 2780 5 7 1 1 0

2 1 1 3500 8 1 1 1

3 1 2 4100 9 2 1 2

4 1 2 2950 6 7 3 2 1

5 1 2 3540 0 1 0

6 1 2 3100 7 1

7 2 2 2580 4 8 1 2 2

8 2 1 2300 6 2 1

9 2 1 4320 10 2 0

10 2 1 2800 6 0 1 0

! SŁOWNICZEK !

Np. LEK2 – Antybiotyk w pierwszych trzech dobach: 0=nie, 1=wankomycyna, 2=ampicylina, ‘ ‘ = brak danych

PODSTAWOWE ZASADY TWORZENIA BAZY DANYCH*

“DZIESIĘĆ PRZYKAZAŃ”

1. Wprowadź dane jako zmienne liczbowe (np.: tak=1, nie=2; płeć męska=1, płeć żeńska=2). Unikaj

liter, skrótów, jednostek pomiaru (np.: b.d.; 15%, <2500). Wszystkim kolumnom (np. w bazie Excel)

powinien być nadany format liczbowy.

2. Stosuj proste nazwy zmiennych (np.: kliniczny stopień duszności = KSD; płeć dziecka = PLEC;

stężenie bilirubiny = BILIRUB). Unikaj „polskich liter” i nie przekraczaj 8 znaków w nazwie zmiennej

3. Dla jednej zmiennej przeznacz tylko jedną kolumnę

4. Wprowadź dane każdego pacjenta w tej samej kolejności, z konsekwentnym sposobem zapisu

brakujących danych

5. Nadaj każdemu pacjentowi jego własny, niepowtarzalny numer identyfikacyjny. Nie wpisuj

informacji identyfikujących (np. nazwisko lub inicjały, numer historii choroby).

6. Wprowadź wszystkich pacjentów, niezależnie do ich grupowej przynależności (np. grupa

terapeutyczna lub kontrolna) do jednej bazy danych. Kolejność wprowadzania nie ma znaczenia.

Zastosuj zmienną identyfikującą grupę (np. grupa = 1 lub 2).

7. Wprowadzaj źródłowe zmienne ilościowe – transformacja do zmiennych jakościowych lub

pochodnych nastąpi podczas analizy danych (np. wysokość ciała w cm da się „przetłumaczyć” na

niski, średni lub wysoki wzrost; wartość BMI da się obliczyć na podstawie dwóch oryginalnych

danych; obecność hiperglikemii da się zidentyfikować na podstawie wartości ilościowej glikemii)

8. Stwórz kompletny „słowniczek” zawierający tłumaczenie kodów zmiennych, definicję wartości

zmiennych (np. tak=1; nie = 2), informację na temat postępowania z brakującymi danymi

9. Twórz bazę danych mając na uwadze cel i sposób późniejszej ich analizy

10. Skonsultuj pomysł na bazę danych z biostatystykiem i uczyń to ponownie po wprowadzeniu

informacji pochodzących od pierwszych 10 pacjentów.

*- na podstawie propozycji opracowanej przez D.W. Byrne

<[email protected]>



• Baza danych

• Zmienne


• Szacowanie

TERMINOLOGIA STOSOWANAW OPISIE BAZY DANYCH

Zmienne

Nr PLEC WZROST KSD FVC FEV1

1 1 178 2 3200 1800

2 1 169 1 3600 2500

3 2 168 5 3450 2040

4 1 175 3 3750 1750

5 2 163 4 3900 1900

Nazwa Zmiennej Wartość Zmiennej

zmienna, albowiem naturalna zmienność wartości

Obserwacje (1 pacjent=1 obserwacja)

RODZAJE ZMIENNYCH

KOMPLETNY PODZIAŁ UWGLĘDNIAJĄCY FORMAT

ZMIENNE

ILOŚCIOWE JAKOŚCIOWE

CIĄGŁE

liczby

(wzrost, masa)

DYSKRETNE

liczebność

(liczba badanych)

NOMINALNE

kategoria

(płeć, rasa)

PORZĄDKOWE

hierarchia

(klin. st. duszności)

RODZAJE ZMIENNYCH

PRAKTYCZNY PODZIAŁ UWGLĘDNIAJĄCY FORMAT

ZMIENNE

ILOŚCIOWE JAKOŚCIOWE

transformacja

RODZAJE ZMIENNYCH

PROSTY PODZIAŁ UWGLĘDNIAJĄCY FUNKCJĘ

Zmienna zależna

(w danej analizie: jedna zmienna)

Zmienne niezależne

(w danej analizie jedna lub więcej zmiennych)

Funkcja zmiennej zależy od celu: np. czy KSD zależy od FEV1?

KSD ~ FEV1

zmienna zależna zmienna niezależna



• Baza danych

• Zmienne


• Szacowanie

STATYSTYKA OPISOWA - CEL

Prezentacja danych w postaci tabelarycznej i graficznej

(histogramy, wykresy liniowe, itd.) oraz za pomocą

zintegrowanej formy matematycznej – liczby

(przy pomocy tzw. statystyk – wartość średnia, częstość, itd.)

…………………………………………………………………………….

Częstość (%) poszczególnych klas cholesterolemii w grupie mężczyzn

0

10

20

30

40

175 205 235 265 295 325 355

Cholesterolemia (mg/dl)

(%)

Średnie stężenie cholesterolu w badanej grupie mężczyzn 215 mg/dl

DWA OBSZARY STATYSTYKI

-1- -2-

Statystyka Opisowa Statystyka Analityczna

(ile ?, jak często ?) ↓ ↓(„charakterystyka”) Szacowanie Testowanie Hipotez

STATYSTYKA OPISOWA

PREZENTACJA ZMIENNYCH

ILOŚCIOWYCH

wzrost bilirubinemia

dochód masa ciała

opór dróg oddechowych

glikemia

czas karmienia piersią

stężenie ołowiu w krwi

czas hospitalizacji

obwód talii

ciśnienie tętnicze krwi

JAK OPISAĆ MASĘ CIAŁA NOWORODKÓW

W BADANEJ GRUPIE ?

n = 41

2,2 2,2 2,3 2,3 2,4 2,4 2,4 2,5 2,5 2,5 2,5 2,7 2,7 2,7 2,8 2,8 2,8

2,8 2,9 3,0 3,1 3,1 3,1 3,2 3,2 3,2 3,2 3,2 3,2 3,2 3,5 3,5 3,5 3,6

3,6 3,6 3,6 3,7 3,7 3,8 3,8 3,8 3,8 3,9 3,9 4,0 4,0 4,1 4,2 4,6 3,1

ŚREDNIA ARYTMETYCZNA = 3,1 kg

Zmienna Średnia arytmetyczna

(kg)

Zakres

(kg)

Mediana

(kg)

Modalna

(kg)

Masa 3,1 2,2- 4,6 3,2 3,2

↑ matematyczna prezentacja rozkładu zmiennej „masa ciała” ↑

„Liściogram” (stem&leaf)

2 20 21

2 30 33

2 41 44 48

2 50 51 51 52

2 72 75 78

2 80 80 83 84

2 98

3 05

3 10 15 15

3 22 25 25 25 25 25 28

3 50 53 55

3 62 66 68 68

3 70 75

3 82 85 85 85

3 90 95

4 00 50

4 10

4 25

4 60


W BADANEJ GRUPIE ?

MASA

2,20 i 2,21

2,30 i 2,33

itd.

UWAGA:

brak danych dla klas

2,60-2,69; 3,30 – 3, 49

i 4,30-4,55

0

2

4

6

8

2,2

2,4

2,6

2,8 3

3,2

3,4

3,6

3,8 4

4,2

4,4

4,6

Masa (kg)

n

HISTOGRAM

wartość średnia →

← mediana i modalna


W BADANEJ DANEJ GRUPIE ?

n = 41

2,2 2,2 2,3 2,3 2,4 2,4 2,4 2,5 2,5 2,5 2,5 2,7 2,7 2,7 2,8 2,8 2,8

2,8 2,9 3,0 3,1 3,1 3,1 3,2 3,2 3,2 3,2 3,2 3,2 3,2 3,5 3,5 3,5 3,6

3,6 3,6 3,6 3,7 3,7 3,8 3,8 3,8 3,8 3,9 3,9 4,0 4,0 4,1 4,2 4,6 3,1

ŚREDNIA ARYTMETYCZNA = 3,1 kg

Zmienna Średnia arytmetyczna

(kg)

Zakres

(kg)

Mediana

(kg)

Modalna

(kg)

Masa 3,1 2,2- 4,6 3,2 3,2

! w konfrontacji z histogramem brakuje jednej ważnej informacji !

MATEMATYCZNY OPIS ROZKŁADU

ZMIENNEJ ILOŚCIOWEJ

uwaga: x = 5,0, gdy [5,5,5,5,5] lub [5,3,7,8,2]

co więcej:

w pierwszym przypadku żadna z indywidualnych wartości nie różni się od w. średniej

w drugim przypadku większość indywidualnych wartości różni się od w. średniej

x

___ n

X = ( Xi) / Ni = 1

wartość średnia

w populacji w grupie

odchylenie wartości zmiennych od wartości średniej określa zmienność zmiennej

(wariancję)

(Xi – X) = Xi - X = Xi – NX = 0, ponieważ X = Xi/N

dlatego wprowadzono „potęgowanie”

zmienność (wariancja) = (Xi – X)2 / N

oczywista niedogodność związana z potęgowaniem, stąd pierwiastkowanie i

odchylenie standardowe = (Xi – X)2 / N

WARIANCJA I ODCHYLENIE STANDARDOWE

Wariancję i odchylenie standardowe rzadko liczymy w całej populacji źródłowej,

zwykle dotyczy to próby, a więc nie N, tylko

n – 1

zapis „n-1” oznacza, że tyle niezależnych względem n-tej wartości

kombinacji odchyleń ma znaczenie dla wielkości rozproszenia

(prymitywne spojrzenie na koncepcję stopni swobody)

Po korekcie: x → X ; x → S,

zmienność = wariancja = s2 = (Xi – X)2 / (n – 1)

odchylenie standardowe = s = (Xi – X)2 / (n – 1)

Wartość średnia i OS opisują rozkład wartości zmiennej ilościowej

0

5

10

15

20

25

30

35

min

x-2S X

x+2S ma

x

%

Rozkład normalny:

68% wszystkich wartości mieści się w przedziale x-1s … x+1s



WARTOŚĆ ŚREDNIA

I ODCHYLENIE STANDARDOWE

0

5

10

15

20

25

30

35

min

u-2v u

u+2v ma

x

%

x → średnia w populacji; X → średnia w grupie

x → odchylenie standardowe w populacji; SD → odchylenie standardowe w grupie

ROZKŁAD NORMALNY

Standardowa zmienna Z odzwierciedla prawdopodobieństwo,

z jakim występuje wartość X, gdy jej rozkład ma charakter normalny

(całe pole = 100%, reszta w tablicy rozkładu):

Z = (X - x ) / x

INNE WAŻNE ROZKŁADY

(W NAUKACH MEDYCZNYCH)

ROZKŁAD DWUMIANOWY (0/1)

NP. ZGON+/ZGON-; KIŁA+/KIŁA-

„0” i „1” to wszystkie możliwe wartości zmiennej dwumianowej.

Zatem gdy prawdopodobieństwo wystąpienia ‘0’ wynosi ‘p’,

to prawdopodobieństwo wystąpienia „1” wynosi ‘q=1-p’ albo ‘q=100%-p’.

Wartość średnia x = p, odchylenie standardowe x = p(1-p)

ROZKŁAD POISSON’A (n)

NP. LICZBA NAPADÓW ASTMY W TYGODNIU

Rozkład Poisson’a jest właściwy dla opisu (i analizy)

liczby zdarzeń w danym przedziale wiekowym

Rozkład prawoskośny (kurtoza >1)

Rozkład lewoskośny (kurtoza < - 1)

0

5

10

15

20

25

30

35

40

min

max

%

CHARAKTER ROZKŁADU

ZMIENNEJ ILOŚCIOWEJ

UWAGA: wartość kurtozy zależy też od wysokości „wybrzuszenia” krzywej

dlatego normalność rozkładu ocenia się testami:

Kołmogorowa-Smirnowa lub Shapiro-Wilka

TRANSFORMACJA ZMIENNYCH(próba przywrócenia normalności)

Gdy wartość średnia <> wartości mediany, lub gdy graficzna prezentacja

rozkładu danych ujawnia odstępstwo od krzywej Gauss’a,

lub gdy statystyczny dowód na takie odstępstwo (np. test Shapiro-Wilk’s):

0

5

10

15

20

25

30

35

min 2 4 6 8 10 12 14 16 18 20

%

Prawoskośny rozkład (bakteriologia, hematologia, toksykologia itp.)

posiada „rytm” naśladujący skalę logarytmiczną:

| | | | | | | |

1 2 3 4 5 6 8

REGUŁA TENDENCJI CENTRALNEJ

Rozkład średniego wieku w dwuosobowej grupie (n=2) wylosowanej z populacji (N=5)

0

1

2

3

4

5

6

5 6 7 8 9 10 11 12 13 14

wiek

n

Niezależnie od rozkładu zmiennej w populacji rozkład tej zmiennej w próbie (z tej populacji)

będzie zbliżony do normalnego, pod warunkiem, że wielkość próby

jest odpowiednio duża

n = 30 (konsensus !)

KANON n ≥ 30

Liczba

obserwacji Próba Komentarz

< 30 „mała” Założenie odstępstwa rozkładu normalnego

30 – 100 „średnia” Konieczne testowanie normalności rozkładu

>100 „duża” Wskazane testowanie normalności rozkładu

Dostępność programów statystycznych rozwiązuje kwestię szybkiej oceny rozkładu

OPIS ZMIENNEJ ILOŚCIOWEJ

MIARY POŁOŻENIA (MIARY TENDECJI CENTRALNEJ)

Średnia arytmetyczna, mediana, modalna

MIARY ROZPROSZENIA

Zakres, zmienność, odchylenie standardowe

X ± SD(„tablica rejestracyjna zmiennej ilościowej”)

X ± SD

Współczynnik Zmienności

„im mniejsza wartość ‘S’ tym mniejsza zmienność”

generalnie TAK, ale rola ‘X’, dlatego:

Współczynnik Zmienności (WZ) = (s / x) * 100%

PRAKTYCZNE ZASTOSOWANIE WZ

porównanie rozkładu jednej zmiennej w dwóch różnych grupach

porównanie rozkładu kilku zmiennych w jednej grupie

odchylenie standardowe ≠ błąd standardowy

PREZENTACJA ZMIENNEJ ILOŚCIOWEJ

Zmienna Jednostka

Pomiaru

Wartość

Średnia

Odchylenie

Standardowe

Mediana Zakres Normalność

rozkładu*

Wysokość Ciała cm 168,5 12,7 170,0 143 - 198 Tak

Masa Ciała kg 69,3 8,5 71,4 48 - 95 Nie

…

Uwaga: „liczba miejsc po przecinku” może przekraczać o 1 dokładność pomiaru

* - wynik testu Shapiro-Wilk’a

STATYSTYKA OPISOWA

PREZENTACJA ZMIENNYCH

JAKOŚCIOWYCH

hiperglikemia płeć

nadwaga

obturacja jakość życia

kliniczny stopień duszności zawód

wykształcenie

cień okrągły w płucach krwotok

rodzaj porodu

hipercholesterolemia mutacja

ROZKŁAD ZMIENNEJ JAKOŚCIOWEJ

(sposób prezentacji tabelarycznej)

Wyniki terapii „X” w grupie 75 chorych

Zmienna Wartość

zmiennej

Częstość

(n)

Częstość

względna

(%)

Częstość

skumulowana

(%)

Remisja

Brak 15 20,0 20,0

Częściowa 40 53,3 73,3

Całkowita 20 26,7 100,0

Razem 75 100,0

Objawy

uboczne

Brak 10 13,3 13,3

Słabe 25 33,3 46,6

Średnie 20 26,6 73,2

Duże 12 16,4 89,4

B. duże 8 10,6 100,0

Razem 75 100,0

Zmienna Wartość

zmiennej

Częstość

n %

Remisja

Brak 15 20,0

Częściowa 40 53,3

Całkowita 20 26,7

Objawy

uboczne

Brak 10 13,3

Słabe 25 33,3

Średnie 20 26,6

Duże 12 16,4

B. duże 8 10,6


(prosty sposób prezentacji tabelarycznej)

Wyniki terapii „X” w grupie 75 chorych

gdy zmienna ma tylko dwie wartości można podać częstość jednej

np. częstość hiperbilirubinemii


(graficzna prezentacja)

Częstość (%) objawów ubocznych terapii „X” w grupie 75 chorych

0

5

10

15

20

25

30

35

Brak Słabe Średnie Duże B. Duże

Nasilenie Objawów Ubocznych

%



• Baza danych

• Zmienne


• Szacowanie

BIOSTATYSTYKA

W PRAKTYCE

albo opis

albo szacowanie

albo testowanie hipotez*

* - hipotezy odnośnie różnic lub zależności

Statystyka

opisowa

Statystyka

analityczna

SZACOWANIE

• wyniki badania sugerują, że częstość astmy u dzieci w wieku 7-10 lat kształtuje się na poziomie 5%

• ryzyko względne zachorowania na cukrzycę związane z przebyciem częstych infekcji wirusowych w młodości wynosi 1,27

• prawdopodobieństwo uzyskania stopnia doktora nauk medycznych w wyniku ukończenia studiów doktoranckich na Wydziale Lekarskim SUM w Katowicach wynosi 100%

SZACOWANIE (ESTYMACJA)

<) ‘x’ w próbie

ESTYMATOR PARAMETR

to mierzę, aby o tym się wypowiedzieć

aby poznać średnią masę ciała donoszonych noworodków matek palących

papierosy nie badam wszystkich dzieci, ale grupę np. 500 dzieci takich matek

BŁĄD W BADANIU EPIDEMIOLOGICZNYM

SYTUACJA IDEALNA

ESTYMATOR = PARAMETR

SYTUACJA REALNA

ESTYMATOR = PARAMETR + BŁĄD

ESTYMATOR = PARAMETR + BŁĄD SYSTEMATYCZNY + BŁĄD PRZYPADKOWY

BŁĄD

PRZYPADKOWY I SYSTEMATYCZNY

• Duży błąd systematyczny → mała trafność

• Duży błąd przypadkowy → mała precyzja

Trafność = stopień, w jakim obserwacja jest zdolna do

pomiaru zjawiska, które jest przedmiotem obserwacji

Precyzja = powtarzalność wyniku obserwacji

PRECYZJA ≠ TRAFNOŚĆ

ale

WIARYGODNOŚĆ = PRECYZJA + TRAFNOŚĆ

# 1: Odchylenie Standardowe (SD)

# 2: Wielkość próby (n)

BŁĄD STANDARDOWY ŚREDNIEJ

(STANDARD ERROR OF MEAN: SE)

SE = SD / √n

DETERMINANTY BŁĘDU PRÓBY

(BŁĘDU PRZYPADKOWEGO)

SZACOWANIE ≡ ESTYMATOR PUNKTOWY + ESTYMATOR ZAKRESU

Estymator punktowy = pojedyncza wartość liczbowa (np. średnia arytm., %) obliczona

w celu oszacowania wartości korespondującego, populacyjnego parametru (prawdziwej

średniej)

Estymator zakresu = dwie wartości liczbowe definiujące zakres przedziału zawierającego

wartość parametru (przedziału ufności – P.U.)

Dolna Wartość P.U. Estymator Punktowy Górna Wartość P.U.

|---------------------------------------•---------------------------------------|

| ←margines błędu (dół) || margines błędu (góra) → |

wąski Przedział Ufności (Confidence Interval – CI) jest sygnałem wysokiej precyzji szacowania

Mały Błąd Standardowy = wąski Przedział Ufności,

ALE …

ILE BŁĘDÓW STANDARDOWYCH W GÓRĘ / DÓŁ ?

“1 SE”

0

5

10

15

20

25

30

35

1SE X

1SE

“1.96 SE”

0

5

10

15

20

25

30

35

2SE X

2SE

Zwykle 1.96 SE → szacowanie na poziomie 95%: 95%PU = Estymator ± 1.96 SE

Gdy reprezentatywna próba pochodzi z populacji

o normalnym rozkładzie parametru wówczas istnieje 95% pewność,

że obliczony 95% PU zawiera prawdziwą wartość szacowanego parametru

95% PU

PRZYKŁAD – ZMIENNA ILOŚCIOWA

Jakie jest rzeczywiste stężenie hemoglobiny u dzieci narażonych na

zanieczyszczenia powietrza atmosferycznego związkami ołowiu,

gdy w próbie 100 dzieci wylosowanych z tej populacji stwierdzono

średnie stężenie hemoglobiny na poziomie 11,5 g/100ml ?

x = 11,5 g/100 ml (estymator punktowy); SD = 2,1 g/100 ml; n=100

cel - uzyskanie wiarygodności na poziomie 95%

SE = SD / √ n = 2,1 / 10 = 0,21

95% PU = 11,5 +/- 1,96 * 0,21

95%PU: 11,1 – 11,9

Rzeczywiste stężenie hemoglobiny w tej populacji wynosi od 11,1 do 11,9 g/100 ml

PRZYKŁAD – ZMIENNA JAKOŚCIOWA

Jaka jest rzeczywista częstość astmy w populacji dzieci w wieku 7-9 lat,

gdy w próbie 100 dzieci wylosowanych z tej populacji stwierdzono 5

przypadków astmy ?

p = 5 / 100 = 0,05 (estymator punktowy); n = 100

cel - uzyskanie wiarygodności na poziomie 95%

SE = √ p (1-p) / n = √ 0,05 (1-0,05) / 100 = 0,02

95% PU = 0,05 +/- 1,96 * 0,02

95%PU: 0,01 – 0,09

Rzeczywista częstość astmy w populacji wynosi od 1% do 9%

CO MOŻNA SZACOWAĆ ?

Wszystko, co pozwala się zmierzyć

i przedstawić jako estymator

(X, %, mediana, różnica, ryzyko …)

i błąd standardowy

WALORY 95%PU

‘PU’ jest miarą precyzji szacowania efektu i:

zawiera informację o statystycznej znamienności efektu ( tę

samą, która wynika z ‘p’, przy ‘α’ korespondującym z PU),

ujawnia prawdopodobny rozmiar efektu, z opisem jego

zakresu (ułatwia interpretację wyniku badania);

informuje o mocy badania (identyfikuje m.in. małą moc* badania

jako możliwą przyczynę negatywnego wyniku).

*- moc badania to praawdopodobienstwo wykrycia rzeczywiscie istniejacego efektu

REKOMENDACJA DLA AUTORÓW* Międzynarodowy Komitet Redaktorów

Czasopism Medycznych

(„Vancouver Group” – 1988)

„Gdzie możliwe, podaj zmierzone wielkości efektów i przedstaw je

razem z właściwymi wskaźnikami błędu pomiaru lub niepewności

(takimi jak przedział ufności). Unikaj wyłącznego przytaczania

wyników testowania hipotez, takich jak wartości ‘p’, które nie są

w stanie przekazać ważnej informacji o wielkości efektu”.

*- International Committee of Medicla Journal Editors. Uniform requirements for

manuscripts submitted to biomedicla journals. Strona internetowa: www.icmje.org

/…/

/…/

SZACOWANIE (ESTYMACJA)

<) ‘x’ w próbie

to poznajemy poprzez badanie

Krytyczne znaczenie reprezentatywności

próby, jej wielkości oraz metod pomiaru



REPREZENTATYWNOŚĆ

Zdolność do opisu zjawiska w populacji,

w stopniu najlepiej charakteryzującym jego

rzeczywistą (prawdziwą) naturę

PODSTAWOWE METODY DOBORU

REPREZENTATYWNEJ PRÓBY

Losowanie Proste

Losowanie Systematyczne

Losowanie Warstwowe

Losowanie Zespołowe



MINIMALNA

NIEZBĘDNA

LICZEBNOŚĆ

PRÓBY

OSZACOWANIE WIELKOŚCI PRÓBY

ESTYMATOR ILOŚCIOWY (WARTOŚĆ ŚREDNIA)DODATKOWE NIEZBĘDNE USTALENIA

WYBÓR ZMIENNEJ DECYDUJĄCEJ

Gdy szacowanie dotyczy złożonego parametru (np. niedokrwistość)

należy wybrać jedną zmienną sterującą procedurą (np. stężenie

hemoglobiny, a nie hematokryt, liczbę erytrocytów itd.)

UWGLĘDNIENIE STRUKTURY PRÓBY

Gdy szacowanie dotyczy parametru, który może przybierać różną

wartość w zależności od danej cechy należy obliczyć pożądaną

wielkość próby dla każdej z istotnych warstw, np.

dla obliczenia liczby badanych kobiet i mężczyzn w celu oszacowania

częstości otyłości trzeba przeprowadzić tę procedurę osobno dla

kobiet i osobno dla mężczyzn (ostateczna liczebność to suma dwóch

obliczeń)

FILARY DOBREJ PRAKTYKI

EPIDEMIOLOGICZNEJ

Reprezentatywna i odpowiednio duża

próba to warunki koniecznie (chociaż

niewystarczające) dla uzyskania

wiarygodnych wyników w badaniach

epidemiologicznych

to minimum minimorum dla spełnienia wymogów poprawności badania epidemiologicznego



WSZYSTKO JEST POMIAREM

Odpowiedź na pytanie w kwestionariuszu (tak/nie ~ 1/0)

Obecność cienia okrągłego na zdjęciu rtg płuc (tak/nie ~1/0)

Kliniczny stopień duszności (1/2/3/4/5)

Glikemia (mg%)

ITP …

ITD …

Documents

PODSTAWY STATYSTYKI - Katedra i Zakład Epidemiologiiepidemiologia2.sum.edu.pl/wp-content/uploads/2015/11/SEMIINTERNET1.pdf · podstawy statystyki seminarium 1! uwaga ! slajdy wybrane