12
임상연구에 필요한 기초 통계 고려대 의과대학 의학통계학교실 고려대 안암병원 임상시험센터 이지성 [email protected] 1. 통계학의 기본개념 (Basic statistical concept) 2. 자료 관리 (Data management) 3. 단변수 분석 (Univariable analysis) 4. 이변수 분석 (Bivariable analysis) 5. 다변수 분석 (Multivariable analysis) 6. 결론 목차 통계학(Statistics), 의학통계학(Biostatistics) 통계학(統計學, Statistics) 통계학(統計學, Statistics) 표본 자료(sample data)를 수집(collect)/정리(organize)/요약(summary) 하고(기술통계학: descriptive statistics) 이 요약된 자료를 분석(analysis)하여 모집단(population)에 관한 정보 추정(estimation) 또는 검정(testing)한 뒤 (추론통계학: inferential statistics) 그 결과를 해석(interpret)하고 제시(reporting)하는 학문 의학통계학(醫學統計學, Biostatistics, 生統計學) 의학통계학(醫學統計學, Biostatistics, 生統計學) 통계학 이론을 근간으로 아래의 목적을 추구 이론적 개념 구축 및 연구 방법론 개발 의학자료의 특성 탐구 의학연구를 위한 통계적 방법론의 기틀 제공 추론 (inference) 무작위 표본추출 (random sampling) 통계량(statistic) 표본(sample) 모수(parameter) 특성(characteristic) 모집단(population) 통계적 추론(Statistical Inference) 특성(characteristic) 예: 표본평균, 표본표준편차 예: 모평균, 모표준편차

(마더세이프라운드) 임상연구에 필요한 기초 통계

Embed Size (px)

Citation preview

Page 1: (마더세이프라운드) 임상연구에 필요한 기초 통계

임상연구에 필요한 기초 통계

고려대의과대학의학통계학교실

고려대안암병원임상시험센터

이지성

[email protected]

1. 통계학의 기본개념 (Basic statistical concept)2. 자료 관리 (Data management)3. 단변수 분석 (Univariable analysis)4. 이변수 분석 (Bivariable analysis)5. 다변수 분석 (Multivariable analysis)6. 결론

목차

통계학(Statistics), 의학통계학(Biostatistics)

통계학(統計學, Statistics)통계학(統計學, Statistics)

표본 자료(sample data)를 수집(collect)/정리(organize)/요약(summary)하고(기술통계학: descriptive statistics)

이 요약된 자료를 분석(analysis)하여 모집단(population)에 관한 정보를 추정(estimation) 또는 검정(testing)한 뒤 (추론통계학: inferential statistics)

그 결과를 해석(interpret)하고 제시(reporting)하는 학문

의학통계학(醫學統計學, Biostatistics, 生統計學)의학통계학(醫學統計學, Biostatistics, 生統計學)

통계학 이론을 근간으로 아래의 목적을 추구

이론적 개념 구축 및 연구 방법론 개발

의학자료의 특성 탐구

의학연구를 위한 통계적 방법론의 기틀 제공

추론(inference)무작위 표본추출

(random sampling)

통계량(statistic)표본(sample)

모수(parameter)특성(characteristic)모집단(population)

통계적추론(Statistical Inference)

특성(characteristic)

예: 표본평균, 표본표준편차

예: 모평균, 모표준편차

Page 2: (마더세이프라운드) 임상연구에 필요한 기초 통계

추론(inference)

무작위 표본추출(random sampling)

통계량(statistic)특성(characteristic)표본(sample)

모집단(population) 모수(parameter)특성(characteristic)

male female

male female

variable of interest : SBP

자료요약(차원 축소)

M F

MMM sxn ,,FFF sxn ,,

자료요약(차원 축소)

가설 (hypotheses)

FMH :0

FMH :1

귀무가설

대립가설

예: Two‐sample t‐test (두 표본 t‐검정)

Question: 60대 type 2 DM 환자들의 경우, 남녀 간 수축기혈압은 서로 다른가?

남/여 간 표본평균은 차이를 보이게 됨. 이러한 차이가 귀무가설이 사실이라는 가정하에서 나타날 확률 : P‐value

따라서 p‐value가 작으면(보통의 경우는0.05와 비교) 자료는 대립가설을 support해주고 있다고 본다.

전수조사

전수조사(예: census, population data 이용)를 하는 경우에도통계분석이 필요한가? Basically no! 통계분석을 실시하는 이유 Inferential statistics : 표본(sample)을 사용해 모집단(population)에

대한 추론(inference)을 하기 위한 것 만일 모집단을 전수 조사했다면? 통계분석은 필요하지 않음

예) SF Health Department가 운영하는 AIDS registry 전수 조사로 97% 이상의 환자를 capture 나이에 따른 비교, 혹은 homeless와 stably housed 간의 비교 시 p‐

value를 제시하지 않음 단, US population 전체로 projection하고 싶으면 p‐value를 계산

추론: 모집단에서의 관련성 여부 평가

연구가설 설정 귀무가설 (null hypothesis, H0) No association between two or more variables (in the population) No difference between two or more groups (in the population)

대립가설 (alternative hypo., H1) Variables are associated (in the population) Groups are different(in the population)

자료 수집 P‐value 귀무가설이 사실인데 (즉, 실제로 모집단에서는 군 간 차이가 없는데), 표본 자

료에서는 현재와 같은 군 간 차이가 나타날 가능성 P‐value가 ‘생각보다’ 크면? 

• 있을 수 있는 일 임을 반영. 표본에서 보여진 차이는 우연한 차이. 표본자료는 H0가 맞을 가능성을 시사.

P‐value가 ‘생각보다’ 작으면?

Sound Research Question

1. 주제에 대한 답을 하고자 하는 모집단(population)이 명확

2. 해당 모집단의 health와 well being에 영향을 미칠 수 있는 주제

3. 효과가 없다는 연구결과(“a null result”)가 의미가 있을 수 있을 만큼의 충분한 표본 수 등록이 가능

4. 해당 질병(의 유병율)과 관련해 본인이 연구주제에 대한 답을 하기 위해특별히 가지고 있는 강점이 무엇인지 고려

5. Make sure it has not answered• 예) PubMed

Page 3: (마더세이프라운드) 임상연구에 필요한 기초 통계

Data Management

Data management process

자료(data)하나 이상의 변수(variable)들에 대한 관찰값(observation)들로 구성

자료 및 변수자료 및 변수

관찰값(observation)

또는케이스(case)

변수(variable) 변수(variable)란 subject(개체: 주로 사람)

에 대해 관찰한 특성(characteristics)들

(즉, 이름, 연령, 성별 등)을 의미한다.

[세로 줄]

케이스(case)란 각 subject(개체: 사람)를

의미한다. [가로 줄]

← 변수 6개, 관찰값 10개로 이루어진 자료

0.95 0.89 0.81 0.91 0.93 0.88 0.91

. 0.93 0.81

24.7 20.1 19.3 25.7 25.0 22.8 24.6 999.026.5

22.1

1110010101

71667369787271676964

ㅇㅅㄱ

ㅎㅇㄷ

ㄱㄴㅇ

ㅈㅎㅁ

ㄴㅂㅍ

ㅌㅇㅎ

ㅊㅁㅎ

ㄱㅎㅈ

ㅇㄹ

123456789

10

WHRBMIsexagenameid

이와 같이 해당 칸에 자료가 없는

경우를 결측값(missing value)이라 함.

숫자형 변수인 경우에는 점(.)을,

문자형 변수인 경우에는 공란( )을

사용해 입력하는 것이 일반적임.

(자료입력 시 enter를 치면 자동 생성)

자료 수집

범주형 (질적) 자료[categorical (qualitative) data]명목형 자료(nominal data) 두 범주: 이진수 자료(binary data), 이분형 자료(dichotomous data) 예: 혈액형(A/B/O/AB),  성별(남/여)

순서형 자료(ordinal data) 예: 통증강도(severe/moderate/mild/none)

수치형 (양적) 자료[numerical (quantitative) data]이산형 자료(discrete data) 계수 자료(count data) 예: 동반질환의 수, 재원일수

연속형 자료(continuous data) 예: 혈압, 콜레스테롤 수치, 연령

자료의 종류: 자료의 형태에 따라 통계분석 방법이 결정됨자료의 종류: 자료의 형태에 따라 통계분석 방법이 결정됨

자료의 종류(Types of data)

Page 4: (마더세이프라운드) 임상연구에 필요한 기초 통계

질적 변수(qualitative variable)

명목형 변수(nominal variable): 구분이 목적이며 순서/간격의 의미가 없음

• 이진수 변수(binary variable): 두 개의 값만 취하는 명목형 변수 (예: 성별)

양적 변수(quantitative variable)

순서형 변수(ordinal variable): 구분/순서의 의미 있음, 간격의 의미 없음

• 범주형 변수에 해당하나 연속형 변수로 취급하는 경우도 있음 (예: 중증도)• Likert’s 5‐point scale (라이커트의 5점 척도)

구간형 변수(interval variable): 구분/순서/간격의 의미 있음. 절대 0 개념 없음

비형 변수(ratio variable): 구분/순서/간격/절대 0의 개념 있음

• 굳이 구간형 변수(예: 온도)와 비형 변수(예: 체중)를 구분할 필요는 없음

변수의 종류 - 1변수의 종류 - 1

변수의 종류(Types of variables)

연속형 변수(continuous variable)

독립변수(independent variable), 설명변수(explanatory variable)인과관계의 틀 안에서 원인(cause)에 해당하는 변수

종속변수(dependent variable), 반응변수(response variable)인과관계의 틀 안에서 결과(outcome)에 해당하는 변수

변수의 종류 - 2변수의 종류 - 2

변수의 종류(Types of variables)

y x

결과(종속변수) 원인(독립변수)

xy

kk xxy 110

y x1 x2 xk…

결과(종속변수) 원인들(독립변수들)

단변수 분석(univariable analysis)

다변수 분석(multivariable analysis)

Note: 다변량 분석?(multivariate analysis)

‘개략적인’통계분석 방법의 구분

종속변수, 반응변수, Y 독립변수, 설명변수, X

결과 원인

회귀분석공분산분석(ANCOVA)

로지스틱 회귀분석일반선형모형(GLM)

일반화 추정방정식(GEE)

회귀분석(Regression)

로지스틱 회귀분석(logistic regression)

t-test

분산분석(ANOVA)

반복측정 분산분석GEE

2 – 검정 (행 vs 열)명목형 vs. 명목형명목형 vs. 순서형순서형 vs. 순서형

범주형 연속형

연속형

범주형

혼합

종속(반응)변수, y

독립(설명)변수, x

하나: 단변량 - (univariate -)여러 개: 다변량 - (multivariate -)하 나 : 단변수 분석(univariable analysis)

단순 - (simple -)여러 개: 다변수 분석(multivariable analysis)

다중 - (multiple -)

기타 특수한 경우의 분석방법들:

상관분석, 생존분석, 시계열분석,

로그선형 분석, 비모수 분석,

다변량분석 방법들, 메타분석,

생동성 검정 등등………

Data entry screen (DES) [coding guide] example

Page 5: (마더세이프라운드) 임상연구에 필요한 기초 통계

변수명(variable name)의 결정 대부분의 software program들 8 letters 까지 허용

Use the full name or a common abbreviation That are descriptive and easy to remember

같은 내용을 반복적으로 측정하는 경우 변수명의 연속성이 유지되도록 예) CD4_1, CD4_2, CD4_3 

띄어쓰기 금지, under bar( _ )를 효율적으로 사용 변수명에 대한 설명 Range를 specify, 소수점 아래 자리 수를 specify 가능한 한 variable labels도 함께 명시

자료 입력(Data entry)자료 입력 시 유의사항자료 입력 시 유의사항

범주형 자료 적절한 형태의 숫자 코드 할당 (조사지 위에 함께 적어 놓는 것 추천) 이진수 자료의 경우 0/1을 사용 추천 (주로 ‘예’=1 / ‘아니오’=0) 만일 1/2로 코딩하는 경우: 자료분석 시 (1/2)→(1/0)으로 recoding 해서 분석 (중요!)

수치형 자료 측정한 그대로 기록 (줄여서 입력하지 말 것) 측정 단위의 일관성 문제에 항상 주의

동일 집단에 대한 자료 입력 시 여러 개의 worksheet를 사용하는 경우 Unique ID 부여 (자료의 결합을 위해) – 매우 중요! 

날짜와 시간의 문제: 조사/입력 형식의 통일 결측치(missing value)의 입력: 가능한 한 default value(. 또는 공백) 사용 자료의 가로 한 줄은 한 사람(개체)에 대한 정보를, 세로 각 줄은 서로 다

른 변수를 나타내도록 입력 (recommended, not mandatory)

□ 예 □ 아니오 □1 예 □0 아니오→

Examples of data entry: sorry

20

Examples of data entry: good

Page 6: (마더세이프라운드) 임상연구에 필요한 기초 통계

Examples of data entry: good 명목형 or 순서형 변수의 입력 입력 시, 정수로 입력 분석 시,multiple dichotomous variables를 생성 가변수(dummy variables) / 지시변수(indicator variables)

예 변수: TOAST (SVO, LAA, CE and UD)  입력: TOAST=1, 2, 3 and 4, respectively, and use it? Other undetermined etiology group has 4 times larger effect than small 

vessel occlusion group in its size ??? 분석: 3개의 두범주 변수(D1, D2, D3)를 생성해서 분석

TOAST D1 D2 D3

SVOLAACEUD

1000

0100

0010

Meaning of dummy coding

If (D1, D2, D3) = (1, 0, 0), then TOAST = 1 (SVO)If (D1, D2, D3) = (0, 1, 0), then TOAST = 2 (LAA)If (D1, D2, D3) = (0, 0, 1), then TOAST = 3 (CE)If (D1, D2, D3) = (0, 0, 0), then TOAST = 4 (UD)

22

Data cleaning Cleaning data is like house cleaning First step 각 변수의 반응값들 분포(distribution)에 대한 review Implausible value 들의 빈도(frequency)에 대한 review 

결측 자료(missing data)의 발생 정도를 평가 예) follow‐up question의 응답 수를 검토

“흡연하십니까?”라는 질문에 100명이 No라고 대답했다면 “하루에 담배를몇 대나 피십니까?”라는 질문에도 역시 100명이 N/A 이어야!

Sparse data(희박 자료)를 가지는 변수들에 주의 이 변수들은 일반적으로 recode 할 필요가 있게 됨

Documentation!!

Data cleaning입력오류 (오타; typing error) 확인입력오류 (오타; typing error) 확인

First option: 원본 대조 / Second option: double entry 둘 다 완벽한 것은 아니나 오류를 최소화 해 줄 수는 있음

오류 검토 범주형 자료

검토가 비교적 쉬움.  나타나서는 안 되는 값이 입력되어 있다면 분명히 오타 빈도표(frequency table)의 활용이 효과적

수치형 자료 오타발생 가능성 높음. 

찾기 어려움 (예: 자료위치 바뀌는 경우, 소수점 문제 등) 범위 검토(range check)가 효과적

날짜 자료 쉬운 문제는 아님

이상값 확인(예: 070230) / 논리적 검토(예: 생년과 나이의 불일치, 연구개시일 검토 등)

오류 검토 후 자료의 수정 해당 자료가 잘못 입력된 자료라는 명백한 증거가 있는 경우에만 정정 단지 이상한 값이 있다는 이유만으로 자료 수정은 곤란

Page 7: (마더세이프라운드) 임상연구에 필요한 기초 통계

Data cleaning결측치(missing value)결측치(missing value)

자료 내 결측치의 비율이 높으면 연구결과의 신뢰성 저하

결측치 발생 이유에 대한 고찰 필요 특정 변수에 대해 많이 나타나고 있는 경우: 해당 변수는 사용 부적절

어떤 변수가 특정 subgroup에 대해 모두 결측치: 특별한 의미, 분석 시 고려

결측치가 분석에 미치는 영향 주 관심변수와 관련이 있는 것이면 biased result가 얻어질 가능성

통계적인 방법론의 사용에 영향을 미침 결측치에 덜 민감한 분석방법의 선택(예: repeated measures ANOVA / GEE)

결측치를 추정해서 삽입(imputation) 해당 변수에 대한 자료값들의 average value를 imputing하는 것은 부적절

통계적 방법들: single imputation (부적절), multiple imputation (MI) (추천!!) 

최선의 방법

연구의 시작단계에서부터 결측치 발생가능성을 최소화하려는 노력

25

Data cleaning이상치(outlier)이상치(outlier)

자료의 전반적인 값들과 구별되는 값 / 다른 값들과 병립될 수 없는 값

실제 관찰값일 수도, 잘못 입력된 값일 수도 있음 예: 키가 210인 여성

만일 연구 대상이 일반인/초등학생이면? 만일 체중과 함께 검토한다면?

통계분석방법의 종류에 따라 결과에 심각한 영향을 미칠 수도 예: Student’s t‐test vs. Wilcoxon’s test

따라서 분석 전에 자료 내에 이상치가 있는지를 검토하는 것은 매우 중요한 작업

이상치에 대한 검토 Range check이 효과적 / Graphical method (histogram, scatter plot 등) 사용도 효과적 특정 통계모형 내에서도 통계적 방법을 사용한 검토 가능(예: 회귀분석, 분산분석 등)

이상치의 처리 무분별한 삭제는 곤란 최선의 방법: with/without analysis (sensitivity analysis)

분석결과가 서로 비슷하면 ok 결과가 서로 상이하면 이상치에 영향을 많이 받지 않는 분석법(예: 비모수적 방법)을 선택

26

Variable recoding

Open hard to see trends in data 연속형 변수 자료입력 시, 가능한 한 변수의 interval nature가 유지되도록 입력 자료가 매우 sparse 하면 이를 break 해야 할 수도 (예) 혈압: “<90, 90‐139, 140‐159, 160 or more” 등으로 분류하여 범주화하

는 방법은 research question에서만 정당화 될 수 있음 Such change may perfectly reasonable if it fits the study goals

Interval variables를 ordered categories로 recoding (1) research question에 기초한 임상적 판단에 근거, 범주화 (2) By an equal or near equal number of subjects (ex. tertile, quartile)

• 변수의 분포 특성 유지, power maximize 및 자의적 분류 위험 최소화• 그러나 변수의 interval nature에는 심각한 손상 야기

변수 재 정의의 주 목적변수 재 정의의 주 목적

Sparse data의문제를해결하기위해서 (To avoid sparse distribution) 변수의방향을바꾸기위해서 (To reverse the direction of a variable)

Sparse dataSparse data

Variable recoding More comments 새로 recode 된 변수에 대해서는 반드시 frequency를 check할 것 기존 변수와 새로운 변수 간의 cross table도 역시 검토할 것 결과에 ‘우연’이 개입되지 않도록 해야 함 결과(outcome)에 근거해서 변수를 범주화하지 말 것 범주들을 combine하는 데 있어서 a priori  reason이 없다면 통계적으로 유

의한 결과를 얻기 위해 범주들을 묶지 말 것 (do not group them together to obtain a statistically significant results)

Page 8: (마더세이프라운드) 임상연구에 필요한 기초 통계

단변수 분석(Univariable analysis)

DB locking• Either before or after performing this analysis

A. 연속형 변수, 순서형 변수의 기술 첫 단계는 histogram을 사용해 자료의 분포(distribution)를

visual 하게 파악!

GFR (glomerular filtration rate)

The width of the intervals of a histogram is chosen based on the density or sparseness of the data

정규분포 (Normal Distribution)

1. 종 모양(bell shape)2. 평균()을 중심으로 좌우 대칭(symmetric)3. 수평축은 실선, 수직축은 확률. 따라서 곡선 아래 면적은 자료가 해당

구간에 속할 확률. 곡선 아래의 전체 면적은 확률=1 

정규분포정규분포

1)( ixP683.0)( xP

90.0)282.1282.1( xP

95.0)96.196.1( xP

99.0)575.2575.2( xP

모집단 자료의 분포

(표본수와는 관계없음)

자료의 기술: 자료의 분포를 요약

기본적으로 두 종류의 척도를 이용 자료의 중심 위치 (예: 평균) 자료의 흩어진 정도 (예: 표준편차)

예: 자료가 정규분포를 한다면…  자료의 95%는 평균±2(표준편차) 내에 존재하게 된다.

Page 9: (마더세이프라운드) 임상연구에 필요한 기초 통계

자료의 기술: “중심 위치”자료의 위치 척도 (Measures of central tendency)자료의 위치 척도 (Measures of central tendency)

자료의 위치(location)에 관한 일반적인 척도: an average 산술평균(arithmetic mean; mean)

중앙값(중위수, median) n이 홀수? 크기 순으로 나열된 자료의 (n+1)/2 번째 값

n이 짝수? 크기 순으로 나열된 자료의 n/2번째 값과 (n/2 +1)번째 값의 산술평균

최빈값(최빈수, mode) 가장 높은 빈도를 보이는 값

기하평균(geometric mean; GM) 로그변환된 값들의 산술평균을 역변환한 값

자연로그를 사용하면 역변환으로 지수변환(exponentiate)을 사용 상용로그를 사용하면 역변환으로 십진수(10의 몇 승)를 사용

가중평균(weighted mean)

자료의 기술: “중심 위치”

)()(log xnlxy e

)(log10 xy

xeGM xGM 10

흩어진 정도(spreadness), 산포(dispersion), 변동(variability) 범위(range): R=max‐min or (min, max) 백분위수(percentile)

아래쪽 기준으로 명명 예) 제5백분위수, 5th percentile

십분위수(deciles) / 오분위수(quintiles) / 사분위수(quartiles) / 삼분위수(tertiles) 사분위수: Q1(=min), Q2(=25th), Q3(=50th, median), Q4(=75th percentile)

사분위 범위(interquartile range, IQR): IQR=Q3‐Q1십분위 범위(interdecile range, IDR): IDR=P90‐P10기준구간, 기준범위, 정상범위(reference interval, reference range, 

normal range) 자료의 가운데 95%, 즉, 97.5th percentile ‐ 2.5th percentile, 또는 Q3‐Q1 

자료의 기술: “흩어진 정도”자료의 변동 척도 (Measures of variability)자료의 변동 척도 (Measures of variability)

자료의 기술: “흩어진 정도” 분산 (variance, Var, S2)

Page 10: (마더세이프라운드) 임상연구에 필요한 기초 통계

자료의 흩어짐자료의 흩어짐

흩어진 정도(spreadness), 산포(dispersion), 변동(variability)분산(variance, Var)

표준편차(standard deviation; Std, SD)

기하표준편차(geometric standard deviation; GSD) 로그변환된 값들의 표준편차를 역변환한 값

변동계수, 변이계수(coefficient of variation, CV)

자료의 기술: “흩어진 정도”

(%)100x

SDCV

xeGM

표준오차 (standard error)

평균의 표준오차

표본평균들의 표준편차(Standard deviation of means) 얻어진 평균의 표준오차(Standard error of the mean; SEM)라고 함 (평균의) 표준오차(SE, Std.Err., SEM)

(여기서 SD는 표본에서 얻어진 관찰값들의 표준편차)

즉, (모든 가능한, 가상의) 표본평균들의 표준편차 (얻어진) 표본평균의 정밀성(precision)에 관한 척도 SE가 크면 얻어진 추정치(즉, 표본평균)가 정밀하지 않다는 것을 의미 SE가 작으면 얻어진 추정치가 정밀하다는 것을 의미

표준오차를 줄이는 방법 표본의 크기를 증가 시키거나, 변동량이 적은 관찰값들을 얻는 것

nSDXSE )(

신뢰구간 (confidence interval)신뢰구간(Confidence Interval, CI)

점 추정값(예: 평균)을 중심으로 좌우로 (평균의) 표준오차의 몇 배수만큼 떨어진 값을 계산하여 이를 구간 형태로 표현한 것

알고자 하는 모수(예: 모평균)가 포함되는 확률적 구간 95% 신뢰구간(95% C.I.)의 의미 예를 들어, (가상적으로) 같은 크기의 표본을동일한 조건하에서 100회 추출해서 100개의신뢰구간들을 구했을 때, 이들 중 95개 정도는모수를 포함하고 있을 것이며, 현재 표본에서

얻어진 신뢰구간은 바로 이들 중 하나라는 의미

모평균에 대한 신뢰구간

모평균에 대한 95% 신뢰구간 분산(σ2)이 알려져 있지 않지만 표본 수가 충분히 클 때= (표본평균 ‐ z0.025ⅹSE,  표본평균 + z0.025ⅹSE)

=                                     즉, 

분산 (σ2)이 알려져 있지 않고 표본 수도 작을 때= (표본평균 ‐ t0.025ⅹSE,  표본평균 + t0.025ⅹSE)

=                                            즉, 

여기서 1.96은 표준정규분포의 양쪽 꼬리 확률값이 0.05인 경우에 해당하는 값t0.025 는 자유도 n‐1인 t‐분포의 양쪽 꼬리확률 값이 0.05인 경우에 해당하는 백분율 값

)(96.1 XSEX n

SDX 96.1

)()(025.0 XSEdftX n

SDdftX )(025.0

Page 11: (마더세이프라운드) 임상연구에 필요한 기초 통계

B. (범주형) 두 범주 변수의 기술

이진수 변수(binary variable, dichotomous variable) Frequency table(빈도 표) 이용

모비율에 대한 신뢰구간

표본비율(p) p = r/n (r=성공회수, n=전체 관찰 회수)

표본비율(p)의 표준오차 (표본비율들의 표준편차)

모비율에 대한 95% 신뢰구간 (표본비율 ‐ z0.025ⅹSE,  표본비율 + z0.025ⅹSE)

=n

ppp )1(96.1

(1 )p pn

C. 명목형 / 순서형 변수의 기술 Nominal or ordinal variables Bar graphs (막대 그림) 및 frequency table (빈도표) 사용 Histograms과는 달리, 막대는 서로 붙어있지 않고, 등간격으로 떨어

져 있음. 막대 순서의 의미는 명목형 (없음) / 순서형 (있음)

411 patients, medical provider 만족도 조사Ann intern Med, 2001;135:344-351

Researchers like tables, while People likes graphs

Page 12: (마더세이프라운드) 임상연구에 필요한 기초 통계

45

Thank you for your attention