모수검정과비모수검정 - KOCWelearning.kocw.net/contents4/document/lec/2013/Konkuk/... · 2014-01-24 · 크루스칼-월리스검정(Kruskal-Wallis) H 검정 3개의표본집단이상k

모수 검정과 비모수 검정

제6강

지리통계학

통계적 추정의 목적

• 연구자가 주장하는 연구가설을 입증하기 위한 것

① 연구목적에 맞는 연구가설을 설정② 연구목적과 수집된 자료에 부합되는 적절한 통계적 검정

방법을 선택③ 귀무가설과 연구가설(대립가설)을 진술④ 유의수준을 결정한 후 각 분포유형에 따라 분포표를 이용

하여 임계치를 구하고 기각역을 설정⑤ 통계적 검정유형에 필요한 통계량을 각 검정유형의 공식

을 이용하여 계산⑥ 임계치와 통계량을 비교하여 귀무가설의 기각과 수용 결

정⑦ 연구결과를 검정 결과에 따라 밝힘.

모수적 통계의 전제조건

① 표본의 모집단이 정규분포를 이루어야 한다.

② 집단내의 분산은 같아야 한다.

③ 변인은 등간척도나 비율척도로 측정되어야 한다.

• à 이 조건이 충족되지 않으면 비모수 통계를 사용

모수 검정방법의 사용 예

• 모평균과 표본평균과의 차이 -> z분포, t분포

• 표본평균간의 차이-> z분포, t분포

• 모분산과 표본분산과의 차의 -> F분포, 카이제곱분포

• 표본분산간의 차이 -> F분포, 카이제곱분포

1. 모집단의 평균에 대한 검정

• 표본집단이 클 경우 N(μ, δ2), 이 경우 표본 평균 라고 하면 귀무가설과 모집단 평균과 표본평균이 같은 것이 된다.

• 표본집단 크기가 n>30 이면 정규분포로 간주하여 Z 분포를이용한다.

• 표본집단이 작거나 모집단의 표준편차를 모를 경우 표본통계량의 평균과 표분편차(s)를 이용하여 통계량을 산출.

• 표본이 30이하면 t 분포 사용, 이때 자유도를 고려함.

ns

Xt

/

m-=

X

s

m-=X

Z

2.두 모집단의 평균의 차에 대한 검정

1) 표본집단이 클 경우

2) 표본집단이 작을 경우

정규분포를 이루지만 모집단의 분산을 모르는 경우 표본의 크기가 작을 때에는 t 검정을 이용하여 두 표본 평균간의 차에 대한 유의성을 검정

서로 독립적인 두 모집단의 표준편차가 동일하다고 가정하고, 이들이 정규분포를 이룬다는 전제에서 t 값을 도출

• 3) 동일표본집단의 시계열 평균에 대한 비교

한 모집단에서 시간 간격을 두고 표본을 추출한 후 기간 동안에 나타난 평균의 유의적인 차이를 검정하는 경우

9

두 집단의 평균비교

Two-sample t-test vs. Paired t-test

10

질문 : 왜 평균을 비교할까?

Þ 대표값

질문 : 평균은 항상 자료들을 대표하는 값일까?

Þ 정규분포일 때에만

예. 정규분포가 아닌 경우70, 74, 94, 112, 500.

평균 850/5=170. 평균은 이상점의 영향을 받기 때문에 적절한 대표값이 될수 없다. 중앙값

11

정규분포를 하는 자료 Þ 모수적 검정

정규분포를 하지 않는 자료 Þ 비모수적 검정

모수적 검정 비모수적 검정

Two-sample t-test Þ Wilcoxon rank sum test

(Mann-Whitney U test)

Paired t-test Þ Wilcoxon signed rank test

12

Two-sample t-test

독립인 두 집단의 평균 비교가정 : 정규분포, 두 집단의 분산 동일

비모수적 검정(Wilcoxon rank sum test), 변수변환

Smith-Satterthwaite test, 비모수적 검정, 변수변환

13

t 검정(t-test)

하나 또는 두 집단의 평균비교

14

t 검정하나 또는 두 개 집단 평균 비 하는모수적 검정 (parametric test)

평균 비 : 측정값들 정규 포 하여, 평균 그 집단 값 로서 역할 하고 다는 것 미

상점(outlier) 는 비정규 포 료는t 검정 상 아니다.

15

연속 수 : 간척 또는 비척 로 측정된 값

t 검정과 Wilcoxon 검정

측정값들 정규 포 하는지 여 에 라

t 포

William Gosset(1876-1937),

Student라는 필명( 명) 로 논문

Student t 포

16

• t 포는 0 중심 로 좌 칭

• 준정규 포(N(0, 1))보다 두터 꼬

• 포 모양 (d.f., degree of freedom)에 라달라지므로, 가 t 포 모수(parameter)

• 준정규 포 5 t 포

자유도가 커질수록 꼬리가얇아지고 중심부분이 높아져,

자유도가 무한대(∞)가 되면,표준정규분포와 동일한 모양

17

T 포: 두 집단 평균에 한 비

한 집단 평균과 다 준값 비

다 준값 - 다 연 결과에서 나 값또는 지 지 알려져 값

무가설(모집단 평균 μ0 다), n-1 t 포

3. 모집단의 분산에 대한 검정

• 100년 동안 평균기온의 표준편차와 15년간 측정한 기온의 표준편차가 유의있게 감소하였는지등을 조사.

• 분산에 대한 가설 검정방법에는 두가지 방법이존재

① 모집단의 분산과 표본분산을 비교하여 모집단의 분산에 대한 가설을 검정하는 경우

② 두 표본집단간의 분산의 차를 통해 두 모집단간의분산의 차가 유의성이 있는지 검정하는 경우

1)모집단 분산과 표본분산을 비교하는 경우

• 분산의 표본분포는 언제나 오른쪽 꼬리가 긴 형태를 보이며, 표본의 크기가 커질수록 정규분포에 가까운 형태를 이루는 X2카이자승(chi square) 분포를 나타낸다.

• 카이자승 분포는 자유도에 따라 분포의 형태가 바뀐다.

2) 두 표본집단의 분산의 차에 대한 검정

• 두 표본집단의 분산의 유의성을 검정할 경우 F 분포를 사용. 분산이 같고 정규분포를 이루는 두 모집단에서 n1과 n2의 크기의 표본을 추출하여, 두 표본으로부터 계산한 분산을 각각S1

2, S22라고 할때 이 두 통계량의 비를 F 통계량이라고 한다.

• F분포는 S12,의 자유도 (n1-1)과 S2

2 의 자유도 (n2-1)에 따라 그모양이 달라진다.

• 두 개의 분산값이 비슷하면 1에 가까와진다.

비모수검정

• 모집단이 정규분포한다는 가정을 할 수 없는 경우 à 모집단의 분포 유형에 관계없이 적용할 수있는 방법

• 변수가 명목척도나 서열척도로 측정하는 경우à 분류기준과 분류방법의 독립성 검정 가능

• 모집단의 특성을 나타내는 모수에 대한 검정의목적이 아닐 경우 à 이론분포와 경험분포간의적합도(goodness of fit test)를 검정 가능

비모수 검정의 종류

검정• 기대빈도와 관찰빈도와의 부합 정도, 차이를 측

정하며, 관찰빈도와 기대빈도 사이에 차이가 많이 날수록 값이 커지며 귀무가설을 기각.

• 카이자승 분포의 자유도는 표본의 크기(n)이 아니라 범주의 크기(k)에 따라 달라짐

분할표(contingency table)

• 단일표본 카이자승 검정은 모집단의 분포와 표본분포를 비교하는데비해, 두 표본간의 카이자승 검정은 범주화된 두 표본집단간의 분포의 차이가 표본오차에 의한 우연인지 여부를 통계적으로 검정하는것.

• 기대빈도와 자유도는 표본집단이 2개 이상일 경우 분할표를 이용.

• 분할표는 자료를 변수별 속성별로 구분하여 그에 대응하는 관찰빈도를 각 칸에 기록하여 작성

• 자유도는 각 행과 열의 범주수에서 1을 뺀것을 곱한 값.

카이자승 검정의 제한점

• 자료 변수가 이산적이고 독립적이며 상호배타적이어야한다.

• 관찰빈도는 절대적 수치로만 관찰되어야 하며 비율이나비례로 나타나는 상대적 도수자료는 적용 할 수 없다.

• 관찰빈도 분할수의 칸수가 5미만이거나, 각 칸의 기대빈도 가운데 어느 하나라도 5이상이 아니면 안된다.(계급수가 5이상, 기대빈도 최소값 5 이상에만 적합도 검정이 가능)

• 이 조건을 충족시키기 위해 변수를 조정하여 집단을 합하는 등의 조정이 필요

콜모고로프-스미르노프(Kolomogorov-Smirnov)D 검정

• 단일표본 검정

• 각 셀의 기대빈도 5미만의 경우에도 사용가능하며, 연속적 변수의 확률분포에도 적용

• 통계량 D는 표본의 누적확률분포와 가설로 설정된 누적확률분포와의 최대 차이를 의미. D가 클수록 귀무가설을기각

맨-휘트니(Mann-Whitney) U검정• 두 개의 표본집단간의 차이 검정

• 정규분포의 전제가 불필요한 비모수검정

• 표본의 관측치가 무작위로 추출되고, 측정값을 순위화 하여야 함.

• 등간척도 자료를 쉽게 순위화할 수 있으므로 t-검정의 대안으로 이용

• 소규모 표본의 경우에도 이용할 수 있는 장점

U 검정 계속

• U검정의 가장 큰 특징은 U의 통계치가 U의 임계치보다작아야 귀무가설을 기각할 수 있다는 점.

크루스칼-월 스검정 (Kruskal- Wallis) H 검정

3개의 표본집단 이상 k (k≥2)에서 그 차이점에 대한 유의성을 검정하는데

이용

등간척도나 비율척도로 측정한 자료 검정에도 서열척도로 바꾸어 적용 가능.

검정방법은 각 표본집단의 측정값을 집단이나 표본크기에 관계없이 배열 후

크기 순으로 순위를 정한다.

각 변량에 대한 순위가 정해지면 각 집단별로 순위의 평균치를 구하고 서로 비교

한다.

H 검정은 K-1의 자유도를 가지며, 카이자승 확률분포를 이용하여 유의수준과

자유도에 따른 임계치를 구한다. 사례수가 5 이하일 경우 H 검정표를 이용한다.

<예제 14.11> 통계수업이 3개 반으로 나뉘어 진행

각 반에서 10명 씩 뽑아 시험을 치른 점수

각 반에 속한 학생들의 학업성취도가 같은가?

1 2 3 10, 30n n n n× = = = =

1 2 3

점수 순 점수 순 점수 순

83 19 73 13.5 88 24

97 30 66 8 55 1

68 9.5 85 21 73 13.5

95 29 64 7 79 16

86 22 73 13.5 62 6

70 11 80 17 82 18

87 23 60 4 59 3

94 28 61 5 73 13.5

84 20 93 27 89 25

90 26 58 2 68 9.5

1 217.5r = 2 118r = 3 129.5r =

- 75 -

2

20.05 0

5

7.65 5.991

.

in

h H

c

c

³

= > = Þ

Þ

모든 이므로 분포를이용하면

를기각

세반의학업성취 가같지않다고판단

( )( )

( ) ( ) ( )

22 231 2

1 2 3

2 2 2

123 1

1

217.5 118 129.5123 31 7.65

30 31 10 10 10

rr rh n

n n n n n

æ ö= + + - +ç ÷

+ è ø

ì üï ï= + + - ´ =í ý

´ ï ïî þ

H의 값:

- 76 -

Documents

모수검정과비모수검정 - KOCWelearning.kocw.net/contents4/document/lec/2013/Konkuk/... · 2014-01-24 · 크루스칼-월리스검정(Kruskal-Wallis) H 검정 3개의표본집단이상k