Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
모수 검정과 비모수 검정
제6강
지리통계학
통계적 추정의 목적
• 연구자가 주장하는 연구가설을 입증하기 위한 것
① 연구목적에 맞는 연구가설을 설정② 연구목적과 수집된 자료에 부합되는 적절한 통계적 검정
방법을 선택③ 귀무가설과 연구가설(대립가설)을 진술④ 유의수준을 결정한 후 각 분포유형에 따라 분포표를 이용
하여 임계치를 구하고 기각역을 설정⑤ 통계적 검정유형에 필요한 통계량을 각 검정유형의 공식
을 이용하여 계산⑥ 임계치와 통계량을 비교하여 귀무가설의 기각과 수용 결
정⑦ 연구결과를 검정 결과에 따라 밝힘.
모수적 통계의 전제조건
① 표본의 모집단이 정규분포를 이루어야 한다.
② 집단내의 분산은 같아야 한다.
③ 변인은 등간척도나 비율척도로 측정되어야 한다.
• à 이 조건이 충족되지 않으면 비모수 통계를 사용
모수 검정방법의 사용 예
• 모평균과 표본평균과의 차이 -> z분포, t분포
• 표본평균간의 차이-> z분포, t분포
• 모분산과 표본분산과의 차의 -> F분포, 카이제곱분포
• 표본분산간의 차이 -> F분포, 카이제곱분포
1. 모집단의 평균에 대한 검정
• 표본집단이 클 경우 N(μ, δ2), 이 경우 표본 평균 라고 하면 귀무가설과 모집단 평균과 표본평균이 같은 것이 된다.
• 표본집단 크기가 n>30 이면 정규분포로 간주하여 Z 분포를이용한다.
• 표본집단이 작거나 모집단의 표준편차를 모를 경우 표본통계량의 평균과 표분편차(s)를 이용하여 통계량을 산출.
• 표본이 30이하면 t 분포 사용, 이때 자유도를 고려함.
ns
Xt
/
m-=
X
s
m-=X
Z
2.두 모집단의 평균의 차에 대한 검정
1) 표본집단이 클 경우
2) 표본집단이 작을 경우
정규분포를 이루지만 모집단의 분산을 모르는 경우 표본의 크기가 작을 때에는 t 검정을 이용하여 두 표본 평균간의 차에 대한 유의성을 검정
서로 독립적인 두 모집단의 표준편차가 동일하다고 가정하고, 이들이 정규분포를 이룬다는 전제에서 t 값을 도출
• 3) 동일표본집단의 시계열 평균에 대한 비교
한 모집단에서 시간 간격을 두고 표본을 추출한 후 기간 동안에 나타난 평균의 유의적인 차이를 검정하는 경우
9
두 집단의 평균비교
Two-sample t-test vs. Paired t-test
10
질문 : 왜 평균을 비교할까?
Þ 대표값
질문 : 평균은 항상 자료들을 대표하는 값일까?
Þ 정규분포일 때에만
예. 정규분포가 아닌 경우70, 74, 94, 112, 500.
평균 850/5=170. 평균은 이상점의 영향을 받기 때문에 적절한 대표값이 될수 없다. 중앙값
11
정규분포를 하는 자료 Þ 모수적 검정
정규분포를 하지 않는 자료 Þ 비모수적 검정
모수적 검정 비모수적 검정
Two-sample t-test Þ Wilcoxon rank sum test
(Mann-Whitney U test)
Paired t-test Þ Wilcoxon signed rank test
12
Two-sample t-test
독립인 두 집단의 평균 비교가정 : 정규분포, 두 집단의 분산 동일
비모수적 검정(Wilcoxon rank sum test), 변수변환
Smith-Satterthwaite test, 비모수적 검정, 변수변환
13
t 검정(t-test)
하나 또는 두 집단의 평균비교
14
t 검정하나 또는 두 개 집단 평균 비 하는모수적 검정 (parametric test)
평균 비 : 측정값들 정규 포 하여, 평균 그 집단 값 로서 역할 하고 다는 것 미
상점(outlier) 는 비정규 포 료는t 검정 상 아니다.
15
연속 수 : 간척 또는 비척 로 측정된 값
t 검정과 Wilcoxon 검정
측정값들 정규 포 하는지 여 에 라
t 포
William Gosset(1876-1937),
Student라는 필명( 명) 로 논문
Student t 포
16
• t 포는 0 중심 로 좌 칭
• 준정규 포(N(0, 1))보다 두터 꼬
• 포 모양 (d.f., degree of freedom)에 라달라지므로, 가 t 포 모수(parameter)
• 준정규 포 5 t 포
자유도가 커질수록 꼬리가얇아지고 중심부분이 높아져,
자유도가 무한대(∞)가 되면,표준정규분포와 동일한 모양
17
T 포: 두 집단 평균에 한 비
한 집단 평균과 다 준값 비
다 준값 - 다 연 결과에서 나 값또는 지 지 알려져 값
무가설(모집단 평균 μ0 다), n-1 t 포
3. 모집단의 분산에 대한 검정
• 100년 동안 평균기온의 표준편차와 15년간 측정한 기온의 표준편차가 유의있게 감소하였는지등을 조사.
• 분산에 대한 가설 검정방법에는 두가지 방법이존재
① 모집단의 분산과 표본분산을 비교하여 모집단의 분산에 대한 가설을 검정하는 경우
② 두 표본집단간의 분산의 차를 통해 두 모집단간의분산의 차가 유의성이 있는지 검정하는 경우
1)모집단 분산과 표본분산을 비교하는 경우
• 분산의 표본분포는 언제나 오른쪽 꼬리가 긴 형태를 보이며, 표본의 크기가 커질수록 정규분포에 가까운 형태를 이루는 X2카이자승(chi square) 분포를 나타낸다.
• 카이자승 분포는 자유도에 따라 분포의 형태가 바뀐다.
2) 두 표본집단의 분산의 차에 대한 검정
• 두 표본집단의 분산의 유의성을 검정할 경우 F 분포를 사용. 분산이 같고 정규분포를 이루는 두 모집단에서 n1과 n2의 크기의 표본을 추출하여, 두 표본으로부터 계산한 분산을 각각S1
2, S22라고 할때 이 두 통계량의 비를 F 통계량이라고 한다.
• F분포는 S12,의 자유도 (n1-1)과 S2
2 의 자유도 (n2-1)에 따라 그모양이 달라진다.
• 두 개의 분산값이 비슷하면 1에 가까와진다.
비모수검정
• 모집단이 정규분포한다는 가정을 할 수 없는 경우 à 모집단의 분포 유형에 관계없이 적용할 수있는 방법
• 변수가 명목척도나 서열척도로 측정하는 경우à 분류기준과 분류방법의 독립성 검정 가능
• 모집단의 특성을 나타내는 모수에 대한 검정의목적이 아닐 경우 à 이론분포와 경험분포간의적합도(goodness of fit test)를 검정 가능
비모수 검정의 종류
검정• 기대빈도와 관찰빈도와의 부합 정도, 차이를 측
정하며, 관찰빈도와 기대빈도 사이에 차이가 많이 날수록 값이 커지며 귀무가설을 기각.
• 카이자승 분포의 자유도는 표본의 크기(n)이 아니라 범주의 크기(k)에 따라 달라짐
분할표(contingency table)
• 단일표본 카이자승 검정은 모집단의 분포와 표본분포를 비교하는데비해, 두 표본간의 카이자승 검정은 범주화된 두 표본집단간의 분포의 차이가 표본오차에 의한 우연인지 여부를 통계적으로 검정하는것.
• 기대빈도와 자유도는 표본집단이 2개 이상일 경우 분할표를 이용.
• 분할표는 자료를 변수별 속성별로 구분하여 그에 대응하는 관찰빈도를 각 칸에 기록하여 작성
• 자유도는 각 행과 열의 범주수에서 1을 뺀것을 곱한 값.
카이자승 검정의 제한점
• 자료 변수가 이산적이고 독립적이며 상호배타적이어야한다.
• 관찰빈도는 절대적 수치로만 관찰되어야 하며 비율이나비례로 나타나는 상대적 도수자료는 적용 할 수 없다.
• 관찰빈도 분할수의 칸수가 5미만이거나, 각 칸의 기대빈도 가운데 어느 하나라도 5이상이 아니면 안된다.(계급수가 5이상, 기대빈도 최소값 5 이상에만 적합도 검정이 가능)
• 이 조건을 충족시키기 위해 변수를 조정하여 집단을 합하는 등의 조정이 필요
콜모고로프-스미르노프(Kolomogorov-Smirnov)D 검정
• 단일표본 검정
• 각 셀의 기대빈도 5미만의 경우에도 사용가능하며, 연속적 변수의 확률분포에도 적용
• 통계량 D는 표본의 누적확률분포와 가설로 설정된 누적확률분포와의 최대 차이를 의미. D가 클수록 귀무가설을기각
맨-휘트니(Mann-Whitney) U검정• 두 개의 표본집단간의 차이 검정
• 정규분포의 전제가 불필요한 비모수검정
• 표본의 관측치가 무작위로 추출되고, 측정값을 순위화 하여야 함.
• 등간척도 자료를 쉽게 순위화할 수 있으므로 t-검정의 대안으로 이용
• 소규모 표본의 경우에도 이용할 수 있는 장점
U 검정 계속
• U검정의 가장 큰 특징은 U의 통계치가 U의 임계치보다작아야 귀무가설을 기각할 수 있다는 점.
크루스칼-월 스검정 (Kruskal- Wallis) H 검정
3개의 표본집단 이상 k (k≥2)에서 그 차이점에 대한 유의성을 검정하는데
이용
등간척도나 비율척도로 측정한 자료 검정에도 서열척도로 바꾸어 적용 가능.
검정방법은 각 표본집단의 측정값을 집단이나 표본크기에 관계없이 배열 후
크기 순으로 순위를 정한다.
각 변량에 대한 순위가 정해지면 각 집단별로 순위의 평균치를 구하고 서로 비교
한다.
H 검정은 K-1의 자유도를 가지며, 카이자승 확률분포를 이용하여 유의수준과
자유도에 따른 임계치를 구한다. 사례수가 5 이하일 경우 H 검정표를 이용한다.
<예제 14.11> 통계수업이 3개 반으로 나뉘어 진행
각 반에서 10명 씩 뽑아 시험을 치른 점수
각 반에 속한 학생들의 학업성취도가 같은가?
1 2 3 10, 30n n n n× = = = =
1 2 3
점수 순 점수 순 점수 순
83 19 73 13.5 88 24
97 30 66 8 55 1
68 9.5 85 21 73 13.5
95 29 64 7 79 16
86 22 73 13.5 62 6
70 11 80 17 82 18
87 23 60 4 59 3
94 28 61 5 73 13.5
84 20 93 27 89 25
90 26 58 2 68 9.5
1 217.5r = 2 118r = 3 129.5r =
- 75 -
2
20.05 0
5
7.65 5.991
.
in
h H
c
c
³
= > = Þ
Þ
모든 이므로 분포를이용하면
를기각
세반의학업성취 가같지않다고판단
( )( )
( ) ( ) ( )
22 231 2
1 2 3
2 2 2
123 1
1
217.5 118 129.5123 31 7.65
30 31 10 10 10
rr rh n
n n n n n
æ ö= + + - +ç ÷
+ è ø
ì üï ï= + + - ´ =í ý
´ ï ïî þ
H의 값:
- 76 -