SPSS를 활용한 설문 자료 통계 분석

성균관대 응용통계연구소 2010년 하계특강

SPSS를 활용한

설문지 자료의 통계분석

성균관대학교 응용통계 연구소


차 례

1. 통계학이란?·········································································································································· 1

1.1 통계학의 분야······························································································································ 1

1.2 통계학의 기본용어······················································································································· 1

1.3 자료의 형태와 변수의 종류······································································································· 2

2. 설문조사의 개요·································································································································· 5

2.1 오차의 개념·································································································································· 5

2.2 표본추출········································································································································ 5

2.3 조사방법········································································································································ 6

2.4 설문조사 과정······························································································································ 7

2.5 설문지의 작성과 검증················································································································· 8

3. SPSSWIN이란?········································································································································ 9

3.1 SPSS 창의 종류···························································································································· 9

3.2 SPSS 데이터 편집기 메뉴 설명································································································· 9

3.3 통계분석 절차······························································································································ 10

4. 자료의 수집·········································································································································· 12

5. 자료의 입력·········································································································································· 15

5.1 텍스트 형식으로 입력한 자료를 불러오기············································································· 15

5.2 엑셀(EXCEL) 형식으로 입력한 자료를 불러오기··································································· 16

5.3 CSV 형식으로 입력한 자료를 불러오기··················································································· 16

5.4 SPSS에서 직접 자료 입력··········································································································· 16

6. 데이터 편집기······································································································································ 17

6.1 변수 정의······································································································································ 17

6.2 데이터의 편집······························································································································ 19

6.3 새로운 사례 및 변수의 삽입과 삭제······················································································· 19

6.4 데이터 변환·································································································································· 20

6.4.1 코딩 변경··························································································································· 20

6.4.2 변수 만들기(Compute)····································································································· 21

6.5 자료처리 분석 절차····················································································································· 22

7. 기초자료 분석······································································································································ 23

7.1 빈도분석 실행······························································································································ 23

7.2 기술통계 분석······························································································································ 25

8. 가설설정과 검정·································································································································· 26

8.1 가설의 설정·································································································································· 26

8.2 가설검정의 절차·························································································································· 26

9. 표본평균 검정······································································································································ 28

9.1 단일표본········································································································································ 28

9.2 독립적인 두 표본 문제··············································································································· 30

9.3 동일 모집단의 두 표본 문제····································································································· 32


10. 단일변량 분산분석···························································································································· 35

10.1 일원배치 분산분석····················································································································· 35

10.2 이원배치 분산분석····················································································································· 39

11. 교차분석·············································································································································· 44

11.1 가설 검정···································································································································· 44

11.2 분석 절차···································································································································· 44

12. 복수응답 처리분석···························································································································· 48

12.1 이분형 응답처리························································································································ 48

12.2 범주형 응답처리························································································································ 50

13. 상관분석·············································································································································· 52

13.1 상관계수의 종류························································································································ 52

13.2 상관계수의 해석························································································································ 53

13.3 상관계수의 가설 검정··············································································································· 53

13.4 상관분석의 실행························································································································ 53

13.5 편상관분석·································································································································· 56

14. 회귀분석 - 단순회귀분석················································································································· 58

14.1 회귀분석의 기본 가정··············································································································· 58

14.2 단순회귀분석······························································································································ 59

14.2.1 산점도 그리기················································································································· 59

14.4.2 단순회귀분석의 실행····································································································· 60

15. 회귀분석 - 다중회귀분석················································································································· 64

15.1 다중회귀분석······························································································································ 64

15.2 입력(동시투입)방식에 의한 다중회귀분석··········································································· 64

15.3 단계별 투입방식에 의한 다중회귀분석················································································· 67

15.4 다중 회귀모형 가정의 검정····································································································· 69

15.5 더미변수를 이용한 회귀분석··································································································· 70

16. 로지스틱 회귀분석···························································································································· 72

17. 신뢰성 분석········································································································································ 74

18. 기타 다변량 분석기법······················································································································· 78

18.1 정준상관분석······························································································································ 78

18.2 요인분석······································································································································ 78

18.3 판별분석······································································································································ 79

18.4 군집분석······································································································································ 79

18.5 선형구조관계분석······················································································································· 80


설문지 자료의 통계분석 [1/82]

1. 통계학이란?

통계학은 주어진 문제에 대하여 합리적인 답을 줄 수 있도록 숫자로 표시되는 정보(자료 : data)를

수집하고 정리하며, 이를 해석하여 신뢰성 있는 결론을 이끌어내는 방법을 연구하는 과학의 한 분야이다.

1.1 통계학의 분야

통계학은 크게 기술통계학(descriptive statistics)과 추론통계학(inference statistics)으로 나눌 수

있다.

1) 기술통계학

; 자료를 수집하고 정리하여 도표나 표를 만들거나 자료를 요약하여 대표값이나 변동의 크기 등을

구하는 방법을 다루는 분야를 말한다.

2) 추론통계학

; 자료에 내포되어 있는 정보를 분석하여 불확실한 사실에 대한 추론을 하는 분야를 말한다.

1.2 통계학의 기본용어

1) 모집단과 표본

① 모집단(population) : 관심의 대상이 되는 모든 개체의 특성을 나타내는 관측값이나 측정값의

전체 집합

② 추출단위(sampling unit) : 전체를 구성하는 각 개체들

③ 특성값(characteristic) : 각 추출단위의 특성을 나타내는 값

④ 표본(sample) : 통계적 분석을 위하여 실제로 뽑힌 추출단위들의 집합

⑤ 관찰값(observed values) : 표본의 특성값, 관찰된 측정값

2) 통계조사의 종류

① 전수조사(census) : 관심 있는 모집단 전체를 조사하는 경우로서 주로 모집단의 규모가 작은

경우에 실시한다.

② 표본조사(sample survey) : 모집단에서 추출된 표본을 가지고 조사하는 것을 말한다.

3) 모수와 통계량

① 모수(parameter) : 모집단의 특성을 나타내는 양적인 측도로서 주어진 모집단을 따르는

고유의 상수이다.

② 통계량(statistic) : 표본의 특성을 나타내는 양적인 측도로서 모집단의 분포를 따르는

확률변수이다.

▶ 모집단의 특성의 예 : 모수(상수)

- 평균( ), 분산( ), 표준편차() 등

▶ 표본의 특성의 예 : 통계량(확률변수)

- 평균( ), 분산( ), 표준편차() 등



4) 모수 통계학과 비모수 통계학

① 모수 통계학(parametric statistics) :

모집단의 분포에 대한 가정을 필요로 하는 통계적 방법으로 대체로 연속형의 수량적 자료를

분석할 때 사용한다.

② 비모수 통계학(non-parametric statistics) :

모집단의 분포에 대한 가정을 필요로 하지 않으며 질적자료 혹은 비연속형의 수량적 자료를

분석 할 때 많이 사용한다.

1.3 자료의 형태와 변수의 종류

1) 변수(Variable)

변수란 조작화된 개념으로 성별이나 연령, 교육수준 등과 같이 둘 이상의 값(value)이나 범주

(category)를 갖는 개념을 말한다. 이와 반대로 오직 하나의 값이나 범주만을 갖는 개념을 상수라

고 한다. 즉, 변수는 관찰대상이 갖는 특성이다.

변수는 크게 질적변수와 양적변수로 나눌 수 있으며, 양적변수는 다시 이산형(discrete) 변수와

연속형(continuous) 변수로 나눌 수 있다. 질적변수는 성별에서 남자, 여자와 같이 단지 구분하는

변수로 범주형 변수라고도 한다. 양적변수에서 이산형 변수는 셀 수 있는(countable) 자료인 경우

를 말하며, 연속형 변수는 셀 수 없는(non-countable) 자료를 말한다.

- 질적(qualitative) 변수 또는 범주형(categorical) 변수변수(variable) - 양적(quantitative) 변수 - 이산형(discrete) 변수

- 연속형(continuous) 변수

2) 측정방식에 따른 자료구분

① 명목척도, 명명식(nominal) :

성별에 대한 조사와 같이 측정값이 “남자”, “여자” 등의 이름으로 명명될 수 있는 자료를

말한다. (예 : 성별, 지역, 종교, 혈액형 등)

② 서열척도, 순서식(ordinal) :

관심의 대상이 되는 사물이나 사건을 순서에 따라 측정된 자료를 말한다. 즉, 한 대상이 다른

것보다 크거나 작은 것만 구별하는 자료를 말한다. (예 : 학년, 성적, 소득(상,중,하) 등)

③ 간격척도, 구간(등간)식(interval) :

순서식 자료처럼 한 대상이 다른 것 보다 크거나 작은 것을 구별 할 뿐만 아니라 얼마만큼

크고 작은지를 측정할 수 있고 절대영점은 존재하지 않는 자료를 말한다. (예 : 온도, 물가

지수, 주가, IQ 지수 등)

④ 비율척도, 비율(ratio) :

구간식 자료처럼 한 대상이 다른 것보다 얼마나 크고 작은지를 구체적으로 측정할 뿐만 아니

라 두 측정된 값의 비율이 의미를 가지는 자료로 절대영점이 존재하는 자료이다.

(예 : 체중, 소득, 시험점수 등)



예제) 컴퓨터 회사 선호도 측정을 위한 네 가지 척도

1. 명목척도

귀하가 가장 선호하는 컴퓨터 회사는 다음 중 어느 것입니까?

삼성전자 LG전자 SONY DELL APPLE

1. 서열척도

다음의 컴퓨터 회사에 대하여 선호하는 순서를 표시하시오(가장 선호 =1)


3. 간격척도

다음의 컴퓨터 회사에 대한 귀하의 선호정도를 표시하시오.

매우 싫어한다 매우 좋아한다


4. 비율척도

다섯 개의 컴퓨터 회사에 대한 상대적 선호 정도를 합계가 100이 되도록 나타내시오.

삼성전자

LG전자

SONY

DELL

APPLE

100

3) 독립성을 기준으로

① 독립변수(independent variable) : 다른 변수에 영향을 미치는 변수로서 설명변수라고도 한다.

② 종속변수(dependent variable) : 다른 변수의 영향을 받는 변수로서 반응변수라고도 한다.



자료에 대한 통계적 분석에 있어 기본은 자료에 대해 이 자료가 이산형 형태의 자료인지 연속형 형태

의 자료인지 구분하는 것이라고 할 수 있다. 일반적으로 통계적 분석방법의 결정은 위에서 설명한 독립

변수와 종속변수가 이산형 자료 또는 연속형 자료인지에 따라 통계적인 분석절차가 적용된다. 특히, 종

속변수가 이산형 자료인지 아니면 연속형 자료인지에 따라 분석방법이 정해지는 경우가 많다.

예를 들어, 설명변수가 두 개의 범주를 가지는 이산형(범주형) 자료이고, 종속변수가 연속형 자료인

경우 독립표본-검정을 적용하게 된다. 또, 설명변수가 세 개 이상의 범주를 가지는 이산형(범주형) 자

료이고 종속변수가 연속형 자료일 때는 분산분석(ANOVA)을 이용하게 된다. 이처럼 주어진 자료에 대해서

적절한 통계적인 분석방법의 선택에 있어서 자료의 형태를 잘 구분해야만 올바른 분석방법을 적용할 수

있다.

분석 기법 및 자료 분류

종속변수의 수 분석기법 자료(척도)독립변수 종속변수

한 개

평균차이검정(t-test) 명목 간격, 비율분산분석(ANOVA) 명목 간격, 비율

회귀분석 명목, 간격, 비율 간격, 비율로지스틱 회귀분석 명목, 간격, 비율 명목

판별분석 명목, 간격, 비율 명목공분산분석(ANCOVA) 명목, 간격, 비율 간격, 비율

반복측정분산분석 명목, 간격, 비율 간격, 비율두 개 MANOVA 명목 간격, 비율

분석기법 자료(척도) 분석기법 자료(척도)독립성검정 명목 Kolmogorov-Smirnov

검정(단일, 독립두표본) 간격, 비율상관관계분석 명목, 서열, 간격, 비율 Mann-Whitney 검정 서열, 간격, 비율

요인분석 간격, 비율 Kruskal-Wallis 검정 서열, 간격, 비율군집분석 명목, 서열, 간격, 비율 Wilcoxon 검정 서열, 간격, 비율

다차원척도법(MDS) 서열, 간격 Friedman 검정 서열, 간격, 비율신뢰성분석 간격, 비율 Kendall 검정 서열, 간격, 비율

비율(차이)검정 명목 RUN 검정 서열, 간격, 비율적합도 검정 명목



2. 설문조사의 개요

통계학의 응용분야 중 인문사회학 분야에서는 직업의 만족도와 생활만족도, 주거만족도 등 추정하고자

하는 주제가 개념적인 경우가 많다. 이러한 개념적인 주제나 사건의 성질을 나타내는 주제는 수량화되어

야만 통계적 분석이 가능하며, 수량화에 가장 많이 쓰이는 방법이 설문조사이다.

2.1 오차의 개념

- 표본오차(Sampling Error) : 모집단을 전수 조사하는 대신에 일부만을 조사하여 모집단에 대한

정보를 얻는 과정에서 일어나는 오차

- 비표본오차(Non-sampling Error) : 표본오차 이외의 모든 오차

1) 표본오차

표본오차는 흔히 표준오차(standard error)에 의해서 나타난다. 예를들어 표본비율로 모비율을 추정

하면 표준오차는 로 추정된다. 따라서 95% 신뢰수준에서 오차한계는

에 대한 근사값을 이용하여

을 사용한다.

의 최대값은 일 때 이므로, 예를 들어 개의 표본을 사용할 경우에 표본

오차는

이다. 이 경우에 “95% 신뢰수준에서 오차한계는 ± p”라고 표현한다.

2) 비표본오차

비표본오차가 발생하는 요인은 무수히 많은 경우가 있을 수 있으나, 그 중 대표적인 요인에 대해

알아보면 다음과 같다.

- 설문의 결함 : 설문지의 질문내용이 원래 의도된 내용을 추정하지 못하거나, 특정 대답을

유도하는 식의 질문으로 왜곡된 결과를 줄 수 있다.

- 무응답 오차 : 응답을 거부하는 경우에 이들은 어떤 특별한 경향을 띠고 있는 경우가 많다.

- 기타 요인 : 조사원의 미숙이나 불성실한 조사, 조사 단위의 누락, 자료의 정리과정에서의

오류

2.2 표본추출

표본추출 방법은 크게 무작위추출(random sampling)과 유의추출(purposive sampling)로 나눠지는데 여

기에서는 설문조사에서 보편적으로 사용되는 무작위추출 방법에 대해서 알아보자

- 단순 임의 추출(simple random sampling)

; 모집단의 명부를 준비해서 명부에 일련번호를 매기고, 제비뽑기로 그 중에 필요한 수만큼을

표본으로 추출하는 방법



- 층화 추출(stratified random sampling)

; 미리 모집단을 그룹(층)으로 나누어서(층화해서) 각 그룹으로부터 무작위로 표본을 추출하는

방법이다. 예를 들어, 남자와 여자로 나눈다거나 직업별로 나누고, 같은 그룹에는 동질의 사

람이 모이도록 해야 한다.

- 계통추출(systematic random sampling)

; 모집단의 명부로부터 개시번호를 무작위로 정하고 그 다음은 일정한 추출간격으로 표본을 뽑

는 방법이다. 여기서, 추출간격은 (모집단의 크기 ) / (표본의 크기 )으로 구한다. 예를

들어, 9,000명으로부터 1,000명을 뽑는 경우, 추출간격은 9이다.

- 집락추출(cluster random sampling)

; 미리 모집단을 그룹으로 나누어 놓고 그룹을 무작위로 뽑는 방법이다. 뽑힌 그룹에 대해서 전

원을 조사하는 것이 집락추출이다. 그룹을 나누는 방법은 층화추출과 달리 그룹내가 동질이

되도록 하는 것이 아니라 각 그룹이 비슷한 것이 되도록 한다.

- 다단추출(multistage random sampling)

; 모집단으로부터의 추출을 몇 단계로 나누어서 실시하는 방법이다. 예를 들어 전국적인 조사를

한다고 할 때, 먼저 시도를 무작위로 뽑은 다음에 뽑힌 각각의 시도로부터 구·면·동을 무작

위로 뽑고, 마지막으로 구·면·동에서 사람을 뽑는 식으로 하는 경우가 이에 해당된다.

2.3 조사방법

- 면접조사(personal interviews)

; 면접조사는 조사원이 응답자를 직접 대면하여 조사하는 방법이다. 조사원에 대한 인건비가 다른

방법에 비하여 월등히 높은 단점이 있지만 다른 방법보다 응답률이 높고 비표본오차가 적은

장점이 있다.

- 전화조사(telephone interviews)

; 조사원과 응답자가 전화를 통하여 서로 질문을 주고 받는 방법이다. 면접조사에 비하여 비용이

아주 적게 드는 장점이 있으나, 여러 가지 비표본오차로 인하여 편의(bias)가 심각해지는 경

우가 있다. 특히 정치적 문제나 개인의 사생활과 관련된 문제 등에서는 솔직한 답변을 얻기가

힘들다.

- 우편조사(mail interviews)

; 질문지를 우편으로 우송한 후에 반송용 봉투를 이용하여 응답을 받는 방법이다. 우편조사는

최소의 비용과 노력으로 광범위한 지역과 대상을 표본으로 삼을 수 있는 장점이 있으나 회수율이

심각하게 낮은 단점이 있다.

- 기타 : 인터넷을 이용한 조사방법, 가두조사법, 집합조사법 등이 있다.



2.4 설문조사 과정

전체적인 설문조사 과정을 살펴보면 다음과 같다.



2.5 설문지의 작성과 검증

설문지는 흔히 응답자의 인적사항을 묻는 부분과 주제에 대한 응답자의 의견을 묻는 본 조사 부분으로

나뉠 수 있다.

- 인적사항 ; 성별, 나이, 학력, 직업, 소득수준 등을 묻게 된다.

- 본조사 ; 조사를 원하는 주제에 대하여 설문조사의 형식으로 응답자의 의견을 수렴한다.

이때 질문방법으로는 선택형(복수응답 포함) 또는 5점 척도(4점 척도, 리커트 척도)형식으로 주로

사용한다. 설문조사에 있어 표본추출, 조사방법과 더불어 가장 중요한 것 중의 하나가 설문지 작성이고,

설문지의 형태, 문항순서, 질문형태에 따라 조사 결과에 영향을 줄 수 있으므로 올바른 설문조사를 위해서는

설문지 작성이 매우 중요하다고 할 수 있다.

일반적인 설문지 작성의 순서는 다음과 같이 정리 할 수 있다.



3. SPSSWIN이란?

SPSS(Statistical Package for the Social Science)는 컴퓨터를 이용하여 복잡한 자료를 편리하고 쉽게

처리 분석할 수 있도록 만들어진 통계분석 전용 소프트웨어이다. 특히 SPSSWIN은 SPSS의 통계패키지의

한 분야로서 개인용 컴퓨터에서 사용할 수 있도록 만들어진 우수한 프로그램이다. 1969년 사회과학분야

의 데이터 분석을 위한 National Opinion Research Center, Chicago University에서 컴퓨터 프로그램의

모음집으로 출발하게 되었으며 SPSSWIN을 이용하면 연구자들은 원하는 통계결과를 신속하고 용이하게

얻어낼 수 있다. 이 통계프로그램은 단순한 기술통계로부터 복잡한 다변량 통계분석까지 원하는 결과를

비교적 쉽게 얻어낼 수 있게 해 준다. 현재 PASW(predictive analytics software)로 개명했으며 Ver.18을

판매중이다.

3.1 SPSS 창의 종류

SPSS는 7개의 창(Windows)으로 구성되어 있으며, 각 창은 다음의 설명을 보여준다.

창(Windows) 내 용데이터 편집기 데이터 입력하고 저장, 파일을 열어 통계절차를 수행하는 창

SPSS 뷰어(출력항해사) 도표 및 분석결과를 보여주는 창으로 결과물을 수정/저장피벗테이블 출력결과의 피벗테이블을 수정/편집하는 창도표편집기 SPSS 뷰어창에 출력된 도표(그림)를 편집/저장

텍스트 출력결과 편집기 텍스트 출력결과를 수정하는 창으로 글꼴 등을 변경명령문 편집기 SPSS 수행 내용에 대한 명령문을 보관하고 수행하는 창

스크립트 편집기 SPSS의 작업을 자동화시키기 위한 스크립트와 OLE 기능 수행

3.2 SPSS 데이터 편집기 메뉴 설명

메 뉴 내 용파일(F) 새로운 데이터 작성 및 불러오고 저장하는 기능을 수행편집(E) 데이터 파일을 복사, 붙이기 등의 편집하는 기능을 수행보기(V) 툴바나 격자선, 글꼴 등 화면에 표시하는 기능을 수행

데이터(D) 변수를 정의하거나, 정렬 및 병합, 전치 등의 기능을 수행변환(T) 새로운 변수를 만들거나 변수값 변환 등의 기능을 수행분석(A) 선택된 데이터에 대한 각종 통계분석절차 수행

그래스(G) 선택된 자료에 대한 그림이나 도표를 작성할 때 사용유틸리티(U) 파일이나 변수의 정보 표시

창(W) 윈도우 창간의 전환 및 메뉴 표시도움말(H) 도움말 정보 표시



3.3 통계분석 절차

SPSS를 이용한 통계적 자료 분석과정은 다음과 같은 절차를 따라 수행하게 된다.

1) 데이터 입력 및 출력

SPSS“데이터 편집기 창”을 통하여 분석할 자료를 직접 입력하거나 기존의 데이터 파일(SPSS,

Excel, ACSII, Acess, dBase 파일 등)을 불러들인다.

2) 자료의 변환 및 관리

필요한 경우 주어진 자료를 이용해서 원하는 조건을 만족하는 자료만 선택하거나 기존의 변수를

이용하여 새로운 변수를 생성하고 분석할 준비를 한다.

3) 분석메뉴 선택

분석 메뉴에서는 분석자가 정리 및 분석할 자료에 적절한 통계적 분석절차(메뉴)를 선택한다.

4) 분석변수 선택

분석메뉴 대화상자에서 분석하고자 하는 변수를 선택하여 지정한다.

5) 분석수행 및 결과검토

적절한 분석메뉴와 분석변수가 선택되면 분석메뉴를 실행하고 “SPSS 뷰어창”을 통해 출력된

결과를 확인하고 검토한다.

이와 같은 과정을 통해 통계적인 분석을 진행하게 되며, SPSS에서 제공하는 통계분석 절차와 그래프를

메뉴별로 정리하면 다음과 같다.

분 석 내 용보고서 케이스 요약, 요약보고서

기술통계량 빈도분석, 기술통계, 탐색적 자료분석, 분할표, 교차분석 등통계표작성 통계표 작성을 위해 이용(기초적, 일반적 통계표 등)평균비교 집단별 평균분석, 일표본 t-검정, 이표본 t-검정, 일원배치 분산분석

일반선형모형 분산분석, 다변량분산분석, 공분산분석, 반복측정분석, 분산성분 측정혼합모형 선형혼합모형(Linear Mized Model)상관분석 두 변수간의 상관분석, 편상관분석, 거리측도회귀분석 선형회귀, 곡선회귀, 비선형회귀, 로지스틱, 프로빗, 가중회귀, 2-단계 최소제곱

로그선형분석 일반로그선형분석, 로짓분석, 모형선택 등을 제공분류분석 군집분석, 판별분석에 대한 절차를 제공

데이터 축소 요인분석, 대응일치 분석, 최적화 척도법척도화분석 신뢰도분석, 다차원 척도법비모수 검정 카이제곱, 이항검정, 런검정, 일표본 K-S 검정시계열 분석 지수평활, 자기회귀, ARIMA 모형

생존분석 생명표, Kaplan-Meier 생존분석, Cox 회귀모형다중응답분석 다중으로 응답된 자료에 대한 분석절차 제공결측값 분석 결측값 처리에 대한 분석



그래프 내 용 그래프 내 용막대도표 Bar chart 오차막대도표 Error bar

선도표 Line chart 산점도 Scatter plot

영역도표 Area chart 히스토그램 Histogram

원도표 Pie chart P-P 도표 P-P 도표

상한-하한도표 Hig-Low chart Q-Q 도표 Q-Q 도표

파레토 도표 Pareto chart(품질관리) 순차도표 Sequence plot

관리도 Control chart(품질관리) ROC 곡선 ROC curve

상자도표 Box_Whisker plot 시계열도표 자기상관, 교차상관 등



4. 자료의 수집

*사교육 실태 및 의식조사 참조

다음은 사교육 실태 및 의식 조사에서 사용된 설문지이다.

I. 사교육 실태에 대한 조사

1) 자녀가 사교육을 받은 주당 평균시간을 기입하여 주십시오. 시간

2) 자녀의 사교육 년 평균비용을 기입하여 주십시오. 천원

3) 자녀의 영어 사교육 년 평균비용을 기입하여 주십시오. 천원

4) 자녀의 수학 사교육 년 평균비용을 기입하여 주십시오. 천원

II. 사교육 의식에 대한 조사

다음 사항에 대하여 귀하가 생각하는 정도를 ✔ 표시하여 주십시오.

전 혀

아니다보통이다

매 우

그렇다

1 2 3 4 5

1. 사교육의 영향

( 1) 자가학습 능력 저하 ✔ ( 2) 학교 수업 소홀 ✔ 3) 학습에 대한 이해력 향상 ✔ 2. 사교육 증가원인

( 1) 자녀에 대한 기대치 상승 ✔

( 2) 남들 다하는 분위기 ✔ ( 3) 대학 서열화 구조 ✔ ( 4) 출신 대학의 중요성 ✔

( 5) 학교 교육의 불만족 ✔ 3. 사교육 감소원인

( 1) 방과후 학교 활성화 ✔

( 2) EBS 전문방송 활성화 ✔

( 3) 대학 입시 전형 개선 ✔ ( 4) 수준별 이동 수업 ✔

III. 개인신상에 대한 조사

(1) 자녀의 성별은? ① 남(✔) ② 여( )

(2) 자녀의 성적은?① 상위10%이내( ) ② 상위11~30%( ) ③ 상위31~60%(✔)

④ 상위61~80%( ) ⑤ 하위20%이내( )

(3) 귀댁의 월평균 소득은?

① 100만원미만( ) ② 100~199만원( ) ③ 200~299만원(✔)

④ 300~399만원( ) ⑤ 400~499만원( ) ⑥ 500~599만원( )

⑦ 600~699만원( ) ⑧ 700만원이상( )

(4) 귀하의 거주지역은?① 강남( ) ② 강북( ) ③ 광역시(✔) ④ 중도소시( )

⑤ 읍면지역( )



수집된 설문지의 자료를 입력하기 위하여 다음과 같이 정리하였다.

사교육 실태 및 의식 조사(edu.csv)

(.는 무응답을 의미함)



위의 자료 파일에 대한 항목별 세부사항은 다음과 같다.

변수명 내 용 코딩형식

ID 번호 1~30

TIME 주당 평균시간 ( )시간

TOTAL 년 평균 사교육비 ( )천원

ENGLISH 년 평균 영어 사교육비 ( )천원

MATH 년 평균 수학 사교육비 ( )천원

전 혀아니다 보통 매 우

그렇다

1 2 3 4 5

I1 자가학습 능력 저하

I2 학교 수업 소홀

I3 학습에 대한 이해력 향상

J1 자녀에 대한 기대치 상승

J2 남들 다하는 분위기

J3 대학 서열화 구조

J4 출신 대학의 중요성

J5 학교 교육의 불만족

K1 방과후 학교 활성화

K2 EBS 전문방송 활성화

K3 대학 입시 전형 개선

K4 수준별 이동 수업

GENDER 자녀 성별 1: 남, 2: 여

SCORE 자녀 성적1: 상위10%이내, 2: 상위11~30%, 3: 상위31~60%,

4: 상위61~80%, 5: 하위20%이내,

INCOME 월평균 소득

1: 100만원미만, 2: 100~199만원, 3: 200~299만원

4: 300~399만원, 5: 400~499만원, 6: 500~599만원,

7: 600~699만원, 8: 700만원이상

LOCATION 지역 1: 강남, 2: 강북, 3: 광역시, 4: 중도소시, 5: 읍면지역



5. 자료의 입력

5.1 텍스트 형식으로 입력한 자료를 불러오기

파일(F)

텍스트 데이터 읽기(R)...

텍스트 파일을 불러오기 위해서 찾아보기 단추를 누르고, 텍스트 파일이 위치한 경로를 탐색한 후 텍

스트(*.txt)를 선택한다. 텍스트 가져오기 마법사(Text Import Wizard Step 6)의 6단계를 통해 SPSS로

텍스트 파일을 불러 올 수 있다.



5.2 엑셀(EXCEL) 형식으로 입력한 자료를 불러오기

파일(F)

열기(O)

데이터(A)

엑셀 파일을 불러오기 위해서 찾아보기 단추를 누르고, 엑셀 파일이 위치한 경로를 탐색한 후 엑셀 파일

(*.xls)을 선택한다. EXCEL 데이터 소스 열기 단계를 통해 SPSS로 엑셀 파일을 불러 올 수 있다.

5.3 CSV 형식으로 입력한 자료를 불러오기

파일(F)

열기(O)

데이터(A)

텍스트 가져오기 마법사(Text Import Wizard Step 6)의 6단계를 통해 SPSS로 텍스트 파일을 불러 올 수 있다.

5.4 SPSS에서 직접 자료 입력



6. 데이터 편집기

여기에서는 데이터 입력이나 저장시에 알아두어야 할 부분을 설명한다.

6.1 변수 정의

SPSS 데이터 편집기창에는 이름(Name), 유형(Type), 자릿수(Width), 소수점이하자리(Decimals), 설명

(Label), 값(Values), 결측값(Missing), 열(Columns), 맞춤(Align), 측도(Measure) 등 10가지 선택 메뉴

가 있다.

(1) 변수 이름

변수 이름이 표시되며, 할당된 변수가 없으면 자동으로 이름을 할당한다.

(2) 변수 유형

변수 유형은 관측 자료를 표기하는 방식을 설명해준다. 일반적으로 SPSS의 변수값들은 숫자

(Numeric)형식으로 간주하나, 적합한 통계분석을 위해서 변수의 형식을 임의로 바꿀 수 있다.

[유형]의 ‘숫자’를 선택하고 [...] 단추를 누르면 여러 가지 유형을 선택할 수 있게 된다.



숫자 : 변수의 값이 수치인 경우콤마 : 3자리마다 콤마를 표기하는 경우(예 : 1,234.56)점 : 세자리마다 점을 표기하는 경우(예 : 1.234,56)지수표기 : 지수형식으로 표기하는 경우(예 : 1.2E+3)날짜 : 날짜 및 시간으로 표기하는 경우달러 : 미국화폐를 접두어로 표기하는 경우(예 : $1,234.56)사용자 통화 : 옵션대화상자의 통화탭에서 정의한 사용자

정의 통화형식으로 표시된 숫자변수문자열 : 문자, 숫자, 특수문자를 표기하는 경우.

(3) 설명 정의

변수이름과 변수값에 대한 이해를 돕기 위해 사용되는 설명문이다. 설명의 종류에는 변수의 의미를

설명하는 변수값 설명이 있다.

예를 들어‘k1' 방과후 학교 활성화를 설명하기 위해 [설명]에 ’방과후 학교 활성화‘를 입력한다.

(4) 설명값

[값] 밑에 있는 ‘숫자’를 선택하고 [...] 단추를 누르고 ‘변수값’란에 k1변수가 갖을 수 있는 값인 1부터 5까지의 값을 하나씩 “1 = 전혀아니다”와 같은 방법으로 입력을 한다.

(5) 결측값

결측값은 설문에 응답하지 않아서, 코딩시에 여백으로 또는 특별한 수치(예를 들어 999) 등으로 처

리한 경우를 의미한다. 결측값의 종류에는 시스템 결측값과 사용자 결측값의 두가지가 있다.

- 시스템 결측값 : 응답치가 공백으로 처리된 경우, 이를 시스템 결측값이라고 한다.

이 무응답치는 점(.)으로 표시된다.

- 사용자 결측값 : 응답치가 구체적으로 어떻게 누락되었는가를 나타내기 위해 사용되는 경우이다.

설문조사에서 ‘잘모르겠음’은 99, ‘해당없음’은 999,‘응답거부’는 9999

등으로 사용자 무응답치를 지정한다.

(6) 맞춤

맞춤은 편집창의 셀 안에서 자료의 정렬방식을 알려준다.

(7) 측도

측도는 변수의 척도를 결정하는 방식을 의미한다.

척도는 등간척도와 비율척도에 해당되는 변수를 지정할 경우에 사용된다. 순서척도는 서열척도를 지

정하는 경우, 명목척도는 분류, 구분하는 경우에 사용되는 척도를 말한다.



6.2 데이터의 편집

편집(Edit)은 데이터의 내용을 수정하거나 복사하는데 사용되는 메뉴이다. 여기서는 데이터 복구하기,

수정하기, 잘라내기, 복사하기, 붙이기 등에 관하여 알아본다.

(1) 지워진 데이터 복구하기

입력된 데이터가 지워진 경우, 복구(Undo)를 누르거나, Ctrl+Z를 누르면 원래의 데이터를 복구할 수

있다.

(2) 입력된 자료의 수정

이미 입력된 자료를 수정하려면 셀에 마우스의 포인트를 이동시켜 자료를 입력한 뒤 Enter키를 누르

거나, 화살표의 방향키를 누르면 자료값이 바뀌게 된다.

(3) 잘라내기, 복사하기, 붙이기

자료를 잘라내거나, 복사하거나, 붙이기를 위해서는 편집(Edit) 메뉴에서 작업을 진행하면 된다.

- 잘라내기(Cut) : 잘라내는 범위를 정한 후 편집메뉴에서 [잘라내기]을 누른다.

- 복사(Copy) : 복사하는 범위를 정한 후 편집메뉴에서 [복사]를 누른다.

- 붙여넣기(Paste) : 붙여넣는 범위를 정한 후 편집메뉴에서 [붙여넣기]를 누른다.

6.3 새로운 사례 및 변수의 삽입과 삭제

(1) 새로운 사례의 삽입

이미 입력된 파일에 새로운 사례(Case)를 추가할 경우, 삽입하고자하는 사례(Case) 행을 마우스로

지정하면 해당 행이 검은색으로 반전되어 나타나 있고, 이때, 다음과 같이 진행하면 새로운 행이 추

가된다.

데이터(D)

케이스 삽입(I)

(2) 새로운 변수의 삽입 및 삭제

- 새로운 변수 삽입 : Case를 삽입하는 것과 유사하다.

데이터(D)

변수 삽입(V)

(3) 변수 및 사례 삭제

변수나 사례를 삭제하고자 할 경우에는 삭제하고자 하는 변수나 사례를 마우스로 선택한 후, Edit

메뉴에서 지우기(Del)을 누르거나, 마우스의 오른쪽 단추를 눌러 잘라내기(Cut)나 지우기(Del)를

선택하면 된다.



6.4 데이터 변환

데이터 변환은 변수계산, 난수시작값, 코딩변경, 시계열변수 생성 등 다양한 작업을 할 수 있게 해준다.

6.4.1 코딩 변경

edu.sav 예제를 이용하여 location변수(지역)의 경우 1(강남)과 2(강북)이 서울로 나타낼 수 있다. 또

한 4(중소도시)와 5(읍면지역)을 묶어 중소도시로 표현하고자 한다. 이때 연구자는 5개의 지역이 아닌 3

개의 지역으로 구분하여 사교육비를 파악하고 싶을 것이다.

코딩 변경을 위해서 다음과 같이 실행한다.

변환(T)

코딩변경(R)

새로운 변수로(D)...

조건(If)는 논리조건에 따라 데이터 집단군에 대한 값을 선택적으로 변환하는데 사용되는 키워드이다. 출력변수창에서 이름(Name)란에 “location1"이라고 입력하고 기존값 및 새로운 값(Old and New Values)을 지정한다.

location 변수 중에서 ‘1=강남’은 기존값(Old Value)과 새로운 값(New Value)이 같기 때문에 모두 ‘1’을 입력하고, 추가(Continue)를 누르면 지정이 끝난다.

다음으로 ‘4=중소도시’와 ‘5=읍면지역’을 하나의 값(중소도시)으로 인식하기 위해서 범위(Range) 단추를 누르고 4에서 5를 입력하고, 새로운 값에 3를 입력한다.



결과적으로

1=강남 ⇒ 1=서울

2=강북 ⇒ 1=서울

3=광역시 ⇒ 2=광역시

4=중소도시 ⇒ 3=중소도시

5=읍면지역 ⇒ 3=중소도시

으로 변경한다.

6.4.2 변수 만들기(Compute)

사교육 실태 및 의식 조사에 대한 설문지에서 통화품질, 서비스, 이미지는 각각 다항목으로 측정되었다.

이 요인들을 하나의 변수로 만들려면 다음과 같이 하면 된다.

사교육영향 = ( 자가학습 능력 저하 + 학교 수업 소홀 + 학습에 대한 이해력 향상 )

= ( i1 + i2 + i3)

사교육 증가원인 = ( j1 + j2 + j3 + j4 + j5 )

사교육 감소원인 = ( k1 + k2 + k3 + k4 )

여기서, 유의할 점은 변수들이 설명하는 타당성과 신뢰성이 확보되어야만, 이 계산이 유효하다는 점이다.

SPSS에서 새로운 변수 를 만드는 방법은 다음과 같다.

변환(T)

변수 계산(C)

함수 집단(Function group)에서 통계관련 함수를 찾기 위해서 통계(Statistical)을 선택하면 함수 및

특수변수(Functions and Special Variables)에 세부적인 함수들이 나타난다.



6.5 자료처리 분석 절차

연구자가 자신의 연구목적을 달성하기 위하여 통계기법을 사용하고자 하는 경우에 다음과 같은 일반적인

절차를 거치게 된다.



7. 기초자료 분석

연구자는 각종 통계분석에 앞서 측정된 변수들이 지닌 분포의 특성을 알아 볼 필요가 있다. 분포의

특성이란 자료가 어느 곳에 몰려 있는 정도, 또는 흩어져 있는 정도를 말한다. 분포의 특성은 평균, 분산,

빈도를 통해 알 수 있다.

7.1 빈도분석 실행

빈도분석(Frequency Analysis)은 도수분포표나 막대그림을 이용하여 측정된 변수들이 지닌 분포의 특성을

알게 하여 준다. 분포의 특성이란 자료가 어느 곳에 몰려 있으며, 또한 어느 정도 흩어져 있으며, 정규

분포를 기준으로 어느 정도 뾰족한지의 정도 등을 나타낸다. 이러한 분포의 특성은 평균, 분산, 빈도 등과

같은 수치로 파악할 수 있다.

분석(A)

기술통계량(E)

빈도분석(F)



[결과]

성적

20 20.0 20.0 20.0

43 43.0 43.0 63.0

27 27.0 27.0 90.0

7 7.0 7.0 97.0

3 3.0 3.0 100.0

100 100.0 100.0

상위10%이내

상위11~30%

상위31~60%

상위61~80%

하위20%이내

합계

유효빈도 퍼센트 유효 퍼센트 누적퍼센트

여기서 퍼센트는 전체 케이스수 대비 빈도의 비율을 나타내며, 유효 퍼센트는 결측값을 제외한 케이스수

대비 빈도의 비율을 나타낸다. 다음은 빈도분석시 사용가능한 통계량의 설명이다.

선택란 설명내용Perceltile Values 백분위수 값

□ Quantiles(사분위수) 사분위수로서 25번째, 50번째, 75번째 비율을 출력

□ Cut points(절단점) 전체 케이스를 지정한 수만큼의 동일집단으로 나누는 기준값들

□ Percentiles(백분위수) 프로그램 사용자가 0과 100사이의 값을 입력할 수 있다.

Central Tendency 중심경향

□ Mean 산술평균 : 관찰값 전체를 합한 후에 관찰값 총 개수로 나눈값

□ Median 중앙값 : 데이터를 크기순서대로 배열한 상태의 정 중앙값

□ Mode 최빈값 : 자료의 분포에서 빈도수가 가장 높은 관찰값

□ Sum 자료들의 총합

□ Values are group midpoints 변수집단의 중앙값

Dispersion 산포도

□ Std. deviation 표준편차 : 분산의 제곱근

□ Variance 분산 : 각 편차 제곱의 합을 관찰값의 수로 나눈값

□ Range 범위 : 데이터의 최대값과 최소값의 차이

□ Minimum 최소값 : 데이터의 최소값

□ Maximum 최대값 : 데이터의 최대값

□ S.E. mean 표본평균의 분산에 제곱근을 취한 표준편차

Distribution 분포

□ Skewness 왜도 : 분포의 편중(치우침)

□ Kurtosis 첨도 : 분포의 뾰족한 정도



7.2 기술통계 분석

일반적으로 범주형 자료의 특성을 살펴볼 때는 빈도분석 혹은 교차분석을 사용하며, 연속형 자료는

기술통계를 통해 평균과 분석을 살펴본다..

분석(A)

기술통계량(E)

기술통계(D)

[결과]

기술통계량

100 0 22 9.82 6.216

92 106 8959 3770.26 2075.489

64 106 3292 1391.39 778.801

60 34 4704 760.05 725.297

49

주당 사교육시간

연간 사교육비(천원)

연간 영어사교육비(천원)

연간 수학사교육비(천원)

유효수 (목록별)

N 최소값 최대값 평균 표준편차



8. 가설설정과 검정

8.1 가설의 설정

가설검정에서 가장 기본적인 사항은 검정하고자 하는 모집단의 모수에 대하여 가설을 설정하는 것이다.

가설(Hypothesis)은 항상 귀무가설(Null Hypothesis : )과 대립가설(Alternative Hypothesis : )

2가지로 설정하며 가설검정이란 표본관찰 또는 실험을 통하여 귀무가설과 대립가설 중에서 하나를 선택

하는 과정이라고 할 수 있다.

두 가설 와 은 각각의 경우에 따라서 결정되어지는데 모수에 대한 가설 중에서 ‘항상 간단하고

구체적인 표현’을 귀무가설로 설정한다.

[사례 1] 인가 또는 인가를 판단하고자 하는 경우

: (2010년도 월평균 판매량이 3,000개이다)

: (2010년도 월평균 판매량이 3,000개보다 많다)

[사례 2] 인가 또는 ≠ 인가를 판단하고자 하는 경우

: (강남지역과 강북지역 학생의 평균성적이 같다)

: ≠ (강남지역과 강북지역 학생의 평균성적이 같지 않다)

[사례 3] 인가 또는 인가를 판단하고자 하는 경우

: (재래식 제조 방법과 새로운 제조방법에 의한 타이어의 평균수명이 같다)

: (새로운 제조방법에 의한 타이어의 평균수명이 재래식 방법보다 길다)

가설검정이란 두 가설 와 중에서 하나를 선택하는 과정이므로 을 채택(Accept)하면 을 기

각(Reject)하게 되고, 를 기각하면 을 채택하게 된다. 따라서 가설검정이란 “귀무가설 을 채택

하든지 또는 기각하는 과정”이라고 이해할 수 있다.

8.2 가설검정의 절차

가설의 채택 또는 기각하는 절차를 가설검정이라고 하는데, 가설검정의 절차에 대하여 간단히 살펴보면

다음과 같다.

(1) 귀무가설 과 연구가설 의 설정

(2) 유의수준과 임계값의 결정

(3) 의 채택영역과 기각영역 결정

(4) 통계량의 계산

(5) 통계량과 임계값의 비교 및 결론

귀무가설과 대립가설은 서로 반대이다. 현재까지 주장되어 온 것을 귀무가설로 정하고, 반대로 기존상

태로부터 새로운 변화 또는 효과가 존재한다는 주장을 대립가설로 정하게 된다.



가설검정의 종류는 크게 양측검정과 단측검정으로 나누며, 단측검정은 다시 왼쪽꼬리 검정과 오른쪽꼬리

검정으로 나눈다.

양측검정단측검정

왼쪽 꼬리 검정 오른쪽 꼬리 검정

≧ ≦

≠

일반적으로 가설검정에서 의 수준은 등으로 정한다. 이때 를 유의수준이라고

한다. 유의수준(Significance level)이란 제 1종의 오류 의 최대값을 말한다.“유의하다”라고 할 때,

이것은 모수와 표본통계량의 차이가 현저하여 통계치의 확률이 귀무가설을 부정할 수 있을 만큼 낮은

경우를 뜻한다. 유의수준이 설정되었을 때 가설을 채택하거나 기각시키는 판단기준이 있어야 하는데,

이를 임계값(Critical Value)이라고 한다. 수준에서 로 표기할 수 있는데, 이것은

계산된 확률수준이 보다 작으면 귀무가설을 기각할 수 있다는 것을 의미한다. 이때 ‘통계적으로

유의하다’라고 해석한다. 만일 이면 ‘매우 유의하다’라고 한다. 여기서 값은 귀무가설을

가정했을 때 주어진 표본관측결과 이상으로 귀무가설에서 먼 방향의 값이 나올 확률이다.

가설검정을 시행할 때는 두 가지 오류(error)를 범할 수 있다. 실제로 올바른 가설을 기각시키는 경우

또는 그릇된 가설을 채택하는 경우이다. 예를 들어, 무죄의 피의자를 유죄로 선고한다든지, 또는 유죄의

피의자를 무죄로 선고하는 경우이다. 전자의 경우를 제 1종의 오류(type I error)라 하고 크기를 로

표기하며, 후자의 경우는 제 2종의 오류(type II error)라 하고 크기를 로 표기한다.

실제상태

의사결정올바른 그릇된

채택 올바른 결정 제 2종의 오류,

기각 제 1종의 오류, 올바른 결정

( 제 1종의 오류 ) = ( 기각 | 진실 ) =

( 제 2종의 오류 ) = ( 채택 | 거짓 ) =

- 세 종류의 검정방법에서 의 채택 및 기각영역

<왼쪽 꼬리 검정> <양측 검정> <오른쪽 꼬리 검정>



9. 표본평균 검정

표본평균의 검정이란 일정한 기준(임계값)에서 평균에 대한 가설을 채택할 것인가 혹은 기각할 것인가를

결정하는 절차이다. 가설이란 모집단의 특성을 잠정적으로 기술한 것으로 이것을 검정하는 절차가 가설

검정이다. 통계적 추론의 목적은 표본에서 얻어진 정보를 근거로 하여 모수에 대하여 유추하는 데 있다.

가설검정은 모수를 유추하는 방법이다.

표본평균의 가설검정은 크게 단일 표본문제와 두 표본문제로 나눌 수 있다.

- 단일표본은 하나의 모집단에서 추출된 하나의 표본에 대해서 검정하는 것이다.

- 두 표본의 평균차이에 대한 가설검정은 독립적인 두 모집단으로 부터 각각 추출된 두 표본의

경우와 동일한 모집단으로부터 추출된 두 표본의 경우로 나눌 수 있다.

두 표본의 비교문제는 학문적인 연구나 일상생활에서의 단일 표본문제보다 더 많이 사용되는데,

: 두 종류의 산업에서 기업들의 평균 성장률이나 임금의 차이를 비교

: 광고를 하기 전과 한 후의 고객들의 반응을 비교

: 식이요법 전후의 체중을 비교하여 식이요법효과를 분석하는 문제 등으로 나타낼 수 있다.

9.1 단일표본

단일표본의 추론은 모분산 을 아는 경우와 모르는 경우로 나누어 한다. 여기서 신뢰구간을 이용하여

설명하는데, 신뢰구간이란 일정한 확률범위 내에 모수가 포함될 가능성이 있는 구간을 뜻한다.

① 을 아는 경우

∈ ± ×

② 을 모르는 경우

∈ ± ×

③ 을 모르고, 소표본인 경우(모집단 정규분포 가정)

∈ ± ×

단일 표본의 평균에 관한 검정을 설명하기 위하여, time(시간)에 대한 것을 예로 들어보자.

연구자가 응답자의 주당 평균 사교육 시간이 9시간인지 여부를 검정하려면, 다음과 같은 가설을 세운다.

, ≠

이 가설을 검정하려면, 다음과 같은 절차를 시행하면 된다.

분석(A)

평균 비교(M)

일표본 T 검정(S)



모든 통계적 검정방법과 마찬가지로, T-검정은 귀무가설이 옳다는 가정 하에 두 모집단으로부터 추출된 표본들로부터 검정통계량에 근거하여 귀무가설을 부정할 만한 상당한 근거를 보이면 귀무가설을 기각하고, 그렇지 않은 경우에는 귀무가설을 받아들이게 된다.두 표본에 대한 검정절차를 살펴보면, 귀무가설 하에서 두 모집단의 표본평균(sample mean)간의 차이는 표본오차(sample error)에서 기인한 것이라고 간주한다. 즉, 두 표본평균간의 차이가 표본을 잘못 추출한 데서 비롯된 것이라고 가정한다. 그런 후 T-검정통계량을 계산하여 두 표본평균간의 차

일표본 T-검정을 위한 화면을 선택하면 다음과 같다.이 검정화면에서 오른쪽에 T 검정변수 상자에 time(사교육시간)을 선택하고,검정값(Test Value)에 ‘9’를 입력한다.

옵션(Options)에서는 디폴트로 95%의 신뢰구간을 나타내고 자세한 사항은 다음과 같다.

키 워 드 내용 설명 신뢰구간 : 95%

95%의 신뢰구간이 기본으로 설정되었다. 연구자가 임의로

신뢰수준을 입력할 수 있다.

결측값 아래 항목 중에서 하나를 선정하면 된다.

◎ 분석별 결측값 제외 해당검정과 관련된 변수에 대해 결측값이 있는 케이스를 제외시킴

◎ 목록별 결측값 제외 분석시 변수에 대한 결측값이 있는 케이스 제외시킴

[결과] 단일표본의 평균 검정

일표본 통계량

100 9.82 6.216 .622주당 사교육시간N 평균 표준편차

평균의 표준오차

일표본 검정

1.319 99 .190 .820 -.41 2.05주당 사교육시간t 자유도

유의확률(양쪽) 평균차 하한 상한

차이의 95% 신뢰구간

검정값 = 9

유의확률(양쪽)이 0.190이고 이 값은 유의수준 0.05보다 크므로, 귀무가설은 채택된다(기각되지 않는

다). 따라서 표본 응답자의 주당 평균 사교육 시간은 9시간이라고 할 수 있다. 그리고 귀무가설의 수치

(9시간)와 표본평균(9.82시간) 간의 차이에 대한 95% 신뢰구간을 살펴보면, [-0.41 ~ 2.05]가 된다. 이

신뢰구간이 0값을 포함하고 있으므로 귀무가설 채택을 지지하게 된다.



이가 귀무가설 하에 있을 확률, 즉, 표본오차로 인해 차이가 발생할 확률(유의확률 ; -값)을 계산한다.만약 계산된 확률이 귀무가설을 기각하기로 설정한 유의수준(일반적으로 5%)과 같거나 작다면 귀무가설을 기각하고 대립가설을 채택하게 된다.T-검정은 두 모집단의 독립여부에 따라 “독립 2표본 T-검정”과 “대응 2표본 T-검정”으로 나눌 수 있다.

9.2 독립적인 두 표본 문제

독립적인 두 표본의 T-검정 대화상자를 열기 위해서

분석(A)

평균 비교(M)

독립표본 T 검정(T)

여기에서 성별(gender)에 따른 연간 사교육비(total)의 차이를 분석하고자 한다.

왼쪽의 변수 상자에서 검정할 변수 total(년 평균 사교육비)을 선정하여, 오른쪽 검정변수(TestVariable)란에 저장하고, 집단변수(GroupingVariable)란에 명목척도인 gender(성별)를 지정하였다.

집단변수를 정의하기 위해 [집단정의(D)] 단추를 선택하면, Group : 1과 Group : 2를 지정할 수 있다. 즉, 두 개의 비교집단으로 한정한다.

만일 변수들이 두 집단 이하이면 실행되지 않는다. gender(성별)을 정의한 값으로 Group : 1에는 1(남자), Group : 2에는 2(여자)를 입력하면 되고, 집단정의 창의 키워드는 다음과 같다.

키 워 드 내용 설명 ◎ 지정값 사용 (Use specified values)

사용자 정의 기본설정으로 집단화한 변수 집단 1과 집단 2의 값을 입력한다.

◎ 분리점 (Cut point)

분리값을 지정하면, 분리값보다 작은 코드가 한집단에, 분리점보다 크거나 같은 코드는 다른 집단에 속하게 된다.



[결과] 두 독립표본 검정 결과

집단통계량

50 3381.74 2133.056 301.660

42 4232.79 1928.716 297.607

성별남자

여자

연간 사교육비(천원)N 평균 표준편차

평균의 표준오차

집단 통계량의 결과

남자 : 표본수 50명, 평균 3381.74, 표준편차 2133.056, 평균의 표준오차 301.660

여자 : 표본수 42명, 평균 4232.79, 표준편차 1928.716, 평균의 표준오차 297.607

gender(성별)의 1집단, 연간 사교육비는 남자 1850명, 연간 사교육비의 평균은 3381.74이며 표준편차는

2133.056이고 표준오차는 301.660이다. 여기서 표준오차는 표준편차를 관찰개수의 제곱근, 즉 으로

나눈 값이다. 여자도 동일하게 설명된다.

독립표본 검정

1.336 .251 -1.991 90 .050 -851.046 427.511 -1700.371 -1.721

-2.008 89.488 .048 -851.046 423.755 -1692.975 -9.116

등분산이 가정됨

등분산이 가정되지 않음

연간 사교육비(천원)F 유의확률

Levene의 등분산 검정

t 자유도유의확률(양쪽) 평균차

차이의 표준오차 하한 상한


평균의 동일성에 대한 t-검정

[Levene 등분산 검정 : F=1.336, 유의확률 : 0.251]

독립표본 T-검정을 위해서는

먼저, 두 집단의 분산의 동질성 가정을 검정하여야 한다. 이러한 분산의 동질성 여부는 Levene의 검정,

즉 F 값을 이용한다.

, ≠

F값이 1.336이고 유의확률 = 0.251>0.05이므로 두 모집단의 분산이 동일하다는 귀무가설이 기각하지 못

하게 되어, 등분산 가정 하에서 T-검정을 실시한다.

[평균차이 : -851.046]

제시된 통계량에서 남자의 연간 사교육비의 평균과 여자의 연간 사교육의 평균 차이는

-851.046(-1700.371, -1.721)이다. 유의확률(양쪽) = 0.05 ≤ 0.05이므로, 아래의 귀무가설은 기각된다.

, ≠

따라서, 남자와 여자간의 연간 사교육비의 평균 차이 -851.046은 통계적으로 유의하다. 그리고 이 평균

차이의 95% 신뢰구간을 계산하면 [-1700.371, -1.721]이다. 신뢰구간이 0을 포함하고 있지 않으므로 귀

무가설이 기각됨을 알 수 있다.



9.3 동일 모집단의 두 표본 문제

- 광고효과를 통한 매출액 차이를 검정

- 판매실험에 사용한 시약의 효과를 검사

- 다이어트 프로그램의 효과 검사

- 교육훈련의 효과를 조사

이런 경우에 대해서는 앞의 독립적인 두 표본 검정을 할 수 없다. 이러한 경우 대응표본 T-검정(Paired

samples t-test)을 사용한다.

어느 회사는 자사가 개발한 한 달간 식이요법 프로그램이 효과가 있는지 여부를 분석하기로 하였다.

식이요법 프로그램에 참가한 10명의 몸무게가 다음과 같다고 하였을 때, 이 식이요법은 효과가 있다고

할 수 있는가?

회원 1 2 3 4 5 6 7 8 9 10

요법 전 70 62 54 82 75 64 58 57 80 63

요법 후 68 62 50 75 76 57 60 53 74 60

동일모집단의 두 표본의 T-검정 대화상자를 열기 위해서

분석(A)

평균 비교(M)

대응표본 T 검정(P)

왼쪽변수상자에서 분석하려는 변수 쌍(before, after)를 선택하면 현재선택(Current Selections)에

Variable 1 : afterVariable 2 : before

가 나타난다. 이 둘을 선택하면 오른쪽 대응변수(Paired Variable)란에 `after-before'가 나타난다.

대응표본 통계량

66.5000 10 9.80079 3.09928

63.5000 10 9.31248 2.94486

요법전

요법후

대응1

평균 N 표준편차평균의 표

준오차

대응표본 통계량(Paired Samples Statistics)을 살펴보면,

식이요법 이전의 평균 몸무게가 66.5Kg이고, 식이요법 이후의 평균 몸무게가 63.5Kg으로 약 3Kg 정도 감

소한 것을 알 수 있다.



대응표본 상관계수

10 .944 .000요법전 & 요법후대응 1N 상관계수 유의확률

대응표본 상관계수(Paired Samples Correlations)는 0.944로 매우 강한 상관을 보이고 있다.

대응표본 검정

3.00000 3.23179 1.02198 .68812 5.31188 2.935 9 .017요법전 - 요법후대응 1평균 표준편차

평균의 표준오차 하한 상한


대응차

t 자유도유의확률(양쪽)

식이요법 이전의 평균몸무게와 이후의 평균몸무게의 차이가 3Kg(66.50-63.50)이며 표준편차는 3.23Kg,

표준오차는 1.02이다. 이 평균차이의 95% 신뢰구간은 [0.69, 5.31]이며, 이것은 0을 포함하고 있지 않으

므로 식이요법의 효과는 있다라고 할 수 있다. 그리고 T-검정을 하여보면 유의확률은 0.017 < 0.05 이므

로, 유의수준 0.05에서 두 집단간의 평균차이는 유의하다라고 할 수 있다. 따라서 식이요법 프로그램은

효과가 있다고 결론을 내릴 수 있다.

※ 두 종류의 치료법을 개발하여 환자를 두 집단으로 나누어 실험을 하였다.

이 경우, 한 치료법을 받은 환자그룹의 평균치가 다른 치료법을 받은 환자그룹보다 높아서 전자의 효과

가 좋다고 하자. 그러나 전자의 집단이 후자의 집단보다 더 젊거나 건강하다면 두 치료법의 효과는 명확

히 판단할 수 없다. 이 경우에는 나이와 건강상태가 가은 두 사람을 한 쌍으로 하여 실험하여야 한다.

이렇게 하여 여러 쌍에 대하여 실험을 계속하면, 치료효과를 제외한 나이나 건강과 같은 외생효과를 제

거할 수 있다.



예제 1] 미국의 야구선수 베이브루스의 15년간 홈런기록을 크기 순서대로 나열한 자료이다. 홈런개수가

정규분포를 따른다고 가정했을 때, 연평균 홈런수가 40보다 크다고 말할 수 있는지 유의수준 5%에서 검

정하여라.

22 25 34 35 41 41 46 46 46 47 49 54 54 59 60

예제 2] 한 제조회사에서 두 가지 색상의 쿠키제품 포장에 대한 판매효과를 평가하고자 한다. 월간매출

이 유사한 20개 점포를 선정하고, 이들 점포를 무작위로 10개씩 두 개의 집단으로 나눈 다음, 한 집단에

는 적색포장만을 진열하고, 다른 집단에는 청색포장만을 진열하였다. 이를 2주간 조사하였더니 다음과

같은 결과를 얻었다. 두 포장 집단간의 쿠키판매량이 차이가 있는지를 검정하여라.

적색포장 청색포장

점포 1 70 점포 11 60

점포 2 68 점포 12 65

점포 3 82 점포 13 55

점포 4 78 점포 14 58

점포 5 72 점포 15 67

점포 6 68 점포 16 59

점포 7 67 점포 17 61

점포 8 68 점포 18 68

점포 9 88 점포 19 77

점포 10 60 점포 20 66

예제 3] 한 회사에서 16명의 사원을 임의로 추출하여 이들에게 정규컴퓨터 교육을 실시한 후, 개개인의

사원에 대해 교육전후의 업무효율성을 측정하였다. 이때 교육 전후의 업무효율성이 차이가 있는가를 검

정하여라.

일련번호 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

교육전 업무효율성 75 83 96 77 81 90 82 67 94 85 78 82 96 80 87 81

교육후 업무효율성 80 90 92 75 86 90 81 70 89 88 82 79 91 90 78 89



10. 단일변량 분산분석

단일변량 분산분석은 독립변수들의 효과를 분석하는데 사용되는 방법이다. 일반적으로 독립변수의 수에

따라 분산분석의 종류가 나뉘게 되는데, 단일요인과 양적인 종속변수와의 관계는 일원배치 분산분석이

된다.

두 표본평균의 차이에 대한 검정과 달리 실제 생활이나 학문연구에서는 두 개 이상의 여러 모집단을

한꺼번에 비교하는 경우가 있다.

- 교육수준별로 평균 월급차이를 조사하는 경우

; 교육수준을 고졸, 전문대졸, 대졸 등으로 구분한 후에 각 집단별 월급액을 비교 연구할 때

단일변량 분산분석(Analysis of Variance : AVONA)기법을 이용할 수 있다. 이 기법은 두 개 이상의

모집단 평균차이를 한 번에 검정 할 수 있게 해준다.

단일변량 분산분석은 독립변수의 효과를 분석하기 위해 기본적으로 사용하며, 이때 교육수준은 독립변수가

되며, 월급액은 종속변수가 된다. 그리고 독립변수를 요인(factor)이라고 부른다. 한 요인 내에서 실험

개체에 영향을 미치는 여러 가지 특별한 형태를 요인수준(factor level) 또는 처리(treatment)라고 한다.

교육수준을 요인이라고 하면, 고졸, 전문대졸, 대졸은 한 요인내의 요인수준 또는 처리가 된다.

단일변량 분산분석은 독립변수의 종류에 따라 여러 종류로 나눌 수 있다.

월급액과 교육수준사이의 관계를 분석하는 것을 일원분산분석(one-way ANOVA)이라고 한다. 이 모형에

성별요인을 추가하여 두 요인이 월급액에 미치는 영향을 조사한다면 이원분산분석(two-way ANOVA)이 된다.

요인의 수가 늘어나면 종속변수에 대한 영향력을 더 정밀하게 분석 할 수 있다.

10.1 일원배치 분산분석

1) 다음의 가설 검정을 한다.

:

: 세 평균이 반드시 같지는 않다.

이 때 이원배치 분산분석 모형은 다음과 같다.

⋯ ⋯

∼

<분산분석 표(ANOVA Table)>

제곱합(SS) 자유도(DF) 평균제곱(MS) F

그룹간

그룹내

합계

검정통계량(F)이 임계값보다 작으면 귀무가설을 채택하고, 평균들이 같다고 결론을 내린다. 반대로 F값

이 임계값보다 커서 귀무가설을 기각시키는 경우에는 다음 단계로 진행한다.



2) 만일 모평균들이 같지 않다면, 신뢰구간을 이용하여 얼마나 다른가를 조사하며 그리고 그 차이가

의미하는 것이 무엇인가를 규명한다.

의 신뢰구간 : ±

여기서,

이고, 는 각 요인수준의 관찰값의 개수이다.

일원배치 분산분석은 다음과 같이 실행한다.

분석(A)

평균 비교(M)

일원배치 분산분석(O)

왼쪽 변수상자에서 연간 사교육비(total)을 지정한 후, 종속변수(Dependent List)에 이를 입력하고, 독립변수에 해당하는 변수인 지역(location)을 하단의 요인(Factor)란에 입력한다.

- 사후 분석

만일 지역에 따라 연간 사교육비의 차이가 존재한다면, 과연 5개 지역들 간에 어떤 차이가 존재하는지에 대해 세부적인 검토가 필요하다. 이러한 추가분석을 사후분석(Post Hoc Multiple Comparisons) 또는 다중비교(Multiple Comparisons)라 한다.

각 수준의 평균값들을 비교하여 대소관계를 파악하는 방법을 다중비교라고 하며 이는 등분산인 경우 분

산분석표에서 검정한 결과가 평균의 차이를 인정한 경우나 이분산인 경우 ̀ Brown-Forsythe'와 `Welch'의

검정에서 둘 다 유의한 경우에만 실시하는 절차이다.



[결과 : 요인수준의 기술 통계량]

기술통계


19 5198.63 2006.314 460.280 4231.62 6165.64 1564 8959

18 3335.44 1965.136 463.187 2358.21 4312.68 341 7056

18 3171.83 1869.501 440.646 2242.15 4101.51 106 7528

19 4056.05 1926.482 441.965 3127.52 4984.59 1034 7941

18 2994.11 1980.235 466.746 2009.36 3978.86 106 7353

92 3770.26 2075.489 216.385 3340.44 4200.08 106 8959

강남

강북

광역시

중소도시

읍면지역

합계

N 평균 표준편차 표준오차 하한값 상한값

평균에 대한 95% 신뢰구간

최소값 최대값

연간 사교육비에 대하여 지역(강남, 강북, 광역시, 중소도시, 읍면지역)에 따른 각 집단의 사례수(N),

평균(Mean), 표준편차(Std.Deviation), 표준오차(Std. Error), 95% 신뢰구간(95% Confidence Interval

for Mean)을 나타내고 있다.

[결과 : 모분산의 동질성 검정]

분산의 동질성에 대한 검정


.304 4 87 .874

Levene 통계량 자유도1 자유도2 유의확률

분산분석이 유용하기 위해서는 표본이 무작위적으로 추출되었으며 모집단은 동일한 분산을 가지고

있다는 가정을 충족시켜야 한다. 현재 분석하고 있는 자료가 이러한 가정을 충족시키는지를 알아보기

위해 Levene 통계량을 사용한다. Levene 통계량 값이 0.304로써 P=0.874 > 0.05 이어서 모집단의 분산이

동일하다는 귀무가설이 채택된다. 따라서 다음의 계속적인 분석이 가능하다.

[결과 : 분산분석표]

분산분석


61009084 4 15252271 4.009 .005

330987500 87 3804454.0

391996584 91

집단-간

집단-내

합계

제곱합 자유도 평균제곱 F 유의확률

분산분석의 결과는 분산분석표를 통하여 제시하기 때문에 이들 각 통계값이 산출되는 과정을 이해하는

것이 중요하다. 집단간(Between groups) 자유도는 4(요인수준의 수 - 1)로 구해지며, 집단내(Within

groups) 자유도는 87(전체관찰수 - 요인수준의 수)이다. 평균제곱은 각각 제곱합을 각 원천별로

자유도로 나눈 값이 되며, F 통계량은 그룹간 평균제곱을 그룹내 평균제곱으로 나눈 값이다.



F 분포에서 F(4, 87, 0.05)의 임계값은 2.48인데, F 통계량 = 4.009 > 2.48이므로, 세 요인수준의 평균

이 동일하다는 귀무가설이 기각된다. 이것을 F 분포의 확률로 설명해도 마찬가지인데, 유의확률 p =

0.005 < 0.05 이므로 귀무가설을 기각한다. 따라서 평균차이는 유의한 차이를 나타낸다고 할 수 있다.

다음은 사후분석 결과이다.

[결과 : 사후분석 - 다중비교]

다중 비교

종속변수: 연간 사교육비(천원)

Bonferroni

1863.187* 641.555 .047 15.26 3711.11

2026.798* 641.555 .022 178.87 3874.72

1142.579 632.826 .745 -680.20 2965.36

2204.520* 641.555 .009 356.59 4052.45

-1863.187* 641.555 .047 -3711.11 -15.26

163.611 650.167 1.000 -1709.12 2036.34

-720.608 641.555 1.000 -2568.53 1127.32

341.333 650.167 1.000 -1531.40 2214.07

-2026.798* 641.555 .022 -3874.72 -178.87

-163.611 650.167 1.000 -2036.34 1709.12

-884.219 641.555 1.000 -2732.15 963.71

177.722 650.167 1.000 -1695.01 2050.45

-1142.579 632.826 .745 -2965.36 680.20

720.608 641.555 1.000 -1127.32 2568.53

884.219 641.555 1.000 -963.71 2732.15

1061.942 641.555 1.000 -785.98 2909.87

-2204.520* 641.555 .009 -4052.45 -356.59

-341.333 650.167 1.000 -2214.07 1531.40

-177.722 650.167 1.000 -2050.45 1695.01

-1061.942 641.555 1.000 -2909.87 785.98

(J) 지역강북

광역시

중소도시

읍면지역

강남

광역시

중소도시

읍면지역

강남

강북

중소도시

읍면지역

강남

강북

광역시

읍면지역

강남

강북

광역시

중소도시

(I) 지역강남

강북

광역시

중소도시

읍면지역

평균차 (I-J) 표준오차 유의확률 하한값 상한값

95% 신뢰구간

.05 수준에서 평균차가 큽니다.*.

Bonferroni 방법으로 계산된 사후검증을 보면 유의수준 0.05에서 강남과 강북, 강남과 광역시, 강남과

읍면지역간의 연간 사교육비의 평균차이가 유의함을 알 수 있다.

[결과 : 평균도표]

지역에 따른 연간 사교육비를 그래프로 나타내 시각적으로 의사결정을 할 수 있게 해준다. 지역에 따라 연간 사교육비의 차이가 나타남을 알 수 있다. 이때 강남지역의 평균이 가장 높고, 읍면지역의 평균이 가장 낮다.



10.2 이원배치 분산분석

이원배치 분산분석(two-way ANOVA)은 2개 이상의 요인(독립변수)을 이용하여 집단별로 평균 차이를 분

석한다. 일원배치 분산분석과의 차이는 몇 가지 있다.

첫째, 요인 혹은 독립변수의 수가 두 개다.

둘째, 독립변수간의 상호작용 여부를 알아내야 한다.

셋째, 이 상호작용을 고려하여 동시에 설명할 것인지 아니면 통제할 것인지 여부를 결정하여야 한다.

예를 들어, 평균월급 차이를 설명하기 위해 교육수준과 성별이라는 두 개의 요인을 동시에 채택하는 경

우, 각 요인별 평균차이뿐만 아니라 두요인간의 상호작용 효과도 동시에 고려해야 한다.

요인 A와 요인 B의 주효과와 교호작용을 검정하기 위한 귀무가설과 대립가설

- … vs. 들이 모두 0은 아니다.

- … vs. 들이 모두 0은 아니다.

- vs. 들이 모두 0은 아니다.

… …

이 때 이원배치 분산분석 모형은 다음과 같다.

… … …

여기서, : 전체평균,

: 요인 A의 i번째 주효과,

: 요인 B의 j번째 주효과

: 요인 A의 i번째 수준과 요인 B의 j번째 수준간의 교호작용(interaction)

교호작용(interaction): 요인 A의 수준에 따라 요인 B의 효과가 달라지는 것

오차항 는 서로 독립이며, ∼

제약조건 :

이원배치 분산분석은 다음과 같이 실행한다.

분석(A)

일반선형모형(G)

일변량(U)



종속변수(dependent Variable)란에 연간 사교육비(total)를 지정하고, 모수요인(Fixed Factors)란에 지역(location)과 성별(gender)를 지정한다.

종속변수와 모수요인, 변량요인(Random Factors), 공변량(Covariate), WLS 가중값(WLS Weight)는 다음

과 같다.

지정창 내용 설명종속변수 해당 값을 예측하거나 요약하려는 변수

모수요인모수요인의 수준에는 해당결과를 구하려는 모든 수준, 기술적으로미리 정해진 대부분의 요인

변량요인변량요인의 수준들은 결과를 구하려는 가능한 수준들의 확률표본에 해당됨,수준의 선택이 무작위로 이루어지기 때문에 의미가 없음

공변량 공변량은 분산분석의 효과를 확실히 하기 위한 양적인 독립변수

WLS 가중값가중된 최소제곱 분석에 대한 가중값이 있는 숫자변수를 나열한다.가중값이 0, 음수, 결측값 등일 때는 분석케이스에서 제외됨.

1) 모형(Model)

특정 모형을 사용자정의(Custom)으로 설정하고, 왼쪽의 요인 및 공변량 상자로부터 지역(location), 성별(gender)을 지정하여, 항설정(Build Term)의 화살표를 선택하여 모형란에 보낸다. 제곱합(Sum of squares)은 제 III유형(Type III)을 지정한다.

이때, 교호작용을 살펴보려면 모형설정에서 완전요인모형으로 설정한다.



2) 도표

수평축 변수(Horizontal Axis)에 지역(location)을 지정하고 선구분 변수(Seperate Lines)에 성별(gender)을 지정한 후 도표(Plot)란에 있는 추가(Add)를 선택한다.

3) 사후분석

사후검정변수에 지역(location), 성별(gender) 변수를 지정하고 다중비교 통계량 중 LSD(Least Significant Different, 최소유의차)를 선택한다.

4) 옵션

일변량 옵션창의 출력란에 기술통계량(Descriptive Statistics)과 동질성검정(Homogeneity tests)을 지정한다.



[결과 : 두 요인수준들의 평균값]

기술통계량


5434.36 2017.119 11

4874.50 2081.068 8

5198.63 2006.314 19

2869.33 1928.110 9

3801.56 1999.950 9

3335.44 1965.136 18

2308.67 1374.350 9

4035.00 1965.129 9

3171.83 1869.501 18

3822.64 1676.479 11

4377.00 2307.590 8

4056.05 1926.482 19

2065.80 1849.137 10

4154.50 1535.263 8

2994.11 1980.235 18

3381.74 2133.056 50

4232.79 1928.716 42

3770.26 2075.489 92

성별남자

여자

합계

남자

여자

합계

남자

여자

합계

남자

여자

합계

남자

여자

합계

남자

여자

합계

지역강남

강북

광역시

중소도시

읍면지역

합계

평균 표준편차 N

전체 표본의 연간 사교육비 평균은 3770.26이며 분석대상은 92명이다. 지역(location)으로는 요인 1(강남)의 연간 사교육비 평균이 5198.63이며, 요인 2(강북)의 연간 사교육비 평균은 3335.44이다. 또한 성별(gender)을 기준으로 보면 각각 3381.74, 4232.79로 남자보다는 여자의 연간 사교육비 평균이 높다는 것을 알 수 있다.

[분산의 동질성 검정]

오차 분산의 동일성에 대한 Levene의 검정 a


.787 9 82 .629F 자유도1 자유도2 유의확률

여러 집단에서 종속변수의 오차 분산이 동일한 영가설을 검정합니다.

계획: Intercept+location+gendera.

분산분석이 유용하기 위해서는 표본이 무작위적으로 추출되었으며 모집단은 동일한 분산을 가지고 있다는 가정을 충족시켜야 한다. 현재 분석하고 있는 자료가 이러한 가정을 충족시키고 있는지를 알아보기 위해서 Levene 통계량 값이 0.787로써 충분히 크고, 유의확률 = 0.629 > =0.05이어서 모집단의 분산이 동일하다는 귀무가설이 채택된다.

[이원분산 분석표]

개체-간 효과 검정


80841062 a 5 16168212 4.469 .001

1.312E+09 1 1.312E+09 362.530 .000

64308611 4 16077153 4.444 .003

19831978 1 19831978 5.481 .022

311155522 86 3618087.5

1.700E+09 92

391996584 91

소스수정 모형

절편

location

gender

오차

합계

수정 합계

제 III 유형제곱합 자유도 평균제곱 F 유의확률

R 제곱 = .206 (수정된 R 제곱 = .160)a.

지역(location)에 따른 연간 사교육비 평균의 차이는 F = 4.444, 유의확률 = 0.003로 유의하고,

성별(gender)에 따른 연간 사교육비 평균의 차이는 F = 5.481, 유의확률 = 0.022로 유의한 것으로

나타났다. 즉, 귀무가설을 기각하게 된다.

R 제곱( )은 회귀분석에서 결정계수와 같은 것으로 실험요소에 의해서 설명되어질 수 있는 종속변수의



총변동비율을 위미한다.

앞의 결과를 이용하여 계산하면, R 제곱은

이다.

location과 gender의 상호작용효과(2-Way Interaction)를 살펴보면, 유의확률이 0.05보다 크기 때문에

유의하지 않은 것으로 나타났다. 여기서는 따로 첨부하지는 않는다.

[최소유의차를 이용한 사후검정]

다중 비교


LSD

1863.19* 625.644 .004 619.45 3106.93

2026.80* 625.644 .002 783.06 3270.54

1142.58 617.132 .068 -84.24 2369.40

2204.52* 625.644 .001 960.78 3448.26

-1863.19* 625.644 .004 -3106.93 -619.45

163.61 634.042 .797 -1096.82 1424.05

-720.61 625.644 .253 -1964.35 523.13

341.33 634.042 .592 -919.10 1601.77

-2026.80* 625.644 .002 -3270.54 -783.06

-163.61 634.042 .797 -1424.05 1096.82

-884.22 625.644 .161 -2127.96 359.52

177.72 634.042 .780 -1082.71 1438.16

-1142.58 617.132 .068 -2369.40 84.24

720.61 625.644 .253 -523.13 1964.35

884.22 625.644 .161 -359.52 2127.96

1061.94 625.644 .093 -181.80 2305.68

-2204.52* 625.644 .001 -3448.26 -960.78

-341.33 634.042 .592 -1601.77 919.10

-177.72 634.042 .780 -1438.16 1082.71

-1061.94 625.644 .093 -2305.68 181.80

(J) 지역강북

광역시

중소도시

읍면지역

강남

광역시

중소도시

읍면지역

강남

강북

중소도시

읍면지역

강남

강북

광역시

읍면지역

강남

강북

광역시

중소도시

(I) 지역강남

강북

광역시

중소도시

읍면지역

평균차(I-J) 표준오차 유의확률 하한값 상한값

95% 신뢰구간

관측된 평균에 기초합니다.

.05 수준에서 평균차는 유의합니다.*.

(I) 지역 (J) 지역 간의 평균차(I-J)에서 강남과 강북의 평균차이는 1863.19이고, 유의확률은 0.004로 유의하기 때문에 귀무가설을 기각한다. 강남과 광역시, 강남과 읍면지역 역시 각각 유의확률이 0.002, 0.001로 유의미한 차이를 보인다.

[결과 : 평균도표]

지역과 성별에 따른 연간 사교육비의 평균을 그래프로 나타내 시각적으로 의사결정을 할 수 있게 해준다. 남자보다는 여자의 연간 사교육비의 평균이 높고 지역에 따라 연간 사교육비의 평균이 다르다는 것을 알 수 있다. 특히 강남이 제일 높고 읍면지역이 제일 낮다는 것을 알 수 있다.



11. 교차분석

연구자가 복잡한 자료를 상황표로 만들어서, 변수 사이의 상관관계를 파악할 수 있는 것이

교차분석이다. 교차분석에서 두 변수가 상호 독립적인지 아니면 관련성이 있는지를 분석하는 것이

(카이제곱)검정이다.

11.1 가설 검정

사교육 실태 및 의식 조사에서 성별에 따라 대학 서열화 구조에 대한 차이가 있는지를 알아보기 위한

카이제곱 검정의 가설은 다음과 같다.

: 성별에 따라 대학 서열화 구조에 대한 의식에 차이가 없다.

: 성별에 따라 대학 서열화 구조에 대한 의식에 차이가 있다.

여기서 귀무가설은 두 변수간의 관계가 독립적이라는 의미이고, 대립가설은 두 변수간의 관계가 독립적

이지 않고 어떤 관계가 있음을 의미한다. 카이제곱 검정은 단지 두 변수가 독립적인지 아닌지만 알 수

있을 뿐 구체적으로 어떤 관계가 있는지는 알 수 없다.

- 카이제곱 통계량 계산

: 카이제곱 통계량은 실제의 자료에서 얻은 관찰빈도와 기대빈도의 차이를 비교함으로써, 즉 주어진

관찰빈도가 기대빈도에 얼마나 가까운지를 봄으로써 귀무가설을 검증하게 된다.

통계량과 자유도와 유의수준을 이용하여 분포표를 찾아 임계값을 가지고 비교하여 통계

량이 임계값보다 크면, 두 변수가 독립이라는 귀무가설을 기각하고, 통계량이 임계값보다 작으면 귀

무가설을 채택하는데 이는 두 집단간에 차이가 없다(독립적)는 의미이다.

11.2 분석 절차

사교육 실태 및 의식에 관한 조사자료 중 대학 서열화 구조(j3)와 성별(gender)에 대한 결과를 쉽게

이해하기 위해 분석표를 작성하고자 할 때 다음과 같은 과정으로 교차분석을 실행한다.

분석(A)

기술통계량(E)

교차분석(C)



키 워 드 내용 설명 ◎ 카이제곱 (Chi-Square) Pearson 카이제곱, 우도비카이제곱, 선형대결합 카이제곱값을

제시한다.

◎ 상관관계 (Correlations) 두 변수간의 선형결합을 나타내는 Pearson 상관계수 및 두 변수의 등간척도의 Spearman 상관계수를 제시한다.

■ 명목 데이터 (Nominal) 명목자료의 통계량인 경우 아래의 하나를 선택하면 된다.

◎ 분할계수 (Contingency coefficient)

카이제곱을 기초로 한 결합값(0과 1사이에 존재)

◎ 파이 및 Cramer의 V (Phi and Cramer's V)

카이제곱의 값을 표본의 수로 나눈 다음 제곱을 취한 경우의 값

◎ 람다 (Lambda) 독립변수를 통해 종속변수를 예측하는 정도로 1은 완전한 예측을나타내고, 0은 독립변수가 종속변수를 전혀 예측 못하는 것을 나타낸다.

◎ 불확실성계수 (Uncertainty coefficient)

첫 번째 변수를 통한 두 번째 변수의 정보를 얻는 정도로 상한값1에 가까울수록 첫 번째 변수값에 대한 정보를 더 많이 예측한 것이되고, 0에 가까울수록 두 번째 변수에 대한 정보를 얻지 못하는 경우이다.

■ 명목 데이터 (Nominal) 명목척도와 구간척도일 경우

◎ 에타 (Eta) 구간척도에 대해 측정된 종속변수와 범주데이터를 가지는독립변수에 대한 적합한 결합 측정값, 두 개의 Eta값이 계산된다.

■ 순서 데이터 (Ordinal) 변수가 서열척도인 경우

◎ 감마 (Gamma) 카이제곱 검정을 마친 후에 쓰이는 보충 설명 자료

연구자가 대학 서열화 구조(j3)과 성별이 서로 연관되어 있는지 여부를 알아보기 위해, 화면 우측에서 행(Row)에 성별을 지정하고, 열(Column)에 대학 서열화 구조(j3)를 지정한다.아래에 정확한 검정(Exact) 통계량(Statistics), 셀(Cell), 형식(Format)이 있는데, 이는 각각 다음과 같다.

1) 정확한 검정

키 워 드 내용 설명 ◎ 점근적 검정 (Asymptotic Only)

검정통계량의 점근적 분포. 데이터가 많음을 가정한다.

◎ 몬테카를로 (Monte Carlo)

점근적 방법 가정에 관계없이 데이터 군이 큰 경우, Monte Carlo단추를 누르면, 원하는 신뢰수준의 표본의 수를 지정할 수 있다.

◎ 정확 (Exact)

관측결과의 확률 또는 더 많은 극단값의 출현확률을 정확하게계산하는데, 이 키워드를 누르면 검정당 제한 시간을 얻을 수 있다.

2) 통계량



◎ Sommers의 d(Sommers's d) 독립변수에 대한 대응변수가 비대칭을 이루는 분포

◎ Kendall의 타우-b (Kendall's tau-b)

동률을 고려한 비모수통계의 상관계수

◎ Kendall의 타우-c (Kendall's tau-c)

동률을 고려하지 않은 비모수통계의 상관계수

◎ 카파 (Kappa) 같은 개체에 대해 평가를 내린 평가자의 동의를 나타내는값으로 1은 완전 동의, 0은 동의가 없음.

◎ 위험도 (Risk) 요인의 존재와 사건의 발생간 결합강도의 측정값

◎ McNemar 명목변수와 순위변수로 되어 있는 두 변수간의 분포차이 검정

◎ Cochran 및 Mantel- Haenzel 통계량

한 개 이상의 통제변수로 정의되는 공변량 방법에 따라, 이분형요인변수와 이분형 응답변수간의 독립성을 검정.

3) 셀 형식 표기

키 워 드 내용 설명 ◎ 관측빈도 (Observed) 실제 관측된 사례의 빈도수

◎ 기대빈도 (Expected)행변수와 열변수가 통계적으로 독립되어 있으며, 서로 관련 되어 있지 않은 경우, 셀에 기대되는 케이스 수.

◎ 행 (Row) 행의 퍼센트를 나타냄

◎ 열 (Column) 열의 퍼센트를 나타냄

◎ 전체 (Total) 각셀의 총합 퍼센트를 나타냄

◎ 표준화되지 않음 (Unstandardized) 표준화되지 않은 잔차

◎ 표준화된 잔차 (Standardized) 표준화된 잔차

◎ 수정된 표준화 잔차 (Adjusted standardized) 수정된 표준화 잔차

[결과]

성별 * 대학 서열화 구조 교차표

1 24 15 12 4 56

1.8% 42.9% 26.8% 21.4% 7.1% 100.0%

1 18 13 9 3 44

2.3% 40.9% 29.5% 20.5% 6.8% 100.0%

2 42 28 21 7 100

2.0% 42.0% 28.0% 21.0% 7.0% 100.0%

빈도

성별의 %

빈도

성별의 %

빈도

성별의 %

남자

여자

성별

전체

전혀아니다 아니다 보통이다 그렇다 매우그렇다

대학 서열화 구조

전체

각 셀의 통계수치는 빈도수, 행 백분율이다. 각 행의 오른쪽 끝에는 성별에 대한 각 그룹별 합계가

제시되며, 각 열의 최 하단에는 대학 서열화 구조에 대한 그룹별 합계가 제시된다. 예를 들어, 표의 첫

번째 셀을 보면, `남자'이면서, 대학 서열화 구조 측면에서 ̀전혀 아니다'라고 답한 사람은 1명이다.

이는 전체 남자 56명 중에서 1.8%를 차지하고 있음을 알 수 있다.



[결과 : 카이제곱 검정]

카이제곱 검정

.133a 4 .998

.133 4 .998

.001 1 .974

100

Pearson 카이제곱

우도비

선형 대 선형결합

유효 케이스 수

값 자유도점근 유의확률

(양측검정)

4 셀 (40.0%)은(는) 5보다 작은 기대 빈도를 가지는 셀입니다. 최소 기대빈도는 .88입니다.

a.

피어슨(Pearson)의 카이제곱 값은 0.133이고, 자유도가 4일때 유의확률 P = 0.998로 유의수준 5%에서

유의하지 않다. 따라서 두 변수(성별과 대학 서열화 구조)가 상호 독립적이라는 귀무가설을 채택하게 된

다. 즉, `성별'과 `대학 서열화 구조' 사이에는 연관성이 없다고 할 수 있다. 또한 우도비도 동일한 결

과를 보여주고 있다.

[결과 : 상관계수]

대칭적 측도

.037 .998

.037 .998

.036 .998

-.003 .100 -.032 .974c

.001 .100 .007 .994c

100

파이

Cramer의 V

분할계수

명목척도 대 명목척도

Pearson의 R등간척도 대 등간척도

Spearman 상관순서척도 대 순서척도

유효 케이스 수

값점근 표준

오차a 근사 T 값b근사 유의

확률

영가설을 가정하지 않음.a.

영가설을 가정하는 점근 표준오차 사용b.

정규 근사법 기초c.

분할계수는 효과크기를 나타내는 한 가지 지표로서 두 변수의 관계의 크기를 나타내며 0과 1사이의 값을

지닌다. 마찬가지로 Cramer의 V 또한 효과크기를 나타내는 지표이며 0과 1사이의 값을 지닌다. 이때 1에

가까울수록 관계가 크다고 할 수 있다.

위의 결과에서 분할계수는 0.036이며 Cramer의 V는 0.037로 0에 아주 가까운 값을 가진다. 따라서 ‘성별’과

‘대학 서열화 구조’사이에는 연관성이 아주 작다고 할 수 있다.

일반적으로 카이제곱검정 결과에서 유의미한 결과를 얻었다면 분할계수 혹은 Cramer의 V 계수를 통해

연관성의 크기 정도를 나타낸다.



12. 복수응답 처리분석

연구자가 응답을 얻어내기 위해 복수로 응답하는 설문을 이용하는 경우가 있다. 복수로 응답되는 자료는

설문방식에 따라 복수 이분형과 다중 범주형으로 구분되고, 입력하는 방식도 각각 다르다. 여러 종류의

복수응답설문 중 어느 것을 선택할 것인가는 연구자의 연구 목적에 따라 선택하게 된다.

(문1) 다음 중 당신이 좋아하는 프로그램을 2개만 고르시오.

① 교양( ) ② 오락(✔) ③ 뉴스(✔) ④ 연속극( )

(문2) 다음 프로그램에서 당신이 좋아하는 프로그램을 모두 고르시오.

① 교양(✔) ② 오락(✔) ③ 뉴스(✔) ④ 연속극( )

12.1 이분형 응답처리

이분형 응답처리는 각 응답자에 대한 복수응답처리의 한 가지 방법으로 각 응답자가 선택한 변수에

값 `1'을 부여하고 선택하지 않은 변수에는 ̀ 0'을 부여하는 방법이다.

(문1) 다음 중 당신이 좋아하는 프로그램을 2개만 고르시오.

성별 교양 오락 뉴스 연속극

남자 ✔ ✔여자 ✔ ✔남자 ✔ ✔여자 ✔ ✔남자 ✔ ✔여자 ✔ ✔

위 설문의 응답자료를 입력하기 위해서는 초기화면에서 다음과 같은 순서에 의해서 작업을 진행하면 된다.

여기서, GENDER=성별(1=남자, 2=여자), V1=교양, V2=오락, V3=뉴스, V4=연속극이다.



복수응답에 대한 자료를 입력하기 위해서는 다음과 같은 과정을 거친다.

다중응답(M)

변수군 정의(D)

각각 변수에 대하여 응답자가 선호하는 프로에 선택한 경우는 `1', 선택하지 않은 경우는 `0'을 입력한 후, 복수응답 처리를 위해서는 변수를 통합하여야만 복수응답 란에서 빈도분석 및 교차분석을 할 수 있다.2개 이상의 복수응답에 대한 (문3)도 마찬가지 0과 1로 응답한 값을 입력하면 된다.

위와 같이 복수응답에서 임시변수를 만들기 위한 다중응답 변수군 정의 창(Define Multiple Response

Sets)이 나타난다. 왼쪽 상자의 변수군 정의(Set Define)에서 교양, 오락, 뉴스, 연속극 변수를 변수군

에 포함된 변수(Variable in Set)란에 옮긴 후, 변수들의 코딩형식(Variable Are Code As)의 ◎ 이분형

란에서 반응값(Dichotomies Counted value)에 ̀ 1'을 입력한다. 그리고, 새로운 변수를 만들기 위해 이름

(Name)란에 `X1'이라는 새로운 변수를 입력하고 추가(Add)를 누르면, 오른쪽 다중 응답변수군(Mult

Response Sets)에 ̀ $X1'이 생성된다. 이후 닫기(Close)를 클릭하면 새로운 변수 만들기가 끝난다.

이제 복수응답의 빈도분석을 실시하기 위해서, 다음과 같이 실행한다.

다중응답(M)

빈도분석(F)

왼편의 그림에서 다중응답 변수군(Mult Response Sets)에 있는 복수응답 변수[X1]을 오른편의 표작성 응답군(Tables for)으로 옮긴 후 확인을 누르면 다음과 같은 결과를 얻을 수 있다.



[결과: 다중응답 빈도분석]

전체 응답자 6명에 대해 2개씩 응답을 받은 각각의 빈도수와 백분율이 나타나 있다.

12.2 범주형 응답처리

이분형 응답처리 입력시에 0,1 코드를 사용하였다. 범주형에서는 질문 번호를 그대로 사용한다. 즉, 다

음 화면에서 보는 바와 같이, 첫 번째 응답자는 pro1에 2번 `오락', pro2에 3번 `뉴스'를 선택하고 있음

을 나타낸다. 이 방법은 설문지상에 요구한 선택개수와 동일한 수의 변수(예를 들어, pro1과 pro2)를 만

들어 처리하는 방법이다.

이에 대한 범주형 응답처리 초기화면은 다음과 같다.

여기서, GENDER=성별(1=남자, 2=여자), V1=첫번째 선호프로(1=교양, 2=오락, 3=뉴스, 4=연속극)이고

V2=두번째 선호프로이다.



왼편의 변수군 정의상자에서 `V1', `V2'를 동시에 지정한 후 오른편의 변수군에 포함된 변수로 옮긴다. 변수들의 코딩형식 상자에서 ◎ 범주형(Categories)을 클릭한 후, 범위(Range)란에 `1'에서 `4'를 입력한다.그리고 이름과 설명란에 변수명을 넣어주고 추가를 누르면 오른쪽 하단의 다중응답변수군란에 `$X2'가 추가된다.



13. 상관분석

통계분석을 하다보면 모집단 사이의 독립성은 유지할 수 있으나, 모집단을 이루는 구성원의 변수들은

서로 독립적인 경우가 사실 매우 드물다. 변수는 개체를 설명해주는 특성이라 할 수 있는데 이러한 여러

특성들이 개체 안에서 서로 유기적인 관계를 갖고 있기 때문이다.

예를 들어, 광고비의 지출이 많으면 많을수록 매출액은 증가할 것이고, 판매원의 수가 많으면 많을수록

시장점유율은 증가할 것이다. 또한 소비자의 가격에 대한 인지와 품질 인지 사이에는 관계가 있을 것이

다. 이와 같이 두 변수간에 어떤 관계가 존재할 때 이러한 관계가 선형(linear) 관계이면 상관관계가 있

다고 하며, 그 크기 정도를 상관계수라 한다.

상관계수를 구하는 방식을 모집단과 표본으로 나누어 설명하면 다음과 같다.

① 모집단 상관계수

, ≦ ≦

② 표본 상관계수

, ≦ ≦

여기서,

,

,

③ 편(부분) 상관계수(표본)

여기서, 의 의미 : 을 통제한 상태에서 과 의 부분적인 상관계수를 나타냄

13.1 상관계수의 종류

상관관계의 종류에는 세 가지가 있다.

① 단순상관계수(simple correlation coefficient) : 두 변수간의 상관관계

② 다중상관관계(multiple correlation) : 하나의 변수와 두 변수 이상의 변수간의 상관관계

③ 편상관관계(partial correlation) : 다른 변수들의 상관관계를 통제하고 (다른 변수들과 같

이 변화하는 부분을 제외하고) 순수한 두 변수간의 상

관관계



13.2 상관계수의 해석

상관계수는 두 변수사이의 일차적인 관계가 얼마나 강한가를 측정해주는 지수이다. 이것은 두 변수사이

의 일차관계적인(선형적인) 방향과 관련정도를 나타낸다.

1) 산포도를 그려봄으로써 두 변수사이의 개략적인 관계를 파악한다.

2) 공식을 이용하여 상관계수를 구하고 해석을 내린다.

1.0 ~ 0.7(-1.0 ~ -0.7)의 경우 : 매우 강한 관련성

0.7 ~ 0.4(-0.7 ~ -0.4)의 경우 : 상당한 관련성

0.4 ~ 0.2(-0.4 ~ -0.2)의 경우 : 약간의 관련성

0.2 ~ 0.0(-0.2 ~ -0.0)의 경우 : 관련성이 없음

13.3 상관계수의 가설 검정

두 변수 사이의 선형관계가 통계적으로 유의한지 여부를 검정하여야 한다. 표본상관계수 에 근거하여,

모집단의 상관관계 (rho)에 대한 가설을 검정한다.

이 가설을 검정하기 위해서는 두 변수 모두 정규분포를 따르는 분포로부터 확률표본이 추출되었다는

기본가정이 있어야 한다. 검정절차는 다음과 같다.

① 가설 설정

: , 두 변수간에 상관관계가 없다.

: ≠ , 두 변수간에 상관관계가 있다.

13.4 상관분석의 실행

상관관계가 인과관계와는 다르다. 즉, 상관분석은 종속과 독립이라는 인과관계가 아니라, 상호 동등한

위치에서 변수들 상호간 변화의 방향과 정도를 파악하고자 하는 것이다.

예제)

다음과 같은 자료를 살펴보자. 도시행정에 대한 만족도(), 주거환경에 대한 만족도() 등이 거주

년도()와 관련이 있다는 가정에 따라, 어느 지방 도시의 주민 12명을 대상으로 조사하여 다음과 같

은 결과를 얻었다.



응답자 도시행정에 대한 만족도() 주거환경에 대한 만족도() 거주년도()123456789101112

698310452119102

311411117481085

101212412682189172(* 매우 불만 = 1, 매우 만족 = 11)

이를 위해 다음과 같이 실행한다.

분석(A)

상관분석(C)

이변량변수(B)

왼쪽의 변수상자에서 오른쪽 변수상자로 해당 변수를 이동하고, 상관계수에서 Pearson을 선택하고 유의성검정은 양쪽검정을 선택한 결과를 보여주고 있다.

키 워 드 내용 설명 상관계수 3가지 종류

◎ Pearson 피어슨 상관계수(두 변수간 선형결합의 측도, 상관계수 값의 범위는 -1부터 +1까지이다. 계수의 부호는 관계의 방향을 가리키고 절대값은 강도를 나타내는데 절대값이 클수록 강한 관계가 있음을 나타낸다.) ◎ Kendall의 타우-b 켄달 상관계수 ◎ Spearman 스피어만 상관계수(Pearson 상관계수의 비모수 버전)



[결과 : 변수별 평균 및 표준편차]

기술통계량

6.58 3.315 12

6.08 3.605 12

9.33 5.263 12

도시행정 만족도

주거환경 만족도

거주년도


도시행정 만족도, 주거환경 만족도, 거주년도에 대한 평균과 표준편차가 나타나 있다.

[결과 : 상관분석 결과]

상관계수

1 .733** .936**

.007 .000

12 12 12

.733** 1 .550

.007 .064

12 12 12

.936** .550 1

.000 .064

12 12 12

Pearson 상관계수

유의확률 (양쪽)

N



N



N


주거환경 만족도

거주년도


주거환경 만족도 거주년도

상관계수는 0.01 수준(양쪽)에서 유의합니다.**.

도시행정 만족도()와 주거환경 만족도()는 매우 강한 정방향의 상관관계(+0.733)를 가지고 있으

며, 통계적으로 매우 유의하다(**). 또한 도시행정 만족도와 거주년도는 서로 매우 강한 정방향의 상관

관계(+0.936)를 지니고 있으며, 통계적으로 매우 유의하다(**). 그러나 도시행정 만족도가 높아서 주거

환경에 만족하는지, 혹은 주거환경에 대한 만족도가 높아서 도시행정의 만족도가 높은 것인지는 알 수

없다(즉, 인과관계는 알 수 없다).

사교육 실태 및 의식조사에서 연간 사교육비와 주당 사교육시간, 연간 영어 사교육비, 연간 수학 사교

육비와의 상관분석을 해보면 결과는 다음과 같다. 연간 사교육비와 연간 영어 사교육비는 상관계수가

0.235, 유의확률이 0.062로 유의수준 5%하에서 유의하지 않다는 것을 알 수 있다. 즉, 연간 사교육비와

연간 영어 사교육비는 상관관계가 없다. 연간 사교육비와 연간 수학 사교육비, 주당 사교육시간의 상관

계수는 각각 0.304, 0.338이고 각각 유의확률이 0.018, 0.001로 유의수준 5%하에서 유의하다는 것을 알

수 있다. 즉, 연간 사교육비와 연간 수학 사교육비는 상관관계가 있으며, 그 크기는 0.304이다. 마찬가

지로 연간 사교육비와 주당 사교육시간은 0.338정도의 상관관계가 있다.



상관계수

1 .338** .260* .198

.001 .038 .130

100 92 64 60

.338** 1 .235 .304*

.001 .062 .018

92 92 64 60

.260* .235 1 .334*

.038 .062 .019

64 64 64 49

.198 .304* .334* 1

.130 .018 .019

60 60 49 60



N



N



N



N









상관계수는 0.01 수준(양쪽)에서 유의합니다.**.

상관계수는 0.05 수준(양쪽)에서 유의합니다.*.

13.5 편상관분석

편상관분석(Partial Correlation)은 단순상관분석과 같이 두 변수간의 관계를 분석한다는 점에서 유사

하지만, 두 변수에 영향을 미치는 제 3의 변수를 통제한다는 점에서 차이가 있다. 주거환경에 대한 만족

도() 변수를 통제한 상태에서 도시행정 만족도()와 거주년도() 사이의 관계를 파악하려 한다.

이를 위해 다음과 같이 실행한다.

분석(A)

상관분석(C)

편상관계수(R)

특정변수인 주거환경만족도()를 통제하고, 다른 두 변수인 도시행정 만족도()와 거주년도()의 상관관계를 구하는 과정을 나타내고 있다. 통제변수에 주거환경만족도를 입력하면 된다.



[결과 : 편상관계수]

상관

1.000 .939

. .000

0 9

.939 1.000

.000 .

9 0

상관

유의수준(양측)

df

상관


df


거주년도

통제변수주거환경 만족도

도시행정 만족도 거주년도

주거환경변수를 통제한 상태에서 도시행정만족도와 거주년도 사이의 편상관계수는 0.939임을 알 수 있

다. 주거환경변수를 통제하지 않은 도시행정만족도와 거주년도 사이의 상관계수는 0.936으로 통제후 조

금 높아진 것을 알 수 있다.

마찬가지로 연간 영어 사교육비를 통제한 상태에서 연간 사교육비와 연간 수학 사교육비의 상관관계의

결과는 다음과 같다.

상관

1.000 .100

. .498

0 46

.100 1.000

.498 .

46 0

상관


df

상관


df



통제변수연간 영어사교육비(천원)



연간 영어 사교육비를 통제하기 전에 연간 사교육비와 연간 수학 사교육비의 상관계수는 0.304로 5% 유

의수준 하에서 유의하였으나, 영간 영어 사교육비를 통제한 상태에서 연간 사교육비와 연간 수학 사교육

비의 상관계수는 0.1이고 유의확률은 0.498로 5% 유의수준 하에서 유의하지 않다는 것을 알 수 있다.



14. 회귀분석 - 단순회귀분석

상관분석은 두 변수간의 선형관계를 조사하는 데 비해, 회귀분석(regression analysis)은 한 변수를 종

속변수(dependent variable)로 그리고 다른 변수(들)를 독립변수(independent variable)로 설정하여 이

들 간의 관계를 분석하는 것이다. 이때 독립 변수가 한 개인 경우를 단순회귀분석(simple regression)이

라 하며, 두 개 이상인 경우를 다중회귀분석(multiple regression)이라 한다.

회귀분석은 크게 세가지 목적을 갖는다.

첫째, 기술적인 목적을 갖는다.

예를 들어, 광고액과 매출액 사이의 관계를 기술하고 설명할 수 있다.

둘째, 통제목적을 갖는다.

예를 들어, 비용과 생산량 사이의 관계, 혹은 결근율과 생산량 사이의 관계를 조사하여 생산관

리의 효율적인 통제에 이용할 수 있다.

셋째, 예측의 목적을 갖는다.

회귀분석에서 종속변수는 간격척도 혹은 비율척도로 측정된 계량적 자료 이어야 하며, 독립변수도 마찬

가지로 간격척도 혹은 비율척도로 측정된 계량적 자료여야 한다. 하지만 경우에 따라 명목척도 혹은 서

열척도로 측정된 자료가 사용될 수 있으며, 이 경우 독립변수를 더미변수(dummy variable)라고 한다.

14.1 회귀분석의 기본 가정

회귀분석은 기본적으로 다음과 같은 가정을 한다.

(1) 독립변수와 종속변수간의 선형적 관계

회귀분석은 독립변수와 종속변수간의 선형식을 기반으로 한다. 따라서 독립변수와 종속변수간의

선형관계를 가정할 수 있어야 한다.

(2) 오차항의 등분산과 정규성

오차항(error term)이란 종속변수의 관측치와 예측치 간의 차이를 나타낸다. 이 오차항은 일정한

분산을 갖는 정규분포를 이룬다고 가정할 수 있어야 한다.

(3) 오차항의 독립성

예측의 오차값들은 서로 독립이라는 가정이 필요하다.



산점도(scatter plot) 그리기는 회귀분석의 첫 단계이다. 산점도를 보고, 회귀모형을 직선으로 나타낼 것인지 혹은 곡선으로 나타낼 것인지를 결정한다. 여기서는 광고액이 매출액에 미치는 영향을 알아보기 위하여 산점도를 살펴보자.

[그래프]에서 산점도/점도표를 선택한후 단순 산점도를 선택한다. 여기서 X축에 광고액을 넣고 Y축에 매출액을 넣는다.

축에 광고액을 선택하고, 축에 매출액을 선택

하여 산점도를 그려보니, 광고액이 증가함에 따

라 매출액이 일차함수적(선형관계적)으로 증가하

고 있는 것을 파악할 수 있다.

이를 토대로 회귀직선모형 또는 회귀선형모형을

설정할 수 있다.

14.2 단순회귀분석

단순회귀모형은 다음과 같다.

∼

회귀분석을 위해 다음과 같은 자료를 고려하자. 여기서 매출액()은 광고액()에 영향을 받을 것이

라고 가정한다.

광고액() 근무년수() 1일 문의 전화건수() 매출액()25303237353640485055

8910810997108

30201520161516102015

8995100105110100112100130135

14.2.1 산점도 그리기



14.4.2 단순회귀분석의 실행

단순회귀분석을 실행하려면 다음의 절차를 따르면 된다.

분석(A) 회귀분석(R) 선형(L)

종속변수란에 매출액()을 입력하고, 독립변수란에 광고액()을 입력한다. 그 외 통계량과 도표그리기는 다음과 같다.

1) 통계량 구하기

키 워 드 내용 설명회귀계수◎ 추정값 회귀계수의 추정값 및 관련 통계량◎ 신뢰구간 각 비표준회귀 계수에 대한 95% 신뢰구간을 표시◎ 공분산행렬 비표준 회귀계수에 대한 분산-공분산 행렬◎ 모형의 적합 다중 , , 수정된 , 표준오차 등을 제공한다.◎ 제곱 변화량 통계량의 변화량으로서 독립변수를 추가하거나 삭제함으로써 생성된다.◎ 기술통계 평균, 표준편차, 그리고 단측검정 유의수준을 가진 상관행렬□ 부분상관 및 편상관계수 0차, 부분 및 편상관을 표시한다.□ 공선성 진단 개별 변수에 대한 공차한계와 다중 공선성 문제 진단을 위한 통계량

잔차□ Durbin-Watson 연속으로 수정된 잔차에 대한 Durbin-Watson 검정과 잔차 및 예측값에 대한 요약통계량□ 케이스별 진단 선택기준을 만족하는 케이스에 대한 케이스별 진단을 생성

2) 도표 그리기

키 워 드 내용 설명 DEPENDENT *ZPRED 표준화된 예측값 *ZRESID 표준화된 예측값(Standardized residuals) *DRESID 삭제된 잔차(Deleted Residuals) *ADJPRED 조정예측값(Adjusted Predicted Values) *SRESID 표준화된 잔차(Standardized Residuals) *SDRESID 스튜던트화된 삭제 잔차(Studentized Residuals) 표준화 잔차도표 □ 히스토그램 표준잔차의 임시변수에 대한 히스토그램을 출력 □ 정규확률 도표 지정한 임시변수의 정규확률 산포도를 출력 □ 편회귀잔차도표 명시값보다 더 큰 표준잔차절차를 가진 경우에 한정



[결과 : 변수별 평균과 표준편차]

기술통계량

107.60 14.766 10

38.80 9.508 10

매출액

광고액


매출액과 광고액의 평균과 표준편차 및 사례수가 나열된다.

[결과 : 두 변수의 상관계수]

상관계수

1.000 .844

.844 1.000

. .001

.001 .

10 10

10 10

매출액

광고액

매출액

광고액

매출액

광고액

Pearson 상관

유의확률(단측)

N

매출액 광고액

매출액과 광고액간의 상관계수는 0.844이고, 두 변수의 상관계수는 유의하다(P = 0.001).

[결과 : 단순회귀의 결정계수]

모형 요약

.844a .712 .676 8.405 .712 19.778 1 8 .002모형1

R R 제곱수정된 R

제곱추정값의 표준오차

R 제곱 변화량 F 변화량 자유도1 자유도2

유의확률F 변화량

통계량 변화량

예측값: (상수), 광고액a.

[ : 0.712] 결정계수 은 총변동 중에서 회귀선에 의하여 설명되는 비율을 의미하는 것으로

매출액의 변동 중에서 71.2%가 광고액에 의하여 설명된다는 것을 의미한다. 의 범위는 ≦ ≦ 의

값을 지닌다. 모든 관찰값과 회귀식이 일치한다면 이 되어 독립변수와 종속변수간에 100%의

상관관계가 있다고 할 수 있다. 즉, 의 값이 1에 가까울수록 회귀선은 표본을 설명하는데 유용하다

[수정된 : 0.676] 회귀분석이 단계적으로 전개될 때 자유도를 고려하여 조정된 으로서, 일반적으

로 모집단의 결정계수를 추정할 때 더 사용된다. 표본의 수가 충분히 큰 경우에는 위의 값과 동일하

다.



[결과 : 단순회귀분석의 분산분석표]

분산분석 b

1397.225 1 1397.225 19.778 .002a

565.175 8 70.647

1962.400 9

선형회귀분석

잔차

합계

모형1



종속변수: 매출액b.

회귀식이 통계적으로 유의한지를 검정하는 분산분석표이다. -통계량의 유의확률이 0.002로서 0.05보다

작다. 즉, 이 회귀식은 통계적으로 매우 유의하다고 할 수 있다.

[결과 : 단순회귀모형의 계수 설명]

계수a

56.754 11.738 4.835 .001 29.685 83.822

1.310 .295 .844 4.447 .002 .631 1.990

(상수)

광고액

모형1

B 표준오차

비표준화 계수

베타

표준화 계수

t 유의확률 하한값 상한값

B에 대한 95% 신뢰구간

종속변수: 매출액a.

[상수 56.754, 유의확률 0.001] 회귀식의 상수값은 56.754이며, 유의확률은 0.001<0.05이므로 통계적으

로 유의하다.

[광고액 =1.310, 유의확률 0.02] 광고액의 회귀계수는 1.310이고, 이 회귀계수의 통계적 유의성을 검

정하는 -값은 4.447로 유의확률이 0.002<0.05이므로, 이 회귀계수는 통계적으로 매우 유의하다고 볼 수

있다.

따라서 회귀식은 다음과 같다.

여기서, = (매출액)이고, 은 광고액이다.

이 회귀식의 의미는 광고액이 1억원이 추가될 때마가 매출액은 1.310억원씩 증가한다는 것을 나타내고

있다. 절편은 56.754이므로, 광고액이 0원일때, 매출액은 56.754억원이므로 의미가 없다. 만약, 광고

액이 56억원인 경우는 예상 매출액이 ≒ 억원이 된다.

[에 대한 95% 신뢰구간] 광고액 1억원을 늘리면 95%의 신뢰수준에서 광고액은 0.631억원에서 1.990억

원 사이로 증가한다. 회귀계수의 통계적 유의성을 신뢰구간으로 검정해보면 이 신뢰구간이 0을 포함하지

않으므로 귀무가설, 즉 회귀계수는 0이라는 귀무가설을 기각한다.



[잔차분석]

도표 옵션을 선택하면 다음과 같은 창이뜬다.

여기서 X에는 *ZPRED를 넣고 Y에는 *ZRESID

를 넣는다.

표준화 잔차도표에서 정규확률도표(R)를 선택한

다.

회귀 표준화 잔차의 정규 P-P 도표는 잔차(오차

항)의 정규성을 살펴보는 그림이다. 가운데 실선

을 따라 점들이 모여 있을수록 정규성을 만족한

다.

회귀 표준화 잔차를 나타낸 산점도는 잔차의 등

분산성, 선형성 등을 판단한다.

회귀 표준화 잔차 값이 0을 기준으로 고르게 퍼

져 있으면 등분산성을 만족하는데 문제가 없으며,

잔차들이 특정한 패턴없이 무작위로 퍼져있다면

선형성을 가정하는데 문제가 없다.



15. 회귀분석 - 다중회귀분석

단순회귀분석은 회귀분석에서 독립변수와 종속변수의 수가 각각 하나씩인 경우에 이루어지는 분석을 뜻

한다. 반면 다중회귀분석은 종속변수가 하나이고 독립변수가 여러 개인 경우의 회귀분석을 의미한다.

15.1 다중회귀분석

다중회귀분석은 2개 이상의 독립변수가 종속변수에 미치는 영향을 분석한다. 예를 들어, 매출액에 영향

을 주는 변수로서 단순회귀에서 사용한 광고액 외에 종업원 근무년수, 1일 문의전화건수를 추가적으로

생각할 수 있다.

다중회귀분석에서 고려해야 할 점은 다음과 같다.

첫째, 독립변수간의 상관관계로 인해 비롯되는 다중공선성(multicollinearity) 문제

둘째, 어떤 잔차항이 다른 잔차항에 영향을 미치게 되는 오차항의 자기상관(autocorrelation) 또는

계열상관(serial correlation) 문제

셋째, 종속변수가 독립변수의 변화에 따라 다른 분산을 보이는 이분산성(heteroscedasticity) 문제

등이 있다.

이제 광고액(), 종업원 근무년수(), 1일 전화문의 건수() 등이 매출액()에 미치는 영향을 조

사하기 위하여 다중회귀분석을 실시한다고 하자. 다중회귀분석에서 독립변수를 투입하는 방법은 ① 유의

수준에 관계없이 독립변수를 일시에 투입하여 다중회귀모형을 구하는 방식, ② 독립변수를 단계별로 투

입하는 방식, ③ 각 독립변수의 유의수준을 먼저 지정하고 그에 적합한 변수만으로 다중회귀식을 구하는

방식 등 세가지가 있다.

다음의 절차를 진행하면 다중회귀분석을 실행 할 수 있다.


15.2 입력(동시투입)방식에 의한 다중회귀분석

왼쪽의 변수상자로부터 종속변수란에 매출액()을, 독립변수란에 광고액(), 근무년수(), 전화건

수()를 지정하여 옮겨 놓는다.

여기에서 변수선택의 방법은 다음과 같다.



선 택 기능 설명 방법 독립변수를 분석에 입력하는 방법을 선택 할 수 있다.

◎ 입력(Enter)단 한번만에 지정한 변수들을 모두 진입시킨다.변수를 지정하지 않았을 때는 모든 독립변수들을 진입시킨다.

◎ 단계선택(Stepwise) 각각의 단계마다 변수들을 유의도에 따라 진입과 탈락을 지정한다.

◎ 제거(Removed) 지정한 변수들을 한번에 탈락시킨다.

◎ 후향(Backward)후향변수제거법 : 먼저 모든 변수를 진입시킨 후 제거기준에 따라 한번에 변수 하나씩 제거시킨다.

◎ 전향(Forward) 전향변수선택법 : 진입기준에 따라 한번에 하나씩 진입시킨다.

[결과 : 다중회귀분석의 기술통계량]

기술통계량

107.60 14.766 10

38.80 9.508 10

8.80 1.033 10

17.70 5.314 10

매출액

광고액

근무년수

1일 문의 전화건수


매출액, 광고액, 근무년수, 전화건수에 대한 평균과 표준편차, 사례수에 대한 기술통계량이 나타나 있

다.



[결과 : 다중회귀분석의 결정계수]

모형 요약b

.961a .924 .886 4.976 1.955모형1

R R 제곱수정된 R

제곱추정값의 표준오차

Durbin-Watson

예측값: (상수), 1일 문의 전화건수, 근무년수, 광고액a.


[결정계수 0.924] 독립변수인 광고액, 종업원 근무년수, 1일 전화문의건수로 구성된 회귀식이 매출

액의 총변동의 92.4%를 설명하고 있다. 따라서 회귀식의 설명력은 상당히 높다고 볼 수 있다.

[결과 : 다중회귀분석 분산분석표]

분산분석 b

1813.814 3 604.605 24.414 .001a

148.586 6 24.764

1962.400 9

선형회귀분석

잔차

합계

모형1


예측값: (상수), 1일 문의 전화건수, 근무년수, 광고액a.


회귀식의 통계적 유의성을 검정하는 -통계량의 값은 24.414이고, 이에 대한 유의도가 0.001이다. 따라

서 Sig. F = 0.001 < 0.05이므로, 이 회귀식은 유의하다고 볼 수 있다. 즉, 독립변수인 , , 으

로 구성된 회귀식은 통계적으로 유의하다고 볼 수 있다.

[결과 : 다중회귀분석 회귀계수]

계수a

-27.158 21.645 -1.255 .256

1.724 .216 1.110 7.992 .000 .654 1.528

5.901 1.652 .413 3.573 .012 .946 1.058

.901 .378 .324 2.386 .054 .683 1.463

(상수)

광고액

근무년수

1일 문의 전화건수

모형1

B 표준오차

비표준화 계수

베타

표준화 계수

t 유의확률 공차한계 VIF

공선성 통계량




다중회귀식은

광고액 근무년수 전화건수

으로 나타낼 수 있다. 다른 변수들을 일정하다고 놓고 보았을 때, 광고액이 1억원 늘어나면 매출액은

1.724억원씩, 종업원 근무년수가 1년 올라가면 매출액은 5.901억원씩 증가하는 것을 알 수 있다. 그런데

1일 문의전화건수의 회귀계수 0.901은 그 통계적 유의도가 낮아서(유의확률 0.53 > 0.05) 회귀계수로서

의 의미가 없다고 할 수 있다. 다음으로, 베타()는 회귀계수를 표준화한 것으로 회귀계수의 중요도를

나타낸다. 변수의 베타 값이 0에 가까울수록 무의미한 변수로 판정된다.

15.3 단계별 투입방식에 의한 다중회귀분석

단계별 투입방식(stepwise)은 통계적 유의도가 낮은 독립변수를 제외하고 다중회귀식을 얻는 방식이다.

광고액, 종업원 근무년수, 1일 전화문의건수의 독립변수 중에서 설명력이 높고 그리고 회귀계수의 통계

적 유의도가 가장 높은 변수로부터 단계적으로 투입하다가, 회귀계수의 유의확률이 0.05 이하가 되면 탈

락시킨다. 아마도 1일 문의전화건수 변수가 탈락할 것으로 예상할 수 있을 것이다. 분석 방법은 입력방

법과 같으며, 다만 방법을 입력에서 ‘단계선택’으로 바꾸어 주면 된다.

[결과 : 단계별 다중회귀분석의 결정계수]

모형 요약

.844a .712 .676 8.405 .712 19.778 1 8 .002

.923b .852 .810 6.431 .140 6.664 1 7 .036

모형1

2

R R 제곱 수정된 R 제곱추정값의 표준오차 R 제곱 변화량 F 변화량 자유도1 자유도2

유의확률F 변화량

통계량 변화량


예측값: (상수), 광고액, 근무년수b.

모형 1: 먼저 광고액이 투입되었으며, 변수 한 개가 종속변수 총변동의 71.2%를 설명하고 있다.

모형 2: 근무년수()가 추가적으로 투입된 결과 설명력이 85.2%로 증가하였다. 따라서 설명력은

13.4%(81.0%-67.6%)만큼 증가되었다.

[결과 : 단계별 중회귀분석 분산분석표]

분산분석c

1397.225 1 1397.225 19.778 .002a

565.175 8 70.647

1962.400 9

1672.857 2 836.428 20.222 .001b

289.543 7 41.363

1962.400 9

선형회귀분석

잔차

합계

선형회귀분석

잔차

합계

모형1

2



예측값: (상수), 광고액, 근무년수b.

종속변수: 매출액c.



모형 1: 회귀식의 통계적 유의성을 검정하는 -통계량 값은 19.778이고, 이에 대한 유의확률은 0.002이

다. 따라서 유의확률 0.002 < 0.05이므로, 광고액()으로 구성된 회귀식은 통계적으로 유의하

다고 볼 수 있다.

모형 2: 회귀식의 통계적 유의성을 검정하는 -통계량 값은 20.222이고, 이에 대한 유의확률은 0.001이

다. 따라서 유의확률 0.001 < 0.05이므로, 광고액(), 근무년수()로 구성된 회귀식은 통계

적으로 유의하다고 볼 수 있다.

[결과 : 단계별 중회귀분석 회귀계수]

계수a

56.754 11.738 4.835 .001

1.310 .295 .844 4.447 .002

3.737 22.416 .167 .872

1.434 .231 .924 6.222 .000

5.478 2.122 .383 2.581 .036

(상수)

광고액

(상수)

광고액

근무년수

모형1

2

B 표준오차

비표준화 계수

베타

표준화 계수

t 유의확률


모형 1: 회귀식은 통계적으로 유의함을 알 수 있다. 이때의 상수(56.754)는 유의확률 0.001 < 0.05, 회

귀계수(1.310)값은 유의확률 0.001 < 0.05로 모두 통계적으로 유의함을 알 수 있다.

1단계에서의 회귀식은 으로 나타낼 수 있다.

모형 2: 회귀식은 이다. 이 회귀식과 각 회귀계수(상수항 제외)는 통계적으로 유

의하다. 다중회귀분서에서는 독립변수의 개수가 많을수록 설명력은 높아지게 되므로 지나치게

많은 독립변수를 사용하는 것은 문제가 발생할 수 있다. 통계적으로 유의하지 못한 1일 문의전

화건수()는 포함되지 못한 것을 알 수 있다.

[단계별 중회귀식에 포함되지 않는 독립변수]

제외된 변수c

.383a 2.581 .036 .698 .957

.272a 1.230 .258 .422 .691

.324b 2.386 .054 .698 .683

근무년수

전화건수

전화건수

모형1

2

진입-베타 t 유의확률 편상관 공차한계

공선성 통계량

모형내의 예측값: (상수), 광고액a.

모형내의 예측값: (상수), 광고액, 근무년수b.

종속변수: 매출액c.

모형 2에서 투입되지 못한 1일 문의전화건수()를 보면 편상관계수(partial correlation)가 0.698로

높고 또한 통계적으로 유의하지 못하다(0.054 > 0.05). 즉, 를 추가로 투입하여도 현재의 설명력은

개선되는 부분이 매우 적다. 따라서 다중회귀분석은 여기서 끝난다.



모형 1과 모형 2 중 어느 것이 더 나은지는 모형 1의 설명력 84.4%보다 모형 2의 설명력 92.3%가 더 높

다는 것을 보고 판단 할 수 있다. 그러나 연구자에 따라서 높아진 설명력 7.9%는 미미하다는 판단에서

모형 1을 선호할 수도 있다. 어느 모형을 선택하는가의 문제는 모형의 간결성과 설명력 사이에서 적절하

게 판단하여 모형을 선택하면 된다.

15.4 다중 회귀모형 가정의 검정

회귀식의 가정은 변수와 잔차에 관련된 것으로서, 다중공선성, 잔차의 독립성, 정규성, 등분산성 등이

있다.

[결과 : 다중공선성과 잔차의 독립성, 정규성, 등분산성 검정]

모형 요약b

.961a .924 .886 4.976 1.955모형1

R R 제곱 수정된 R 제곱추정값의 표준오차

Durbin-Watson

예측값: (상수), 전화건수, 근무년수, 광고액a.


계수a

-27.158 21.645 -1.255 .256

1.724 .216 1.110 7.992 .000 .654 1.528

5.901 1.652 .413 3.573 .012 .946 1.058

.901 .378 .324 2.386 .054 .683 1.463

(상수)

광고액

근무년수

전화건수

모형1

B 표준오차

비표준화 계수

베타

표준화 계수

t 유의확률 공차한계 VIF

공선성 통계량


다중공선성이란 독립변수간의 상관관계가 존재하는 것을 의미한다. 이런 경우 회귀계수를 추정하는데

있어 문제가 발생하기 때문에 다중공선성이 높은 변수는 제거되어야 한다. 일반적으로 다중공선성을 검

사하기 위해서는 공차한계(tolerance) 또는 VIF값을 이용한다. 공차한계와 VIF는 서로 역수의 관계를

가지므로 둘 중 어느 것을 봐도 상관이 없다. 이때 공선성을 판단하는 기준은 공차한계 값이 0.1보다 작

거나 VIF값이 10보다 크면 공선성이 있다고 판단한다. 반면 잔차의 독립성 혹은 자기상관의 관계를 보기



위해서 간단히 Durbin-Watson 값을 살펴본다. 이 값은 0부터 4까지의 값을 가지며 2에 가까울수록 독립

성이 보장된다.

잔차의 정규성과 등분산성은 단순회귀와 마찬가지로 정규 P-P도표와 잔차의 산점도로 간단히 확인이 가

능하다. 회귀의 기본가정을 만족한다고 해서 반드시 그 모형이 좋은 모형이다 라고 말할 수는 없지만,

기본 가정을 만족하면 좋은 모형을 찾기가 수월해진다. 따라서 기본가정이 만족하지 않는 경우에는 가정

을 만족하게끔 조절해주는 것이 좋다.

15.5 더미변수를 이용한 회귀분석

회귀분석 때에 독립변수 중에서 명목변수가 있을 때에, 그 변수를 더미변수(dummy variable) 혹은 가상

변수로 변환하는 경우가 있다. 더미변수의 수는 원래 변수가 지닌 집단의 개수보다 하나 적다. 예를 들

어 성별이라는 변수가 독립변수로 될 때 남자와 여자의 두 분류만 있으므로 1개의 더미변수로 나타낸다.

일반적으로 두 개의 집단으로 분류된 명목변수는 더미변수를 별도로 만들 필요 없이 그대로 투입해도 좋

으나, 회귀식을 해석하는 과정에서 주의를 요한다.

더미변수를 이용한 회귀분석을 위한 예로 앞에서 매출액 예제에 교육수준() 변수를 추가 조사한 결과

가 다음과 같다. 교육수준 변수값 1은 고졸, 2는 전문대졸, 3은 대졸 이상으로 입력하였다.

광고액() 근무년수() 1일 문의 전화건수() 교육수준() 매출액()

25303237353640485055

8910810997108

30201520161516102015

1122331223

8995100105110100112100130135

여기 예에서 (교육수준)를 더미변수로 변환하여, 이 교육수준이 (매출액)에 미치는 영향을 회귀모

형으로 분석한다. 따라서 회귀모형은 다음과 같다.

여기서, (매출액)의 추정치이고, 교육수준이다.

더미변수를 지정하는 방식은 다음과 같다.

고 졸 : 이면, , 으로 할당전문대졸 : 이면, , 으로 할당대 졸 : 이면, , 으로 할당



두 더미변수를 이용하여 회귀분석을 실시하면


생성된 더미변수를 독립변수란에 지정하고 매출

액을 종속변수로 지정한다.

[결과 : 더미변수의 회귀분석 결과]

모형 요약

.457a .208 -.018 14.897모형1

R R 제곱 수정된 R 제곱추정값의 표준오차

예측값: (상수), D2X4, D1X4a.

분산분석 b

408.983 2 204.492 .921 .441a

1553.417 7 221.917

1962.400 9

선형회귀분석

잔차

합계

모형1


예측값: (상수), D2X4, D1X4a.


계수a

98.667 8.601 11.472 .000

10.083 11.378 .353 .886 .405

16.333 12.163 .534 1.343 .221

(상수)

D1X4

D2X4

모형1

B 표준오차

비표준화 계수

베타

표준화 계수

t 유의확률


회귀식은 통계적으로 유의하지 않으며 (유의확률 = 0.441 > 0.05), 총변동에 대한 설명력이 20.8% (

=0.208) 정도이다. 회귀식은

이다. 두 회귀계수 모두 유의수준 0.05에서 통계적으로 유의하지 않다. 그러나 교육수준 변수가 유의하

다는 가정하에 세 집단에 따른 매출액을 예상하여 보면

고졸자 이하 : (억원)

전문 대졸자 : (억원)

대 졸 자 : (억원)

이 된다.



16. 로지스틱 회귀분석

로지스틱 회귀모형은 로짓(logit) 회귀모형이라고도 불리며, 종속변수가 명목형 또는 순서형인 경우 사

용하는 통계적 기법이다. 일반적으로 종속변수가 두 개의 범주를 가지는 명목형 변수인 경우 사용된다.

종속변수가 0, 1 만의 값을 갖는 가변수(dummy variable)인 경우에 y 의 기대값을 나타내는 반응함수의

모양이 S형 곡선을 그리는 경우가 실제로 많이 나타난다. 이 반응함수는 x 가 증가함에 따라 y의 값이 1

로 서서히 수렴하는 양상을 보인다. 이와 같은 함수를 로지스틱 함수(logistic function)라 부른다.

즉 로지스틱 회귀분석(logistic regression)이란 단지 두 개의 값만을 가지는 종속변수(예를 들면, 주택

유무, 보험가입 여부 등)와 독립변수들 간의 인과관계를 로지스틱 함수를 이용하여 추정하는 통계기법이

다.

예제] 산모의 나이, 몸무게, 흡연여부, 고혈압병력, 조산병력이 저체중아 출산 여부(1=참여, 0=비참여)

에 어떠한 영향을 미치는 지를 알아보고자 한다.

로지스틱 회귀분석을 실시하면

분석(A) 회귀분석(R) 이분형 로지스틱(G)

종속변수에 명목형 값을 가진 저체중 변수를 넣

고, 공변량에 독립변수를 넣는다. 즉, 산모 나이,

몸무게, 흡연여부, 고혈압병력, 조산병력 등을 공

변량에 넣는다.

옵션 창에서 Hosmer-Lemeshow 적합도(H)를

선택한다.



[결과 : Hosmer & Lemeshow 적합도 검정]

Hosmer와 Lemeshow 검정

8.044 8 .429단계1

카이제곱 자유도 유의확률

Hosmer & Lemeshow 적합도 검정은 로지스틱 회귀모형의 전체적인 적합도를 판단하는 검정이다. 이때 귀

무가설은 모형이 적합하다 이기 때문에 유의확률이 유의수준보다 크면 좋은 모형이 된다. 여기서 유의확

률은 0.429 이므로 모형이 적합하다고 할 수 있다.

[결과 : 분류표]

분류표a

18 11 62.1

12 17 58.6

60.3

관측정상

저출산

저체중

전체 %

1 단계정상 저출산

저체중

분류정확 %

예측값

절단값은 .500입니다.a.

위 표는 로지스틱 회귀모형 적합결과를 이용한 분류표이다. 결과를 살펴보면 실제로 정상일 때 로지스

틱 회귀분석으로 정상으로 예측한게 18 경우고 실제 저출산인 경우 저출산으로 예측한 케이스가 17이다.

나머지 33 케이스는 정상인데 저출산으로 잘못 예측했거나 저출산인데 정상으로 잘못 예측한 경우이다.

따라서 이 로지스틱 회귀모형으로 예측할 경우 분류 정확도가 약 60.3%라는 것을 알 수 있다.

[결과 : 방정식에 포함되는 변수]

방정식에 포함된 변수

-.017 .066 .068 1 .794 .983

.005 .012 .209 1 .648 1.005

.984 .606 2.635 1 .105 2.675

.778 1.472 .279 1 .597 2.177

1.493 .756 3.901 1 .048 4.449

-1.048 2.212 .224 1 .636 .351

AGE

Weight

Smoking

Hypertension

Premature

상수

1 단계

a

B S.E. Wald 자유도 유의확률 Exp(B)

변수가 1: 단계에 진입했습니다 AGE, Weight, Smoking, Hypertension, Premature.a.

위의 표는 추정된 로지스틱 회귀계수와 유의성에 대한 결과를 보여주는 표이다. 이를 통해 적합된 로지

스틱 회귀모형은 다음과 같다.

저체중아 출산 ⋅나이 ⋅몸무게 ⋅흡연여부 ⋅고혈압병력 ⋅저출산경험



17. 신뢰성 분석

출처: SPSS 14.0 매뉴얼(이학식, 임지훈)

척도의 신뢰성(reliability)은 한 대상을 유사한 측정도구로 여러 번 측정하거나 한 가지 측정도구로

반복 측정했을 때 일관성 있는 결과(consistent results)를 산출하는 정도에 관련된다. 즉, 일관성 있는

결과가 산출될수록 그 척도(혹은 측정치)의 신뢰성은 높다. 척도의 신뢰성을 평가하는 방법에는 내적일

관성(internal consistency), 반복측정 신뢰성(test-retest consistency), 대안항목 신뢰성

(alternative-form reliability) 등이 있는데, 이 중 가장 많이 사용되는 방법은 내적일관성에 의한 방

법이다.

내적일관성은 한 항목을 다항목으로 측정했을 때 항목들이 일관성(consistency) 혹은 동질성

(homogeneity)을 갖는가에 관한 것이다. 내적일관성은 항목들 간의 상관관계로써 평가되는데, 항목들간

의 상관관계가 높을수록 내적일관성이 높다. 일반적으로 가장 많이 쓰이는 내적일관성에 의한 척도의 신

뢰성 평가방법은 Cronbach's coefficient alpha(줄여서 Cronbach's 계수)를 이용하는 것이다.

그 공식은 다음과 같다.

혹은

여기서, =항목들의 수

=항목 의 분산값

=항목의 전체 분산값

=항목들간 평균상관계수

Cronbach's 계수는 0에서 1 사이의 값을 가지며, 높을수록 바람직하나 반드시 몇 점 이상이어야 한

다는 기준은 없다. 흔히 0.8-0.9이상이면 바람직하고, 0.6-0.7이면 수용할 만한 것으로 여겨진다. 그러

나 0.6보다 작으면 내적일관성을 결여한 것으로 받아들여진다. 이 경우 Cronbach's 계수의 크기를 저

해하는 항목들을 제거함으로써 계수값을 크게 할 수 있다. 이러한 항목들은 그 항목과 전체 항목들간의

상관관계(item-to-total correlation)가 낮은 항목들이다.

[예제]

개인들이 사고를 하려하고 이를 즐기는 성향에 대한 인지욕구를 측정한 자료이다. 이때 인지욕구를 7

개 항목으로 측정하였으며, “전혀 그렇지 않다(0)~ 매우 그렇다(6)”의 7첨 Likert 척도로 답하였다.

(항목)

1. 나는 문제를 풀고 해답을 구하는 일을 무척 즐겨한다.

2. 나는 (다소 중요하지만 단순한 사고를 요하는 일보다) 중요하고 지적이며 어려운 일들을 훨씬

좋아한다.

3. 나는 상당한 정신적 노력을 쏟아야만 달성될 수 있는 목표를 설정하는 경향이 있다.

4. 나는 일반적으로 주어진 과제에서, 최소한으로 요구되는 정도보다 훨씬 많은 사고를 하려고 한

다.

5. 나는 (단순한 사고를 요하는 일보다) 나의 사고력을 시험해 볼 수 있는 일을 하는 것을 상당히

좋아한다.

6. 나는 오랜 시간동안 깊이 심사숙고하는 것을 별로 좋아하지 않는 편이다.

7. 나는 깊은 사고력을 필요로 하는 일에 대한 책임을 맡는 것을 좋아하지 않는다.



신뢰성 분석은 다음과 같이 실행한다.

분석(A) 척도화분석(A) 신뢰도분석(R)...

항목란에 분석하고자 하는 변수를 넣는다.

이때 모형은 ‘알파’를 선택한다.

통계량 창에서 항목제거시 척도(A)를 선택한다.

[결과 : 신뢰도 통계량]

신뢰도 통계량

.712 7

Cronbach의 알파 항목 수

신뢰도 통계량을 살펴보면 7개 항목의 전체 신뢰도 계수는 0.712로 나타난다.



[결과 : 항목 총계 통계량]

항목 총계 통계량

19.93 29.383 .622 .626

20.05 29.678 .549 .644

19.72 29.317 .630 .625

19.73 31.355 .516 .656

19.69 30.365 .591 .637

19.73 37.722 .091 .760

19.59 38.773 .056 .762

nfc1

nfc2

nfc3

nfc4

nfc5

nfc6

nfc7

항목이 삭제된 경우척도 평균

항목이 삭제된 경우척도 분산

수정된 항목-전체 상관관계

항목이 삭제된 경우Cronbach

알파

항목 총계 통계량은 각 항목을 제거했을 경우 변화되는 Cronbach's 값을 나타낸다. 결과를 살펴보면

nfc7 변수를 제거하면 신뢰도 계수가 0.762로 향상되고 nfc6을 제거하면 0.760으로 향상된다. 항목 제거

순서는 제거 후 계수가 가장 크게 개선되는 항목을 우선적으로 제거한다.

따라서 nfc7 변수를 제거 후 다시 분석을 한다.

[결과]

신뢰도 통계량

.762 6



16.45 26.236 .651 .687

16.57 26.261 .593 .702

16.24 26.090 .665 .683

16.25 27.699 .574 .709

16.21 27.160 .621 .697

16.25 35.808 .022 .844

nfc1

nfc2

nfc3

nfc4

nfc5

nfc6





알파

6개 항목에 대한 신뢰도 계수가 0.762로 나타난다. 또한 nfc6을 제거하면 신뢰도 계수가 0.844로 향상됨

을 알 수 있다.

따라서 nfc6 변수를 제거 후 다시 분석을 한다.



[결과]

신뢰도 통계량

.844 5



13.11 23.566 .667 .808

13.22 23.467 .616 .823

12.90 23.248 .696 .800

12.91 24.984 .587 .829

12.86 23.778 .693 .802

nfc1

nfc2

nfc3

nfc4

nfc5





알파

5개 항목에 대한 신뢰도 계수가 0.844이다. 그리고 변수 제거 시 더 이상 신뢰도 계수가 향상되지 않음

을 알 수 있다.

따라서 이후 분석에서는 nfc1, nfc2, nfc3, nfc4, nfc5 다섯 개 변수를 이용한다.

신뢰성 분석, 특히 내적일관성, 을 할 경우 단순히 신뢰도 계수를 높이기 위해 항목 제거를 하다보면 이

후 분석에 사용할 변수가 남지 않게 되는 경우가 있다. 따라서 무작정 신뢰도 계수를 높이기보다 항목의

중요도를 고려하여 변수를 줄이는 것이 좋다.



18. 기타 다변량 분석기법

18.1 정준상관분석

정준상관분석(canonical correlation analysis)은 변수들의 집합들에 관한 관계를 측정하고 설명할 때

쓰이는 통계적 기법이다.

예를 들어,

- 대학 입학 전 성적변수들과 입학 후의 성적변수들 간의 관계연구

- 여러 경제현상을 나타내는 변수들과 정부의 정책변수들 간의 관계를 연구

정준상관분석은 변수집단의 선형결합과 다른 변수집단의 선형결합과의 상관관계에 관심을 갖는다. 정준

상관분석의 시작은 각 집단의 선형결합들을 토대로 가장 큰 상관계수를 갖는 한 쌍의 선형결합을 구하고

처음 구한 한 쌍과 상관없는 다른 쌍들 중에서 가장 큰 상관관계를 갖고 있는 한 쌍의 선형결합을 구한

다. 이런 과정을 반복하여 구한 선형결합의 쌍들을 정준변수(canonical variable)라고 하고 이들의 상관

계수를 정준상관계수라고 한다. 정준상관계수는 두 집단의 변수들간의 연관성을 측정해 준다. 최대화한

측면에서 살펴보면 두 집단의 변수들간의 다차원관계를 정준변수의 소수의 쌍으로 집약시켜 표현한다는

의미를 갖고 있다.

18.2 요인분석

요인분석(factor analysis)은 여러 변수들 사이의 상관관계를 기초로 하여 정보의 손실을 최소화하면서

변수의 개수보다 적은 수의 요인으로 자료변동을 설명하는 다변량 기법이다.

예를 들어, 어떤 회사에서 직무만족도를 측정하기 위하여 100개의 질문항목을 사용했을 때, 이를 10개

정도의 요인으로 묶어 직무만족의 특성을 분석할 수 있을 것이다.

요인분석이 회귀분석이나 판별분석 등과 같은 다변량분석 방법과 차이가 나는 점은 독립변수와 종속변수

가 지정되지 않고 변수들간의 상호작용을 분석하는데 있다. 요인분석에서는 예컨대, 100개의 측정변수를

묶을 때 상관관계가 높은 것끼리 동질적인 몇 개의 요인으로 묶기 때문에 다음과 같은 경우에 사용한다.

① 자료의 양을 줄여 정보를 요약하는 경우

② 변수들 내에 존재하는 구조를 발견하려는 경우

③ 요인으로 묶여지지 않는 중요도가 낮은 변수를 제거하려는 경우

④ 동일한 개념을 측정하는 변수들이 동일한 요인으로 묶여지는지를 확인하려는 경우

⑤ 요인분석을 통해 얻어진 요인들을 회귀분석이나 판별분석에서 변수로 활용하려는 경우



18.3 판별분석

판별분석(discrimination analysis)은 기존의 자료를 이용하여 관찰개체들을 몇 개의 집단으로 분류하고

자 하는 경우에 사용된다. 이 분석은 등간척도나 비율척도로 이루어진 독립변수를 이용하여 여러개의 집

단으로 분류하는 방법이다.

예를 들어, 한 고객이 신용카드 발급을 은행에 신청한 경우 신용카드를 발급할 것인가 혹은 거절할 것인

가를 결정한다든지, 혹은 생물학자가 새의 몸크기, 색깔, 날개크기, 다리길이 등을 측정하여 암수를 구

별하고자 할 때에 판별분석이 이용된다.

판별분석의 목적은 각 관찰대상들이 어느 집단에 속하는지를 알 수 있는 판별식을 구하고, 그리고 이 판

별식을 이용하여 새로운 대상을 어느 집단으로 분류할 것인가를 예측하는데 있다. 즉, 두 개 이상의 집

단을 구분하는데 있어 분류 오류를 최소화할 수 있는 선형결합을 도출하는 것이 주요 목적이다.

18.4 군집분석

사물을 관찰하다보면 다양한 특성들을 지닌 개체들을 동질적인 집단으로 분류할 필요성이 생긴다. 예를

들어, 동물의 경우 외형적인 조건에 따라 성별을 구분하는 경우에는 명확한 분류기준이 있어 쉽다고 할

수 있으나, 변수가 많거나 또는 명확한 분류기준이 없는 경우에는 관찰대상들을 분류하는 것이 쉬운 일

이 아닐 것이다. 군집분석(cluster analysis)은 다양한 특성을 지닌 관찰대상을 유사성을 바탕으로 동질

적인 집단으로 분류하는 데 쓰이는 기법이다.

군집분석은 판별분석과는 다르다. 판별분석에서는 분류하기 전에 미리 집단의 수를 결정할 뿐만 아니라

새로운 관찰대상을 이미 정해진 집단들 중의 하나에 할당하는 것을 목적으로 한다. 그러나 군집분석에서

는 집단의 수를 미리 정하지 않는다. 단지 전체대상들에 대한 유사성이나 거리에 의거하여 동질적인 집

단으로 분류한다.

- 군집분석의 절차

군집분석은 특성들의 유사성, 즉 특성자료가 얼마나 비슷한 값을 가지고 있는지를 거리로 환산하여 거리

가 가까운 대상을 동일한 집단으로 편입시키게 된다. 따라서 다음과 같은 질문이 중요시 된다.

① 어떠한 특성에 대한 측정값의 차이를 비교할 것인가? (변수 선정문제)

② 어떻게 유사성의 차이를 측정할 것인가? (유사성 측정방법)

③ 어떻게 동질적인 집단으로 묶을 것인가? (군집화 방법)



18.5 선형구조관계분석

공분산 구조방정식 모형(covariance structural equation model)은 가정한 원인-결과 변수(cause-effect

variable)들로 현상을 규명하기 위하여 사용되는 선형방정식들의 집합을 나타낸다.

예를 들어,

- 사회적 위치와 성취도와의 관계,

- 기업 수익의 결정

- 직무의 분류

등의 관계분석에서 많이 사용된다.

회귀분석은 독립변수들의 집단이 종속변수와의 선형적인 함수관계를 유도하고 설정된 회귀방정식에서 종

속변수들의 결과를 예측하는 통계적인 기법인 것에 반하여 경로분석(pass analysis)에서는 변수들간의

연결관계가 가정되고 검정됨으로 변수들이 어떻게 서로 영향을 미치는가에 대한 설명을 쉽게 표현하는

통계적 기법이다.

회귀분석과 경로분석에 공통점이 있다면, 그것은 두 방법이 측정변수(measure variable, observed

variable)들만을 다룬다는 것이다. 반면에 공분산 구조방정식 모형은 측정된 변수뿐만 아니라 잠재변수

(latent variable)까지 포함하므로 복잡하고 다양한 자료의 분석을 통하여 자료를 설명하고 현상을 규명

하는 설명력이 높다.



[예제 1] 아래 자료는 미국 노동 통계국에서 19개 미국도시의 여성 노동참여율을 조사한 자료이다. 1972

년과 1968년에 각각 관측된 자료로부터 1972년 여성 노동참여율이 1968년보다 더 크다고 할 수 있는지

유의수준 5%에서 검정하라.

City 1972 1968 City 1972 1968N.Y.L.A

ChicagoPhiladelphia

DetroitSnaFrancisco

BostonPitt.

St.Louis

0.450.500.520.450.460.550.600.490.35

0.420.500.520.450.430.550.450.340.45

ConnecticutWash. DC

CinnBaltimoreNewark

Minn/St.PaulBuffaloHoustonPatterson

Dallas

0.550.520.530.570.530.590.640.500.570.64

0.540.420.510.490.540.500.580.490.560.63

[예제2] 어떤 회사에서는 작업자의 생산성을 높이기 위해 작업 능률에 따른 차등임금제를 실시하려고 한

다. 이를 위해 세종류의 차등임금제(A, B, C)를 기획하고, 노조가 결성된 공장(공장 1)과 노조가 결성되

지 않은 공장(공장 2)에 대해 1주일동안의 생산성을 기록하여 다음과 같은 자료를 수집하였다.

구 분 임 금 제A B C

노조유무공장1

337 328362 319305 304

346 373351 338355 365

317 341335 329310 315

공장2359 346345 396381 373

371 377352 401399 378

350 336349 351374 340



[예제3] 사원들의 발표능력, 분석능력 및 응용력이 사원들의 직무성적에 어떠한 영향을 미치는지를 분석

하고자 한다.

사원 직무성적 발표능력 분석능력 응용력123456789101112131415

879391858697909388968689949195

9.29.49.58.78.89.69.29.58.59.69.48.79.69.29.7

8.49.39.27.98.19.89.09.48.69.78.38.79.29.09.3

8.79.49.68.98.69.39.09.28.99.58.89.09.19.59.1

[예제4] 최종 9명의 참가자에 대한 심사위원 A와 B의 심사결과간에 관계가 있다고 할 수 있는가?

참가자 심사자 A 심사자 B123456789

419835627

328654719

Documents

SPSS를 활용한 설문 자료 통계 분석