30
다중 회귀분석 - 1/30 Copyright 2001 StatEdu Consulting Multiple Regression 개념 다중 공선성(VIF) 단계별 회귀(Stepwise) Best SubSet 최적 모형의 선택

Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 1/30Copyright ⓒ 2001 StatEdu Consulting

Multiple Regression

개념

다중 공선성(VIF)

단계별 회귀(Stepwise)

Best SubSet

최적 모형의 선택

Page 2: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 2/30Copyright ⓒ 2001 StatEdu Consulting

독립변수가 여러 개인 회귀분석

- 연령과 스트레스의 정도는 삶의 만족도에 영향이 있는가?

- 전산교육, 통계교육, 회사 만족도는 업무 능력에 향상에 기여를 하는가?

독립 변수(인자), 종속 변수(특성값)가 모두 등비이고 변수간의 관계와 설명, 예측

(중요한 인자가 명목이나, 서열이어도 Dummy 변수화 하여 분석할 수 있다.)

기본 가정 : Data : 선형성, 정규성, 등분산성 → 실제적으로 확인이 어렵다

잔 차 : 정규성, 등분산성 → 모형의 적합성을 판별할 수 있다.

가설 : H0 : (선형 회귀모형이 존재하지 않는다)

H1 : 적어도 하나의 회귀계수는 0이 아니다 (선형 회귀모형이 존재한다)

– 독립변수와 종속변수가 직선의 관계가 있다.

종속변수 : 등비

독립변수 : 등비

다중 회귀분석(Multiple Linear Regression)

021 ==== nβββ L

Page 3: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 3/30Copyright ⓒ 2001 StatEdu Consulting

다중 회귀분석의 개념

innxxxy εββββ +++++= L22110

다중 회귀분석은 단순 회귀분석의 확장형으로 ANOVA와 GLM의 차이라고 생각하면 된다.

즉, 단순 회귀분석에서는 인자가 1개 이었으나 다중 회귀분석에서는 인자가 n개인 경우이다.

그러므로 회귀계수 역시 1개가 아닌 n개로 나타난다.

H0의 가설은 모든 회귀계수가 0 이라는 것이며,

여기에 대립되는 H1의 가설은 적어도 하나의 회귀계수는 0 이 아니라는 것이다.

다중 회귀분석에서는 다중 공선성이라는 개념이 하나 더 추가되고, 나머지의 개념은 단순 회귀

분석과 동일하다.

또한 여러 개의 독립변수 중 어는 독립변수를 선택하는 것이 좋은가 하는 최적의 변수를 찾는

문제에 대하여 고려해야 한다.

Page 4: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 4/30Copyright ⓒ 2001 StatEdu Consulting

다중 공선성(VIF) 1

다중 공선성(Variance Influence Factor : VIF)

2개의 변수가 서로 상관관계가 아주 높고, 각각의 변수가 특성값에 영향을 미치는 정도가

A, B라고 했을 때 2개의 변수가 동시에 특성값에 영향을 미치는 정도는 A + B 정도가

되어야 하는데 비해 서로 촉매 작용을 하여 그것보다 훨씬 높은 영향이 있는 것처럼

보일 때 다중 공선성이 있다고 한다.

한 변수는 kg, 또 다른 변수는 파운드로 측정한 2 변수를 모형에 포함시킬 때 완벽한

다중 공선성을 갖는다.

독립변수들 사이에 완벽한 다중 공선성이 존재하는 경우에는 하나 혹은 그 이상의

독립변수가 모형에서 제거되더라도 정보의 손실이 전혀 없다.

VIF > 10 : 다중 공선성이 존재 ⇒ 인자 제거 후 회귀분석

Page 5: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 5/30Copyright ⓒ 2001 StatEdu Consulting

다중 공선성(VIF) 2

다중 공선성(VIF) 의 발생 원인

1. 잘못된 자료 수집과정, 모집단 모든 모형에서의 제한 사항

2. Data의 수에 비해 과다한 독립변수의 사용

다중 공선성(VIF) 이 의심되는 경우

1. 독립변수들의 상관계수가 크게 나타난다.

2. 한 독립변수를 회귀모형에 추가하거나 제거하는 것이 회귀계수의 크기나 부호에 큰 변화를 줄 때

3. 새로운 Data를 추가하거나 기존의 Data를 제거하는 것이 회귀계수의 크기나 부호에 큰 변화를

줄 때

4. 중요하다고 생각되어지는 독립변수에 대한 P값이 크게 나와 통계적 차이가 없을 때

5. 회귀계수의 부호가 과거의 경험이나 이론적인 면에서 기대되는 부호와 정반대일 때

다중 공선성(VIF) 이 유발하는 문제점

1. 분산이 커진다(회귀모형의 적합성이 떨어진다.)

2. 다른 중요한 독립변수가 모형에서 제거될 가능성이 높다.

3. 결정계수의 값이 과대하게 나타날 수 있다.

Page 6: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 6/30Copyright ⓒ 2001 StatEdu Consulting

다중 공선성(VIF) 3

x2, x4 :VIF > 10

그 중에서도 더 큰 VIF 를

보이는 x4 제거

계수a

48.568 3.726 .000

1.703 .195 .000 .308 3.251

.646 .042 .000 .940 1.064

.263 .176 .169 .318 3.142

(상수)

X1

X2

X3

모형1

B 표준오차

비표준화 계수

유의확률 공차한계 VIF

공선성 통계량

종속변수: Ya. X4 제거후의 VIF의 변화

다중 공선성이 없다.

계수a

52.595 66.865 .454

1.662 .711 .048 .026 38.496

.604 .691 .407 .004 254.423

.221 .720 .767 .021 46.868

-4.08E-02 .677 .953 .004 282.513

(상수)

X1

X2

X3

X4

모형1

B 표준오차

비표준화 계수

유의확률 공차한계 VIF

공선성 통계량

종속변수: Ya.

각 회귀계수들의 P 값의

변화가 심하다

Page 7: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 7/30Copyright ⓒ 2001 StatEdu Consulting

최적 변수의 선택 방법 1

최적 변수 선택의 목적

1. 종속변수에 대하여 영향력이 큰 독립변수를 찾는다.

2. 가능한 한 최소의 변수로 최대의 효과를 본다.

단계별 회귀(Stepwise Regression)

1. 종속변수에 기여도가 가장 높은 변수(X1)를 선택한다.

2. 나머지 변수 중에서 새로이 회귀모형에 추가될 때 기여도가 가장 높은 변수(X2)를 선택한다.

3. X2의 P 값이 기준값보다 작으면 모형에 추가한다.

4. 새롭게 추가 또는 삭제되는 변수가 없을 때까지 2-3을 반복한다.

Best SubSets

1. R2, R2(adj) : 클수록 좋다. 둘 사이의 차이가 작을수록 좋다.

최적 변수

- Stepwise의 결과와 Best SubSet의 결과를 보고 결정 (Stepwise 추천)

Page 8: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 8/30Copyright ⓒ 2001 StatEdu Consulting

최적 변수의 선택 방법 2

모형 요약

.819a .671 .641 8.91

.987b .974 .969 2.62

모형1

2

R R 제곱 수정된 R 제곱추정값의 표준오차

예측값: (상수), X4a.

예측값: (상수), X4, X1b.

64.14%

96.89%

R-sq(adj)

x4

x4, x1

선택된 인자

1

2

단계

Stepwise의 결과 X4, X1 2개의 독립변수가 선택되어졌다.

X4가 Y를 설명하는 설명력은 64.1%이고,

X4, X1 2개의 독립변수가 종속변수 Y를 설명하는 설명력은

96.9%이다. 그 중에서도 X4의 영향력이 더 크다.

※ 다중공선성(VIF)를 생각하지 않은 결과임을 주의

Page 9: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 9/30Copyright ⓒ 2001 StatEdu Consulting

다음 Data는 종속변수 y를 설명하기 위한 4 개의 독립변수(x1-x4)의 자료이다.

최적 변수를 선택하고 회귀식을 만들어라

7 1 11 11 7 11 3 1 2 21 1 11 10

26 29 56 31 52 55 71 31 54 47 40 66 68

6 15 8 8 6 9 17 22 18 4 23 9 8

60 52 20 47 33 22 6 44 22 26 34 12 12

x1

x2

x3

X4

79 74 104 88 96 109 103 73 93 116 84 113 109y

종속변수(특성값) : y : 등비

독립변수(인 자) : x1 : 등비

x2 : 등비

x3 : 등비

x4 : 등비

직선의 관계가 있는가? 그래프를 이용 확인

분석 방법 : Regression

분석 순서 : Graph → VIF → Stepwise → 잔차 분석 → 결과

Page 10: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 10/30Copyright ⓒ 2001 StatEdu Consulting

회귀분석(Regression) – 1. 그래프

그래프 산점도

X1

X2

X3

X4

Y

상관관계가 아주 높다

→ 다중 공선성이 의심된다.

종속변수와 독립변수 사이에

선형관계가 있다.

Matrix Plot을 통하여 변수들간의대략적인 관계를 확인한다.

Page 11: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 11/30Copyright ⓒ 2001 StatEdu Consulting

회귀분석(Regression) – 2. 다중공선성(VIF)

분석 회귀분석 선형

VIF 값이 크다 하더라도 그 독립변수가

중요한 변수라면 제거하지 않는 것이 좋다.

38.496

254.423

46.868

282.513

X1

X2

X3

X4

모형1

VIF

공선성 통계량

3.251

1.064

3.142

X1

X2

X3

모형1

VIF

공선성 통계량

모든 변수의 VIF 값이10보다 크다.

그 중에서 가장 큰 VIF 값을 갖는 변수를 제거한다.

종속변수 : y

독립변수 : x1, x2, x3, x4

다중 공선성(VIF) 확인

Page 12: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 12/30Copyright ⓒ 2001 StatEdu Consulting

Stepwise (최적 변수의 선택)

VIF에서 제거 안되고 선택된 변수들을Stepwise(Regression) 모형에 사용한다.

모형 요약b

.990a .980 .975 2.33모형1

R R 제곱 수정된 R 제곱추정값의 표준오차

예측값: (상수), X2, X1a.

종속변수: Yb.

53.177 2.217 23.991 .000

1.464 .118 .579 12.444 .000

.651 .044 .681 14.651 .000

(상수)

X1

X2

모형1

B 표준오차

비표준화 계수

베타

표준화 계수

t 유의확률

종속변수 : y

독립변수 : x1, x2, x3

단계선택(Stepwise)

Stepwise에서 선택된 인자로 회귀분석을 하면회귀모형에 대한 P 값과 각각의 회귀계수에 대한P 값은 0.05보다 작게 나온다.

Stepwise 결과 x2, x1의 2개의 변수가 선택되었다.

x2 변수의 설명력은 63.13%이고, x1은 34.41%이다.

Page 13: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 13/30Copyright ⓒ 2001 StatEdu Consulting

잔 차 분 석

회귀 표준화 예측값

1.51.0.50.0-.5-1.0-1.5-2.0

회귀

표준화

잔차

2.0

1.5

1.0

.5

0.0

-.5

-1.0

-1.5

Graph의 모양이 어떠한 규칙이나 추세, 경향, 주기 없이 고르게 분포하므로

잔차의 등분산 만족

정규성 검정

.935 13 .428Standardized Residual통계량 자유도 유의확률

Shapiro-Wilk잔차의 정규성

P > 0.05 : 정규성 만족

Page 14: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 14/30Copyright ⓒ 2001 StatEdu Consulting

결 과

분산분석b

2600.802 2 1300.401 238.917 .000a

54.429 10 5.443

2655.231 12

선형회귀분석

잔차

합계

모형1

제곱합 자유도 평균제곱 F 유의확률

예측값: (상수), X2, X1a.

종속변수: Yb.

1

1

2

P < 0.05 → H1

선형 회귀모형이 존재한다

선형 회귀식

y = 53.18 + 1.46(x1) + 0.65(x2)

→ x1, x2가 증가하면 y도 증가한다

53.177 2.217 23.991 .000

1.464 .118 .579 12.444 .000

.651 .044 .681 14.651 .000

(상수)

X1

X2

모형1

B 표준오차

비표준화 계수

베타

표준화 계수

t 유의확률2

3 결정계수(설명력) : 97.5%

→ x1과 x2로 y를 설명할

수 있는 비율은 97.5%이다.990a .980 .975 2.33

모형1

R R 제곱 수정된 R 제곱추정값의 표준오차

예측값: (상수), X2, X1a. 3

최적 변수로 선택된 변수는 x1, x2 이며

y = 53.18 + 1.46(x1) + 0.65(x2)

의 회귀식이 존재하며 x1, x2로 y를 설명할 수 있는 비율은 97.5%이다.

Page 15: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 15/30Copyright ⓒ 2001 StatEdu Consulting

Regression 분석 순서 정리 1

그래프 산점도 1. 선형성 확인

2. 다중 공선성 확인(VIF)

1

분석 회귀분석 선형

2

X1

X2

X3

X4

Y

Page 16: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 16/30Copyright ⓒ 2001 StatEdu Consulting

Regression 분석 순서 정리 2

분석 회귀분석 선형 3. Stepwise(최적 변수의 선택)

3

모형 요약b

.990a .980 .975 2.33모형1

R R 제곱 수정된 R 제곱추정값의 표준오차

예측값: (상수), X2, X1a.

종속변수: Yb.

Page 17: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 17/30Copyright ⓒ 2001 StatEdu Consulting

Regression 분석 순서 정리 3

회귀 표준화 예측값

1.51.0.50.0-.5-1.0-1.5-2.0

회귀

표준화

잔차

2.0

1.5

1.0

.5

0.0

-.5

-1.0

-1.5

정규성 검정

.935 13 .428Standardized Residual통계량 자유도 유의확률

Shapiro-Wilk

5

4

4. 잔차의 등분산성

5. 잔차의 정규성

Page 18: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 18/30Copyright ⓒ 2001 StatEdu Consulting

Regression 분석 순서 정리 4

분산분석b

2600.802 2 1300.401 238.917 .000a

54.429 10 5.443

2655.231 12

선형회귀분석

잔차

합계

모형1

제곱합 자유도 평균제곱 F 유의확률

예측값: (상수), X2, X1a.

종속변수: Yb.

53.177 2.217 23.991 .000

1.464 .118 .579 12.444 .000

.651 .044 .681 14.651 .000

(상수)

X1

X2

모형1

B 표준오차

비표준화 계수

베타

표준화 계수

t 유의확률

7

6

6. 결과 - P 값

7. 결과 - 회귀식

8. 결과 - 결정계수

9. 해석 및 결론

.990a .980 .975 2.33모형1

R R 제곱 수정된 R 제곱추정값의 표준오차

예측값: (상수), X2, X1a. 8

9최적 변수로 선택된 변수는 x1, x2 이며

y = 53.18 + 1.46(x1) + 0.65(x2)

의 회귀식이 존재하며 x1, x2로 y를 설명할 수 있는 비율은 97.5%이다.

Page 19: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 19/30Copyright ⓒ 2001 StatEdu Consulting

y에 대한 중요한 변수는 x1, x2이고 설령력은 97.5%이다.

x1, x2 는 y 에 양의 영향을 준다. 그 중에서도 X2으 영향력이 더 크다.

최적 변수로 선택된 변수는 x1, x2 이며

y = 53.18 + 1.46(x1) + 0.65(x2)

의 회귀식이 존재하며 x1, x2로 y를 설명할 수 있는 비율은 97.5%이다.

종속(등비) 독립(등비)이고 잔차의 정규성, 등분산성 만족

⇒ Regression

직선의 관계가 있는가? Yes

이상값의 유무? No

잔차의 정규성, 등분산성 만족

종속변수(특성값) : y (C1) : 등비

독립변수(인 자) : x1 (C2) : 등비, x2 (C3) : 등비

x3 (C4) : 등비, x4 (C5) : 등비

다음 Data는 종속변수 y를 설명하기 위한 4 개의 독립변수(x1-x4)의 자료이다.

최적 변수를 선택하고 회귀식을 만들어라

결 과 정 리

Page 20: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 20/30Copyright ⓒ 2001 StatEdu Consulting

다음 Data는 종속변수 y를 설명하기 위한 6 개의 독립변수(x1-x6)의 자료이다.

최적 변수를 선택하고 회귀식을 만들어라

종속변수(특성값) : y (C7) : 등비

독립변수(인 자) : x1 (C1) : 등비

x2 (C2) : 등비

x3 (C3) : 등비

x4 (C4) : 등비

x5 (C5) : 등비

x6 (C6) : 등비

직선의 관계가 있는가? 그래프를 이용 확인

분석 방법 : Regression

분석 순서 : Graph → VIF → Stepwise → 잔차 분석 → 결과

Page 21: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 21/30Copyright ⓒ 2001 StatEdu Consulting

선형성 확인

그래프 산점도

X1

X2

X3

X4

X5

X6

Y

Matrix Plot을 통하여 변수들간의대략적인 관계를 확인한다.

종속변수와 독립변수 사이에

선형관계가 있다.

Page 22: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 22/30Copyright ⓒ 2001 StatEdu Consulting

다중 공선성(VIF) 확인

계수a

16.613 11.576 1.435 .164

8.406E-03 .016 .173 .511 .614 .053 18.955

-2.02E-02 .020 -.230 -.990 .332 .112 8.957

-1.93E-02 .729 -.005 -.027 .979 .159 6.309

2.026 1.388 .180 1.459 .157 .398 2.511

-4.35E-03 .002 -.706 -2.411 .024 .070 14.205

.632 .565 .187 1.117 .274 .215 4.651

(상수)

X1

X2

X3

X4

X5

X6

모형1

B 표준오차

비표준화 계수

베타

표준화 계수

t 유의확률 공차한계 VIF

공선성 통계량

종속변수: Ya.

계수a

18.979 10.457 1.815 .081

-1.41E-02 .016 -.160 -.865 .395 .171 5.848

-.287 .498 -.077 -.577 .569 .330 3.032

2.000 1.368 .177 1.462 .156 .399 2.507

-3.56E-03 .001 -.579 -3.845 .001 .259 3.858

.463 .452 .137 1.024 .315 .326 3.063

(상수)

X2

X3

X4

X5

X6

모형1

B 표준오차

비표준화 계수

베타

표준화 계수

t 유의확률 공차한계 VIF

공선성 통계량

종속변수: Ya.

x1, x5 변수의 VIF 값이 10보다크다. 그 중에서 더 큰 x1 인자를제거한다.

Page 23: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 23/30Copyright ⓒ 2001 StatEdu Consulting

Stepwise, Best Subsets (최적 변수의 선택)

분석 회귀분석 선형

모형 요약c

.868a .753 .745 3.046

.909b .827 .815 2.593

모형1

2

R R 제곱 수정된 R 제곱추정값의 표준오차

예측값: (상수), X5a.

예측값: (상수), X5, X2b.

종속변수: Yc.

Stepwise의 결과 x5, x2

2개의 변수를 선택하였다.

Stepwise와 결과 2개의 변수를 선택하였

다. 그러므로

x5, x2를 최적변수로 선택한다.

x5, x2를 회귀모형으로 회귀분석을 한다.

Page 24: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 24/30Copyright ⓒ 2001 StatEdu Consulting

잔 차 분 석 1

회귀 표준화 예측값

210-1-2-3

회귀

표준화

잔차

3

2

1

0

-1

-2

Graph의 모양이 곡선의 형태를 보이고

있으므로 잔차의 등분산이 문제가 있다.

그 중 위의 3점이 이상이 있어보인다.

정규성 검정

.925 32 .039Standardized Residual통계량 자유도 유의확률

Shapiro-Wilk잔차의 정규성

P < 0.05 : 정규성 만족 X

Page 25: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 25/30Copyright ⓒ 2001 StatEdu Consulting

잔 차 분 석 2

정규성 검정

.968 29 .562Standardized Residual통계량 자유도 유의확률

Shapiro-Wilk

회귀 표준화 예측값

210-1-2-3

회귀

표준화

잔차

2

1

0

-1

-2

Graph의 모양이 어떠한 규칙이나 추세, 경향, 주기 없이 고르게 분포하므로

잔차의 등분산 만족

잔차의 정규성

P > 0.05 : 정규성 만족

이상값 의심으로 의심되는 세 점 17, 18, 20번째 Data에 대하여 확인을 해본 결과이상값으로 판명 제거 한 후의 잔차 그래프

Page 26: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 26/30Copyright ⓒ 2001 StatEdu Consulting

결 과

1

2

599.190 1 599.190 114.931 .000

140.763 27 5.213

739.953 28

655.819 2 327.909 101.334 .000

84.134 26 3.236

739.953 28

선형회귀분석

잔차

합계

선형회귀분석

잔차

합계

모형1

2

제곱합 자유도 평균제곱 F 유의확률

36.258 1.277 28.402 .000

-4.00E-03 .000 -.694 -8.412 .000

-2.65E-02 .006 -.345 -4.183 .000

(상수)

X5

X2

모형2

B 표준오차

비표준화 계수

베타

표준화 계수

t 유의확률

1

2

P < 0.05 → H1

선형 회귀모형이 존재한다

선형 회귀식

y = 36.3 – 0.004(x5) - 0.027(x2)

→ x5, x2가 증가하면 y는 감소한다

모형 요약

.900 .810 .803 2.283

.941 .886 .878 1.799

모형1

2

R R 제곱 수정된 R 제곱추정값의 표준오차

3

3 결정계수(설명력) : 87.8%

→ x2과 x5로 y를 설명할

수 있는 비율은 87.8%이다

최적 변수로 선택된 변수는 x2, x5 이며

y = 36.3 – 0.004(x5) - 0.027(x2)

의 회귀식이 존재하며 x2, x5로 y를 설명할 수 있는 비율은 87.8%이다.

Page 27: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 27/30Copyright ⓒ 2001 StatEdu Consulting

결 과 정 리

y에 대한 중요한 변수는 x2, x5이고 설령력은 87.8%이다.

x2, x5 는 y에 음의 영향을 준다. 그 중 x5의 영향력이 더 크다.

최적 변수로 선택된 변수는 x2, x5 이며

y = 36.3 – 0.004(x5) - 0.027(x2)

의 회귀식이 존재하며 x2, x5로 y를 설명할 수 있는 비율은 87.8%이다.

종속(등비) 독립(등비)이고 잔차의 정규성, 등분산성 만족

⇒ Regression

직선의 관계가 있는가? Yes

이상값의 유무? Yes

잔차의 정규성, 등분산성 만족

종속변수(특성값) : y (C7) : 등비

독립변수(인 자) : x1 (C1) : 등비, x2 (C2) : 등비

x3 (C3) : 등비, x4 (C4) : 등비

x5 (C5) : 등비, x6 (C6) : 등비

다음 Data는 종속변수 y를 설명하기 위한 6 개의 독립변수(x1-x6)의 자료이다.

최적 변수를 선택하고 회귀식을 만들어라

Page 28: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 28/30Copyright ⓒ 2001 StatEdu Consulting

과 정 정 리 1

다중 회귀분석(Multiple Regression) : 독립 변수, 종속 변수가 모두 등비이고 변수간의 관계와

설명, 예측

중요한 변수가 명목이나, 서열이어도 Dummy 변수화 하여

분석할 수 있다.

- 기본 가정 : Data : 선형성

잔 차 : 정규성, 등분산성 → 모형의 적합성을 판별할 수 있다.

- 가 설 : H0 : (선형 회귀모형이 존재하지 않는다)

H1 : 적어도 하나의 회귀계수는 0이 아니다 (선형 회귀모형이 존재한다)

– 독립변수와 종속변수가 직선의 관계가 있다.

- 최적 변수의 선택 : Stepwise

- 이상값의 확인 : 표준화된 잔차, Cook, DFITS

- 인자의 설명력 : 수정된 결정계수

- Dummy 변수의 사용 : ANOVA와 Plot

- 회귀모형의 적합성 여부 : 잔차의 정규성, 등분산성

- 종속변수(특성값) : 등비

- 독립변수(인 자) : 등비

021 ==== nβββ L

Page 29: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 29/30Copyright ⓒ 2001 StatEdu Consulting

과 정 정 리 2

분석 순서 :

1. Data의 특성을 파악한다.

종속, 독립 변수 : 명목, 서열, 등비 중 어느 것인가?

2. Dummy 변수의 여부를 판별한다.

ANOVA와 그룹화 된 Plot

3. 다중 공선성(VIF)을 확인한다.

VIF > 10 : 다중 공선성이다

4. 최적 변수(인자)를 선택한다.

Stepwise

5. 잔차의 정규성, 등분산 검정을 한다. 이상값을 판별한다.

회귀분석 모형의 적합성을 판별한다.

6. 분석을 한다.

1-4 단계에서 얻어진 결론으로 최종 분석 방법을 선택하고 분석한다.

7. 결과를 해석한다.

P 값, 수정된 결정계수, 회귀식을 정리하고

결과로 얻어진 P 값을 보고 가설하고 선택한다.

나머지 통계량들에 대하여 해석을 한다.

8. 결론을 내린다.

Page 30: Multiple Regression · 2015-01-22 · Copyright ⓒ2001 StatEdu Consulting 다중회귀분석-22/30 다중공선성(VIF) 확인 계수a 16.613 11.576 1.435 .164 8.406E-03 .016 .173

다중 회귀분석 - 30/30Copyright ⓒ 2001 StatEdu Consulting

다음은 교통사고의 원인을 알아보기 위하여 1973년 미국 미네소타주의 도로

39개 구간에서 자동차 주행거리 100만 마일 당 사고의 횟수를 종속변수로 하

고 사고의 원인이 될 수 있을 것으로 예상되는 10개의 독립변수를 얻은 자료이

다.

X 1

X 2

X 3

X 4

X 5

X 6

X 7

X 8

X 9

X10

Y

변 수

구간의 길이 (miles)

하루 평균 통과 자동차 수 (천대)

트럭의 비율 (%)

제한속도 (mile/hour)

차선의 폭 (feet)

갓길의 폭 (feet)

1마일 당 고속도로 진입로의 수

1마일 당 신호등이 있는 교차로의 수

1마일 당 진입로의 수

차선의 수

100만 마일의 자동차 주행거리 당 사고의 횟수

내 용