7주차 회귀분석 -...

Preview:

Citation preview

≪ 7주차 ≫ 회귀분석

Regression Analysis

빅데이터 분석을 위한

데이터마이닝 방법론 SAS Enterprise Miner 활용사례를 중심으로

최종후, 강현철

- 2 -

차례

4.1 선형 회귀분석(Linear Regression Analysis)

4.2 로지스틱 회귀분석(Logistic Regression Analysis)

4.3 회귀분석의 특징과 제약

4.4 분석사례 - 1: 선형 회귀분석

4.5 분석사례 - 2: 로지스틱 회귀분석

4.6 분석사례 - 3: 신용평점표 작성

4.7 연습문제

- 3 -

회귀분석(Regression Analysis)

반응변수(response variable)

목표변수(target variable)

종속변수(dependent variable)

설명(예측)되어지는 변수

설명변수(explanatory variable)

입력변수(input variable)

독립변수(independent variable)

반응변수를 설명(예측)하는데 이용되는 변수

회귀분석이란 반응변수가 설명변수들에 의해 어떻게 설명(예측)되는지를 알아보기 위

해 적절한 함수식으로 표현하여 분석하는 통계적 자료분석 방법

),,,( 21 pxxxfy

- 4 -

회귀분석의 종류

선형(linear) vs 비선형(nonlinear)

선형 회귀분석 : 반응변수와 설명변수의 관계를 선형함수로 표현

비선 형회귀분석 : 반응변수와 설명변수의 관계가 비선형

단순(simple) vs 다중(multiple)

단순 회귀분석 : 설명변수가 한 개

다중 회귀분석 : 설명변수가 두 개 이상

일변량(univariate) vs 다변량(multivariate)

일변량 회귀분석 : 반응변수가 한 개

다변량 회귀분석 : 반응변수가 두 개 이상

- 5 -

… 회귀분석의 종류

xy

pp xxxy 2211

2

22

2

1121122211 xxxxxxy

) exp(1

) exp(

x

xmy

323213133

222212122

121211111

pp

pp

pp

xxxy

xxxy

xxxy

단순 선형회귀분석

다중 선형회귀분석

다항 회귀분석

비선형 회귀분석

다변량 회귀분석

- 6 -

회귀(Regression)

Francis Galton(1822~1911) : 아버지의 키와 아들의 키의 관계를 연구

- 7 -

4.1.1 단순 회귀모형(Simple Regression)

11 19 23 26 29 30 38 39 46 49

29 33 51 40 49 50 69 70 64 89

25.5 37.1 42.8 47.1 51.5 52.9 64.4 65.9 76.0 80.3

x y y

i i i x y e b a + + =

i i i x x b a y 44 . 1 74 . 9 + = + =

예약대수

- 8 -

회귀계수(모수)의 추정

nixy iii ,,1 , 단순 선형 회귀모형

nixbaxy iii ,,1 , ˆˆˆ 추정된 회귀직선

iii yye ˆ 잔차 (residual)

최소제곱추정 (Least Square Estimation)

n

i

n

i

iiii

n

i

i xbayyyeMin1 1

22

1

2 ) ()ˆ(

,

)(

))((

1

2

1

n

i

i

n

i

ii

xx

yyxx

b xbya

회귀계수에 대한 해석과 검정

H0: β=0

자유도 n-1인 t-분포를 따른다.

s.e.(b)는 b의 표준오차(standard error)이다.

- 9 -

- 10 -

4.1.2 다중 회귀모형(Multiple Regression)

nixxxy iippiii ,,1 , 2211

npnpn

p

p

nxx

xx

xx

y

y

y

2

1

1

1

221

111

2

1

1

1

1

yXXXβεXβy ')'(ˆ 1

- 11 -

≪사례≫ 영업수익 평가지수

Correlation

Variable Label x1 x2 x3 x4 y

x1 창의력 1.0000

x2 단순추론능력 0.6010 1.0000

x3 복합추론능력 0.1032 0.4208 1.0000

x4 계량능력 0.3937 0.5746 0.5477 1.0000

y 영업수익 평가지수 0.5310 0.7459 0.4982 0.9443 1.0000

어떤 회사에서는 신입사원에 대해 4과목(x1=창의력, x2=단순추론능력, x3=복합추론능력,

x4=계량능력)의 적성검사를 실시하여 왔다. 이 회사에서는 이러한 적성검사 과목들이 사

원의 업무능력을 평가하는데 타당하지를 알아보기 위하여 입사 후 일년 간의 실적을 평가

하여 ‘업무능력지수(y)’를 산출하였다.

- 12 -

분산분석표 및 회귀계수 추정치

Analysis of Variance

Source DF Sum of

Squares Mean

Square F Value Pr > F

Model 4 4816.9644 1204.24110 263.55 <.0001

Error 45 205.6214 4.56936

Corrected Total 49 5022.5858

Root MSE 2.1376 R-Square 0.9591

Dependent Mean 106.6220 Adj R-Sq 0.9554

Coeff Var 2.0048

Parameter Estimates

Variable Label DF Parameter

Estimate Standard

Error t Value Pr > |t| Standardized

Estimate

Intercept Intercept 1 73.15526 1.68258 43.48 <.0001 0

x1 창의력 1 0.14245 0.10157 1.40 0.1676 0.05498

x2 단순추론능력 1 0.84501 0.13186 6.41 <.0001 0.28250

x3 복합추론능력 1 -0.27220 0.16825 -1.62 0.1127 -0.06116

x4 계량능력 1 0.76269 0.03949 19.31 <.0001 0.79383

- 13 -

분산분석표(ANOVA Table)

제곱합의 분할

분산분석표 (ANOVA table)

n

i

n

i

iii

n

i

i yyyyyy1 1

22

1

2 )ˆ()ˆ()(

TSS = SSR + SSE

전체제곱합 회귀제곱합 오차제곱합

요인 제곱합 자유도 평균제곱 분산비

회귀 SSR p MSR=SSR/p F=MSR/MSE

(p-value) 오차 SSE n-p-1 MSE=SSE/(n-p-1)

전체 TSS n-1

TSS

SSE1

TSS

SSR2 R

0: 210 pH

- 14 -

회귀계수에 대한 검정

회귀계수에 대한 검정

표준화 회귀계수

편상관계수(partial correlation coefficient)

0:0 jH )1( ~ )(s.e./ pntbbt jj

**

2

*

21

*

1

* pp zzzy jjjj sxxz /)(

혈압 월급 0.7

혈압 월급 -0.1

나이

0.8 0.9

≪예≫ 다중 회귀분석의 결과

- 15 -

- 16 -

매개변수(Lurking Variables)

0.0

4.0

8.0

C2

C1 2.0 4.0 6.0 8.0 10.0

x

x x

x x x

x x

x

x

소아마비 발병률

청량음료 판매량

- 17 -

0.0

4.0

8.0

C2

C1 2.0 4.0 6.0 8.0 10.0

x

x x

x x x

x x

x

x

correlation = 0.734

… 매개변수(Lurking Variables)

- 18 -

0.0

4.0

8.0

C2

C1 2.0 4.0 6.0 8.0 10.0

x

x x

x x x

x x

x

x

correlation = 0.734

correlation = 0

correlation = 0.385

겨 울

… 매개변수(Lurking Variables)

여 름

- 19 -

입력변수의 선택

전진선택법 (Forward Selection) 입력변수를 각 변수의 기여도에 따라서 하나씩 추가하면서 선택하는 방법이다. 이 방법

은 계산시간이 빠르다는 장점이 있지만, 한 번 선택된 변수는 절대로 제거되지 않는다는 단점이 있다.

후진소거법 (Backward Elimination) 모든 변수를 포함하는 완전모형으로부터 시작하여 불필요한 변수를 하나씩 제거해 나가는

방법이다. 이 방법은 중요한 변수가 모형에서 제외될 가능성이 적으므로 비교적 안전한 방법이라 할 수 있다. 그러나 한 번 제외된 변수는 다시 선택되지 못한다는 단점이 있다.

단계적 방법 (Stepwise Method) 전진선택법에 후진소거법을 결합한 것으로서, 매 단계마다 선택과 제거를 반복하면서 중

요한 변수를 찾아내는 방법이다. 이 방법은 중요한 변수를 하나씩 추가로 선택하면서 이미 선택된 변수들이 제거될 수 있는 지를 매 단계마다 검토하는 방법이다. 그러나 이 방법에 의해서 찾아진 모형도 모든 가능한 회귀를 통해서 얻어진 모형들보다 못할 수 있다.

모든 가능한 회귀 가능한 모든 축소모형을 고려하여 가장 좋은 모형을 찾아내는 방법이다. 이 방법은 가장

안전한 방법이라고 할 수 있지만, 입력변수가 많은 경우에는 탐색시간이 매우 많이 걸리며 현실적으로 사용하기 어려운 경우가 종종 있다.

- 20 -

Summary of Stepwise Selection

Step Variable

Entered Variable

Removed Label Number

Vars In Partial

R-Square Model

R-Square C(p) F Value Pr > F

1 x4 계량능력 1 0.8917 0.8917 73.0476 395.19 <.0001

2 x2 단순추론능력 2 0.0617 0.9534 7.1888 62.31 <.0001

3 x3 복합추론능력 3 0.0038 0.9573 4.9670 4.13 0.0478

4 x1 창의력 4 0.0018 0.9591 5.0000 1.97 0.1676

5 x1 창의력 3 0.0018 0.9573 4.9670 1.97 0.1676

변수선택 요약

Stepwise Selection: Step 1

Variable x4 Entered: R-Square = 0.8917 and C(p) = 73.0476

Analysis of Variance

Source DF Sum of

Squares Mean

Square F Value Pr > F

Model 1 4478.61411 4478.61411 395.19 <.0001

Error 48 543.97169 11.33274

Corrected Total 49 5022.58580

- 21 -

분산분석표 및 회귀계수 추정치

Analysis of Variance

Source DF Sum of

Squares Mean

Square F Value Pr > F

Model 3 4807.97642 1602.65881 343.52 <.0001

Error 46 214.60938 4.66542

Corrected Total 49 5022.58580

Root MSE 2.15996 R-Square 0.9573

Dependent Mean 106.62200 Adj R-Sq 0.9545

Coeff Var 2.02581

Parameter Estimates

Variable Label DF Parameter

Estimate Standard

Error t Value Pr > |t| Standardized

Estimate

Intercept Intercept 1 73.70797 1.65288 44.59 <.0001 0

x2 단순추론능력 1 0.94356 0.11274 8.37 <.0001 0.31545

x3 복합추론능력 1 -0.33374 0.16413 -2.03 0.0478 -0.07498

x4 계량능력 1 0.77258 0.03927 19.68 <.0001 0.80412

- 22 -

차례

4.1 선형 회귀분석(Linear Regression Analysis)

4.2 로지스틱 회귀분석(Logistic Regression Analysis)

4.3 회귀분석의 특징과 제약

4.4 분석사례 - 1: 선형 회귀분석

4.5 분석사례 - 2: 로지스틱 회귀분석

4.6 분석사례 - 3: 신용평점표 작성

4.7 연습문제

- 23 -

4.2.1 로지스틱 단순 회귀모형

목표변수가 이항형 또는 다항형으로 나타나는 경우가 있다. 예를 들어, 소비자가 어떤

상품을 구입할 것인지 아닌지(구입=1, 구입하지 않음=0)를 나타내는 변수는 이항형이

고, 고객의 신용등급(A=매우 좋음, B=좋음, C=좋지 않음, D=매우 좋지 않음)을 나타

내는 변수는 다항형이다.

로지스틱 회귀분석

x y 01 . 0 1 . 0 + =

x

x y P

x y P

) | 1 ( 1

) | 1 ( log

10 100

1000

0 1 1

0.2 1.1 10.1

x y y

- 24 -

≪사례≫ 독성실험 자료

번호 용량(g) 사망유무 1 0 무 2 0 무 3 0 무 4 0 무 5 1 유 6 1 무 7 1 무 8 1 무 9 2 무 10 2 유 11 2 유 12 2 유 13 3 유 14 3 유 15 3 유 16 3 유

분석목적

약의 성분 → 사망유무

x Y

- 25 -

잘못된 분포가정

0 1 2 3 투약용량(g)

사망 = 1 생존 = 0

1

0

사망 유무

추측된 선 : E(Y|x)

- 26 -

P(Y|x=1)

용량(x) 실험대상수 사망수(Y’ ) 사망비율

0 4 0 0

1 4 1 1/4

2 4 2 2/4

3 4 4 1

1/4 = P(Y|x=1)

P(Y|x=1)를 x 에 의해 쉽게 설명한다면….

- 27 -

로짓모형

½ 1 Probability

Odds

Logit

P

PP

1lnoddsloglogit

0

1 + 0

0 + 0 –

- 28 -

P(Y|x=1)

0 1 2 3

0

1

x

실제 사망 확률

예측 사망 확률

^

- 29 -

4.2.2 로지스틱 회귀분석

오즈비(Odds Ratio)

오즈비가 1보다 작다(계수가 음의 값을 갖는다)는 것은 입력변수 x가 감소방향

으로 영향을 미침을 의미하고, 반대로 오즈비가 1보다 크다(계수가 양의 값을 갖

는다)는 것은 증가방향으로 영향을 미침을 의미한다.

예를 들어, 월수입 x(단위 100만원)를 입력변수로 하고 어떤 상품에 대한 구입

여부(1=구입, 0=구입하지 않음) y를 목표변수로 하여 분석하는 경우에 b=3.73

이라고 해보자. 이는 x가 1단위(백만원) 증가하면 구매하지 않을 확률에 대한

구매할 확률의 상대비가 exp(3.73)=42배 증가한다는 것을 의미한다.

- 30 -

≪사례≫ 신용평가 문제

대출금 대출금잔액 담보금 대출사유 직업 근무년수신용거래수신용상태 최초신용거래월수P(나쁨) P(좋음)2300 102370 120953 HomeImp Office 2 13 0 91 0.04 0.962400 34863 47471 HomeImp Mgr 12 21 1 70 0.14 0.862400 98449 117195 HomeImp Office 4 13 0 94 0.03 0.972900 103949 112505 HomeImp Office 1 13 0 96 0.03 0.972900 104373 120702 HomeImp Office 2 13 0 102 0.03 0.972900 7750 67996 HomeImp Other 16 8 1 122 0.68 0.322900 61962 70915 DebtCon Mgr 2 37 1 283 0.19 0.813000 14500 HomeImp Other 3 2 1 93000 14100 HomeImp Other 1 19 1 1043200 74864 87266 HomeImp ProfExe 7 12 0 251 0.08 0.923200 23159 HomeImp Mgr 20 9 1 1183800 73189 03300 130518 164317 DebtCon Other 9 33 1 192 1.00 0.003600 52337 63989 HomeImp Office 20 20 0 204 0.00 1.003700 17857 21144 HomeImp Other 5 9 1 130 0.03 0.973800 51180 63459 HomeImp Office 20 20 0 204 0.00 1.003900 29896 45960 HomeImp Other 11 14 1 146 0.02 0.984000 105164 112774 HomeImp Office 1 13 0 95 0.03 0.974000 54543 61777 HomeImp Office 21 19 0 206 0.01 0.994000 26572 31960 HomeImp Office 11 8 1 118 0.10 0.904100 57992 63797 DebtCon ProfExe 7 31 0 166 0.22 0.784200 56544 59218 HomeImp Office 19 20 0 211 0.00 1.00

) 45 . 0 3 . 2 7 . 1 ( exp 1

) 45 . 0 3 . 2 7 . 1 ( exp ) P(

2 1

2 1

… + - + +

+ - + = =

X X

X X 좋음 신용상태 ^

- 31 -

차례

4.1 선형 회귀분석(Linear Regression Analysis)

4.2 로지스틱 회귀분석(Logistic Regression Analysis)

4.3 회귀분석의 특징과 제약

4.4 분석사례 - 1: 선형 회귀분석

4.5 분석사례 - 2: 로지스틱 회귀분석

4.6 분석사례 - 3: 신용평점표 작성

4.7 연습문제

- 32 -

회귀분석의 특징

장점

친밀성(familiarity)

실제성(feasibility)

해석상의 편리(interpretability)

단점과 대안

부적절하거나 불필요한 입력변수 : 변수선택방법 사용

선형성 : 다항회귀모형, 의사결정나무분석, 신경망분석 등 사용

교호작용의 결여 : 다항회귀모형, 의사결정나무분석 등 사용

명목형 변수 : 가변수(dummy variable) 사용

결측값 : 대체(imputation)

- 33 -

차례

4.1 선형 회귀분석(Linear Regression Analysis)

4.2 로지스틱 회귀분석(Logistic Regression Analysis)

4.3 회귀분석의 특징과 제약

4.4 분석사례 - 1: 선형 회귀분석

4.5 분석사례 - 2: 로지스틱 회귀분석

4.6 분석사례 - 3: 신용평점표 작성

4.7 연습문제

4.4.1 분석흐름도 작성

- 34 -

데이터 소스: HOUSING

변수 MEDV의 역할 칼럼을 Target으로 지정한다.

변수 CHAS의 레벨 칼럼을 Binary로 지정하고, 나머지 변수들의 레벨 칼럼은

Interval로 지정한다.

4.4.2 변수들의 분포에 대한 탐색

- 35 -

변수 편집 메뉴 이용

통계량 탐색(StatExplore) 노드 - 결과

- 36 -

멀티 플롯(Multi Plot) 노드 - 결과

- 37 -

4.4.3 회귀(Regression) 노드의 실행과 결과 보기

- 38 -

회귀(Regression) 노드 - 결과: 출력 윈도우

- 39 -

- 40 -

차례

4.1 선형 회귀분석(Linear Regression Analysis)

4.2 로지스틱 회귀분석(Logistic Regression Analysis)

4.3 회귀분석의 특징과 제약

4.4 분석사례 - 1: 선형 회귀분석

4.5 분석사례 - 2: 로지스틱 회귀분석

4.6 분석사례 - 3: 신용평점표 작성

4.7 연습문제

분석사례 - 2를 위한 다이어그램

- 41 -

회귀 노드의

속성 패널

4.5.1 변수선택 방법의 적용

- 42 -

회귀 노드의

속성 패널

변수선택 과정의 요약

- 43 -

회귀계수 추정치

- 44 -

범주형 변수에 대한 코딩: 가변수(Dummy Variable)

- 45 -

4.5.2 교호작용과 이차항의 추가

- 46 -

4.5.3 모형 평가

- 47 -

4.5.4 예측확률 계산

- 48 -

모델 비교 노드의

속성 패널

스코어(Score) 노드 - 속성 패널

- 49 -

스코어 노드의

속성 패널

스코어(Score) 노드 - 탐색

- 50 -

- 51 -

차례

4.1 선형 회귀분석(Linear Regression Analysis)

4.2 로지스틱 회귀분석(Logistic Regression Analysis)

4.3 회귀분석의 특징과 제약

4.4 분석사례 - 1: 선형 회귀분석

4.5 분석사례 - 2: 로지스틱 회귀분석

4.6 분석사례 - 3: 신용평점표 작성

4.7 연습문제

분석사례-3을 위한 분석흐름도

- 52 -

4.6.1 대화식 구간화: Interactive Binning 노드

- 53 -

대화식 구간 생성(Interactive Binning) 노드 - 속성 패널

- 54 -

대화식 구간 생성 노드의

속성 패널

대화식 범주화: DEBTINC(구간형 변수)의 경우

- 55 -

대화식 범주화 - 범주 병합

- 56 -

변수 DEBTINC에 대한 범주화

- 57 -

대화식 범주화: DELINQ(범주형 변수)의 경우

- 58 -

대화식 범주화: 변수 CLAGE의 경우

- 59 -

4.6.2 변수들의 설정 변경: Metadata 노드

- 60 -

메타데이터 노드의

속성 패널

4.6.3 로지스틱 회귀분석을 이용한 계수 추정

- 61 -

4.6.4 평점표 작성

사후확률 추정

회귀계수 추정치의 보정

보정된 추정치 = (회귀계수 추정치) – (가장 작은 회귀계수 추정치)

POD를 이용한 변홖

평점 = 보정된 추정치 X [POD/log(2)]

- 62 -

평점표 작성의 예

- 63 -

4.6.4 평점표의 타당성 평가

- 64 -

- 65 -

K-S(Kolmogrov-Smirnov) 통계량

• 20 이하: 이용가치가 희박한 • 40: 적당한 (이용할 만한) • 40 ~ 50: 좋은 • 50 ~ 60: 매우 좋은 • 60 ~ 75: 경이로운 • 75 이상: 지나치게 좋은 (잘 못된 것이 있는지 의심할 만한)

민감도와 특이도

- 66 -

… 민감도와 특이도

- 67 -

ROC(Receiver Operation Characteristic) 곡선

- 68 -

모델 비교(Model Comparison) 노드 - 결과

- 69 -

모델 비교(Model Comparison) 노드 - 결과: 테이블 보기

- 70 -

- 71 -

차례

4.1 선형 회귀분석(Linear Regression Analysis)

4.2 로지스틱 회귀분석(Logistic Regression Analysis)

4.3 회귀분석의 특징과 제약

4.4 분석사례 - 1: 선형 회귀분석

4.5 분석사례 - 2: 로지스틱 회귀분석

4.6 분석사례 - 3: 신용평점표 작성

4.7 연습문제

회귀(Regression) 노드 - 속성 패널과 항 편집기

- 72 -

회귀 노드의

속성 패널

Recommended