11주차 군집분석 -...

Preview:

Citation preview

≪ 11주차 ≫ 군집분석

Cluster Analysis

빅데이터 분석을 위한

데이터마이닝 방법론 SAS Enterprise Miner 활용사례를 중심으로

최종후, 강현철

- 2 -

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

- 3 -

When Are Customers at Home ? 월요일 화요일 수요일 목요일 금요일 토요일 일요일

오후 11:00

오후 10:00

오후 09:00

오후 08:00

오후 07:00

오후 06:00

오후 05:00

오후 04:00

오후 03:00

오후 02:00

오후 01:00

오후 12:00

오전 11:00

오전 10:00

오전 09:00

오전 08:00

오전 07:00

오전 06:00

오전 05:00

오전 04:00

오전 03:00

오전 02:00

오전 01:00

오전 12:00

탐색적 데이터 분석

Raw Data Set – 고객 A의 통화내역

전화번호 시작시간 종료시간 날짜

025732305 19:20:00 19:50:00 04.9.1

025732305 20:15:15 20:20:10 04.9.1

025732305 22:00:35 22:10:13 04.9.1

025732305 19:00:35 19:09:40 04.9.30

025732305 19:10:00 19:15:15 04.9.30

:

025732305 20:12:35 20:22:40 04.9.30

025732305 20:50:00 20:55:15 04.9.30

025732305 22:15:15 22:20:10 04.9.1

025732305 23:00:35 23:10:13 04.9.1

- 4 -

군집(Cluster)

- 5 -

주어진 개체 중에서 유사한 것들을 몇몇의 집단으로 그룹화하여, 각 집단의 성격을 파악함으로서 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적 데이터분석 방법이다. 특히 대용량 데이터에 대해서는 개개의 관찰치를 요약하는 것보다는 전체를 유사한 관찰치들의 군집(cluster)으로 구분하여, 복잡한 전체보다는 그들을 잘 대표하는 군집들을 관찰함으로서 전체 데이터에 대한 의미 있는 정보를 얻어낼 수 있을 것이다.

군집분석(Cluster Analysis)

Incom

e

Brand loyalty Low High

Low

Hig

h

고객군집 A

고객군집 B

≪예≫ 소득수준과 상표충성도 기준으로 고객 세분화(Segmentation)

- 6 -

군집화를 위한 변수

군집화(Clustering)

• 인구통계적 변인 (성별, 나이, 거주지, 직업, 소득, 교육, 종교, … )

• 구매패턴 변인 (상품, 주기, 거래액, … )

• 생활패턴 변인 (라이프스타일, 성격, 취미, 가치관, … )

군집화의 기준

전체 개체(개인)의 속성을 판단하기 위한 기준

≪예≫ 고객세분화

동일한 군집에 속한 개체(또는 개인)는 여러 속성이 유사하고, 서로 다른 군집에 속

한 관찰치는 다른 속성을 갖도록 군집을 구성.

- 7 -

- 고객이 기업의 수익에 기여하는 정도를 통한 고객세분화

• 우수고객의 인구통계적 요인, 생활패턴 파악

• 개별고객에 대한 맞춤관리

- 고객의 구매패턴에 따른 고객세분화

• 제품 포지셔닝(Positioning), 목표 고객집단 구성

군집분석의 활용: 고객 세분화

고객 세분화

- 8 -

Segment 1: 경제적 여유 있는 전업 가정주부

Segment 2: 경제적 여유 있는 전문직 종사자

Segment 3: 경제적 여유가 적은 전업 가정주부

Segment 4: 경제적 여유가 적은 봉급 생활자

Segment 5: 18세 이하 미성년 고객

고객 세분화

≪예≫ A 백화점의 여성 고객

Clustering 방법 I Clustering 방법 II

Segment 1: 8% 12%

Segment 2: 24% 14%

Segment 3: 6% 11%

Segment 4: 18% 13%

Segment 5: 10% 12%

≪예≫ 신상품 B에 대한 구매의향

- 9 -

≪예≫ 군집분석 - 1

구매패턴 정보 각 상품의 구입여부(1/0)

٠Ready (조리식품) ٠Frozen (냉동식품) ٠Alcohol (알콜음료) ٠Veget (야채)

٠Milk (우유) ٠Bakery (제과류) ٠Meat (육류) ٠Toilet (욕실용품)

٠Snacks (과자류) ٠Tinned (통조림)

인구통계변인

٠Gender 0(여성), 1(남성)

٠Agegrp 1(18~30), 2(31~40), 3(41~50), 4(51~60), 5(61~)

٠Marital 1(미혼), 2(기혼), 3(별거), 4(사별), 5(이혼)

٠Children 0(무), 1(유)

٠Working 0(무), 1(유)

사례 : Shopping

10개 구입품목을 기준으로 786명 고객을 5개 그룹으로 구분,

군집별 인구통계적 특성 파악

- 10 -

구매패턴 변수

• Ready made (0: 51%, 1: 49%) • Frozen foods (0: 60%, 1: 40%)

• Alcohol (0: 61%, 1: 39%) • Fresh vegetables (0: 92%, 1: 8%)

• Milk (0: 81%, 1: 19%) • Bakery goods (0: 57%, 1: 43%)

• Fresh meat (0: 97%, 1: 3%) • Toiletries (0: 90%, 1: 10%)

• Snacks (0: 52%, 1: 48%) • Tinned goods (0: 54%, 1: 46%)

… ≪예≫ 군집분석 - 1

자료요악 : 전체집단

인구통계적 변수

• Gender (Female: 54%, Male: 46%)

• Age (18-30: 30%, 31-40: 25%, 41-50: 17%, 51-60: 16%, 61+: 12%)

• Marital (Single:25%, Married:24%, Separated:19%, Widowed:19%, Divorced 13%)

• Children (No 65%, Yes 35%)

• Working (No 17%, Yes 83%)

- 11 -

군집화 변수의 군집별 요약통계량

군집 1 군집 2 군집 3 군집 4 군 집 5

전체

레코드 수 (72) (163) (146) (81) (324)

(786)

Ready made 99% 23% 73% 94% 30%

49%

Frozen foods 90% 65% 52% 43% 10%

40%

Alcohol 85% 77% 8% 87% 13%

39%

Vegetables 13% 13% 5% 20% 4%

8%

Milk 64% 13% 13% 56% 5%

19%

Bakery 51% 72% 71% 69% 7%

43%

Meat 19% 1% 2% 2% 1%

3%

Toiletries 32% 23% 4% 5% 2%

10%

Snacks 97% 74% 16% 30% 42%

48%

Tinned Goods 53% 54% 67% 31% 34%

46%

… ≪예≫ 군집분석 - 1

- 12 -

인구통계적 변수의 군집별 요약통계량

군집1 군집2 군집3 군집4 군집5 전체

n, 레코드 수 (72) (163) (146) (81) (24) (786)

성: 여자 53% 56% 56% 44% 54% 54%

남자 47% 44% 44% 56% 46% 46%

나이: 18-30 32% 28% 25% 26% 34% 30%

31-40 22% 26% 21% 27% 26% 25%

41-50 15% 18% 18% 17% 17% 17%

51-60 19% 20% 25% 15% 11% 17%

60+ 11% 9% 12% 15% 12% 12%

혼인: Single 24% 25% 22% 25% 28% 25%

Married 21% 28% 21% 27% 23% 24%

Widowed 19% 16% 24% 17% 19% 19%

Separated 21% 17% 23% 17% 19% 19%

Divorced 15% 15% 10% 16% 11% 13%

자녀: 없음 93% 64% 64% 80% 57% 65%

있음 7% 36% 36% 20% 43% 35%

직장: 없음 6% 19% 18% 7% 20% 17%

있음 94% 81% 82% 93% 80% 83%

… ≪예≫ 군집분석 - 1

- 13 -

ID 군집명 개별 군집별 특성

1 주중 증가형 주중 특히 월요일에 많은 사용을 가지는 집단

2 신주말 증가형 주 5일제 영향을 많이 받아 목, 금, 토 사용이 높으며,

일요일 사용이 적은 집단

3 주말 증가형 전형적이며, 전통적인 주말 집중 사용 집단

0.00

0.05

0.10

0.15

0.20

0.25

월요일 화요일 수요일 목요일 금요일 토요일 일요일

주중 증가형 신주말 증가형 주말 증가형

1

3 사용비율

(%)

2

≪예≫ 군집분석 - 2

- 14 -

군집분석의 절차

문제 정의

거리행렬 or 자료행렬 ?

분석 변수의 선택

개체간 거리의 정의

군집화 방법의 선택

군집분석

결과의 요약 및 해석

자료행렬

거리행렬

군집간 거리의 정의

군집의 개수 결정

8.1.1 거리(Distance): 비유사성의 측도

- 15 -

표준화 거리(standardized distance)

- 16 -

구간형 데이터에 대한 거리

- 17 -

이항형 자료에 대한 거리

- 18 -

범주형 자료에 대한 유사성 및 거리

개 체 성 별 학 력 출신지역

A 남자 고졸 경기

B 여자 고졸 전남

C 남자 대졸 경기

거리(A,B) = 2, 거리(A,C) = 1, 거리(B,C) = 3

- 19 -

– 한 군집이 다른 군집의 내부에 포함되는 형태로 군집간의 중복은 없으며

군집들이 매단계 계층적인(나무) 구조를 이룸.

(예) 전자제품 주방용 냉장고

1 2

3

4

5

6

7

8

9

1 2

3

4

5

6

7

8

9

8.1.2 군집의 유형

상호배반적(disjoint) 군집

– 각 관찰치가 상호배반적인 여러 군집 중, 오직 하나에만 속함.

(예) 한국인, 중국인, 일본인

계보적(hierarchical) 군집

덴드로그램(Dendrogram)

- 20 -

- 21 -

Prob ( 개체 1 ∈ 군집 A ) = 0.7

Prob ( 개체 1 ∈ 군집 B ) = 0.3

1 2

3

4

5 6

7

8

9

군집의 유형

중복(overlapping) 군집

– 두개 이상의 군집에 한 관찰치가 동시에 소속되는 것을 허용

퍼지(fuzzy) 군집

- 관찰치가 소속되는 특정한 군집을 표현하는 것이 아니라 각 군집에 속할

가능성을 표현

- 22 -

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

- 23 -

[단계 0] 군집 수 K를 사전에 결정하고 각 군집 중심을 임의로 설정

[단계 1] 각 개체를 그 중심과 가장 가까운 거리에 있는 군집에 할당

[단계 2] 각 군집별로 [단계 1]을 통해 할당된 개체를 이용해 군집중심 재산출

[단계 3] [단계 1]과 [단계 2]의 과정을 기존 중심과 새로운 중심의 차이가

없을 때까지 반복

K-평균 군집화(k-Means Clustering)

특징

각 관찰치를 상호배반적인 K개의 군집을 형성

알고리즘

초기에 부적절한 병합(분리)이 일어났을 때 회복 가능

군집의 수 K를 사전에 정의

대용량 자료의 경우 유용

- 24 -

군집의 수 K 결정 : K=5

최초 군집기준값 결정

[단계 0]

개체의 할당

군집중심 재 산출 (반복)

[단계 3]

개체의 할당

군집중심 재 산출

[단계 1, 2]

8.2.1 k-평균 군집방법의 절차

… k-평균 군집방법의 절차

- 25 -

8.2.2 초기 군집 수의 결정

- 26 -

- 27 -

• 군집 수 K의 사전 결정

• 초기 군집중심의 설정

• 특이점

• 자료가 내포한 특이한 군집구조

… k-평균 군집화(k-Means Clustering)

주의점

- 28 -

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

군집분석의 특징과 적용상의 문제점

장점

탐색적인 기법

다양한 형태의 데이터에 적용 가능

분석방법의 적용 용이성

단점

가중치와 거리의 정의

초기 군집 수의 설정

결과 해석의 어려움

- 29 -

- 30 -

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

군집분석 사례를 위한 다이어그램

- 31 -

클러스터링 노드의

속성 패널

클러스터링(Clustering) 노드 - 결과

- 32 -

그래프 탐색(Graph Explore) 노드 - 결과

- 33 -

- 34 -

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

세그먼트 프로파일링(Segment Profile) 노드 - 결과

- 35 -

- 36 -

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

SOM/Kohonen 노드 - 속성 패널

- 37 -

SOM/Kohonen 노드의

속성 패널

군집분석 결과를 요약한 예

- 38 -

- 39 -

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

변수 클러스터링(Variable Clustering) 노드 - 속성 패널

- 40 -

변수 클러스터링 노드의

속성 패널

변수 클러스터링(Variable Clustering) 노드 - 결과

- 41 -

그래프 탐색(Graph Explore) 노드 - 결과

- 42 -

- 43 -

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

연습문제 8-3을 위한 다이어그램(그림 7.18 참조)

- 44 -

데이터 노드의

속성 패널

Recommended