11주차 군집분석 -...

≪ 11주차 ≫ 군집분석

Cluster Analysis

빅데이터 분석을 위한

데이터마이닝 방법론 SAS Enterprise Miner 활용사례를 중심으로

최종후, 강현철

차례

8.1 군집분석의 개념

8.2 k-평균 군집방법(k-Means Clustering)

8.3 군집분석의 특징과 적용상의 문제점

8.4 클러스터링(Clustering) 노드

8.5 세그먼트 프로파일링(Segment Profile) 노드

8.6 SOM/Kohonen 노드

8.7 변수 클러스터링(Variable Clustering) 노드

8.8 연습문제

When Are Customers at Home ? 월요일 화요일 수요일 목요일 금요일 토요일 일요일

오후 11:00

오후 10:00

오후 09:00

오후 08:00

오후 07:00

오후 06:00

오후 05:00

오후 04:00

오후 03:00

오후 02:00

오후 01:00

오후 12:00

오전 11:00

오전 10:00

오전 09:00

오전 08:00

오전 07:00

오전 06:00

오전 05:00

오전 04:00

오전 03:00

오전 02:00

오전 01:00

오전 12:00

탐색적 데이터 분석

Raw Data Set – 고객 A의 통화내역

전화번호 시작시간 종료시간 날짜

025732305 19:20:00 19:50:00 04.9.1

025732305 20:15:15 20:20:10 04.9.1

025732305 22:00:35 22:10:13 04.9.1

025732305 19:00:35 19:09:40 04.9.30

025732305 19:10:00 19:15:15 04.9.30

025732305 20:12:35 20:22:40 04.9.30

025732305 20:50:00 20:55:15 04.9.30

025732305 22:15:15 22:20:10 04.9.1

025732305 23:00:35 23:10:13 04.9.1

군집(Cluster)

주어진 개체 중에서 유사한 것들을 몇몇의 집단으로 그룹화하여, 각 집단의 성격을 파악함으로서 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적 데이터분석 방법이다. 특히 대용량 데이터에 대해서는 개개의 관찰치를 요약하는 것보다는 전체를 유사한 관찰치들의 군집(cluster)으로 구분하여, 복잡한 전체보다는 그들을 잘 대표하는 군집들을 관찰함으로서 전체 데이터에 대한 의미 있는 정보를 얻어낼 수 있을 것이다.

군집분석(Cluster Analysis)

Brand loyalty Low High

고객군집 A

고객군집 B

≪예≫ 소득수준과 상표충성도 기준으로 고객 세분화(Segmentation)

군집화를 위한 변수

군집화(Clustering)

• 인구통계적 변인 (성별, 나이, 거주지, 직업, 소득, 교육, 종교, … )

• 구매패턴 변인 (상품, 주기, 거래액, … )

• 생활패턴 변인 (라이프스타일, 성격, 취미, 가치관, … )

군집화의 기준

전체 개체(개인)의 속성을 판단하기 위한 기준

≪예≫ 고객세분화

동일한 군집에 속한 개체(또는 개인)는 여러 속성이 유사하고, 서로 다른 군집에 속

한 관찰치는 다른 속성을 갖도록 군집을 구성.

- 고객이 기업의 수익에 기여하는 정도를 통한 고객세분화

• 우수고객의 인구통계적 요인, 생활패턴 파악

• 개별고객에 대한 맞춤관리

- 고객의 구매패턴에 따른 고객세분화

• 제품 포지셔닝(Positioning), 목표 고객집단 구성

군집분석의 활용: 고객 세분화

고객 세분화

Segment 1: 경제적 여유 있는 전업 가정주부

Segment 2: 경제적 여유 있는 전문직 종사자

Segment 3: 경제적 여유가 적은 전업 가정주부

Segment 4: 경제적 여유가 적은 봉급 생활자

Segment 5: 18세 이하 미성년 고객

고객 세분화

≪예≫ A 백화점의 여성 고객

Clustering 방법 I Clustering 방법 II

Segment 1: 8% 12%

Segment 2: 24% 14%

Segment 3: 6% 11%

Segment 4: 18% 13%

Segment 5: 10% 12%

≪예≫ 신상품 B에 대한 구매의향

≪예≫ 군집분석 - 1

구매패턴 정보 각 상품의 구입여부(1/0)

٠Ready (조리식품) ٠Frozen (냉동식품) ٠Alcohol (알콜음료) ٠Veget (야채)

٠Milk (우유) ٠Bakery (제과류) ٠Meat (육류) ٠Toilet (욕실용품)

٠Snacks (과자류) ٠Tinned (통조림)

인구통계변인

٠Gender 0(여성), 1(남성)

٠Agegrp 1(18~30), 2(31~40), 3(41~50), 4(51~60), 5(61~)

٠Marital 1(미혼), 2(기혼), 3(별거), 4(사별), 5(이혼)

٠Children 0(무), 1(유)

٠Working 0(무), 1(유)

사례 : Shopping

10개 구입품목을 기준으로 786명 고객을 5개 그룹으로 구분,

군집별 인구통계적 특성 파악

- 10 -

구매패턴 변수

• Ready made (0: 51%, 1: 49%) • Frozen foods (0: 60%, 1: 40%)

• Alcohol (0: 61%, 1: 39%) • Fresh vegetables (0: 92%, 1: 8%)

• Milk (0: 81%, 1: 19%) • Bakery goods (0: 57%, 1: 43%)

• Fresh meat (0: 97%, 1: 3%) • Toiletries (0: 90%, 1: 10%)

• Snacks (0: 52%, 1: 48%) • Tinned goods (0: 54%, 1: 46%)

… ≪예≫ 군집분석 - 1

자료요악 : 전체집단

인구통계적 변수

• Gender (Female: 54%, Male: 46%)

• Age (18-30: 30%, 31-40: 25%, 41-50: 17%, 51-60: 16%, 61+: 12%)

• Marital (Single:25%, Married:24%, Separated:19%, Widowed:19%, Divorced 13%)

• Children (No 65%, Yes 35%)

• Working (No 17%, Yes 83%)

- 11 -

군집화 변수의 군집별 요약통계량

군집 1 군집 2 군집 3 군집 4 군 집 5

전체

레코드 수 (72) (163) (146) (81) (324)

Ready made 99% 23% 73% 94% 30%

Frozen foods 90% 65% 52% 43% 10%

Alcohol 85% 77% 8% 87% 13%

Vegetables 13% 13% 5% 20% 4%

Milk 64% 13% 13% 56% 5%

Bakery 51% 72% 71% 69% 7%

Meat 19% 1% 2% 2% 1%

Toiletries 32% 23% 4% 5% 2%

Snacks 97% 74% 16% 30% 42%

Tinned Goods 53% 54% 67% 31% 34%

… ≪예≫ 군집분석 - 1

- 12 -

인구통계적 변수의 군집별 요약통계량

군집1 군집2 군집3 군집4 군집5 전체

n, 레코드 수 (72) (163) (146) (81) (24) (786)

성: 여자 53% 56% 56% 44% 54% 54%

남자 47% 44% 44% 56% 46% 46%

나이: 18-30 32% 28% 25% 26% 34% 30%

31-40 22% 26% 21% 27% 26% 25%

41-50 15% 18% 18% 17% 17% 17%

51-60 19% 20% 25% 15% 11% 17%

60+ 11% 9% 12% 15% 12% 12%

혼인: Single 24% 25% 22% 25% 28% 25%

Married 21% 28% 21% 27% 23% 24%

Widowed 19% 16% 24% 17% 19% 19%

Separated 21% 17% 23% 17% 19% 19%

Divorced 15% 15% 10% 16% 11% 13%

자녀: 없음 93% 64% 64% 80% 57% 65%

있음 7% 36% 36% 20% 43% 35%

직장: 없음 6% 19% 18% 7% 20% 17%

있음 94% 81% 82% 93% 80% 83%

… ≪예≫ 군집분석 - 1

- 13 -

ID 군집명 개별 군집별 특성

1 주중 증가형 주중 특히 월요일에 많은 사용을 가지는 집단

2 신주말 증가형 주 5일제 영향을 많이 받아 목, 금, 토 사용이 높으며,

일요일 사용이 적은 집단

3 주말 증가형 전형적이며, 전통적인 주말 집중 사용 집단

월요일 화요일 수요일 목요일 금요일 토요일 일요일

주중 증가형 신주말 증가형 주말 증가형

3 사용비율

≪예≫ 군집분석 - 2

- 14 -

군집분석의 절차

문제 정의

거리행렬 or 자료행렬 ?

분석 변수의 선택

개체간 거리의 정의

군집화 방법의 선택

군집분석

결과의 요약 및 해석

자료행렬

거리행렬

군집간 거리의 정의

군집의 개수 결정

8.1.1 거리(Distance): 비유사성의 측도

- 15 -

표준화 거리(standardized distance)

- 16 -

구간형 데이터에 대한 거리

- 17 -

이항형 자료에 대한 거리

- 18 -

범주형 자료에 대한 유사성 및 거리

개 체 성 별 학 력 출신지역

A 남자 고졸 경기

B 여자 고졸 전남

C 남자 대졸 경기

거리(A,B) = 2, 거리(A,C) = 1, 거리(B,C) = 3

- 19 -

– 한 군집이 다른 군집의 내부에 포함되는 형태로 군집간의 중복은 없으며

군집들이 매단계 계층적인(나무) 구조를 이룸.

(예) 전자제품 주방용 냉장고

8.1.2 군집의 유형

상호배반적(disjoint) 군집

– 각 관찰치가 상호배반적인 여러 군집 중, 오직 하나에만 속함.

(예) 한국인, 중국인, 일본인

계보적(hierarchical) 군집

덴드로그램(Dendrogram)

- 20 -

- 21 -

Prob ( 개체 1 ∈ 군집 A ) = 0.7

Prob ( 개체 1 ∈ 군집 B ) = 0.3

군집의 유형

중복(overlapping) 군집

– 두개 이상의 군집에 한 관찰치가 동시에 소속되는 것을 허용

퍼지(fuzzy) 군집

- 관찰치가 소속되는 특정한 군집을 표현하는 것이 아니라 각 군집에 속할

가능성을 표현

- 22 -

차례

8.8 연습문제

- 23 -

[단계 0] 군집 수 K를 사전에 결정하고 각 군집 중심을 임의로 설정

[단계 1] 각 개체를 그 중심과 가장 가까운 거리에 있는 군집에 할당

[단계 2] 각 군집별로 [단계 1]을 통해 할당된 개체를 이용해 군집중심 재산출

[단계 3] [단계 1]과 [단계 2]의 과정을 기존 중심과 새로운 중심의 차이가

없을 때까지 반복

K-평균 군집화(k-Means Clustering)

특징

각 관찰치를 상호배반적인 K개의 군집을 형성

알고리즘

초기에 부적절한 병합(분리)이 일어났을 때 회복 가능

군집의 수 K를 사전에 정의

대용량 자료의 경우 유용

- 24 -

군집의 수 K 결정 : K=5

최초 군집기준값 결정

[단계 0]

개체의 할당

군집중심 재 산출 (반복)

[단계 3]

개체의 할당

군집중심 재 산출

[단계 1, 2]

8.2.1 k-평균 군집방법의 절차

… k-평균 군집방법의 절차

- 25 -

8.2.2 초기 군집 수의 결정

- 26 -

- 27 -

• 군집 수 K의 사전 결정

• 초기 군집중심의 설정

• 특이점

• 자료가 내포한 특이한 군집구조

… k-평균 군집화(k-Means Clustering)

주의점

- 28 -

차례

8.8 연습문제

군집분석의 특징과 적용상의 문제점

장점

탐색적인 기법

다양한 형태의 데이터에 적용 가능

분석방법의 적용 용이성

단점

가중치와 거리의 정의

초기 군집 수의 설정

결과 해석의 어려움

- 29 -

- 30 -

차례

8.8 연습문제

군집분석 사례를 위한 다이어그램

- 31 -

클러스터링 노드의

속성 패널

클러스터링(Clustering) 노드 - 결과

- 32 -

그래프 탐색(Graph Explore) 노드 - 결과

- 33 -

- 34 -

차례

8.8 연습문제

세그먼트 프로파일링(Segment Profile) 노드 - 결과

- 35 -

- 36 -

차례

8.8 연습문제

SOM/Kohonen 노드 - 속성 패널

- 37 -

SOM/Kohonen 노드의

속성 패널

군집분석 결과를 요약한 예

- 38 -

- 39 -

차례

8.8 연습문제

변수 클러스터링(Variable Clustering) 노드 - 속성 패널

- 40 -

변수 클러스터링 노드의

속성 패널

변수 클러스터링(Variable Clustering) 노드 - 결과

- 41 -

그래프 탐색(Graph Explore) 노드 - 결과

- 42 -

- 43 -

차례

8.8 연습문제

연습문제 8-3을 위한 다이어그램(그림 7.18 참조)

- 44 -

데이터 노드의

속성 패널

11주차 군집분석 -...

Documents

(발제) 군집분석 방법을 사용한 미디어 레퍼토리 유형분석 +한국방송학보 22-2,2008 -강남준 /조인호 x 2011 summer

11주차 공기업의 민영화 이론 - cyber.hankyong.ac.krcyber.hankyong.ac.kr/lmsdata/contents/LESN_20140204220254000417/... · 2) 정치적 과정으로서의 민영화 - 민영화를

11주차 전략적 마케팅계획 - KOCWcontents.kocw.net/KOCW/document/2015/yeungnam/kimsanghyeon/11.pdf · 마케팅 경로의 본질과 중요성 중간상(Intermediaries)은

CRM 개괄– 고객관계를증진하고고객가치를극대화하기위해, 입체적고객정보 및 ... – 분석모델: 표본 추출, RFM, 회귀분석, Scoring , 군집분석,

M진 디지털 변조 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Chungbuk/YooKwanhee/11.pdf · 디지털통신 1 충북대학교 11주차 M진 디지털 변조

11주차 이산수학과 그래프 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Hufs/Parkseongho… · 11 이산수학 최근 중요성이 대두됨 1. 많은

구강미생물 11주차 - KOCWcontents.kocw.net/KOCW/document/2016/gachon/kimheeeun/11.pdf · 2016-09-09 · Plaque Control 1880 1900 1930 1960 1990 2000 P. R. Overman. Biofilm:

군집분석 (Clustering). 2 설명모델 (description model) 실습 데이터 Iris Data datasets 패키지 Wine Data Hdclassif 패키지 AdultUCI Data arules 패키지

11주차 교재 - elearning.kocw.netelearning.kocw.net/KOCW/document/2014/deagu... · • FCB의 Richard Vaughn : 소비자 관여도와 뇌특화 이론을 토대로 FCB Grid라는

11주차: 남송 성리학 性理學contents.kocw.net/KOCW/document/2014/Chungnam/... · · 2016-09-09@ab cdefghijkl m7

11주차 교재 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/deagucatholic/changtaegwon/11.pdf · FCB Grid(Foote, Cone & Belding) 사고(thinking) 느낌(feeling) 고 관

11주차 제품 구조 - KOCWelearning.kocw.net/contents4/document/lec/2013/Konkuk/...11주차: 제품 구조 제품 개발 및 설계 Chapter 9 공과대학 산업공학과 교수

HHHMMMEEE모모모형형형을을을이이이용용용한한한시시시간간간에에에따따따른른른 … · 유전자 발현자료의 분석을 위하여 제안된 군집분석

신체활동 여가에서의 ICT 활동 - lculture.net™œ용(빅데이터와_loT를_중심으로).pdf · 소셜네트워크 분석 군집분석 데이터마이닝 인공지능 자연어처리

9주차 예측모형에 대한 평가 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/korea/choijonghu/9.pdf · ≪ 9주차 ≫ 예측모형에 대한 평가 Assessment of

11주차 체홉의 바냐 아저씨> 1 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Chungbuk/baekyongsik/10.pdf · 아저씨>는 완전히 새로운 연극 예술이며,

연령별 식사관리 (1) - contents.kocw.netcontents.kocw.net/KOCW/document/2015/hankyong/parkwhayon/4.pdf · 수유기의 영양 11주차 연령별 식사관리 (1) 임신기의

Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

11주차 남성생식 · 2020. 2. 21. · 수컷의종류 •작은동물을사냥하기때문에성공률이높음 •고기의양이적어서가족끼리만나누어먹을수있음

11 (1/3) 유통관리(1) - KOCWelearning.kocw.net/contents4/document/lec/2013/... · 11주차 (1/3) 학습목표 2. 소비자와 생산자를 위한 중간상의 역할을 설명할