68
® IBM Software Group © IBM Corporation DB2 DWE 在在在在在在在在在在在在 软软软 软 软 [email protected]

DB2 DWE 在电信业数据挖掘中的应用 软件部 张 英 [email protected]

  • Upload
    deon

  • View
    196

  • Download
    0

Embed Size (px)

DESCRIPTION

DB2 DWE 在电信业数据挖掘中的应用 软件部 张 英 [email protected]. 数据挖掘方法论及挖掘项目的调优 电信业数据挖掘主题 DB2 DWE 及其 Mining 特性介绍. Agenda. 数据挖掘方法论及挖掘项目的调优. 不同的角度看数据挖掘. 业务的角度--数据挖掘是啤酒和尿布的佳话 专家的角度--数据挖掘是算法的集合 厂商的角度--数据挖掘是软件解决方案 数据挖掘是方法论--是三者的结合,在特定的业务背景下,采用软件建立起一系列数据挖掘的流程 DWE 提供了平台 , 基于 DWE 很容易实现挖掘应用. 数据挖掘方法论. - PowerPoint PPT Presentation

Citation preview

Page 1: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

®

IBM Software Group

© IBM Corporation

DB2 DWE 在电信业数据挖掘中的应用

软件部 张 英 [email protected]

Page 2: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

2

数据挖掘方法论及挖掘项目的调优

电信业数据挖掘主题

DB2 DWE 及其 Mining 特性介绍

Agenda

Page 3: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

®

IBM Software Group

© IBM Corporation

数据挖掘方法论及挖掘项目的调优

Page 4: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

4

业务的角度--数据挖掘是啤酒和尿布的佳话

专家的角度--数据挖掘是算法的集合

厂商的角度--数据挖掘是软件解决方案

数据挖掘是方法论--是三者的结合,在特定的业务背景下,采用软件建立起一系列数据挖掘的流程

DWE 提供了平台 , 基于 DWE 很容易实现挖掘应用

不同的角度看数据挖掘

Page 5: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

5

数据挖掘方法论

实际工程中指导项目实施的方法 每一阶段的目标、采用方法、输出结果形式 人员安排、方法、时间进度安排等

实施数据挖掘方法论所要达到的目的 针对不同行业的数据挖掘方法论是挖掘项目开展的标准和指南指南 控制数据挖掘工程项目中的风险,确保项目的成功实施,提供了保障

Page 6: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

6

价值、行为为导向的数据挖掘方法论 价值、行为为导向的数据挖掘方法论

挖掘主题确定 数据调查与收集 构建挖掘宽表 数据探索与处理 构建挖掘模型 挖掘模型的分析与升华 营销策略的制定、执行与评估

Page 7: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

7

分析对象:神州行?、全球通?、动感地带? 、固话、小灵通、公话…

挖掘模式:客户分群?流失预测?交叉销售?欺诈识别?…

挖掘主题是否符合公司当年的营销战略?是否可以解决当前面临问题?

挖掘主题确定挖掘主题确定

Page 8: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

8

用户及客户的基本信息变量 客户身份信息、联系方式、产品拥有情况,用户竣工时间、入网

时长、服务开通情况、优惠套餐信息、客户服务信息(投诉、咨询、催缴情况)等。

价值变量 基本通话费用、月均国内长途费用、月租费、 GPRS 使用

费、 SMS 费用、 MMS 费用、 WAP 费用、优惠费用、新业务、信息费和卡类、结算费用、缴欠费费用等。

行为变量 时长、次数、发话不同号码数、时长集中度(当月、近三月、近

六月)、次数集中度(当月、近三月、近六月)、拨打 10086次数、 WAP 次数、 SMS 次数、缴费方式、欠费次数等。

数据调查与收集数据调查与收集

Page 9: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

9

数据仓库 /PDM

基础表数据2222

中间表模块3333

宽表4444

基础表数据集市

中间表模块库

客户分群宽表一

流失预测宽表二

挖掘建模表5555

数据仓库原表1111

构建挖掘宽表构建挖掘宽表

Page 10: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

10

数据探索与处理数据探索与处理

OK

检查有效性 检查以下项目:数据分布、 丢失值 无效值、 非正常值、 相关性检查 通过可视化统计查看工具很方便地发现数据中非正常、缺失、无效值

数据有质量可能有问题!!

Page 11: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

11

构建挖掘模型构建挖掘模型

Page 12: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

12

构建挖掘模型构建挖掘模型

Page 13: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

13

V8 V9 V1 V2 V5 V3 V4 V6 V7 B2 0. 0982 0. 0016 0. 1019 0. 0662 0. 0013 0. 0064 0. 0000 0. 0003 0. 0000 B1 0. 0429 0. 0312 0. 0836 0. 1291 0. 0025 0. 0069 0. 0289 0. 0008 0. 0001 B9 0. 0026 0. 0010 0. 0033 0. 0038 0. 0003 0. 0013 0. 0011 0. 0001 0. 0000 B5 0. 0090 0. 0220 0. 0052 0. 0017 0. 0261 0. 0030 0. 0016 0. 0000 0. 0000 B4 0. 0059 0. 0125 0. 0112 0. 0273 0. 0016 0. 0035 0. 0424 0. 0006 0. 0002 B3 0. 0004 0. 0002 0. 0011 0. 0029 0. 0043 0. 0946 0. 0091 0. 0005 0. 0000 B6 0. 0026 0. 0016 0. 0099 0. 0264 0. 0019 0. 0040 0. 0035 0. 0089 0. 0000 B7 0. 0008 0. 0016 0. 0010 0. 0035 0. 0008 0. 0023 0. 0089 0. 0003 0. 0024 B8 0. 0000 0. 0001 0. 0000 0. 0058 0. 0016 0. 0004 0. 0045 0. 0017 0. 0030

V8

V1

V5

V4

V7

B2

B1

B9

B5

B4

B3

B6

B7

B8

0. 1200 -0. 1300

0. 1100 -0. 1200

0. 1000 -0. 1100

0. 0900 -0. 1000

0. 0800 -0. 0900

0. 0700 -0. 0800

0. 0600 -0. 0700

0. 0500 -0. 0600

0. 0400 -0. 0500

0. 0300 -0. 0400

0. 0200 -0. 0300

0. 0100 -0. 0200

0. 0000 -0. 0100

V8

V9

V1

V2

V5

V3

V4

V6

V7

B2

B4

B8

0. 000. 010. 020. 030. 040. 050. 060. 070. 080. 090. 100. 110. 120. 13 0. 1200 - 0. 1300

0. 1100 - 0. 1200

0. 1000 - 0. 1100

0. 0900 - 0. 1000

0. 0800 - 0. 0900

0. 0700 - 0. 0800

0. 0600 - 0. 0700

0. 0500 - 0. 0600

0. 0400 - 0. 0500

0. 0300 - 0. 0400

0. 0200 - 0. 0300

0. 0100 - 0. 0200

0. 0000 - 0. 0100

挖掘模型的分析与升华挖掘模型的分析与升华

Page 14: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

14

将分群数学刻画,转化为营销学中可以理解的特征刻画。局部 / 整体特征刻画法-通过对比每一类的分布和全部样本的分布来刻画每一类样本的特征。

V8 V9 V1 V2 V5 V3 V4 V6 V7 B2

B1

B9

B5

B4

B3

B6

B7

B8

挖掘模型的分析与升华挖掘模型的分析与升华

Page 15: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

15

确定营销目标群 预测打分的方式 循环调优的方法确定目标群体

营销渠道、流程设计 确定营销渠道、渠道组合 营销单派发、流转、报表、考核

IT 支撑的开发 软件开发 营销脚本设计

营销策略执行与评估 选择合适营销时段 及时统计营销成功率

数据挖掘营销派单流程

营销策略的制定、执行与评估营销策略的制定、执行与评估

Page 16: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

16

数据挖掘项目的调优数据挖掘项目的调优 数据挖掘项目的成功需要不断地优化挖掘流程

营销流程调优 挖掘建模流程调优 数据准备流程调优

营销流程的调优 目标客户群的调整 套餐定价 / 组合的更改 更改营销渠道与流程 根据不同生活习惯的人群选择外呼的时段

Page 17: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

17

挖掘建模流程调优挖掘建模流程调优

挖掘建模数据集的划分 合理的数据采样、分层采样、随即采样、顺序采样,处理小概率事件训练集、测试集、校验集合 模型训练数据、测试数据采用相同的尺度变换

算法调优根据数据分布特性选择不同的算法避免盲目追求算法精度、选择合适学习率、避免模型过拟合 模型校验集用于最大化模型泛化能力 不平衡样本的算法及类别权值确定,必要时改变挖掘模式

两个定理“奥卡姆剃刀”定理--简单就是最好的“没有免费午餐”定理“丑小鸭”定理

Page 18: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

18

分群过程中的建模流程调优分群过程中的建模流程调优 群体数目确定

群体数目奇数为佳,一般为 5-9个左右,加减 2 进行调整 如需减少群体数目,加入总量变量,减少分量变量,减少相似度阈值 增加群体数目,减少总量变量,增加分量变量,加大相似度阈值 如果某类包含个体数量超过 50%,考虑进行迭代分群

输入变量的调整 变量取值大部分为 0或其他固定值的变量不建议使用 多个聪明变量之间相互重叠导致类别相互重叠时,增加变量个数 排除业务上有重叠的变量,如夜间通话时长和打折时段通话时长

算法调优 K-Means 孤立点敏感、群体重叠、差别大时效果差;局部最优;可扩展性好,大数据集 Kohonan 结果对样本次序有关、初始参数值的选择 DBSCAN 可以发现任意形状边界,处理孤立点、需要更多的内存、 I/O消耗 Distribution-Based Cluster 可以自动发现群体个数,孤立点不敏感 Neural Cluster 有时候会陷入局部最优解 SVC 可以自动确定群体个数,任意形状边界群,复杂性和字段数无关

Page 19: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

19

数据准备流程调优数据准备流程调优 数据调优增加数据质量

数据探索:发现数据中的异常点,了解数据分别模式 处理缺失值,属性变换,离散值变连续值 解决数据分布不一致的问题, [0-1]变换、 Z变换从业务角度看,无意义的变量不建议做挖掘模型的输入变量

变量之间的相关性 发现输入样本的变量之间的相关性变量之间耦合性强的变量不建议选取

设计派生变量尽量反映动态的特性,加入时长、趋势、占比、集中度派生变量要适当,总量和分量、占比变量不宜同时出现

Page 20: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

20

孤立点 局部极值 过拟合 欠学习 “维度灾难“ “黑箱模型” ……

传统的数据挖掘方法面临的挑战传统的数据挖掘方法面临的挑战

K-means

Nerual

Page 21: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

21

2

1

1min || ||

2s.t. ( ) 1 , 1,2,..., .

l

i i

i i i

C

y b i l

w

w x

结构风险 经验风险

数据挖掘中的新方法— Support Vector Machine(SVM)数据挖掘中的新方法— Support Vector Machine(SVM)

SVM具有以下独有的特点: 解决局部极值问题-求解二次优化,得到全局最优解, 解决非线性难题-将复杂的非线性问题转变为线性求解; 解决小样本学习难题-基于小样本统计学习理论; 解决海量数据难题-理论上复杂度与样本维数无关; 解决欠学习、过学习难题-同时优化算法复杂性和学习精度;

Page 22: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

®

IBM Software Group

© IBM Corporation

电信业中的数据挖掘主题

Page 23: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

23

电信业中的挖掘主题

客户分群 客户流失预测 客户欺诈识别 客户价值分析 交叉销售 事件营销 新产品、业务潜在客户预测

Page 24: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

24

潜在客户

成熟客户

新客户

预测:流失预测

维持:交叉销售市场细分

客户忠诚和保持客户价值分析客户受益分析

欺诈识别

维持:交叉销售市场细分

客户忠诚和保持客户价值分析客户受益分析

欺诈识别

获得:顾客特征目标市场市场细分关联分析

获得:顾客特征目标市场市场细分关联分析

数据挖掘贯穿于整个客户生命周期模型中数据挖掘贯穿于整个客户生命周期模型中

Page 25: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

25

电信业中的数据挖掘主题电信业中的数据挖掘主题

客户分群 对客户群体进行划分,了结客户群体的构成; 针对不同客户群的特征,开发不同的营销策略,建立针对性的主 动营销体系;

客户流失预测 识别近期可能发生流失的客户名单; 发现流失客户的共同特征,采取措施进行挽留;

交叉销售 分析移动通信各类业务之间的关联; 开发各类业务的套餐捆绑策略;

Page 26: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

26

客户欺诈检测 识别可能发生的欺诈行为、异常行为 异常行为发生前采取措施进行预防

客户价值分析 客户信用等级的评定 客户价值及风险分析

事件营销

捕捉客户各种行为,识别可能的营销机会 为渠道系统提供及时的营销建议

新产品、业务潜在客户的预测 预测可能使用新业务的客户,为市场人员提供清单 开发针对新业务使用人员的营销策略

电信业中的数据挖掘主题电信业中的数据挖掘主题

Page 27: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

27

电信运营商面临巨大客户群,每个客户需求不一样; “一对一”营销模式; 最大化组间差异性,最小化组内差异性; 了解客户的构成,发现客户的需求,提高营销的针对性。

客户分群

Page 28: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

28

客户流失预测模型客户流失预测模型

客户流失预测背景 客户流失率高, 移动每月 2.2%, 每年损失将近 27%客户; 吸引新客户成本高,吸引新客户 /保留现有客户= 6-8倍。

客户流失预测内容 明确哪些客户近期内最有可能流失; 确定可能流失的客户中公司需要保留那些客户; 哪些因素造成了客户的流失; 开发客户保持策略防止这些客户的流失。

Page 29: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

29

客户类型

服务质量

呼叫模式

呼叫时长

呼叫频率

客户流失可能

客户满意度

客户呼叫行为趋势

优惠时段呼叫次数

白天呼叫次数

来电次数

接通率 中断呼叫次数

语音质量

呼叫质量

竞争对手营销策略

客户服务质量

现有客户中那些存在近期内流失的风险?

客户流失预测模型客户流失预测模型

Page 30: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

30

客户欺诈预测模型 为了减少因电信欺诈和恶意欠费造成的巨大损失,大多采取行政防范和技术防范两大类防范措施。

行政防范:电信运营商采用行政手段进行清缴用户欠费的做法。这在一定程度上起到了积极的作用,具体的做法有: 通过客户的详细资料来盯住客户 ; 采用预付费的方式 ; 通过法律措施 ; 采用舆论手段来监督。

技术防范:行政防范不能做到及时防范,往往在损失出现后才进行清缴,清缴工作量大 , 对忠诚用户的感情是一种伤害。国内外许多通信运营商开始关注采用技术手段防范电信欺诈问题。

Page 31: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

31

客户欺诈预测模型客户欺诈预测模型 消费行为异常监控

平时话费正常,突然变成低话费或 0 次户; 话费波动异常,话费突然大量增加; 话务量上升、收入反而下降;

不法行为的监控同一身份证开通多个号码,长时间拨打国外声讯台;使用 200 卡长时间、大量拨打他网用户;群发短信诈骗;

采用数据挖掘防欺诈技术,建立实时的监控模型,最大限度防止欺诈行为发生。

Page 32: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

32

客户欺诈预测模型客户欺诈预测模型

客户欺诈识别的数据挖掘主题 :

超额长途费用欺诈 他网结算欺诈 非法提供公话服务 盗打声讯电话欺诈 后付费小灵通欺诈 欠费分析 。。。

Page 33: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

33

客户欺诈预测模型客户欺诈预测模型

超额长途费用欺诈 境外分子勾结境内分子利用 voip技术、通过互联网、语音网关将呼入的国际长途落地,然后转接到世界各地

从消费现象上看,某合同号之前无任何话费,突然某天产生的国际长话呼叫次数或话费很高; 从营业受理记录看,客户同时申请安装多部同址固定电话,并开通国际长话权限,并且后付费(同一合同号); 客户可能同时申请包月电信宽带(网通宽带);

Page 34: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

34

客户欺诈预测模型客户欺诈预测模型

非法提供公话服务 有些用户以假身份证开通一批固定电话 ,以超低价格非法提供公用电话服务 ,过一段时间就换一个地方故伎重演 ,给电信公司造成很大的损失,这些用户的特征为 :

以住宅用户名义申请安装电话; 电话使用频繁 ,通话量比较大; 费用很高; 呼叫目的地比较分散,几乎没有相同的被叫地; 一般在同个地方安装多个电话; IP 和直拨长途情况都很多;

Page 35: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

35

客户欺诈预测模型客户欺诈预测模型客户欺诈识别的数据挖掘方法: 决策数归纳法

常用的决策数算法如 C4.5 、 C5 等。

孤立点检测方法

孤立点检测有基于距离的方法和基于偏差的方法两种。

Page 36: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

36

采用数据挖掘技术,根据以上现象构建客户欺诈的决策数模型,对现有的某类业务的客户群进行实时监控,及时识别可能的欺诈行为

客户平均通信费用

客户性质

呼叫模式

呼叫时长

呼叫频率

客户欺诈可能

客户信誉度

客户呼叫行为趋势

优惠时段呼叫

次数污点行为

交费方式

交费及时性

客户行为准则

白天呼叫次数

来电次数

客户欺诈预测模型客户欺诈预测模型

那些客户会发生欺诈行为呢?

Page 37: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

37

采用孤立点检测的数据挖掘方法,直接从现有客户群中,寻找异常的客户,

客户欺诈预测模型客户欺诈预测模型

Page 38: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

38

数据仓库中的表

支撑系统

源系统

数据提取 数据过滤 数据预处理 欺诈识别

建模

告警防欺诈处理

生成欺诈评分文件

渠道、客服系统

数据交换平台

客户信用评分模型

客户欺诈预测模型应用客户欺诈预测模型应用

Page 39: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

39

客户对企业的价值是不尽相同的,帕累托的 80/20 法则:公司 80% 的赢利只来自其 20% 的客户。

客户价值分析:评估客户的价值,使得企业能够找到最为宝贵的客户资源,发现最具价值的客户,以便于能够有的放矢的开展营销,有效利用定价策略,针对性地实施战略。

客户价值分析模型客户价值分析模型

Page 40: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

40

客户价值分析模型客户价值分析模型

客户收益 客户忠诚度客户成本

客户价值

客户信用度

呼入通话比例

忙时集中度

历史欠费的次数

57.4%

42.6%

100%

当前价值 潜在价值

ARPU 值61.2%

呼出通话时长20.9%

长话的呼出通话时长

10.8%

网外呼入时长

7.1%

在网时长 36.6%

离网概率 19.0%

新业务的费用比例

16.2%

业务的开通数量

15.1%

异网 IP呼出时长 6.0%

呼入的不同号码数 7.1%

80.4% 19.6%

80.7% 19.3% 74.6% 25.4%

Page 41: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

41

交叉销售模型

A:区间通话B:宽带C :彩铃D:一号双机E :小灵通

关联规则挖掘:从数据集中寻找有趣的、关联和相关性、频繁出现的模式 ;

Page 42: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

42

交叉销售模型-- 产品--产品的正关联与负关联

七彩铃音

11808

一号通

来电显示

一号双机

星级家庭ADSL

交叉销售模型

Page 43: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

43

交叉销售模型用户-产品关联

七彩铃音

ADSL

一号双机

11808

星级家庭

一号通

来电显示

Page 44: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

44

根据产品业务关联性评分表,形成某一产品与其他产品关联关系图,以形象说明本产品与其他产品之间的关联关系(正相关或是负相关)及其关联性强弱。

-5-4-3-2-1012345

正向关联

负向关联

客户取消产品时作为替补品

考虑产品捆绑销售

相关性弱替代性弱

相关性强

替代性强

交叉销售模型-产品业务关联关系

一号双机关联评分表

Page 45: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

45

新产品、业务的潜在客户预测新产品、业务的潜在客户预测

预测可能使用新业务的客户,为市场人员提供清单

使用新业务的人员有那些共同的特征? 那些客户可能是 PushMail 的客户? 那些客户是 blackbery 业务的客户? 目前客户中有那些可能是未来 3G 业务的潜在客户?

开发针对新业务使用人员的营销策略

如何根据这些特征制定营销策略?

Page 46: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

46

事件监控和事件营销事件监控和事件营销

数据挖掘中经常为找不到合适的对象而烦恼,经常打进 10086 的客户也许就是最佳的营销对象

套餐到期等能够自动去触发营销事务比如套餐续约提示,适合该用户的其他业务

用户取消某些业务,触发营销事务,自动推荐其他替代产品

客户来电抱怨信号不好,经常错过一些关键电话,根据挖掘预先设定的规则,推荐来电助手业务

Page 47: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

47

电信业其他数据挖掘主题电信业其他数据挖掘主题

客户维度 业务维度 挖掘模式维度

公众客户 本地业务 客户分群

商业客户 长途业务 客户流失

大客户 无线业务 欺诈检测

政企客户 宽带业务 交叉销售

家庭客户 增值新业务 价值分析

个人客户 电话卡业务 信用等级评估

Page 48: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

®

IBM Software Group

© IBM Corporation

DB2 DWE & Mining Feature

Page 49: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

49

DWE v9 概念架构

集成的、供基于 DB2 数据仓库的

分析使用的平台 组件化的架构 共享工具和元数据 共享运行时基础设施 基于 Web 的嵌入式分析 集成的数据建模、 OLAP 、数据

挖掘、仓库工具BI 平台(共享基础设施, Websphere )

分析报表OLAP挖掘

数据仓库工具

Admin Console (Web)

Design Studio (Eclipse)

解决方案模板( Basel II 、 REDW )

支持 Linux 、 Unix 及 Windows 的 DB2 UDB

Page 50: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

50

Data explore in DWE Design Studio Data mining functions in DWE Design Studio Data mining functions in DWE Administration console Intelligent Miner Easy Mining Intelligent Miner™ Modeling Intelligent Miner Scoring Intelligent Miner Visualization Miningblox

DWE Intelligent Miner 挖掘特征DWE Intelligent Miner 挖掘特征

Page 51: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

51

探索自己的数据 Design Studio 提供了数据

探索的各种工具单变量分析 二元分析多变量分析

Miningblox

Page 52: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

5252

“Easy Mining” 算法

关联我的数据中存在哪种项关系(“规则”)? [Beer => Diapers] …单一事务

次序我的数据中存在哪种连续模式? [Love] => [Marriage] => [Baby Products] …连续事务

聚集我的数据中存在哪些群组?…客户资源集、存储资源源

分类如何预测我的数据中各个类别的值?…病人是否受到粗鲁的对待、是否受到伤害、是否感受不到关爱?

预测如何预测我的数据中的数值?…客户对改进做出反应的可能性有多大?…每个客户本年度的消费是多少?

使用 DB2 可以直接、可扩展、实时的记录数据

Select Transform Mine Assimilate

Extracted Information

Assimilated Information

Selected Data

Data Warehouse

统计与数据挖掘工作台

DB2 Warehouse

业务分析

扩展的洞察力数据挖掘使用 Predictive Analytics 提高业务洞察力

Page 53: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

53

在通用的数据仓库项目中集成数据模型, ETL ,

数据挖掘

交互的流编辑器:支持单步执行,在 ETL 中使用的相关 SQL 转换能直接在挖掘中被重用

数据探索组件提供数据构成和数据质量的概况 数据挖掘

嵌入到客户应用界面

Page 54: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

54

执行一个挖掘任务 : 四种方式执行一个挖掘任务

DB2

Data

BldTask

Min

ingD

ata

Set

tings

Dat

aS

pec

Model

Mo

del

ing

SQL Stored Procedures

Easy MiningProcedures

DWE MiningEditor

MiningBlox应用程序

Page 55: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

55

挖掘结果的可视化

DB2

Model

Stand-alone program

Java applet on web page

Design Studio

Page 56: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

56

Scoring: 应用挖掘模型到一个新的数据

DB2

New Data

Sco

rin

gDB2 CLP

UserApplicationModel

Result

SQLUDFs

Easy MiningProcedures

DWE MiningEditor

Batch scoring

Single-record scoring

Real-time scoring

OLAP

Page 57: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

57

Data Mining Scoring 支持内嵌的实时数据挖掘

外部事件业务规则 活动

客户资料

发生变化

通知客户服务采取挽留措施

DB2

Customerprofile

Trigger forexisting customer New

Scores

New score triggersRisk management if high risk , take action NOW

Scoring

Invokes EAI Messaging

12

3

Page 58: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

58

MiningBlox DWE9.1.2 新特性 MiningBlox 特性

扩展了 ABX 的应用,实现了完全基于web 的数据挖掘流程

提供了基于 Web 的挖掘任务管理、挖掘分析、结果可视化

在 DesignStudio 中通过Wizard生长Miningbox 的模版应用

复杂的可视化效果图都可以在 ABX 中实现

MiningBlox 好处 Miningblox扩展了挖掘结果的受众 实现了挖掘建模的客户端零安装 任何人都可以通过浏览器执行挖掘任务,

查分析挖掘结果 在 Design Studio 集成开发环境中,使用

应用向导,轻松执行挖掘任务

Page 59: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

59

Data Input Form•SelectBlox•MemberSelectRDBBlox

Mining results•AssociationModelBlox•ClassificationModelBlox•ClusteringModelBlox•RegressionModelBlox•SequenceModelBlox•VisualizerBlox•VisualizerButtonBlox•VisualizerViewBlox•ClusterVisualizerBlox•ClusterVisualizerLinkBlox•ClusterScorerBlox•ClusterSummaryBlox•GainsChartBlox•UnivariateStatisticBlox

Task Execution•MiningTaskBlox•UniqueIDBlox

Task Administration•TaskDataBlox

Submit input form

Show results

MiningBlox 标签库

Page 60: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

60

A Miningblox 应用包括

执行挖掘流

管理挖掘任务

显示、分析挖掘结果

Page 61: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

61

Execute Mining flow

Miningblox 允许一般用户变换挖掘应用的参数,建立一个好的模型,不需要专业的挖掘技术人员支持 .

Page 62: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

62

Task Management

管理正在执行的、执行完的挖掘任务列表 挖掘任务可以被取消、删除、克隆、监控 允许不同等级用户浏览挖掘结果

Page 63: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

63

Data Analysis Miningblox 提供丰富的挖掘结果可视化浏览工具 来分析挖掘结果、分析

挖掘模型。 所有挖掘可视化图,都可以以 applets 的方式嵌入到客户 web 应用的

blox 中去

Page 64: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

64

Improve Alphablox Data Analysis using Miningblox Tags

Alphablox tags 能够和 Miningblox tags能够结合起来,为用户提供定制化的报表。 .

Page 65: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

65

How to create a Miningblox application

采用 MiningBlox扩展现有的Web/Alphablox 应用

DWE DesignStudio 为你的挖掘任务提供了向导去建立 Miningblox 模版,简化挖掘流程

很容易以这些模版为基础,实现挖掘任务

Page 66: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

66

Customizable Tags in a Miningblox application

Change the original JSP File in the deployed .WAR file, and simply refresh the page

Minimize Development Complexity

<iminer:visualizer id="sqmd5" width="950" height="620" >

<iminer:sequenceModel name="RetailSequencesModel" dataSourceName="ABX_DWEMBLOX" />

</iminer:visualizer>

Page 67: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

67

总结

数据挖掘方法论及其调优电信数据挖掘主题DWE组件 Mining 特性

总结

数据挖掘方法论及其调优电信数据挖掘主题DWE组件 Mining 特性

Page 68: DB2 DWE  在电信业数据挖掘中的应用 软件部  张 英  yingzswg@cn.ibm

IBM Software Group

68