数据分析与数据挖掘 实战案例download.microsoft.com/.../DAT230-yangdachuan.pdf · Agenda...

Preview:

Citation preview

数据分析与数据挖掘数据分析与数据挖掘

实战案例实战案例

杨杨 大大 川川dyang@minesage.comdyang@minesage.com

讲师讲师简介简介

杨大川杨大川 -- 迈思奇科技有限公司迈思奇科技有限公司CTOCTO微软微软MVP.2004MVP.2004(最有价值专家)(最有价值专家)

曾任美国硅谷曾任美国硅谷AnnuncioAnnuncio公司首席工程师公司首席工程师

招商迪辰产品研发部总经理招商迪辰产品研发部总经理

现兼任中科院客座教授现兼任中科院客座教授

Minesage :Minesage :迈思奇科技有限公司迈思奇科技有限公司微软数据分析微软数据分析//挖掘领域合作伙伴挖掘领域合作伙伴

面向企业客户提供完整的数据分析面向企业客户提供完整的数据分析//挖掘解决方挖掘解决方案案

www.minesage.comwww.minesage.com

AgendaAgenda

从数据到信息从数据到信息

传统报表系统的挑战传统报表系统的挑战

数据分析与实战案例数据分析与实战案例

数据挖掘与实战案例数据挖掘与实战案例

总结:商业智能的巨大潜力总结:商业智能的巨大潜力

现代企业的现代企业的ITIT系统系统

企业资源计划系统企业资源计划系统 (ERP)(ERP)

客户关系管理系统客户关系管理系统 (CRM)(CRM)

供应链管理系统供应链管理系统 (SCM)(SCM)

电子商务系统电子商务系统 ((EBizEBiz))

人事管理系统人事管理系统 (HR)(HR)

财务系统财务系统 (Fin)(Fin)

…… ……

呼叫中心呼叫中心

市场市场活动活动系统系统

客户关客户关系管理系管理

互联网系互联网系统统

财务系统财务系统

采购系统采购系统 人事系人事系统统

库存系统库存系统

最终结果:大量的最终结果:大量的数据数据

报表系统的答案:报表系统的答案:4040根根

这里有几根火柴?这里有几根火柴?

AgendaAgenda

从数据到信息从数据到信息

传统报表系统的挑战传统报表系统的挑战

数据分析与实战案例数据分析与实战案例

数据挖掘与实战案例数据挖掘与实战案例

总结:商业智能的巨大潜力总结:商业智能的巨大潜力

挑战挑战

难以挖掘出潜在的规则

难以交互分析

了解各种组合

难以追溯历史数据形成孤岛

数据太多

信息太少

随着数据量的增大

难度越来越大

AgendaAgenda

从数据到信息从数据到信息

传统报表系统的挑战传统报表系统的挑战

数据分析与实战案例数据分析与实战案例

数据挖掘与实战案例数据挖掘与实战案例

总结:商业智能的巨大潜力总结:商业智能的巨大潜力

现在呢?现在呢?

数据分析:数据分析:OLAPOLAP技术技术

数据集市数据集市

数据仓库数据仓库

客户端客户端

CubeCube

OLAPOLAP

源系统源系统

DemoDemo

互联网行业互联网行业

电信电信

财务和预算财务和预算

房地产房地产

互联网行业互联网行业 –– 门户网站门户网站

传统的网站流量分析工具传统的网站流量分析工具

简单的静态报表简单的静态报表

后台处理,大量信息丢失后台处理,大量信息丢失

无法针对业务层面深入分析无法针对业务层面深入分析

OLAPOLAP解决方案解决方案

1818个角度随心所欲的分析个角度随心所欲的分析

瞬间获得结果瞬间获得结果

非常容易切入业务层面非常容易切入业务层面

发现更多的宝藏发现更多的宝藏

电信行业电信行业

手机产业的迅猛发展导致:手机产业的迅猛发展导致:

海量的数据海量的数据

海量的用户海量的用户

激烈竞争与频繁的策略调整激烈竞争与频繁的策略调整

OLAPOLAP数据分析的价值数据分析的价值

发现不断变化的规律发现不断变化的规律

辅助正确的决策辅助正确的决策

好的决策好的决策 = $$$= $$$

财务和预算财务和预算

财务软件有很多财务软件有很多

用友用友

金蝶金蝶

预算的方式有很多预算的方式有很多

ExcelExcel

专用系统专用系统

OLAPOLAP可以分析什么?可以分析什么?

鸟瞰图的分析方式鸟瞰图的分析方式

房地产房地产

买房?卖房?租房?买房?卖房?租房?

房价的趋势如何?房价的趋势如何?

不同地区的变化不同地区的变化

不同类型的变化不同类型的变化

供求关系的变化供求关系的变化

OLAPOLAP的解决方案的解决方案

专业化的专业化的KPIKPI

AgendaAgenda

从数据到信息从数据到信息

传统报表系统的挑战传统报表系统的挑战

数据分析与实战案例数据分析与实战案例

数据挖掘与实战案例数据挖掘与实战案例

总结:商业智能的巨大潜力总结:商业智能的巨大潜力

商业智能商业智能包含的范围包含的范围

数据挖掘数据挖掘

数据报表数据报表

数据分析数据分析

深入数据挖掘工具深入数据挖掘工具 (SQL 2005)(SQL 2005)

关联销售关联销售

销售预期销售预期

客户分类客户分类

客户行为分析客户行为分析

风险管理风险管理

信用评估信用评估

欺诈检测欺诈检测

流量点击分析流量点击分析

……..

DemoDemo

图书音像销售图书音像销售 –– 关联模型关联模型

自行车销售自行车销售 –– 决策树决策树

搜索引擎搜索引擎

历史数据历史数据

CustIDCustID

980001

980002

980003

980004

980005

980006

CustIDCustID BookBook

980001 天龙八部

980001 鹿鼎记

980002 丁丁历险记-丁丁在刚果

980002 丁丁历险记-月球探险

980002 神雕侠侣

980003 围城

980004 数据挖掘指南

980004 数据库实战宝典

980004 SQL Server 2005

历史数据(历史数据(NestedNested))

BookBook

天龙八部

鹿鼎记

丁丁历险记-丁丁在刚果

丁丁历险记-月球探险

神雕侠侣

围城

数据挖掘指南

数据库实战宝典

SQL Server 2005

CustIDCustID

980001

980002

980003

980004

关联模型关联模型::AssociationAssociation

同类集合同类集合

规则规则

图示图示

预测预测

…………

自行车销售自行车销售

某体育用品商店某体育用品商店

拥有大量会员拥有大量会员

部分会员是购买自行车的用户部分会员是购买自行车的用户

问题:决定客户是否可能购买自行车的因素?问题:决定客户是否可能购买自行车的因素?

性别性别

年龄年龄

交通距离交通距离

拥有的汽车数目拥有的汽车数目

拥有的子女数目拥有的子女数目

收入收入

…………

决策树:决策树:Decision TreeDecision Tree

找到潜在客户找到潜在客户

搜索引擎搜索引擎

ITIT新宠新宠

百度神话百度神话

GoogleGoogleYahooYahooMSNMSN

如何发现词与词之间的关联?如何发现词与词之间的关联?

我们销售关键词给企业我们销售关键词给企业

如果知道与某个词关联最强的如果知道与某个词关联最强的NN个词个词……潜在的价值是无限的潜在的价值是无限的

AgendaAgenda

从数据到信息从数据到信息

传统报表系统的挑战传统报表系统的挑战

数据分析与实战案例数据分析与实战案例

数据挖掘与实战案例数据挖掘与实战案例

总结:商业智能的巨大潜力总结:商业智能的巨大潜力

解决解决

商业智能商业智能

数据挖掘找出数据挖掘找出潜在规则,辅潜在规则,辅

助决策助决策 OLAPOLAP、数据分、数据分析提供了更及析提供了更及时、更丰富的信时、更丰富的信息息

报表系统提供了报表系统提供了最基本的信息最基本的信息

问题:问题:

OLAP OLAP 的目的是什么?的目的是什么?

Static ReportingStatic Reporting

Data MiningData Mining

Data AnalysisData Analysis

以上案例中涉及的主要软件有哪些?以上案例中涉及的主要软件有哪些?

典型的数据分析系统包括哪四层?典型的数据分析系统包括哪四层?

联系方式:联系方式:

杨大川杨大川 dyang@minesage.comdyang@minesage.com电话电话 010010--5889588258895882

Recommended