49
2 Business Intelligence: A Managerial Perspective On Analytics, 3E 数据仓库 学习目标 理解数据仓库的基本概念和定义。 理解数据仓库架构。 描述数据仓库开发和管理的过程。 解释数据仓库的具体运作。 解释数据仓库在决策支持中扮演的角色。 解释数据集成以及数据提取、转换和加载过程。 描述实时数据仓库。 理解数据仓库的管理和安全问题。 20 世纪 80 年代后期出现了数据仓库的概念。本章介绍一种重要的高级数据库,即数据 仓库。数据仓库主要用于决策支持的分析功能。在本章的后续部分,我们会对数据仓库进行 探讨。 2.1 开篇小插曲:卡普里岛赌场利用企业数据仓库获胜 卡普里岛赌场(Isle of Capri Casinos )是一个独特的、具有创新精神的博彩企业。1992 年进入密西西比州比洛克西后,依托在美国东南部和中心地区的资产,卡普里岛赌场成为美 国最大的上市博彩公司之一。卡普里岛赌场有限公司目前在 7 个州拥有 18 个赌场,每年接 纳约 200 万游客。 挑战 虽然与博彩业的其他企业相比,卡普里岛赌场具有许多不同的优势,但卡普里岛赌场也 不是独无仅有的。与任何一个博彩公司相似的是,卡普里岛赌场的成功很大程度上依靠与顾 客的关系,也就是创造一种超出顾客预期的博彩娱乐环境的能力。实现这样的目标需要两个 因素:聚焦于为顾客创造愉悦体验的企业文化;使企业能够不断深入理解顾客和满足顾客需 求的数据和技术架构。 解决方案 2005 年,某种程度上由于卡特里娜飓风,卡普里岛赌场最初的数据仓库崩溃了。卡 普里岛赌场决定启动新的项目,将 Teradata 作为核心解决方案和合作伙伴,同时使用 IBM Cognos for Business Intelligence。做出这个决定后,卡普里岛赌场组建了一个管理团队,这 个团队清楚地理解 Teradata Cognos 解决方案的优势,使决策者能够方便地进行查询,解 决实时问题。 结果 由于应用了这样一个全面的数据仓库和商业智能解决方案,卡普里岛赌场得到了许多令 人满意的结果。该企业显著地加速了信息收集与传播过程,产生了约 150 份日报表、100 37

Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

第 2 章Business Intelligence: A Managerial Perspective On Analytics, 3E

数据仓库

学习目标

理解数据仓库的基本概念和定义。 ●理解数据仓库架构。 ●描述数据仓库开发和管理的过程。 ●解释数据仓库的具体运作。 ●解释数据仓库在决策支持中扮演的角色。 ●解释数据集成以及数据提取、转换和加载过程。 ●描述实时数据仓库。 ●理解数据仓库的管理和安全问题。 ●

20 世纪 80 年代后期出现了数据仓库的概念。本章介绍一种重要的高级数据库,即数据

仓库。数据仓库主要用于决策支持的分析功能。在本章的后续部分,我们会对数据仓库进行

探讨。

2.1 开篇小插曲:卡普里岛赌场利用企业数据仓库获胜

卡普里岛赌场(Isle of Capri Casinos)是一个独特的、具有创新精神的博彩企业。1992年进入密西西比州比洛克西后,依托在美国东南部和中心地区的资产,卡普里岛赌场成为美

国最大的上市博彩公司之一。卡普里岛赌场有限公司目前在 7 个州拥有 18 个赌场,每年接

纳约 200 万游客。

挑战

虽然与博彩业的其他企业相比,卡普里岛赌场具有许多不同的优势,但卡普里岛赌场也

不是独无仅有的。与任何一个博彩公司相似的是,卡普里岛赌场的成功很大程度上依靠与顾

客的关系,也就是创造一种超出顾客预期的博彩娱乐环境的能力。实现这样的目标需要两个

因素:聚焦于为顾客创造愉悦体验的企业文化;使企业能够不断深入理解顾客和满足顾客需

求的数据和技术架构。

解决方案

2005 年,某种程度上由于卡特里娜飓风,卡普里岛赌场最初的数据仓库崩溃了。卡

普里岛赌场决定启动新的项目,将 Teradata 作为核心解决方案和合作伙伴,同时使用 IBM Cognos for Business Intelligence。做出这个决定后,卡普里岛赌场组建了一个管理团队,这

个团队清楚地理解 Teradata 与 Cognos 解决方案的优势,使决策者能够方便地进行查询,解

决实时问题。

结果

由于应用了这样一个全面的数据仓库和商业智能解决方案,卡普里岛赌场得到了许多令

人满意的结果。该企业显著地加速了信息收集与传播过程,产生了约 150 份日报表、100 份

37

Page 2: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 29

周报表、50 份月报表,还有每天的即席查询。在没有应用 Teradata 企业数据仓库(Enterprise Data Warehouse, EDW)之前,卡普里岛赌场只能对每个赌场生成约 5 份月报表,但由于他

们需要花费一周或更多时间生成报表,所以每个赌场对月活动的分析只能等到下个月的第二

周才能开始。此外,这些报表都是一次性对整个月或更长时间段进行分析。现在,通常当天

就能获得对某一客户群的报表,使企业能够更加快速地对顾客需求做出反应。

卡普里岛赌场将每月直邮(direct mail)花费的时间缩短了一半,并且能够减少现场营销

的活动。除了行动更加迅速外,卡普里岛赌场对客户细分进行了研究,现在能够交叉引用不

同的属性,例如整体的顾客价值、博彩行为和酒店偏好,能够针对某一个客户群和某一行为

开展更加具有针对性的活动。

卡普里岛赌场通过将酒店系统与数据、顾客追踪系统相连,使管理人员和雇员能够深入

理解顾客行为,并因此改善营销活动和顾客服务水平。例如,酒店数据提供了有关本地顾客

的新洞察。反过来,这也使卡普里岛赌场能开展优惠措施,使顾客感到满意,提高了顾客忠

诚度。

酒店数据还改善了卡普里岛赌场的顾客接待程序。当一个极具价值的顾客到达酒店时会

自动通知酒店经理,通过这种方法酒店经理已经与重要客户建立了深入的联系。其中一个经

理写到“这是我至今见过的最好工具”。

由于 Teradata 将不同赌场的数据合并并集中在一个地点,所以现在卡普里岛赌场可以进

行更加准确的比较与分析。一个集中的内部站点生成每个赌场每天的数据,管理人员利用这

些数据可以比较老虎机和桌面游戏的收入以及赠送的赎回价值(complimentary redemption value)。此外,IBM Cognos Business Intelligence 工具可对其他方面进行比较,例如直邮活

动的价值、特定直邮活动的响应率、直邮激励的博彩收入、酒店房间预订的额外收入以及酒

店客房入住等情况。一个明显的好处是可以提高酒店的收入。

Teradata/ IBM Cognos 商务智能的实施首先改变了营销策略,将重点转移到顾客,多次

显示了将数据的力量应用到整个企业带来的价值。这包括对营销活动响应率的实时分析,以

及与客户价值和客户资产密切相关的盈亏数据的分析。一个例子可以显示这种集成的能力:

通过把顾客价值和赌场总利润联系起来,卡普里岛赌场深入理解了原来不可见的零售客户,

能够更加高效地定位营销活动,例如电台广告。

也许最重要的是,卡普里岛赌场已经开始加入老虎机数据。最直接、也是最重要的影响

是顾客价值会影响新机器的购买以及产品摆放的方式。在将来的某个时候,添加的老虎机数

据可能也会使卡普里岛赌场利用基于服务器的博彩,摆放的老虎机本质上成为计算机终端,

这使卡普里岛赌场在几秒内更换新游戏。

简而言之,由于定期将老虎机数据添加到数据仓库中,所以卡普里岛赌场能够使用数据

重新设计赌场的场地,并使用数据维护与顾客更加深入持久的关系,这些能力会超过项目的

任何初始预期。

开篇小插曲的问题

1. 为什么对卡普里岛赌场来说拥有一个企业数据仓库(EDW)如此重要?

2. 卡普里岛赌场面临的商业挑战或机遇是什么?

3. 卡普里岛赌场采用了怎样的过程实现 EDW ?评论卡普里岛赌场在开发 EDW 过程中

面临的潜在挑战。

4. 在卡普里岛赌场应用 EDW 有什么好处?你能给出案例中没有提到的其他好处吗?

38

Page 3: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

30 第 2 章

5. 为什么在博彩业中像卡普里岛赌场这样的大型企业即使没有数据仓库 / 商务智能基础

设施也能成功?

从开篇小插曲中可以学到什么

开篇小插曲显示了应用企业数据仓库和 BI 支持提供的企业战略价值。卡普里岛赌场能

够将它的数据集扩展至整个企业,使知识工作者使用数据集做出准确、实时的决策。数据仓

库将企业中的不同数据库集成到一个部门,生成该企业唯一的数据库,使企业从计划到营销

的所有决策者都可以获得相同的数据。此外,通过周期性地将老虎机数据和特定顾客的数据

加入数据仓库中,卡普里岛赌场显著地提高了使用数据重新设计赌场的地点以及使用数据维

护与顾客更加深入、持久关系的能力。这个案例的主要启示是企业数据仓库与配套的决策支

持策略能够为企业带来显著收益。

来源:Teradata, Customer Success Stories, teradata.com/t/case-studies/Isle-of-Capri-Casinos-Executive-Summary-EB6277(accessed February 2013).

2.2 数据仓库的定义和概念

综合运用实时数据仓库(Real-time Data Warehousing,RDW)、决策支持系统(Decision Support System,DSS)以及商务智能技术是实施业务流程的一种重要手段。在开篇小插曲

中,我们介绍了实时数据仓库支持企业决策的一个真实情景,即通过分析来自不同渠道的海

量数据支持关键流程。数据仓库存储统一的数据,并以一种易于理解的形式提供给使用者,

驱动卡普里岛赌场不断创新。通过实时数据仓库,卡普里岛赌场可以浏览公司业务的实时状

态,并快速识别问题,而这正是分析、解决问题的首要步骤。

决策者需要有关当前运营、趋势和变化的准确、可靠的信息,而数据往往分散于不同的

运营系统中,所以管理者常常根据部分信息做出决策。数据仓库通过访问、整合、组织关键

业务数据,使数据保持一致、可靠、及时和随时随地可用,克服了障碍。

2.2.1 什么是数据仓库

简单地说,数据仓库(Data Warehouse,DW)就是一个支持决策的数据池,同时还是企

业当前数据和历史数据的存储库。数据通常被组织成分析型流程可用的形式,例如在线分析

处理、数据挖掘、查询、报表和其他决策支持应用。数据仓库是一个面向主题的、集成的、

非易失的、时变的数据集合,用来支持管理者的决策。

2.2.2 数据仓库历史透视

虽然数据仓库是信息技术领域一个较新的术语,但其起源可以追溯到计算机还未普及的

年代。20 世纪早期,人们使用数据显示趋势,帮助商业用户制定明智的决策,这是数据仓

库一般的目标。

引发数据仓库技术发展的推动力要追溯到 20 世纪 70 年代,那时计算机领域被大型机控

制。真正的商业数据处理应用使用早期的数据库(不是现在广泛使用的面向表的关系数据库)

存储数据,拥有复杂的文件结构,并且在企业的大型机上运行。虽然这些应用在执行常规事

务性数据处理方面表现良好,但它们在操作中产生的数据(例如,顾客信息、顾客预订的产

品信息以及顾客的消费信息)被隐藏在文件和数据库中。如果用户需要获取集成的信息(例

如,各区域和各产品类别的销售趋势),首先向数据处理部门提出正式的申请,然后数据处

39

40

Page 4: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 31

理部门把该请求加入一个已经有几百个其他报表请求等候的列表中(Hammergren 和 Simon,2009)。虽然存在这样的需求,但数据库技术却无法满足。图 2-1 介绍了引导数据仓库发展

的重大事件表。

图 2-1 数据仓库发展的重大事件

20 世纪末,提供此问题解决方案的商业硬件和软件企业开始出现。1976 ~ 1979 年,

一个新企业(Teradata)在美国加州理工学院(Caltech)产生。数据仓库的想法是 Caltech与花旗银行先进科技部门的谈话所激发。创始人打算设计一个具有多个微处理器并行处

理的数据库管理系统,专门用于决策支持。1979 年 7 月,Teradata 公司在加利福尼亚

州 Brentwood 的一间车库中正式成立。选择 Teradata 这个名字主要是突出管理太字节

(terabyte)的能力。

20 世纪 80 年代是个人计算机和小型计算机的年代。真正的计算机应用不再仅仅运行

在大型机上;它们分布在各处——在企业中看到的任何地方。这导致了一个影响重大的问

题——数据孤岛(island of data)。针对此问题的解决方案产生一个新的软件类型——分布式

数据库管理系统,该系统将请求的数据从分布在企业各处的数据库中集中到一个地方,然后

进行合并分类,并且进行其他操作以回复用户的请求。虽然这个概念看起来很完善,并且早

期的研究结果也充满希望,但在真实情境中却不那么有效,并且数据孤岛的问题仍然存在。

同时,Teradata 开始推出商业产品来解决这个问题。美国富国银行(Wells Fargo Bank)在 1983 年使用了第一个 Teradata 测试系统,一个并行的 RDBMS(关系数据库管理系统)支

持决策——世界第一例。1984 年,Teradata 发布了产品的生产版本。1986 年,美国《Fortune》(财富)杂志提名 Teradata 为“年度产品”。Teradata 建立了首个数据仓库应用——结合硬件

和软件满足许多用户的需求。其他企业也开始规划自己的战略。

20 世纪 80 年代发生了许多事件,使得这 10 年成为数据仓库创新的时代。例如,Ralph Kimball 在 1986 年建立了红砖系统(Red Brick System)。红砖系统作为一个有远见的软件公

司,探索如何提升数据访问能力;1988 年,IBM 爱尔兰的 Barry Devlin 和 Paul Murphy 引

入了企业数据仓库(business data warehouse)的概念,作为企业信息系统的关键组件。

20 世纪 90 年代,出现了解决数据孤岛问题的一种新方法。如果 20 世纪 80 年代直接从

文件和数据库中获取数据的方法没有效果,20 世纪 90 年代又重新采用了 20 世纪 70 年代的

做法,将数据复制到另一个地点,只不过这次采用了比较恰当的做法。从此数据仓库产生。

1993 年,Bill Inmon 完成了启蒙书籍《 Building the Data Warehouse》,Bill 被公认为是数据

41

Page 5: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

32 第 2 章

仓库之父。其他的出版物也开始出现,包括 1996 年 Ralph Kimball 的《 The Data Warehouse Toolkit》,讨论了通用的维度设计技术,以提高以查询为中心的决策支持系统的数据架构。

进入 21 世纪后,数据仓库领域的流行度与数据量持续增长,开发商开始整合。2006 年,

微软收购 ProClarity 公司,正式进入数据仓库市场。2007 年,Oracle 公司收购 Hyperion,SAP收购了 Business Objects,IBM 收购了 Cognos。20 世纪 90 年代的数据仓库领导者已经被一些

世界上最大的信息系统解决方案提供商所吞并。在这个时期,也出现了一些其他的创新,包

括来自供应商的一些数据仓库应用,这些供应商包括 Netezza(被 IBM 收购)、Greenplum(被

EMC 收购)、DATAllegro(被微软收购),还出现了进行实时绩效监控的绩效管理应用系统。这

些创新的解决方案可以帮助企业节约成本,因为它们与数据仓库解决方案是兼容的。

21 世纪的前 10 年是大数据炒作的时代。许多人坚信大数据会对数据仓库产生影响,

或者能找到一个共存的方法(至少在这几年是最可能发生的情况),或者大数据(以及伴

随大数据产生的相关技术)淘汰传统的数据仓库。伴随大数据产生的技术包括 Hadoop、MapReduce、NoSQL 和 Hive。也许不久的将来我们能够看到一项技术将传统的数据仓库和

大数据的需求和能力结合起来。

2.2.3 数据仓库的特点

了解数据仓库的一个基本方法就是熟悉它的基本特点(Inmon,2005):面向主题的 ●  数据以某个具体的主题组织,例如销售、生产或者顾客,每个主题只

包括决策支持的相关信息。面向主题使用户可以确定业务如何开展及其原因。数据

仓库与操作型数据库有很大的不同,后者大多是以产品为导向,并且常常为了业务

处理而需要更新数据库 。面向主题提供了一个对企业进行分析更全面的视角。

集成的 ●  集成与面向主题密切相关。数据仓库需要将多个渠道的数据以一致的形式存储,

并解决数据集成导致的命名冲突、数据格式差异等问题。假定数据仓库是完全集成的。

时变性(时间序列) ●  数据仓库需要存储历史的业务数据,除非在实时系统中,否则

这些数据并不需要提供实时状态。数据仓库检测趋势、偏差和长期关系以便进行预

测和比较,从而支持业务决策。每个数据仓库都有时间属性,时间是所有数据仓库

都支持的一个重要维度。在数据仓库中,用于分析的数据包括不同的时间点,例如

日、周以及月等。

非易失性 ●  数据一旦被装入数据仓库后,用户就不能对其进行更改或更新。过时的

数据将会被丢弃,而更新的数据则作为新数据被记录下来。

上述这些特点极大地提高了数据仓库的数据存取能力。此外,数据仓库还有一些其他特点:

基于网络 ●  数据仓库通常被设计为基于网络应用,提供高效的计算环境。

关系的 / 多维的 ●  数据仓库常常是基于关系结构或者多维结构。最近的一个多维结构

调查可以在 Romero 和 Abelló 的文章中找到(Romero and Abelló,2009)。

客户端 / 服务器 ●  数据仓库运用客户端 / 服务器架构易于终端用户的访问。

实时 ●  新型的数据仓库已经能够提供实时或者动态的数据访问和分析能力(Basu 2003,Bonde and Kuckuk 2004)。

元数据 ●  数据仓库通过元数据(即关于数据的数据)来描述数据的组织方式以及如何

有效地使用数据。

虽然数据仓库是数据存储库,但数据仓库本质上是一个过程(Watson,2002)。数据

42

Page 6: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 33

仓库是一门学科,提供决策支持,允许实时访问商业信息,产生商业洞察力。数据仓库有

3 种主要类型:数据集市、操作数据存储(Operational Data Store,ODS)和企业数据仓库

(Enterprise Data Warehouse,EDW)。下面介绍这 3 种类型的数据仓库以及元数据。

2.2.4 数据集市

尽管数据仓库包含了整个企业的数据库,但数据集市(data mart)通常相对较小,并关

注于某一个特别的主题或部门。数据集市是数据仓库的一个子集,通常包括一个单独的主题

域,例如销售市场、企业运营等。数据集市可以是独立的,也可以是非独立的。非独立数据

集市是由数据仓库直接生成的一个子集,它具备稳定的数据模型,并提供高质量的数据。非

独立数据集市可以作为一个企业范围的数据模型存在,但必须建立在数据仓库的基础上,非

独立数据集市确保所有数据仓库用户浏览数据的一致性。高成本限制了数据仓库在大公司的

应用前景,作为替代品,更多的公司开始倾向于选择独立数据集市,这是一种低成本、低版

本的数据仓库。独立数据集市可以看做是支持某项业务决策或者某个部门的小型数据仓库,

但它的数据源并不是企业数据仓库。

2.2.5 操作数据存储

操作数据存储(ODS)提供了一种新型的客户信息文件(Customer Information File,CIF)。这类数据库通常作为某一个数据仓库中的临时存储区域。不同于数据仓库相对不变的

内容,ODS 中的数据在整个业务运营过程中不断更新。ODS 常常用于与核心应用相关的实

时决策,而不关心企业数据仓库的中期或长期决策。例如,数据仓库像是长期记忆,因为它

存储的是较长时间的数据,而 ODS 则像短期记忆,它只存储最新的数据。ODS 将多个系统

中的数据集成起来,提供对当前易变数据的近实时的、集成的视图。ODS 的数据提取、转

换和加载(本章后面讨论)过程与数据仓库的做法是一致的。当操作型数据需要多维分析时,

操作集市(oper mart)(Imhoff,2001)就会产生,操作集市的数据来源于 ODS。

2.2.6 企业数据仓库

企业数据仓库(EDW)是支持整个企业决策的大型数据仓库,这也正是我们之前提到

的卡普里岛赌场所建立的数据仓库类型。EDW 将不同来源的数据集成为一个标准形式,支

持商务智能和决策支持的有效运作。EDW 为多种决策支持系统提供数据,包括客户关系管

理(CRM)、供应链管理(SCM)、企业绩效管理(BPM)、业务活动监控(Business Activity Monitoring,BAM)、产品生命周期管理(Product Lifecycle Management,PLM)、收入管理

系统以及知识管理系统(Knowledge Management System,KMS)。应用案例 2.1 具体介绍了

应用企业数据仓库驱动的分析解决方案为公司带来的巨大利益。

应用案例 2.1 更好的数据计划:著名的 TELCO 公司使用数据仓库和分析在竞争激烈的行业保持领先地位

20 世纪 90 年代中期至晚期,移动服务提供商(即电信公司或简称为 TELCO)引发了

通信行业爆炸性增长,一直以来移动服务提供商享受着市场领头羊的优越感。但为了保持

竞争力,这些企业必须不断改善从顾客服务到定价的所有业务领域。事实上,老牌的电信

运营商面临着与新兴电信运营商相同的挑战:保留客户、降低成本、微调价格模型、提高

43

Page 7: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

34 第 2 章

顾客满意度、获得新顾客以及理解社交媒体在顾客忠诚度中扮演的作用。

在帮助运营商维护或提高市场地位方面,具有很强针对性的数据分析扮演了前所未有

的重要作用。下面介绍全球领先的移动服务提供商如何基于商业和顾客智能创造未来。

保留客户

众所周知,移动服务提供商处理服务请求的速度和效果直接影响了顾客满意度以及顾

客流失的倾向,但深入地判断哪些因素影响最大是一个挑战。

“如果我们能够追踪每个过程的具体步骤,我们就能够理解导致成功或失败的关键,”

阿根廷电话公司(Telefónica de Argentina)商业运营中心经理 Roxanne Garcia 认为:“我

们能够评估活动内和活动之间的工作流,预测性能指标,并提高顾客的整体满意度。”

该企业的解决方案是追溯项目,开始于 2009 年,配备了 10 个仪表盘。到现在,该企业已经

实现了 240 万美元的年收益,并节约了成本,缩短了准备时间,将顾客的流失率降低了 30%。

降低成本

在任何行业中,保持领先很大程度上取决于对成本的控制。对于法国布伊格电信

(Bouygues Telecom)来说,降低成本的方式是自动化。该企业通过基于 Teradata 的市场

运营管理系统 Aladin,实现了营销 / 通信附属产品的自动化管理。 这个举措使一年内电

子邮件活动和内容的产量增至 3 倍,同时节约成本超过 100 万美元。

“我们的目标是更加高产和负责,简化团队合作,标准化并保护我们的专门技术,”企

业项目组长和零售通信经理 Catherine Crrado 说。“ Aladin 通过减少低价值的任务,使团

队成员聚焦于增值工作,产生的结果更好也更加具有创造性。”

Aladin 带来的一个意外好处是其他部门也被激发起来,开始从呼叫中心支持到产品

启动过程部署相似的项目。

获取顾客

由于顾客拥有多个通信设备,许多国家的市场渗透率接近或达到 100%,所以获取新

顾客不再是一项简单的挑战。巴基斯坦最大的运营商 Mobilink 也面临着这样的挑战,它

们的市场中有 98% 的用户拥有预付费服务,常常需要额外购买通话时间。

“充值使我们的收入能够保持增长,对我们企业的发展非常重要。”商务智能部门的高

级经理 Umer Afzal 说 :“以前,我们缺少加强增量增长的能力。销售信息模型使我们具备

了这种能力,因为它帮助配送部门根据智能的数据驱动策略制定销售战略,使我们的供应

商保持充足的库存。”

最终,Mobilink 不仅使用户的费用提高了 2%,而且新顾客的获取也增加了 4%,销

售额也增加了 4%。

社交网络

社交网络的使用正在改变许多企业处理从顾客服务到销售、营销等所有业务的方式。

越来越多的运营商正在将注意力转向社交网络,以便更好地理解并影响顾客行为。

Mobilink 已经发起了一个社交网络分析项目,使企业能够尝试病毒式营销并识别那

些可以扮演品牌大使(band ambassador)的意见领袖。白俄罗斯电信运营商 Velcom 正在

寻找相似的关键影响者(key influencer),利用他们的社交影响力改善目前的顾客关系。同

时,瑞士电信 Swisscom 在后续的几月中计划将顾客的社交行为分析与其他分析相结合。

迎接挑战

每个市场都存在着独特的挑战,大部分移动运营商花费大量时间和资源创建、部署和

44

Page 8: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 35

完善计划,以应对每个挑战。随着移动通信行业和移动技术的发展,应对这些挑战的数据

分析技术也得到了改善。

健全的数据分析使用现有的顾客、商务和市场智能对未来的行为和结果进行预测和影

响。最后的结果是生成一个更加智慧、敏捷和成功的方法,赢得市场份额,提高盈利能力。

问题讨论

1. 对 TELCO 的主要挑战是什么?

2. 数据仓库和数据分析如何帮助 TELCO 克服这些挑战?

3. 为什么 TELCO 适合应用数据分析?

来源:Teradata Magazine,Case Study by Colleen Marble,“A Better Data Plan:Well-Established Telcos Leverage Analytics to Stay on Top in a Competitive Industry” http://www.teradatamagazine.com/v13n01/Features/A-Better-Data-Plan/(accessed September 2013).

2.2 元数据

元数据(metadata)是关于数据的数据(Sen,2004 ;Zhao,2005)。元数据描述了数据

的结构和部分意义,因此有助于数据的有效使用。Mehra(2005)指出,只有少数企业真正

理解元数据,而理解如何设计并执行元数据策略的企业就更少了。就用途而言,元数据通常

被定义为技术元数据或者业务元数据。模式是另一种观察元数据的视角,根据模式视角,我

们可以区分语法元数据(也就是描述数据语法的数据)、结构元数据(也就是描述数据结构的

数据)以及语义元数据(也就是在特定领域内描述数据含义的数据)。

下面,我们将解释传统元数据模式,以及如何通过一个全面的元数据集成方法实现

有效的元数据策略。这些方法包括本体论和元数据注册系统;企业信息集成(Enterprise Information Integration,EII);数据提取、转换和加载(ETL)以及面向服务的架构(Service-Oriented Architecture,SOA)。有效性、可扩展性、重用性、互用性、效率和性能、进化、

权限、灵活性、隔离、用户界面、版本控制、多样性以及维护成本低等都是建立一个成功的

元数据驱动企业的关键要素。

Kassam(2002)提出,构成业务元数据的信息能提高我们对传统数据(也就是结构化数

据)的理解。元数据的首要目的是提供数据的上下文。也就是说,元数据提供知识创造所需

要的丰富信息。尽管业务元数据的效率较差,但发挥了结构数据的更多潜能。上下文对于所

有的用户来说是不同的。在许多方面,元数据有助于将数据和信息转化为知识。Bell(2001)认为元数据为元业务架构奠定了基础,Tannenbaum(2002)解释了如何识别元数据的需求,

Vaduva and Vetterli(2001)对数据仓库中的元数据管理进行了综述,Zhao(2005)描述了

元数据管理成熟度的 5 个等级,分别是随机状态、发现、管理、优化和自动化。这 5 个级别

有助于理解一个企业在使用元数据的方式和效果方面处在哪个阶段。

元数据的设计、建立和使用以及元数据标准可能涉及伦理问题。这些问题包括元数据中

信息的收集和所有权,包括设计、收集和分离期阶段中的知识产权和隐私。这方面更详细的

内容可以参考(Brody,2003)。

2.2 节复习题

1. 什么是数据仓库?

2. 数据仓库与数据库有什么不同?

45

Page 9: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

36 第 2 章

3. 什么是操作数据存储?

4. 请给出数据集市、操作数据存储和企业数据仓库的不同。

5. 阐述元数据的重要性。

2.3 数据仓库流程概述

不管是私人还是公共组织,都会以不断增长的速度收集数据、信息和知识,并将它们存

储于计算机系统中。而这些数据和信息的维护和使用将变得极为复杂,特别是可扩展性问题

逐渐突显。除此之外,由于网络连接尤其是因特网的可靠性和可用性的改善,用户访问信息

的需求也在逐步增加。无论是否集成到一个数据仓库中,使多个数据库协调工作是极为困难

的,需要大量专业的知识,但带来的好处将远远超过其花费的成本。图 2-2 显示了 Teradata为一个汽车制造商设计数据仓库带来的收益。

图 2-2 数据驱动的决策——数据仓库的商业效益

应用案例 2.2 数据仓库帮助 MultiCare 拯救更多生命

2012 年的春天,美国华盛顿州塔科马港市 MultiCare 卫生系统(MultiCare Health System)体会到了为期 12 个月减少败血症项目的成果。

该项目得到了 MultiCare 最高领导的支持,他们采用数据驱动的方法,基于救治结果

中的差异和消耗的资源,区分护理改善的优先次序。结果表明,三家医院死亡率低于全国

平均值,一家医院死亡率远远低于全国平均值,因此对 MultiCare 来说,降低败血症死亡

率是重中之重。

2010 年 9 月,MultiCare 采用了 Health Catalyst 的一个针对健康护理的数据模型——

Adaptive Data Warehouse,以及后续的临床流程改善服务,通过组织结构和流程改善,评

估并影响护理质量。组织结构和流程改善是降低败血症死亡率的两个重要因素。

临床数据驱动改进

Adaptive Data Warehouse 对连续护理过程多个数据源中的数据进行组织并简化。

Adaptive Data Warehouse 成为观测护理改善机会和评估变化的唯一依据,同时也被证明是

结合临床、IT 和金融领导人以及推动责任落实改善绩效的重要方法。

由于复杂的合并症因素,定义败血症是非常困难的。MultiCare 与 Health Catalyst 合作

完善败血症的临床定义。Health Catalyst 的数据工作使 MultiCare 可以探索定义的边界,并

Page 10: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 37

最终确立一个能够定义败血症患者的算法。该项迭代工作增加了严重败血症群体的信心。

系统级重症监护合作

临床医师、技术人员、分析人员和质量小组的合作对加速 MultiCare 降低败血症死亡率是非

常重要的。它们合作处理 3 类关键任务——护理定义的标准、早期识别和护理标准的有效交付。

护理标准:严重败血症的规则集

重症监护合作将组织内的规则集合整合到一个系统级的标准中,对严重败血症患者进

行护理。无论在 MultiCare 的哪家医院,患有败血症的成年患者都会接受同样的护理。

早期识别:改进的早期预警系统

MultiCare 开发了一个改进的早期预警系统(MEWS)仪表盘,利用群体定义和临床

EMR 快速识别有恶化倾向的病人。MEWS 作为一个早期的检测工具,帮助医护人员持续

监视,以便提前采取干预措施。

有效交付:败血症代码

合作进行临床工作的最后一个关键任务是保证及时将定义的护理标准应用到患者的护

理上。这个模型在护理领域已经存在,称为“代码”过程。与其他“代码”过程(创伤代

码、神经代码、ST 段抬高心肌梗死代码)相似,MultiCare 的败血症代码旨在对严重败血

症患者进行高效的治疗。

仅仅在 12 个月的时间内,MultiCare 就能将败血症的平均死亡率降低 22%,同时使

成本节约了 130 多万美元。通过降低败血症成本和提高护理质量,人们期望在 MultiCare的其他领域也可以实现相似的成就,包括心力衰竭、急诊科绩效以及住院患者的吞吐量。

问题讨论

1. 你认为数据仓库在医疗保健系统中扮演了什么角色?

2. MultiCare 如何使用数据仓库改善医疗效果?

来源:healthcatalyst. com/success_stories/multicare-2(accessed February 2013).

多数组织都需要建立数据仓库来存储大量时序数据支持决策。这些来自内部和外部的不

同数据经过数据清洗和组织以满足决策的需要。一旦这些数据存储于数据仓库中,就可以建

立服务于某一特定域或部门的数据集市。也可以根据需要,先建立数据集市,然后将其集成

到企业数据仓库中。虽然通常不创建数据集市,但反复将数据加载到计算机或直接使用 BI工具针对原始数据直接操作。

图 2-3 展示了数据仓库的基本框架,以下是数据仓库流程的一些重要概念:

数据源 ●  数据来自于多个独立的“遗留”业务系统,或者一些外部数据提供商,如

美国统计局,也有可能来自在线交易处理系统或者 ERP 系统。而 Web 日志中的 Web数据也可以组建数据仓库。

数据提取和转换 ●  使用自定义的或者商业 ETL 软件提取并转换数据。

数据加载 ●  将数据加载到数据准备区中,进行数据转换和清洗,然后加载到数据仓

库或者数据集市中。

综合数据库 ●  从本质上来说,综合数据库是指通过提供不同来源的概括和详细数据,

支持所有决策分析的企业数据仓库。

元数据 ●  元数据需要定期维护,以供信息技术人员和用户评估。元数据包括与数据

及组织规则相关的软件程序,用于组织数据概要,以便于索引和查询,尤其是利用

网络工具。

46

~

47

Page 11: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

38 第 2 章

中间件 ●  中间件工具驱动数据仓库中的数据访问。高级用户(例如分析师)可以通

过编写 SQL 查询语句,而其他人则可借助可控的查询环境(如 Business Objects)访

问数据。业务人员可以使用多种前端应用程序与存储在数据仓库中的数据进行交互,

包括数据挖掘、OLAP、报表工具以及数据可视化工具。

图 2-3 数据仓库框架概览

2.3 节复习题

1. 描述数据仓库流程。

2. 描述数据仓库的重要组件。

3. 识别并讨论中间件扮演的角色。

2.4 数据仓库架构

有多种基本的信息系统架构可以用于数据仓库设计。大体来说,这些架构通常是客户端 /服务器架构或者多层架构,其中最常用的是两层和三层架构,如图 2-4 和图 2-5 所示,但有时

也会出现单层架构。多层架构可以满足大规模、性能要求高的信息系统的需求,例如数据仓

库。就数据仓库中多层架构的应用而言,Hoffer et al.(2007)将数据仓库划分为 3 个组成部分:

1)数据仓库本身,包括数据和相关的软件。

2)数据采集(后端)软件,用于从遗留系统和外部数据源中提取数据,然后合并和汇

总,再加载到数据仓库。

3)客户端(前端)软件,例如决策支持系统、商务智能系统、业务分析引擎,允许用

户对数据仓库进行数据存取和数据分析。

在三层架构中,数据和用于数据采集的软件是一层(也就是数据库服务器),数据仓库

是另一层,第三层包括决策支持系统、商务智能系统、业务分析引擎等(也就是应用服务器)

以及客户端,如图 2-4 所示。数据仓库中的数据经过 2 次处理,存储于附加的多维数据库

中,用于简单的多维分析和数据展示,或者复制到数据集市中。三层架构的优势在于不同功

48

Page 12: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 39

能的分离,它消除了资源的限制,这样建立数据集市变得更为简单。

如图 2-5 所示,在两层架构中,决策支持系统引擎与数据仓库运行于同一硬件平台上,

这比三层架构更经济。但对于处理数据密集型决策支持应用的大型数据仓库而言,两层架构

可能会出现性能问题。

图 2-4 三层数据仓库架构 图 2-5 两层数据仓库架构

通常人们秉持一种绝对主义的方法,认为其中一种解决方案优于另一种解决方案,而没

有考虑组织的环境和独特需求。许多咨询顾问和软件供应商只关注数据仓库架构的某一部

分,限制了它们的能力和动机,使它们无法正确地帮助组织选择合适的架构,使得架构的选

择变得更为复杂。人们正在对此进行质疑和分析。Ball(2005)为组织的商务智能实施提供

了决策标准,这些组织计划实现商务智能应用,需要使用多维数据集市,但需要在层次架构

选择方面得到帮助。Ball 的标准包括对数据访问的空间和速度需求进行预测。

数据仓库和因特网是管理企业数据的两大关键技术,它们的结合产生了基于 Web 的数据

仓库。如图 2-6 所示,基于 Web 的数据仓库的架构是一种包括 PC 客户端、Web 服务器和应

用服务器的三层架构。在客户端,用户

通过熟悉的图形用户界面(Graphical User Interface,GUI)获得因特网连接和网络浏

览器。因特网 / 内部网 / 外部网则是客户

端和服务器的通信媒介。在服务器端,借

助数据仓库和应用服务器,Web 服务器对

客户端和服务器之间的信息流入和流出进

行管理。基于 Web 的数据仓库在数据易于

访问、平台独立性和低成本方面具有比较

显著的优势。

图 2-6 基于 Web 的数据仓库的架构 美国 Vanguard Group 采用基于 Web的三层架构进行数据集成,为顾客提供与内部用户相同的数据视图(Dragoon,2003)。类似

地,希尔顿酒店将所有独立的客户端 / 服务器(C/S)系统迁移到一个三层架构的数据仓库。

这个举动为希尔顿酒店带来了 380 万美元的投资(不包括劳动力),涉及 1500 名用户,公

司的处理效率(速度)提高了 6 倍。当数据仓库配置完成后,预计每年会为希尔顿酒店节约

450 ~ 500 万美元。此外,希尔顿酒店使用 DELL 的集群技术(即并行计算)加强数据仓库

的扩展性以及处理速度。

数据仓库的 Web 架构在结构上与其他数据仓库架构相似,需要确定将 Web 数据仓库存

储在事务服务器还是独立的服务器上。在基于 Web 应用的设计过程中,页面的载入速度极

为重要,因此需要仔细计算服务器的承载能力。

Page 13: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

40 第 2 章

当确定使用何种架构时,还需要考虑以下几点:

使用何种数据库管理系统 ● (Database Management System,DBMS)?大多数的数据仓库

是基于关系数据库管理系统(Relational Database Management System,RDBMS)建立的。

Oracle(oracle.com)、SQL Server(microsoft.com/sql/) 和 IBM 的 DB2(306.ibm.com/software/data/db2)都是常用的关系数据库。这些产品都支持 C/S 架构和 Web 访问。

是否使用并行处理或分区? ● 并行处理使多个 CPU 可以同时处理数据仓库查询请求,

提高了数据仓库的可扩展性。数据仓库设计人员需要确定是否对表进行划分,以便

提高数据访问的效率。如果需要对表进行划分,还要确定划分标准。这对于存储大

数据量的典型数据仓库来说非常重要。对数据仓库的并行和分区的最新研究可以参

考 Furtado(2009),Teradata (Teradata.com)已经成功地应用了该方法。

是否使用数据迁移工具加载数据? ● 将数据从当前系统转移到数据仓库的过程极为繁

琐,耗费大量人力。依赖于数据资产的多样性和存储位置,数据迁移可能相对简单,

或者需要长达 1 个月的时间。是否使用迁移工具取决于对现有数据资产的全面评估

结果,如果确定使用迁移工具,同时还要考虑这些商业工具的具体性能。

使用何种工具进行数据检索和数据分析? ● 通常情况下需要定期使用特定工具对数据

进行定位、访问、分析、提取和转换,并最终加载到数据仓库中。但需要确定数据

迁移工具究竟是自行开发还是从第三方购买,或者直接使用数据仓库系统中的自带

工具。而一些过于复杂和实时的迁移则需要使用特定的第三方 ETL 工具。

2.4.1 可选的数据仓库架构

从最高层来看,数据仓库架构可以分为企业级数据仓库(EDW)和数据集市(DM)架

构两种(Golfareli and Rizzi,2009)。在图 2-7 中,除了展示了以上两种基本架构之外,还

展示了介于或超越传统架构的基本数据仓库架构,其中值得注意的是星形拓扑架构(Hub-and-Spoke)和联合架构。这 5 种架构是由 Ariyachandra 和 Watson(2005、2006a 和 2006b)提出的。而在此之前,Sen and Sinha(2005)总结了 15 种不同的数据仓库开发方法。这些

方法分别来自核心技术供应商、基础设施供应商和信息建模公司。

a. 独立数据集市架构 这种架构被认为是最简单的、实施成本最低的数据仓库架构。

数据集市独立运作,为组织的各个部门提供服务。由于数据集市的独立性,所以可

能会存在不一致的数据定义以及不同的维度和度量。由于无法保证数据的唯一性和

真实性,所以难以实现跨多个数据集市的数据访问。

b. 数据集市总线架构 数据集市总线架构是独立数据集市的一种可行的替代,适合于

多个数据集市被中间件连接的情况。由于数据集市之间是相互关联的,所以至少在

元数据级上,比较容易维护整个企业数据的一致性。虽然这种架构允许数据集市之

间的复杂数据查询,但这种类型的分析性能可能无法令人满意。

c. 星形拓扑架构 这可能是目前最著名的数据仓库架构,它关注建立一个可扩展的、

可维护的架构,包括集中的数据仓库和一些服务于专门组织单元的非独立数据集市,

通常用多个主题迭代的方式开发。这种架构考虑到了用户界面和报表的简单和定制

化,但缺乏企业全局观,容易形成数据冗余和数据延迟。

d. 集中数据仓库架构 集中数据仓库架构与星形拓扑架构很相似,不同之处在于,它没有

非独立数据集市,用一个巨型企业数据仓库服务于所有的组织机构。这种集中的方法使

49

~

51

Page 14: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 41

得用户不再受限于数据集市,可以对数据仓库中的所有数据进行访问。这减少了技术团

队所需转换的数据量,简化了数据的管理和监控。如果正确设计和实施这种架构,那么

企业中的任何人都可以随时随地地对企业进行及时、全面的了解。Teradata 公司主张采

用集中数据仓库架构,建议使用没有任何数据集市的数据仓库,如图 2-8 所示。

e. 联邦数据仓库架构 联邦数据仓库架构是开发完美系统的妥协。联邦数据仓库架构

使用各种可能的方法,以满足不断变化的需求和商业状况。从本质上来说,联邦方

法需要集成不同的系统。在联邦架构中,现有的决策支持架构被保留下来,按照需

求从这些数据源对数据进行访问。联邦方法需要中间件供应商提供分布查询和连接

功能。用户使用基于可扩展标记语言(Extensible Markup Lauguage,XML)工具,

例如数据仓库、数据集市、网站、文档和运营系统等,可以对分布的数据源进行全面

监控,当用户选取查询目标并按下查询按钮时,这些工具会对分布的数据源进行自动

查询,并将查询结果综合起来,最终展现给用户。大多数专家认为在性能和数据质量

方面,联邦方法对数据仓库是一种补充而不是替代(Eckerson,2005)。

图 2-7 可选的数据仓库架构

来源:T.Ariyachandra and H.Watson, “Which Data Warehouse Architecture Is Most Successful?”Business Intelligence Journal,Vol.11,No.1,First Quarter,2006,pp.4-6。

52

~

54

Page 15: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

42 第 2 章

图 2-8 Teradata 公司的企业数据仓库

来源:由 Teradata 公司(teradata.com)提供,使用得到许可。

Ariyachandra and Watson(2005)总结了潜在影响数据仓库架构选择的 10 个因素:

1)组织单元之间的信息独立性。

2)上级管理的信息需求。

3)对数据仓库需求的紧迫性。

4)终端用户任务的性质。

5)资源限制。

6)数据仓库实施前的战略考虑。

7)与现行系统的兼容性。

8)内部 IT 员工的理解能力。

9)技术性问题。

10)社会因素和政治因素。

这些因素与信息系统开发项目、决策支持系统(DSS)和商务智能项目等文献中描述的

成功因素相似。技术问题不仅仅是提供可用的技术很重要,而且经常不像行为问题那样重

要,例如满足上层管理的信息需求、开发过程中的用户参与(社会 / 政治因素)。每种数据仓

库架构都有适用的应用场景,为组织提供最大价值。整体上,数据集市在实践中效果是最差

的。有关这方面更详细的信息可以参考 Ariyachandra and Watson(2006a)。

2.4.2 哪种架构最好

自从数据仓库成为现代企业的一个重要组成部分后,哪种数据仓库架构最好已成为人

们热议的问题。数据仓库领域的两大学者 Bill Inomn 和 Ralph Kimball 是讨论的中心,Bill Inomn 认为星形架构最好,而 Ralph Kimball 则主张数据集市总线架构比较好。其他架构也

可能是最优的,但这两种数据仓库架构是完全不同的,每种架构都有各自的忠实支持者。为

了弄清楚这个问题,Ariyachandra and Watson(2006b)进行了一项调查研究。通过网络问卷

a)独立数据集市架构

源系统

ETL 暂存区

独立数据集市(原子数据 / 摘要数据)

终端用户访问与应用b)数据集市总线架构(与维度数据集市相链接)

源系统

ETL 暂存区

由多个维度连接的多维数据集市(原子数据 / 摘要数据)

终端用户访问与应用c) 星形拓扑架构(企业信息工厂)

源系统

ETL 暂存区

规范化的关系型数据仓库(原子数据)

依存的数据集市(摘要数据和一些原子数据)

终端用户访问与应用d)集中数据仓库架构

源系统

ETL 暂存区

规范化的关系型数据仓库(原子数据和一些摘要数据)

终端用户访问与应用e)联邦数据仓库架构

现有的数据仓库、数据集市和遗留系统

数据映射 / 元数据

普通数据元素的逻辑 / 物理集成

终端用户访问与应用图 2-7

Page 16: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 43

的方式,从参与数据仓库实施的人员中收集数据。网络问卷的具体内容包括反馈者的相关信

息、反馈者所在的公司、反馈者的公司所使用的数据仓库以及数据仓库架构成功与否。

Ariyachandra 和 Watson 最后回收了 454 份调查问卷。调查涵盖了从年收入小于 1000 万

美元的小型企业到年收入超过 100 亿美元的大型公司。其中 60% 的公司位于美国且从事不

同的行业,其中金融服务行业的反馈最多,达到了 15%。调查结果表明,最优秀的数据仓库

架构是星形拓扑架构,支持率达到了 39% ;其次总线架构的支持率为 26%,集中架构的支

持率为 17%,独立数据集市的支持率为 12%,联合架构的支持率为 4%。主流数据仓库平台

Oracle、Microsoft 和 IBM 的普及率分别是为 41%、19% 和 18%。每种数据架构的平均毛利

润也从独立数据集市的 37 亿美元到联合架构的 60 亿美元不等。

Ariyachandra 和 Watson 使用 4 种指标来度量数据仓库架构的成功:1)信息质量;2)系统质量;3)个人影响;4)组织影响。每个问题满分为 7 分,分数越高,架构越成功。每

种架构 4 种指标的平均得分如表 2-1 所示。

表 2-1 各种架构成功的平均评价得分

独立数据集市 总线架构 星形拓扑架构 集中架构(没有非独立的数据集市) 联合架构

信息质量 4.42 5.16 5.35 5.23 4.73

系统质量 4.59 5.60 5.56 5.41 4.69

个人影响 5.08 5.80 5.62 5.64 5.15

组织影响 4.66 5.34 5.24 5.30 4.77

Ariyachandra 和 Watson 的研究表明,独立数据集市在所有的指标中得分都是最低,这

个结论证实了人们的传统看法:独立数据集市是一种比较差的架构。其次是联合架构。当公

司由于收购和合并存在不同决策支持平台时,至少短期内公司会选取联邦数据仓库架构,而

这个结论也说明了联邦数据仓库架构并不是最优的长期选择。有趣的是,总线架构、星形拓

扑架构和集中架构的得分却没有太大的差距,因此,利用简单比较评价指标,我们无法证明

某种架构比其他架构更为优越。

Ariyachandra 和 Watson 同时也收集了一些关于数据仓库领域(包括从最小的子单元到

全企业范围)以及数据仓库大小(也就是数据存储量的相关信息)的数据。他们发现大多数

企业级实施以及大型数据仓库都采用星形拓扑架构。此外,他们也收集了不同架构实施所需

要的成本和时间信息。其中,星形拓扑架构成本最高,且费时最长。

2.4 节复习题

1. 两层架构和三层架构的相同点和不同点是什么?

2. Web 如何影响数据仓库的设计?

3. 列出本章提到的可选数据仓库架构。

4. 在开发数据仓库中选取数据仓库架构应注意什么?列出最重要的 10 点。

5. 哪种数据仓库架构最好?为什么?

2.5 数据集成以及提取、转换和加载过程

全球竞争压力、投资回报率(ROI)、管理和投资咨询以及政府法规迫使管理者重新思考

如何集成和管理业务。决策者通常需要访问不同来源的整合数据。在数据仓库、数据集市和

商务智能套件产生之前,访问数据源是一项重要而艰苦的工作。即便使用基于 Web 的现代

55

Page 17: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

44 第 2 章

数据管理工具,访问什么数据以及如何将数据展示给决策者需要数据库专业人员。随着数据

仓库容量的增加,数据集成技术也不断发展。

业务分析需要进一步发展。合并和收购的发生、监管要求以及新渠道的引入都将驱动商

务智能需求的改变。除了历史的、清洗后的、合并的以及时间点的数据外,业务用户对即

时的、非结构化的和远程数据的需要也在逐渐增加,而这些数据都要与数据仓库中的内容集

成。通过 PDA、语音识别和语音合成访问数据越来越普遍,这进一步使数据集成问题复杂

化(Edward,2003)。许多集成项目出现在企业级的系统中。Orovic(2003)列出了集成项

目中哪些工作起作用和哪些工作不起作用。在不同数据库之间或者不同数据源之间实现正

确的数据集成是困难的。一旦数据集成失败,就会给客户关系管理(CRM)、企业资源规划

(ERP)和供应链管理(SCM)等项目带来灾难(Nash, 2002)。

2.5.1 数据集成

数据集成包括 3 个重要阶段,一旦数据集成成功,数据以及 ETL、分析工具和数据仓库

环境均可被访问。这 3 个阶段包括:数据访问(从数据源中访问和提取数据的能力);数据

合并(不同数据源之间的业务集成);变化捕获(基于企业数据源变化的识别、捕获和传送)。

应用案例 2.3 介绍了 BP 润滑油公司如何从数据仓库实施中的数据集成受益。此外,像 SAS软件公司这样的产品供应商也已开发出强大的数据集成软件。SAS 公司的数据集成服务器包

括在集成过程中提高数据质量的客户数据集成工具。Oracle 商务智能套件也支持数据集成。

应用案例 2.3 BP 润滑油实现 BIGS 成功

BP 润 滑 油(BP Lubricants) 在 并 购 后 实 施 了 商 务 智 能 和 全 球 标 准 化(Business Intelligence and Global Standard,BIGS)项目,旨在发布全球统一和透明的业务信息。与

实时商务智能一样,BIGS 为财务、市场、销售、采购和物流等环节提供了一致和详细的

信息展示。

BP 公司是世界上最大的石油石化集团之一,BP 润滑油作为 BP 公司的一部分,在全

球汽车润滑油市场中名列前茅。BP 润滑油最出名的润滑油品牌是 Castrol,它的业务范围

跨越 100 多个国家,雇员人数高达 1 万。在战略上,BP 润滑油以专注客户服务,提高在

汽车市场的效能为核心。在最近的并购之后,BP 润滑油正在经历公司转型,提高效率和

灵活性,以便抓住机会快速增长。

挑战

并购后,BP 润滑油希望提高信息管理和商务智能的一致性、透明性和可访问性。为

此,公司必须对不同源系统中的数据进行集成,没有延误标准化 ERP 系统的引入。

解决方案

出于信息管理和商务智能的战略考虑,BP 润滑油开始率先实施 BIGS 项目。BIGS 的

核心是 Kalido,一种自适应准备、实施、运营和管理企业数据仓库的解决方案。

Kalido 的联邦数据仓库解决方案支持先期项目所需的复杂数据集成以及各种报表需求。

为了适应项目对不断变化的报表需求,这个软件在保存所有信息的前提下,实现信息架构的

快速方便修改。系统集成和存储了多种源系统的信息,为以下各个环节提供一致的数据支持:

56

57

Page 18: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 45

营销 ●  通过深度探讨发票层详细信息,可以观察客户收益以及细分市场利润。

销售 ●  增加详细的关税成本和实际支付额的销售发票报表。

财务 ●  具备审计能力的全球标准化的损益表、资产负债表和现金流量表;客户负债

管理供应和物流;订单同步以及跨多个 ERP 平台的动态流程。

收益

通过提高数据的可见性和即时性,BIGS 提供了大量信息,帮助企业识别业务机会,

以便实现公司效益的最大化,并管理相关的成本。BIGS 项目中的数据同步为 BP 公司带

来的好处主要有以下方面:

提高业务数据的一致性和透明性。 ●轻松、快速和灵活的报表。 ●全球标准和当地标准的适应。 ●快捷、低成本以及灵活的实施周期。 ●最小化对当前业务流程和日常业务的影响。 ●识别数据质量问题,并做出解决方案。 ●提高对新业务机会的智能反应能力。 ●

问题讨论

1. 什么是 BIGS ?

2. BIGS 遇到了什么挑战?提出了什么解决方案?取得了什么结果?

来源:Kalido,“BP Lubricants Achieves BIGS,Key IT Solutions,”www.kalido.com/customer-stories/bp-plc.htm(accessed July 2013); and BP Lubricant homepage, bp.com/lubricanthome.do (accessed July 2013).

数据仓库的主要目的是集成不同系统中的数据。提供数据和元数据集成的主要技术有以

下几种:

企业应用集成( ● EAI)。

面向服务的架构( ● SOA)。

企业信息集成( ● EII)。

数据提取、转换和加载( ● ETL)。

企业应用集成(Enterprise Application Integration,EAI)提供了从源系统向数据仓库推

送数据的媒介。EAI 具备集成应用的功能,关注系统之间功能的共享,而不是数据的共享,

保证了灵活性和重用性。传统上,EAI 解决方案主要关注应用程序接口层的应用重用问题;

而现在,EAI 使用定义和记录良好的粗粒度 SOA 架构,得到了进一步的完善。使用 Web 服

务是实施 SOA 架构的专用方法。EAI 可以用于近实时数据仓库中的数据采集,或者将决策

信息传送至 OLTP 系统中。EAI 的实施手段和工具有很多种。

企业信息集成(Enterprise Information Integration, EII)允许关系数据库、Web 服务以及

多维数据库等多个数据源之间的实时数据集成。EII 是一类从源系统中提取数据以满足信息

需求的机制。EII 工具使用预订义的元数据,以视图的模式将集成后的数据用关系数据的形

式展现给终端用户。XML 可能是 EII 最为重要的一部分,XML 使数据在产生和使用中都可

以被加上标签,这些标签可以被扩展、修改,以适应任何领域的知识(Kay,2005)。

物理数据的集成已经成为在数据仓库和数据集市中建立数据集成视图的惯例做法。随着

58

Page 19: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

46 第 2 章

EII 工具的出现,虚拟数据的集成也变得可能(Kay, 2005)。Manglik and Mehra(2005)讨

论了新数据集成类型的好处和不足,这种类型将传统物理方法扩展到一种全面的企业视角。

下面我们将讨论向数据仓库中加载数据的方法:ETL。

2.5.2 提取、转换和加载

数据仓库的核心技术流程是提取、转换和加载(Extraction、Transformation and Load,ETL)。ETL 技术已经存在一段时间了,对数据仓库的流程和使用有帮助。ETL 流程是任何

以数据为中心项目的集成组件。ETL 通常需要占用以数据为中心项目的 70% 的时间,这对

于任何一个 IT 管理人员来说都是一种挑战。

ETL 流程包括提取(从一个或多个数据库中读取数据);转换(将提取后的数据由一种数

据类型转换为另一种数据类型,以便于存储在数据仓库或者其他简单的数据库中);加载(将

数据存入数据仓库中)。通过使用规则、查询表或者合并数据实现数据的转换。这三种数据

库功能被集成于一个工具中,用于将数据从一个或多个数据库中提取出来,并加载到另一个

集成数据库或者数据仓库中。

ETL 工具经常在不同的源和目标之间进行数据传送,并记录在源和目标之间移动时的数

据元素(例如,元数据)变化,在需要时与其他的应用交换元数据,并管理所有运行的流程

和操作(例如,调度计划、错误管理、检查日志和统计数据等)。ETL 对数据集成和数据仓

库非常重要。ETL 的目的是向数据仓库中加载集成和清洗后的数据。ETL 流程中使用的数

据可以来自不同的数据源:大型机应用、ERP、CRM、平面文件、Excel 电子数据表,甚至

消息队列。图 2-9 描绘了 ETL 流程。

图 2-9 ETL 流程

将数据迁移到数据仓库,需要从所有相关数据源中提取数据。数据源包括 OLTP 数据

库、电子数据表、个人数据库(如 Microsoft Access)以及外部文件。通常,所有的输入文件

先被写到一个分段传输的表集合中,这便于数据加载过程。数据仓库包括大量的业务规则,

这些规则定义数据如何使用、数据汇总、属性的标准化以及计算规则。在数据加载到数据仓

库之前,需要净化源文件的数据质量。结构良好的数据仓库的优点之一就是把这些规则存储

在元数据库中,并且可以直接用于数据仓库设计。这与 OLTP 的做法不同,OLTP 中的数据

和业务规则分散在整个业务系统中。数据仓库中数据加载的过程既可以使用提供图形用户界

面(GUI)的数据转换工具,也可以使用 PL/SQL、C++、Java、.Net 等编程语言,自行编写

软件或实用工具加载数据仓库来实现。这对组织来说通常是艰难的,当组织确定购买数据转

换工具或者自行编写数据转换程序时,会受到以下几个问题的影响:

Page 20: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 47

数据转换工具很贵。 ● 学习数据转换工具费时较长。 ● 在 IT 部门学会使用数据转换工具前,很难评估 IT 部门的表现。 ●

从长期来看,转换工具应该简化数据仓库的维护,同时使检测和纠错更有效率(也就是

删除数据中的异常部分)。OLAP 和数据挖掘工具将依赖于数据转换的效果。

作为 ETL 使用的成功范本,Motorola 公司借助 ETL 工具从 30 个不同的采购系统中收

集数据,并将其传送到全球 SCM 数据仓库中,分析公司总支出 (Songini, 2004)。

Solomon(2005)将 ETL 技术划分为 4 大类:复杂的、使能的、简单的和基础的。通

常,我们认为复杂的 ETL 技术会使数据仓库项目文档完备且管理精确。尽管自行开发 ETL工具是可行的,但使用现有的 ETL 工具更为简单。以下是一些选择 ETL 工具的重要标准

(Brown, 2004): 多个数据源架构下的数据读 / 写能力。 ● 自动捕获和传输元数据。 ● 符合开放标准。 ● 为开发者和用户提供了简单易用的界面。 ●

ETL 的广泛使用标志着数据管理的贫乏以及相关数据管理策略的不足。Karacsony(2006)曾提出冗余数据的扩大化和 ETL 流程的数量之间存在着直接关系。当数据作为企业资产被

正确管理时,ETL 的效果就会大大地降低,同时冗余数据也会消除。这大大节约了维护成

本,提高了新项目开发的效率,同时改善了数据质量。不合理的 ETL 设计将会大大增加维

护、修改以及更新的成本。因此,正确选择开发和维护 ETL 过程所使用的技术和工具是非

常重要的。

目前有许多可用的 ETL 软件包。数据库供应商目前提供的 ETL 软件包与独立的 ETL工具相比在功能上略有改善。SAS 意识到数据质量的重要性,提出了行业界第一个完全

集成的解决方案,它将 ETL 和数据质量两方面因素结合起来,使数据真正转换为有战略

价值的资产。除了 SAS 外,市场上还有一些其他的 ETL 软件商,如微软、Oracle、IBM、

Informatica、Embarcadero 和 Tibco。ETL 更详细的信息请参考 Golfarelli and Rizzi(2009)、Karacsony(2006)和 Songini(2004)的相关文献。

2.5 节复习题

1. 数据集成是什么 ?2. 描述 ETL 流程的 3 个阶段。

3. 为什么 ETL 流程对于数据仓库如此重要?

2.6 数据仓库的开发

对于任何组织来说数据仓库项目都不是轻松的任务,而且比简单地选择主机(mainframe)和实施项目更复杂,因为这种项目不仅涉及和影响多个部门以及输入 / 输出接口,还是

CRM 商业战略的一部分。数据仓库带来的好处可以分为直接利益和间接利益,其中直接利

益包括以下几个方面:

终端用户以多种方式进行广泛的分析。 ●实现企业数据的一致性,也就是数据的单一版本。 ●

59

~

60

Page 21: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

48 第 2 章

更好、更及时的信息,数据仓库允许信息处理从高成本的操作系统转向低成本的服 ●务器,因此终端用户的信息请求得以快速执行。

提高系统性能。由于一些业务系统报表请求被转向 ● DSS,所以数据仓库释放了一些

业务处理工作。

数据访问更为简便。 ●间接利益由终端用户享用直接利益的过程产生。总的来说,这些利益加强了企业的业

务知识,展现了企业的竞争优势,提升了客户的服务和满意度,促进了决策制定,并且有

助于改进业务流程,因此显著提升了企业竞争优势(具体了解数据仓库如何提升企业竞争

优势,可以参考 Parzinger and Frolick,(2001);了解组织如何获取额外回报,可以参考

Waston et al.(2002)。考虑数据仓库的潜在利益以及需要的时间和大量的资金投资,组织

需要使数据仓库项目成功的机会最大。此外,组织还需要考虑成本。Kelly(2001)描述了

一个考虑管理人员(通过改进传统决策支持功能来节约成本)、采集人员(通过自动化进行

信息采集和传播来节约成本)和使用人员(通过使用数据仓库制定决策来节约成本或获利)

等三类人利益的投资回报率方法。成本包括硬件、软件、网络带宽、内部开发、内部支

持、培训、外部咨询等方面。而净现值(Net Present Value,NPV)则以数据仓库的预期使

用年限进行计算。这些利益被上述三方瓜分,其中管理人员占将近 20%,采集人员占 30%,

而使用人员则占到 50%。Kelly 认为使用人员应该参与数据仓库开发过程中,这将作为度量

系统是否成功的要素。

应用案例 2.4 介绍了日本 Hokuriku Coca-Cola 瓶装公司(HCCBC)的数据仓库开发过

程,及其带来的巨大竞争优势。这套系统带来的巨大成功使 Hokuriku Coca-Cola 瓶装公司计

划将该系统扩展至全日本境内超过 100 万台 Coca-Cola 自动售货机上。

应用案例 2.4可口可乐公司使用数据仓库改善业务

面对竞争压力和消费需求,一个成功的瓶装公司如何确保自动售货机是可盈利的?对

于 HCCBC 来说,这个问题的答案就是 Teradata 的数据仓库和分析软件。HCCBC 建立数

据仓库是为了应对竞争对手 Mikuni 公司开发的一套数据仓库系统。HCCBC 的数据仓库

不仅能收集历史数据,同时还能从各个自动售货机中收集近实时数据。它将每一个自动

售货机作为一个门店,自动售货机中的数据通过无线网络传送至总部。这个项目开始于

2001 年。数据仓库提供了详细的产品信息,包括每次销售发生的具体时间和日期、某种

产品卖出的时间、是否少找了某个顾客的钱以及某个机器是否发生了故障。以上任何一种

情况都会触发警报,然后自动售货机立刻通过无线传输系统将报告传送到数据中心。美国

可口可乐公司曾使用调制解调器在自动售货机和经销商之间传送信息,并持续了 10 年。

2002 年,HCCBC 进行了一项初步试验,将其位于长野县的所有自动售货机连接到无

线网络,收集每台售货机的近实时销售网点的数据。试验结果令人震惊,所有的售货机都

可以精确预测需求和快速识别问题,销售总额也增加了 10%。此外,由于售货机服务的

精准化,延时和其他费用减少了 46%,每个店员服务的自动售货机数目也提高了 42%。

由于这次试验的圆满成功,所以 HCCBC 计划采用实时数据仓库,将这种实验扩大到

全公司范围内(6 万台机器)。最终,这个数据仓库解决方案将扩展到整个可口可乐瓶装

网络,以致全日本超过 100 万台的自动售货机都将接入网络,极大地缩减了公司的成本,

61

Page 22: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 49

并为公司带来了更高的收益。

问题讨论

1. 可口可乐公司如何在日本使用数据仓库优化业务流程?

2. 通过实施动态企业数据仓库,他们取得了什么结果?

来源:K.D.Schwartz,“ Decisions at the Touch of a Button,”Teradata Magazine,teradata.com/t/page/117774/index.html(accessed June 2009);K.D.Schwartz“ Decisions at the Touch of a Button,”DSS Resources,March 2004.pp.28-31,dssresources.com/cases/coca-colajapan/index.html(accessed July 2013);and Teradata Corp.,“ Coca-Cola Japan Puts the Fizz Back in Vending Machine Sales,”teradata.com/t/page/118866/index.html(accessed June 2009).

对于一个成功的数据仓库项目来说,业务对象的清晰定义、管理层对项目的支持、合理

的时间范围和预算以及管理期望都是必不可少的。数据仓库战略是成功引入数据仓库项目的

蓝图,这个战略需要明确企业的预期目标、动机以及实现目标后的进一步计划。这就需要考

虑组织的前景规划、架构和文化。Matney(2003)提出了帮助企业开发灵活高效的支持战略

的步骤。一旦建立数据仓库的计划和相应支持到位后,企业就需要仔细核查数据仓库的供应

商。表 2-2 是目前市场上数据仓库供应商的一部分,更多内容可以参考数据仓库协会(Data Warehousing Institute,twdi.com)和《 DM Review》(dmreview.com)。大多数供应商会提

供其数据仓库和商务智能产品的软件演示。

表 2-2 部分数据仓库供应商的产品

供应商 产品

Business Objects(businessobjects.com) 商务智能和数据可视化综合套件(被 SAP 收购)

Computer Associates(cai.com) 数据仓库工具和产品的综合套件

DataMirror(datamirror.com) 数据仓库管理和性能产品

Data Advantage Group(dataadvantage group.com)

元数据软件

Dell(dell.com) 数据仓库服务器

Embarcadero Technologies(embarcadero.com) 数据仓库实施、管理和性能产品(performance product)

Greenplum(greenplum.com) 数据仓库和数据应用解决方案提供商(被 EMC 收购)

Harte-Hanks(harte-hanks.com) CRM 产品和服务

HP(hp.com) 数据仓库服务器

Hummingbird 有限公司(hummingbird.com) 数据仓库引擎和探索型数据仓库(exploration warehouse)

Hyperion Solution(hyperion.com) 数据仓库工具、产品和应用的组合套件

IBM InfoSphere(www-01.ibm.com/software/data/infosphere)

数据集成、数据仓库、主数据管理、大数据产品

Informatica(informatica.com) 数据仓库管理工具和产品

Microsoft(microsoft.com) 数据仓库工具和产品

Netezza 数据仓库软件和硬件(数据仓库应用)提供商(被 IBM 收购)

Oracle(包括 PeopleSoft 和 Siebel)(oracle.com) 数据仓库、ERP 和 CRM 工具、产品和应用

SAS Institute(sas.com) 数据仓库工具、产品和应用

Siemens(siemens.com) 数据仓库服务器

Sybase(sybase.com) 数据仓库产品和应用的综合套件

Teradata(teradata.com) 数据仓库工具、产品和应用

62

~

63

Page 23: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

50 第 2 章

2.6.1 数据仓库开发方法

很多组织都需要建立数据仓库进行决策支持,而它们所采用的方法有两种:第一种方法

是数据仓库之父 Bill Inmon 提出,主张自顶向下的开发方法,使传统的关系数据库能够适应

整个企业范围内数据仓库开发的需要,也就是 EDW 开发方法。第二种方法是 Ralph Kimball提出,主张运用维度建模自底向上的开发方法,这也是数据集市的开发方法。

了解这两种方法的相同和不同之处,有助于我们理解数据仓库的基本概念(Breslin, 2004)。表 2-3 对两种方法进行了详细的比较,下面将具体介绍。

Inmon 模型:EDW 方法 Inmon 的方法强调自顶向下开发数据仓库,并使用实体关系

图(Entity-Relationship Diagram, ERD)和螺旋式开发等数据库开发方法和工具。EDW 开发

方法并不排斥建立数据集市。EDW 是一种理想的开发方法,它提供了一致和全面的企业视

角。Murtaza(1998)提出了一个开发 EDW 的框架。

Kimball 模型:数据集市方法 Kimball 的数据集市策略是一种“大计划、小实施”的

方法。数据集市是一类面向主题或者面向部门的数据仓库,它是数据仓库的缩小版,主要关

注某个具体部门的分析需求,例如市场或者销售部门。这个模型采用了由数据表入手的维度

建模技术。Kimball 提倡自底向上的开发方法,便于在数据仓库建立的同时完成数据集市的

设计,该方案意味着一次建立一个数据集市。

表 2-3 数据集市和 EDW 开发方法的比较

比较项 数据集市方法 EDW 方法

范围 单个主题域 多个主题域

开发周期 数月 数年

开发成本 1 ~ 10 万美元以上 100 万美元以上

开发难度 低到中等 高

分享的数据 业务领域的知识 企业知识

数据源 少数运营系统和外部系统 多个运营系统和外部系统

大小 MB ~ GB GB ~ PB

时间范围 近实时和历史数据 历史数据

数据转换 低到中等 高

更新频率 每小时、每天、每周 每周、每月

硬件 工作站和部门服务器 企业服务器和大型计算机

操作系统 Windows 和 Linux UNIX、Z/OS、OS/390

数据库 工作组或标准数据库服务器 企业数据库服务器

并发用户数 10 100 ~ 1000

用户类型 业务层分析师和管理人员 企业分析师和高级管理人员

商业焦点 业务领域活动的最优化 跨部门优化,支持企业决策

来源:J.Van den Hoven,“ Data Marts:Plan Big,Build Small,”in IS Management Handbook,8th ed.,CRC Press,Boca Raton,FL,2003;and T.Ariyachandra and H.Watson,“ Which Data Warehouse Architecture Is Most Successful? ”Business Intelligence Journal,Vol.11,No.1,First Quarter 2006.pp. 4-6。

Page 24: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 51

哪种模型更好 没有一种通用的策略适用于所有的数据仓库项目。随着用户需求、企业

业务需求以及企业在数据源管理成熟度等方面的变化,企业的数据仓库策略会从简单的数

据集市发展到复杂的数据仓库。对于许多企业来说,除了向业务用户提供更好的数据访问

外,数据集市还是获取数据仓库实现和管理经验的重要一步。此外,数据集市还显示了数据

仓库的商业价值。最终,建造一个 EDW,将数据集市和数据仓库联合起来是理想的解决方

案(参见应用案例 2.5)。在开发 EDW 的过程中建立独立的数据集市常常能带来许多好处,

特别是在组织不能或者不愿开发大规模项目的时候。数据集市也证明了提供这些好处的可行

性,这将带来对 EDW 的投资。表 2-4 总结了这两类模型本质特征的不同。

表 2-4 Inmon 模型和 Kimball 模型的本质区别

特征 Inmon Kimball

方法与架构

整体方法 自顶向下 自底向上

架构结构 企业数据仓库支持部门数据库

数据集市对单独的业务流程建模,通过

数据总线和统一的维度模型实现企业数据

的一致性

方法的复杂度 相当复杂 相当简单

与已有开发方法的比较 源于螺旋形方法 4 步流程;关系数据仓库管理的一个分支

物理设计的考虑 较完全 不完全

数据建模

数据定位 面向主题或数据驱动 面向业务流程

工具传统的(实体—关系图(ERD)、数据流

图(DFD))多维建模,关系建模的分支

终端用户的可访问性 低 高

理念

主要用户 IT 专家 终端用户

组织中的定位 企业信息工厂的集成部分 操作数据的转换者和保留者

目标基于已被印证的数据库方法和技术,

实现一种可行的技术解决方案

实现一种解决方案,使终端用户方便地

直接查询数据,并在合理的时间内响应

来源:M.Breslin,“ Data Warehousing Battle of the Giants:Comparing the Basics of Kimball and Inmon Models,”Business Intelligence Journal,Vol.9,No.1,Winter 2004,pp.6-20; and T.Ariyachandra and H.Watson,“Which Data Warehouse Architecture Is Most Successful?”Business Intelligence Journal,Vol.11,No.1,First Quarter 2006。

应用案例 2.5喜达屋酒店与度假村集团从数据仓库中获益

喜达屋酒店与度假村集团(Starwood Hotels&Resorts Worldwide Inc)是全球领先的酒

店休闲公司,在近 100 个国家拥有 1112 家酒店,所属酒店以及管理的酒店拥有 154 000名雇员。喜达屋拥有并管理酒店、度假村和住宅,旗下拥有 9 大品牌:瑞吉、豪华精选、

W 酒店、威斯汀、艾美、喜来登、福朋、雅乐轩和源宿。喜达屋开创了业内领先的忠诚

计划——喜达屋优先顾客(Starwood Preferred Guest,SPG)。该计划允许成员赢取积分,

Page 25: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

52 第 2 章

可以在任何日期兑换住宿、客房升级、航空公司飞行服务。喜达屋还拥有喜达屋分时度假

公司(Starwood Vacation Ownership Inc),该公司是首个通过别墅和品牌特权为顾客提供

世界级度假体验的公司。

挑战

公司在全球不断扩展,在过去的几年中喜达屋管理的酒店数量显著增长,尤其是在亚

太地区,导致对酒店和顾客等重要业务信息需求不断上升。喜达屋在全球的所有酒店都使

用单一的企业数据仓库检索酒店管理所需的重要数据,例如营业额、预订和费率结算报表。

此外,喜达屋的管理人员在数据仓库中生成重要的日常运营报告,提供给不同的业务职能

部门使用。喜达屋的企业数据仓库几乎跨越了所有业务领域,因此这不仅对集中预订和消

费信息来说非常重要,而且对客户忠诚项目来说也是至关重要的。客户忠诚项目依赖于所

有的顾客信息、销售信息、顾客服务以及经理、分析师和主管运营决策需要的其他数据。

喜达屋致力于了解并服务其顾客,但引用喜达屋数据集成经理 Richard Chung 的话:

“数据和需求的急速增长,中央预订系统生成报表的时间长达 18 小时,系统无法每天提供

给管理者需要的信息。”Chung 还提到,酒店经理需要散客效益报告以便有关客房预订的

细分市场信息,但系统只能在需求提出的 5 小时之后才能生成报告。这样的延迟使经理无

法实时地做出恰当的调整,造成损失。

解决方案和结果

在对多个供应商进行调研之后,喜达屋最终选择了 Oracle 公司的 Oracle Exadata Database Machine X2.2 HC Full Rack 和 Oracle Exadata Database Machine X2.2 HP Full Rack,这些系统运行在 Oracle Linux 系统上。Chung 说:“应用了 Exadata 之后,喜达屋

能够在 4 ~ 6 小时内完成 ETL 操作,以前则需要花费 18 ~ 24 小时,速度提高了 6 倍。”

以前不可能的实时信息提供(feeds)使交易信息可以实时发布到数据仓库中,用户可以在

5 ~ 10 分钟内访问变化后的数据,这在以前需要花费 24 小时,速度快了 288 倍。

加速后的数据访问使所有的喜达屋酒店都能够获取统一的实时数据,生成需要的报

表。以前由于数据无法统一,导致有些区域得到了最新数据,而有些区域仍然使用旧数

据,使这些区域的酒店经理无法实现当天或隔天的业务分析。现在,全球范围的酒店经理

都掌握了酒店的实时信息,提高了效率和收益以及企业对客房入住率的管理能力。由于能

够确定哪些客房可以预订,所以对顾客的服务也得到了提升。CRM、销售、餐饮等需要

的额外报表工具也从加速后的处理能力中获益。营销活动管理变得更加高效,酒店经理能

够在数天或数周内得到分析结果,而不是以前的数月。

喜达屋的业务关系经理 Gordon Light 说:“ Oracle Exadata Database Machine 提供给酒店经

理和企业高管实时的信息,帮助他们做出最优的业务决策,并提供给顾客最理想的服务。”

问题讨论

1. 喜达屋酒店与度假村集团的业务有多大、多复杂?

2. 喜达屋酒店与度假村集团如何使用数据仓库获得收益?

3. 喜达屋酒店与度假村集团面临的挑战、提出的解决方案和得到的结果分别是什么?

来源:Oracle customer success story, oracle com/us/corporate/customers/customersearch/starwood-hotels-1-exadata-al-1855106. html(accessed March 2013), and Starwood Hotels and Resorts, starwoodhotels.com(accessed July 2013).

Page 26: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 53

2.6.2 数据仓库开发的其他思考

有些企业希望把数据仓库完全外包出去。他们不想处理这些软件和硬件问题,也不想管

理信息系统,解决这类问题的一种办法是使用托管数据仓库(hosted data warehouse)。在这

种情景下,一家拥有丰富经验和技术的公司负责开发和维护数据仓库。但这种方法还要考虑

到数据的安全和隐私问题。技术洞察 2.1 为我们介绍了托管数据仓库的详细内容。

技术洞察 2.1 托管数据仓库

一个托管数据仓库拥有的功能并不亚于现场数据仓库(on-site data warehouse),但它

不消耗客户端的计算机资源。托管数据仓库提供了商务智能服务,同时降低了计算机升

级、网络升级、软件认证、内部开发、内部支持和维护的成本。

托管数据仓库具有如下优点:

所需的基础设施投资最低。 ●释放内部系统的能力。 ●释放现金流。 ●使强有力的解决方案成本在可负担范围。 ●实施强有力的解决方案以支持增长。 ●提供高质量的设备和软件。 ●实现快速的连接。 ●实现数据的远程获取。 ●帮助公司专注于核心业务。 ●满足大数据量的存储需求。 ●

尽管具有以上优点,但托管数据仓库却并不一定适合任何组织。财政收入超过 500 万

美元的大公司如果不能充分利用基础设施和 IT 员工,就会造成损失。其次,如果一个公

司认为引入外包应用程序会导致他们失去对数据的控制,那么就不会依赖于商务智能服务

提供商。最后,影响托管数据仓库最重要的、也是最普遍的因素是外包敏感应用程序导致

安全和隐私方面的隐患。

来源:M.Thornton and M.Lampa,“ Hosted Data Warehouse,”Journal of Data Warebousing,Vol.7,No.2,2002,pp.27-34;and M.Thornton,“ What About Security?The Most Common,but Unwarranted,Objection to Hosted Data Warehouses,”DM Review,Vol.12,No.3,March 18,2002,pp.30-43.

2.6.3 数据仓库中的数据表示

图 2-3 是一种典型的数据仓库结构。还有一些数据仓库架构的变种,如图 2-7 所示。不论

是何种架构,数据仓库中的数据表示一直都是基于维度建模的理念。维度建模是一个基于检

索的系统,支持大量查询访问。数据仓库中数据的存储和表示方法不仅要适合而且要提高复

杂多维查询的处理能力。通常,在数据仓库中维度建模的实现方法是星形模式和雪花形形式。

星形模式(有时称为星形关联模式)是最普遍和最简单的维度建模。一个星形模式包含

一个中心事实表和多个相关的维表(Adamson,2009)。事实表包含了大量与观测事实和外

部链接(例如,外键)相对应的数据。事实表包含用来进行决策分析和查询报表的描述属性,

外键用来链接维表。决策分析属性包括性能测量指标、操作指标、聚集度量值(例如,销售

64

~

67

Page 27: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

54 第 2 章

数据、客户保留率、毛利润、产品成本、废品率)和其他所有指标,这些指标用来分析企业

的业绩。换句话说,事实表主要解决了数据仓库用什么来支持决策分析的问题。

维表围绕在事实表周围(通过外键相连)。维表包含了中心事实表行数据的分类和聚合

信息。维表包含用以描述事实表数据的属性,并对数据进行分析和总结。维表与事实表的行

具有一对多的关系。在查询中,维度可以对事实表中的数据值进行切片和切块,以满足特定

的信息需求。星形模式使只读数据库结构具有如下特点:快速的查询响应时间、简易化和维

护简单。图 2-10a 展示了一个简单的星形模式。星形模式是雪花模式的一种特殊情形。

雪花模式是多维数据库中表的逻辑排列,其实体关系图表现为雪花形式。与星形模式相

似,雪花模式由事实表(通常只有一个)表示,事实表与多个维表相连。在雪花模式中,维

度被规范化(normalize)为多张相关的维表,而星形模式中的维被非规范化(denormalize),每个维由单张表表示。图 2-10b 展示了一个简单的雪花模式。

图 2-10 a)星形模式;b)雪花模式

2.6.4 数据仓库中的数据分析

当数据正确地存储在数据仓库后,可以用多种方法支持决策。毫无疑问,OLAP 是数据

仓库领域中应用最广的数据分析技术,并且由于数据容量指数增长以及数据分析的商业价值

逐渐得到了认可,OLAP 已日益普及。通过对组织数据资源库(例如,数据仓库、数据集市)

的多维分析查询,OLAP 能够快速解决特定的问题。

2.6.5 OLAP 和 OLTP

OLTP 是用于描述事务处理系统的专业术语,这些事务处理系统主要负责获取和存储与

日常业务相关的数据,例如 ERP、CRM、SCM 和 POS 等。OLTP 处理业务需求,使日常业

务事务自动进行,并产生实时报表和常规分析。但 OLTP 系统不适合进行大数据量的即席分

析和复杂查询。另一方面,通过对组织数据更高效率的即席分析,OLAP 能够满足以上需求。

OLAP 与 OLTP 紧密联系:OLAP 使用的数据是由 OLTP 产生的,而 OLTP 自动化的业务流

程是由 OLAP 提供决策支持。表 2-5 展示了 OLTP 和 OLAP 的区别。

表 2-5 OLTP 与 OLAP 对比

准则 OLTP OLAP

用途 执行日常业务运营 决策支持,为业务和管理查询提供答案

数据源事务数据库(专注于效率和一致性的规

范化数据库)

数据仓库或数据集市(专注于准确性和完整性

的非规范化数据库)

68

Page 28: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 55

准则 OLTP OLAP

报表 常规、定期、关注面较窄的报表 即席的、多维的、关注面较宽的报表和查询

资源需求 普通关系数据库  多处理器、大存储量的专用数据库

处理速度 快速(记录业务事务和常规报表) 缓慢(密集、复杂、大规模的查询)

2.6.6 OLAP 操作

OLAP 中最主要的操作结构(operational structure)是基于一个称为立方体的概念。

OLAP 中的立方体(Cube)是一种支持快速数据分析的多维数据结构(实际的或虚拟的),能

够进行多维度高效率操作和数据分析。立方体中的数据结构旨在克服关系数据库的局限:关

系数据库不适合大数据量的实时分析。相反,关系数据库更适合对数据记录进行管理(增

加、删除和修改数据)。尽管关系数据库中有很多报表生成工具,但这些工具在执行涉及多

张关系数据库表的多维查询时速度却很慢。

使用 OLAP,分析人员通过改变数据位置和定义来分析,可以在整个数据库中进行导

航,并提取数据的一个特定子集(以及数据子集随时间的变化)。这些由用户发起的、通过

切片(经过旋转)和下钻 / 上钻(经过聚集和分类)数据导航有时称为“切片和切块”。常用

的 OLAP 操作包括切片和切块、下钻、上卷和旋转。

切片(slice) ● :切片是多维数组的子集(通常是二维),它与一个或多个不属于该子集

的维度值相对应。图 2-11 展示了一个三维立方体的简单切片操作。

切块(dice) ● :切块操作是对多维数据立方体进行三维及以上的操作。

下钻 / 上钻(drill down/up) ● :下钻或上

钻是一种特定的 OLAP 技术,用户可以

在最概括的层级(上钻)到最详细的层

级(下钻)之间对数据进行导航。

上卷(roll-up): ● 上卷操作计算某个维度

或多个维度上所有的数据关系。为此,

需要给出关系表达式或计算公式。

旋转(pivot): ● 旋转是改变报表或即席

查询的维度相对位置。

(续)

图 2-11 简单三维数据立方体的切片操作

OLAP 的变种 OLAP 有几种变种,其中

ROLAP、MOLAP 和 HOLAP 最为常用。

关系型在线分析处理(Relational Online Analytical Processing,ROLAP)是多维在线分

析 处 理(Mulidimimensional OLAP,MOLAP)技术的替代。虽然 ROLAP 和 MOLAP 都使用

多维数据模型分析数据,但 ROLAP 的不同之

处在于它不需要进行预先计算和信息存储。相反,当终端用户发出请求时,ROLAP 从关系

数据库中获取数据并生成 SQL 查询,计算适当粒度的信息。使用 ROLAP 可以生成任意维

度组合的数据汇总表(汇总表或聚集)。由于 ROLAP 使用关系数据库作为数据源,所以需

要针对 ROLAP 的使用谨慎设计关系数据库。与 OLTP 使用的数据库相比,ROLAP 使用的

69

~

71

Page 29: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

56 第 2 章

数据库性能良好。因此,ROLAP 还创建数据的额外备份。

MOLAP 是 ROLAP 技术的替代方法。MOLAP 与 ROLAP 的差异在于 MOLAP 需要在

多维数据立方体中进行预处理——预先计算和信息存储。MOLAP 将预处理后的数据存储在

优化后的多维数组仓库中,而不是关系数据库(通常 ROLAP 使用关系数据库)。

MOLAP 和 ROLAP 之间有关额外的 ETL 代价与低查询性能的平衡,引发人们追求更

好地优化这两种方法的方法。这就导致了混合型在线分析处理(Hybrid Online Analytical Processing,HOLAP)的产生,HOLAP 结合了 ROLAP 与 MOLAP 的特性。HOLAP 可以将

部分数据存储在 MOLAP 存储器中,将另一部分数据存储在 ROLAP 存储器中。立方体设计

者对分区的控制程度因产品的不同而异。技术洞察 2.2 介绍了运用 MicroStrategy BI 工具进

行简单分析的案例。

技术洞察 2.2 MicroStrategy 的数据仓库

MicroStrategy 是商务智能、数据仓库系统和商业报表解决方案的主流独立供应商。

近年来,市场中的其他供应商纷纷被大型 IT 公司并购重组:Oracle 收购了 Hyperion,

IBM 收购了 Congos,SAP 收购了 Business Objects。尽管存在这些并购,但商务智能和数

据仓库领域仍然是积极的、充满活力和机遇。

下面应用 MicroStrategy 软件,分析一个假想的业务情景渐进方法。更完整的实用

版本可以在 TDUN 网站找到。设想你(一个全球电信公司的销售副总)将去欧洲出差。

在星期一你会见地区销售人员之前,你想知道上季度(2004 年第 4 季度)销售代表的

业务情况。你可以访问 MicroStrategy 网站创建一个即席报表。为了创建这份报表和其

他 的 OLAP 报 表, 你 需 要 TeradataStudentNetwork.com 网 站 的 登 录 密 码。 这 个 网 站

对教学是免费的,只有你的教授可以为你获取登录密码,使用密码可以使用此网站的

MicroStrategy 软件和其他的商务智能资源。

登录 TeradataStudentNetwork 网站后,首先登录到“APPLY & DO”并在“Software”

部分选择“MicroStrategy BI”选项。在“MicroStrategy/BI”页面,按以下步骤操作:

1)点击“ MicroStrategy Application Modules”链接,你将登录到一个页面,此页面

显示先前生成的 MicroStrategy 应用程序列表。

2)选择“ Sales Force Analysis Modules”。此模块支持对整个销售过程的深度分析。

该分析获取的洞察会增加你的领导力,优化产品线,利用组织中最成功的销售经验,并提

升销售组织的效率。

3)在“ Sales Force Analysis Modules”页面,你会看到 3 个选项:View、Create 和

Tolls。在“ View”部分,点击“ Shared Reports”链接,将跳转到一个具有大量已生成的

共享报表的页面。

4)在“ Shared Reports”界面,点击“ Pipeline Analysis”文件夹。渠道分析报表分

析销售渠道中所有开放性机会与交易。这些报表估计销售渠道的当前状态,观测其变化趋

势和关键事件,并识别关键的机会。你可以检查每个销售代表的销售渠道以及他们是否完

成了上季度的销售指标。

5)在“ Pipeline Analysis ”页面,点击“ Current Pipeline vs.Quota By Sales Region and District”报表。这份报表展示了每个销售地区各个销售渠道的当前状态,也反映了此

季度的目标配额是否能完成。

72

Page 30: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 57

6) 在“ Current Pipeline vs.Quota By Sales Region and District ” 页 面 选 择(点 击)

“2004 Q4”,这表示你想查看销售人员上季度配额的完成情况。

7)点击页面底部的“ Run Report”按钮,运行报表。将生成一个销售报表页面,此

处计算了 3 个欧洲销售区域的所有指标值。在这份互动报表中,通过下拉组合框可以很简

单地选择从欧洲到美国或者加拿大的区域,或者你可以点击进入 3 个欧洲区域中的一个,

查看此区域更多详细的分析。

2.6 节复习题

1. 列举数据仓库的优点。

2. 列举选择数据仓库供应商的标准,并说明这些标准为什么重要。

3. 什么是 OLAP ? OLAP 与 OLTP 有什么区别?

4. 什么是立方体?什么是下钻 / 上钻 / 切片和切块?

5. 什么是 ROLAP、MOLAP 和 HOLAP ?它们与 OLAP 有何不同?

2.7 数据仓库的实施问题

实施数据仓库项目需要投入大量精力,并且需要按照已有的方法规划和执行。然而,数

据仓库项目的生命周期涉及很多方面,没有人能够精通所有的领域。这里我们将讨论与数据

仓库相关的概念和案例。Inmon(2006)提供了一系列方法,数据仓库项目的策划人可以使

用这些方法实施项目。

人们期望了解他们的商务智能和数据仓库项目与其他公司项目比较的结果。

Ariyachandra and Waston(2006a)提出了度量商务智能和数据仓库项目成功与否的标准。

Waston et al.(1999)研究了数据仓库的失败案例。他们的研究结果表明人们对“失败”有

不同的定义,这个结果也得到了 Ariyachandra and Waston(2006a)的证实。数据仓库协会

(tdwi.org)提出了数据仓库成熟度模型,可供企业分析数据仓库的发展水平。该模型提供了

一种便捷方法,用以评估组织的数据仓库现在的实施情况和未来需要努力的目标。该成熟度

模型由 6 个阶段组成:孕育期、初创期、发育期、成长期、成熟期和衰退期。商业价值随着

阶段的推进而增长。这些阶段依据一系列的特性划分,包括系统范畴、分析结构、管理层观

念、分析类型、领导力、资金投入、技术平台、变革管理、行政管理。详情请参阅 Echerson et al.(2009)和 Echerson(2003)。

数据仓库解决方案存在众多风险。其中大部分风险也存在于其他 IT 项目中,但数据仓

库项目的风险更严重,因为数据仓库项目的成本高、耗费大量时间和资源、规模巨大。在项

目启动时就应该评估各种风险。实施一个成功的数据仓库项目,应当谨慎度量各种风险,避

免以下问题:

错误的项目发起 ●  你需要一个拥有所需资源的赞助商以便支持数据仓库项目。你也

需要一个执行项目的驾驭者,他能赢得其他执行人员的尊重,对技术抱有良性的质

疑态度,果断并且灵活。同时还需要一个 IS/IT 经理来主持项目。

制定不可能完成的目标 ●  你不想在关键时刻让管理层失望。每个数据仓库项目都有

两个阶段:第一阶段是销售阶段,通过向拥有资源的人员介绍数据仓库带来的好处

营销该项目。第二阶段是努力实现第一阶段描述的目标,例如 1 ~ 700 万美元有希

望实现的销售收入。

73

Page 31: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

58 第 2 章

从事政治幼稚的行为 ●  不要简单陈述数据仓库能帮助管理人员更好地决策,这样会

暗示目前他们的决策做得不好,应该告诉他们将从数据仓库中获得有用的信息来帮

助决策。

仅仅因为数据可用就加载到数据仓库中 ●  不要让数据仓库成为一个数据垃圾堆,这

将导致系统运行速度缓慢。实时计算和分析逐渐成为趋势。实时加载数据时,数据

仓库必须关闭。

相信数据仓库设计与事务型数据库设计相同 ●  一般来说,事实不是如此。数据仓库

的目标是访问全部记录,而事务型数据库则访问一个或一些记录。此外,数据库存

储的内容与数据的组织形式也不同。事务型数据库趋向于非冗余的、标准化的和关

系的,而数据仓库是冗余的、非标准化的和多维度的。

选择一个面向技术而非面向用户的数据仓库管理员 ●  成功实施数据仓库的关键之一

在于理解用户的需求,而不是追逐先进的技术。

专注传统的内部关系数据,忽视外部数据、文档、图片甚至音频和视频的价值 ●  数

据有多种格式,必须在合适的时间、以合适格式提供给合适的人员。因此必须将数

据合理分类。

用重复且冲突的数据定义交付数据 ●  数据清理是数据仓库中的重要问题,包括协调

整个组织冲突的数据定义和格式。政治上,数据清理是有难度的,因为这涉及执行

层(executive level)的变革。

相信性能、能力和可扩展性的承诺 ●  通常,数据仓库需要比最初预算更多的容量和

速度,要提前准备升级。

相信一旦数据仓库建立并运行起来,你的问题就会解决 ●  决策支持系统 / 商务智能项

目倾向于持续地展开。每次部署都是对原型过程的迭代。总是存在一种需要,那就

是向数据仓库增加更多不同的数据,同时也要给现有和其余的决策人员提供更多分

析的工具。需要计划高能耗和每年预算,因为成功接踵而至。数据仓库是一个持续

性的过程。

专注即席数据挖掘、定期生成报表而不是预警 ●  数据仓库中信息的发展过程如下:

1)从旧系统中提取数据、清理数据并添加到数据仓库中;2)支持即席报表直到你理

解了用户需求;3)将即席报表转换成定期计划报表。理解并满足客户需求看起来很容

易,但实际上情况并不乐观。管理人员业务繁忙,又需要花费时间阅读报表。预警系

统比定期的报表系统更好,它使数据仓库成为关键业务。预警系统监控数据流入数据

仓库的过程,一旦关键事件发生就产生预警,通知所有的相关人员进行处理。

在大多数组织中,如果高级管理层强烈支持项目实施,并且项目经理在组织结构中拥有

较高职位,数据仓库项目才可能成功。虽然上述情景适用于任何大规模 IT 项目,但对数据

仓库的实现却更加重要。数据仓库的成功实施建立一个支持组织决策分析的结构性框架,在

某些情况下,也能通过允许访问客户和供应商信息提供全方位的供应链管理(SCM)。网络

数据仓库的实施(有时又称为网络仓库)使得访问大量数据更加便捷,但却很难度量数据仓

库的硬效益。硬效益可定义为货币形式的组织效益。很多公司的 IT 资源是有限的,必须优

先安排一些项目。管理层的支持和优秀的项目经理可以保障数据仓库项目具备成功实施所必

需的资源。数据仓库资源可能成本较高,在某些情况下,还需要高端处理器和大量直接存取

存储器(DASD)。网络数据仓库还有特殊安全要求来确保只有授权用户才能访问数据。

74

Page 32: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 59

用户参与数据和访问模型的开发是数据仓库成功的关键因素。在数据建模中,需要专门

知识确定需要的数据,定义与数据有关的业务规则,并决定需要哪些聚集(aggregations)和

计算。需要访问建模决定如何从数据仓库中检索数据,并通过确定需要索引哪些数据协助定

义仓库的物理定义。还表明是否需要非独立数据集市来加速信息检索。开发和实施数据仓库

需要一系列团队技能,包括数据仓库技术和开发工具的深层知识。如上所述,源系统和开发

技术涉及大量成本投入和维护数据仓库过程。

应用案例 2.6 展示了一个州政府大规模实施集成数据仓库(integrated data warehouse)的典型案例。

应用案例 2.6数据仓库帮助连接密歇根的政府机构

通过顾客服务、资源优化和信息技术的创新使用,密歇根技术部管理和预算办公室

(DTMB)影响了几乎所有的政府部门。在 5 个主要部门、20 个机构和超过 100 个局的近

1 万名用户都依赖数据仓库更有效、更好地服务于密歇根居民。每天数据仓库能够实现

100 美元的财务收入。

仅仅在密歇根公共卫生部门,数据仓库就帮助实现了每年 2 亿美元的财务收入,再加

上人事服务部门(Department of Human Services,DHS)每年 7500 万美元的收入。这些

节省的资金包括项目集成收益以及因为结果改进、避免制裁、运行效率和公共医疗补助中

不合理支付费用的减少。

密歇根人力服务部门数据仓库从战略和战术两方面提供了创新性的信息,帮助改善

机构运行效率。在过去 10 年中,数据仓库的投入产出比(cost-effectiveness ratio)达到了

15 ∶ 1。数据仓库中整合的信息几乎帮助了 DHS 的所有活动,包括对 DHS 近 250 万公

共援助对象的救助金发放和报账。

密歇根励志通过对数据的分析和共享,解决真实世界中的难题。密歇根的商务智能 /数据仓库本质上是企业级的(遍及全州的),而不是为每个领域或机构分别实施商务智能 /数据仓库。通过在各个部门之间共享企业数据,密歇根利用大量数据创新地使用商务智能 /数据仓库,实现了高效可靠的企业解决方案。

问题讨论

1. 为什么一个州会投资一个大型昂贵的 IT 基础设施(例如,EDW)?

2. 密歇根州立机构使用的数据仓库有什么样的规模和复杂度?

3. 密歇根州立机构面临的挑战、提出的解决方案和得到的结果分别是什么?

来源:TDWI Best Practices Awards 2012 Winner,Enterprise Data Warehousing, Government and Non-profi t Category, “Michigan Department of Technology, Management& Budget(DTMB),Community Health(DCH),and Human Services(DHS),” featured in TDWI Wbat Works, Vol.34,p.22; and michigan.michigan.gov.

大型数据仓库和可扩展性

除了灵活性之外,数据仓库需要支持可扩展性。与扩展性相关的最主要问题包括数据仓

库的数据量、数据仓库预计增长速度、并发用户的数量、用户查询的复杂度。数据仓库必须

可以水平和垂直地扩展。由于数据量增长和支持新业务功能的需求,数据仓库需要扩展。数

75

Page 33: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

60 第 2 章

据增长可能是当前周期性数据(例如,当月的数据)或者历史数据增加的结果。

Hicks(2001)描述了大型数据库和数据仓库。WalMart 不断增加大型数据仓库的规模。

WalMart 使用数百 TB 的数据仓库来研究销售趋势、追踪库存和其他任务。IBM 最近公布了

50TB 数据仓库基准(IBM,2009)。美国国防部正在使用一个 5PB 数据仓库以存储 900 万

军事人员的病历。因为需要存储新闻素材,所以 CNN 也有一个规模达 PB 级的数据仓库。

如果一个数据仓库的大小呈指数级增长,那么它的可扩展性将成为重要问题。良好

的可扩展性意味着查询和访问其他数据功能会随着数据仓库大小呈线性增长(理想化的)。

Rosenberg(2006)介绍了提高查询性能的方法。实际上,人们已开发出专门方法创建可扩

展的数据仓库。当管理数百 TB 或更多的数据时,可扩展性很难实现。TB 级数据具有相当

大的惯性,占用大量物理空间,同时需要功能强大的计算机。有些公司使用并行处理器管理

数据,另一些公司则运用灵活的索引和搜索。有些公司在不同物理数据存储之间传输数据。

随着越来越多的数据仓库达到 PB 级,越来越好的可扩展性解决方案将会不断被研发出来。

Hall(2002)也解决了可扩展性问题。AT&T 是大型数据仓库部署和应用领域的行业领

导者。AT&T 使用一个 26TB 级的数据仓库,能够检测电话卡冒用,调查有关绑架和其他罪

行的通话,也能计算电视观众选择美国偶像的百万个电话投票。Edwards(2005)列举了一

个数据仓库成功实施的案例。Jukic and Lang(2004)调查了数据仓库和商务智能应用的开

发和支持过程中与离岸外包资源使用的特殊问题和趋势。Davison(2003)指出了 IT 离岸外

包以每年 20% ~ 25% 的速度增长。当考虑离岸外包数据仓库项目时,必须认真考虑文化和

安全因素,详见(Jukic and Lang,2004)。

2.7 节复习题

1. 数据仓库实施过程中可以并行执行的主要任务是什么?

2. 列举并讨论最明确的数据仓库实施准则。

3. 当开发一个成功的数据仓库时,需要考虑和避免的最重要风险和问题是什么?

4. 什么是可扩展性?可扩展性在数据仓库中是如何应用的?

2.8 实时数据仓库

传统的数据仓库和商务智能工具专注于辅助管理者制定战略和战术决策。增加的数据量

和加快的数据更新速度正在改变数据仓库在现代企业中的作用。对于许多企业来说,制定快

速和一致的企业决策不只是需要传统数据仓库或者数据集市。 传统的数据仓库对业务来说

并不是至关重要的。在传统数据仓库中,数据一般每周更新一次,不能应对近实时的业务。

越来越多的数据快速进入数据仓库,并要求立即转换成决策,这意味着组织需要实时数

据仓库。因为决策支持已转向操作型的,集成商务智能需要闭环分析,以前的操作数据存储

(ODS)将不能支持现在的需求。

2003 年,随着实时数据仓库的诞生,应用这些技术支持运营决策发生了变化。实时数

据仓库(Real-time Data Warehousing,RDW),也称为动态数据仓库(Active DataWarehoursing,ADW),是通过数据仓库加载和提供数据的过程,是从企业数据仓库演变而来的。RDW/ADW 的动态特征补充和扩展了传统数据仓库,实现了战术决策支持功能。企业中直接与

客户和供应商接触的人员可以很容易地制定基于信息的决策。当动态数据仓库直接给客户

和供应商提供信息时,甚至能产生更大的效益。获取决策所需要的信息能积极促进大多数

76

Page 34: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 61

客户服务、供应链管理、物流及其他服务。电子商务已成为动态数据仓库需求的主要催化

剂(Armstrong 2000)。例如,网上零售商 Overstock.com 公司(overstock.com)将数据

用户连接到实时数据仓库。在世界最大的网上银行 Egg plc,客户数据仓库(Customer Data Warehouse,CDW)几乎可以实时更新(详见应用案例 2.7)。

随着业务需求的发展,对数据仓库的需求也随之发生转变。在基本层次,数据仓库简单

地报告发生的事件。在下一层次,数据仓库进行一些分析。随着数据仓库系统的发展,数据

仓库能提供预测功能,这导致了更高层次的分析。发展到最高层次,动态数据仓库能够让事

件主动发生(例如,创建销售和营销活动、识别和利用机会)。图 2-12 对该演变过程进行了

图形化的描述。Wrembel(2009)介绍了对管理数据仓库演变的最新研究。

图 2-12 企业决策演变

来源:由 Teradata Corporation 提供,使用得到许可。

应用案例 2.7Egg Plc 近实时地打败对手

Egg Plc 银行(egg.com,现在是约克郡建筑协会系统的一部分)是全球最大的在线

银行,通过网站向超过 360 万顾客提供银行、保险、投资和抵押业务。1998 年,Egg Plc银行与 Sun 公司合作,创建一个可靠的、可扩展的安全架构,支持 Egg Plc 银行每天超

过 250 万的交易。2001 年,升级系统消除潜在的问题。这个新的顾客数据仓库(CDW)

使用 Sun、Oracle 和 SAS 的软件产品。初期的数据仓库拥有约 10TB 数据,使用 16 核

CPU。系统支持近实时数据访问,为内部用户提供数据仓库和数据挖掘服务,并且为顾客

提供必要的数据。通过使用近实时数据,短短几分钟内就可以开展促销和营销活动。而且

更好的结果是,系统使针对特定顾客和顾客群的决策更加快捷。

77

Page 35: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

62 第 2 章

问题讨论

1. Egg Plc 银行的经营范围有哪些? Egg Plc 银行的竞争格局是怎样的?

2. Egg Plc 银行怎样使用近实时数据仓库获得竞争优势?

来源:“ Egg's Customer Data Warehouse Hits the Mark, ” DM Review, Vol.15, No.10,October 2005,pp.24-28;Sun Microsystems, “ Egg Banks on Sun to Hit the Mark with Customers,”September 19,2005,sun.com/smi/Press/sunflash/2005-09/sunflash.20050919.1.xml(accessed April 2006); and ZD Net UK,“ Sun Case Study:Egg's Customer Data Warehouse, ”whitepapers.zdnet.co.uk/0, 39025945, 60159401p-39000449q, 00.htm(accessed June 2009).

Teradata 公司提供了支持企业数据仓库的基本要求,使动态数据仓库具有提交数据更

新、性能、可用性和支持企业决策管理的新特征(参考图 2-13 中的例子)。

图 2-13 Teradata 动态 EDW

来源:由 Teradata Corporation 提供,使用得到许可。

动态数据仓库提供了一个综合信息库,支持企业战略和战术决策。借助实时数据仓库,

数据从 OLTP 系统中集成,当事件发生时就立即装载到数据仓库中,而不是以夜间模式从

OLTP 系统中提取业务数据到操作数据存储(ODS)中。这就支持了数据仓库的实时更新,

不必再使用操作数据存储。此时,应用实时和历史数据就可以进行战术和战略查询。

根据 Basu(2003)的研究,传统数据仓库和实时数据仓库之间最显著的区别是数据获

取模式的转变。下面是一些具有实时数据需求的业务案例和企业需求:

企业不能用一整天的时间等待业务数据加载到数据仓库以供分析。 ●目前,数据仓库可以获取企业固定状况的快照,而不是反映每个更新和类似模式的 ●增量实时数据。

在传统的星形拓扑架构中,很难保持元数据的同步性。开发、维护和保护许多系统 ●的成本很高,相反,开发、维护和保护一个大型数据仓库的成本却较低,因为数据

78

Page 36: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 63

由商务智能 / 数据分析工具集中处理。

在大量夜间批处理的情况下,系统对 ● ETL 和大型夜间数据仓库的处理能力要求很高,

处理过程也许会占用很长时间。一个实时采集数据的 EAI 可以减少或取消夜间批处理。

尽管实时数据仓库具有优势,但是开发实时数据仓库会产生一系列问题。这些问题与架

构、数据模型、物理数据库设计、存储和可扩展性、可维护性有关。此外,访问数据的时间

不同(可以精确到微秒内),系统也可能会提取和产生不同版本的事实信息,这将使团队成

员感到迷惑。详情请查阅 Basu(2003)和 Terr(2004)。

实时解决方案对商务智能提出了一系列挑战。尽管实时数据仓库项目并不适用于所有解

决方案,但如果企业运用合理的方法来处理项目风险,采用合理计划方案并专注于质量保

证工作,那么实时数据仓库项目就有可能成功。在实施带有商务智能 / 业务分析方法的复杂

数据仓库时,了解常见困难并采用最佳实践能降低项目问题的严重程度。Burdett and Singh(2004)和 Wilk(2003)讨论了详细情况,并介绍了真实的实施案例,也可以查阅 Akbay(2006)和 Ericson(2006)。

技术洞察 2.3 对实时概念的演变进行了详细介绍。大陆航空公司的航线管理仪表盘(请

看章末应用案例)展示了实时商务智能在面对客户交互情况下访问数据仓库的能力。操作人

员应用实时数据仓库识别大陆航线网络中的问题。另一个例子是 UPS 投资了 6 亿美元应用

实时数据和流程。预计该投资通过管理实时包裹流技术,每年将减少 1 亿英里运输路径,并

节约 1400 万加仑燃油(Malykhina,2003)。表 2-6 对传统数据仓库和实时数据仓库环境进

行了比较。

表 2-6 传统数据仓库和动态数据仓库的对比

传统数据仓库 动态数据仓库

只有战略决策 战略和战术决策

结果有时难以度量 从运营层面度量结果

可存储每日、每周、每月数据;适当的数据汇总 仅存储几分钟之内的全面详细数据是可以接受的

中等程度的用户并发 大量(1000 或更多)用户同时访问和查询系统

高度限制的报表,用于确保或检查现有的流程和模

式;经常使用未成熟的汇总表和数据集市

灵活的即席查询报表和计算机辅助建模(例如数据

挖掘)发现新假设和关系

高级用户、知识工作者、内部用户 运营人员、呼叫中心、外部用户 

来源:P. Coffee“‘ Active'Warehousing,”eWeek,Vol.20,No.25,June 23,2003,p.36; and Teradata Corp.,“Active Data Warehousing,”teradata.com/active-data-warehousing/(accessed August 2013)。

技术洞察 2.3 动态数据仓库的实时实现

2003 年数据仓库在实践中的功能快速成长。实时系统虽然新奇,但最近非常流行,

及时为用户提供需要的数据和信息。包括《 eWeek 》技术主编 Peter Coffee 在内的许多

专家,都认为实时系统必须提供实时决策的过程。NCR 公司 Teradata 部的 CTO Stephen Brobst 认为,实时数据仓库是企业应用数据的演变过程。动态性意味着数据仓库也可以被

用作业务和战术工具。Brobst 提出了 5 阶段模型,与 Coffee 提出的企业在数据应用领域

是如何增长的(Brobstet et al.,2005)一致。这些阶段(他们打算回答的问题)分为:报

告(什么发生了)、分析(为什么会发生)、预测(什么将发生)、运作(什么正在发生)以

79

Page 37: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

64 第 2 章

及动态数据仓库(我希望发生什么)。在最后一个阶段,动态数据仓库是可以获取最大收

益的地方。许多组织正在增强中央数据仓库的功能,用于运营和战略决策制定。

来源:P. Coffee,“‘ Active'Warehousing,”eWeek,Vol. 20,No. 25,June 23,2003,p.36; and Teradata Corp.“Active Data Warehousing,”teradata.com/active-data-warehousing/( accessed August 2013).

实时数据仓库、近实时数据仓库、零延迟数据仓库和动态数据仓库是实践中描述同一概

念的不同说法。Gonzales(2005)描述了对动态数据仓库的不同定义。根据 Gonzales 的定义,

动态数据仓库是可以提供所需组合战术和战略数据的唯一选择。构建动态数据仓库的架构与

Bill Inmon 开发的企业信息工厂的架构非常相似。两者之间的唯一区别是在单一环境中实施

了数据存储。然而,一个基于 XML 的 SOA 和 Web 服务为所需混合战术和战略数据提供了

另一个选择。

实时数据仓库的一个关键问题是不能持续更新所有数据。这在实时生成报表时肯定会产生

问题,因为一个人的结果可能会与另一个人的结果不符。例如,使用网络智能业务对象的企业

发现了实时智能的一个重要问题(Peterson,2003):在略微不同的时间内生成的实时报表内容就

会产生差异。而且,也许没有必要持续更新某种数据(例如,3 年或者 3 年以前的课程成绩)。

实时需求改变了我们对数据库、数据仓库、在线分析处理和数据挖掘工具设计的观点。

因为查询是动态的,所以它们并发地更新。但动态查询的重大商业价值已得到证实,所以企

业在业务流程中采用动态查询是至关重要的。认真规划是类似项目实施的关键。

2.8 节复习题

1. 什么是实时数据仓库?

2. 列举实时数据仓库的好处。

3. 传统数据仓库和实时数据仓库之间的重要区别是什么?

4. 列举实时数据仓库的驱动力。

2.9 数据仓库管理、安全问题和未来趋势

企业可以通过有效创建和使用数据仓库获得明显的竞争优势。由于规模巨大和内在的特

性,数据仓库需要强大的监控来保持令人满意的效率和生产力。对数据仓库的管理需要拥

有比传统数据库管理员(Database Administrator,DBA)更多的技巧和经验。数据仓库管理

员(Data Warehouse Administrator,DWA)应该熟悉高性能软件、硬件和网络技术,还需要

具备坚实的业务洞察力。由于数据仓库提供了商务智能系统和决策支持系统帮助管理人员制

定决策,所以为了合理设计和维护数据仓库结构,数据仓库管理员应该熟悉决策过程。对

于数据仓库管理员来说,在使数据仓库具备灵活应对快速变化的同时,保持数据仓库现行

需求和能力的稳定尤为重要。最后,数据仓库管理员必须具备卓越的沟通能力。Benander et al.(2000)对数据库管理员和数据仓库管理员的关键区别进行了描述。

信息的安全和隐私是数据仓库领域关注的主要问题。美国政府已经通过了法规(例如

Gramm-Leach Bliley 隐私和保护法案、1996 年的健康保险携带和责任法案[ HIPAA]),对

客户信息管理实行强制性要求。因此,为遵守众多隐私条例,企业必须创建有效灵活的安全

程序。Elson and LeClerc(2005)认为数据仓库安全性应关注 4 个主要方面:

1)建立有效的企业和安全政策和程序。有效的安全政策应从顶层开始,并传达到组织

80

~

81

Page 38: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 65

内的每个人。

2)通过实施安全程序和技术来限制访问,这包括用户认证、访问控制和加密技术。

3)限制对数据中心环境的物理访问。

4)建立一个有效的内部控制审核程序,注重信息安全和隐私。

技术洞察 2.4 介绍了 Ambeo 公司的重要软件工具,该工具可监测数据仓库安全和隐私。

最后,记住对移动设备访问数据仓库应该保持谨慎。在这种情况下,数据应该是只读的。

在短期内,数据仓库开发取决于最显著的因素(例如,数据量、对延迟的容忍、数据类

型的多样性和复杂性)和次显著的因素(例如,未满足终端用户对仪表盘的需求、平衡记分

卡、元数据管理、信息质量)。基于这些因素,Moseley(2009)和 Agosta(2006)认为数

据仓库的发展趋势将倾向于简单性、实用性和性能。

技术洞察 2.4 Ambeo 提供成熟的数据访问审计解决方案

从 1997 年开始,Ambeo 公司(ambeo.com,现在的 Embarcadero 技术有限公司)已

在《 Fortune》1000 强公司中提供了技术支持,提供以下服务:性能管理、数据使用情况

跟踪、数据隐私审查和监测。这些公司拥有大型数据库环境。Ambeo 公司的数据访问审

计解决方案在企业信息安全基础设施中起到了重要作用。

Ambeo 公司的技术是相对简单的解决方案,以低成本记录数据库中发生的所有事情。

此外,它提供数据访问审计识别谁在查看数据,什么时候查看,对数据做了什么操作。这

种实时监控有助于快速和有效识别安全漏洞。

来源:“ Ambeo Delivers Proven Data Access Auditing Solution,”Database Trends and Applications,Vol.19,No.7,July 2005;and Ambeo,“ Keeping Data Private(and Knowing It):Moving Beyond Conventional Safeguards to Ensure Data Privacy,”ambeo.com/why_ambeo_white_papers.html(accessed May 2009).

数据仓库的未来

数据仓库领域已经成为近几十年来信息技术的活跃领域,同时商务智能和大数据也证实

了该领域的重要性将会日渐增加。下面列出了近来流行的、未来会至关重要的概念和技术。

来源(从不同的数据源中获取数据的机制):

Web、社交媒体和大数据  ● 近年来,Web 和社交媒体的兴起使分析人员有机会挖掘

更丰富的数据源。由于数据量庞大、速度和多样性,人们创造出“大数据”一词来

表示此类现象。利用大数据需要显著改进商务智能 / 业务分析技术,由此导致数据仓

库领域的变革。

开源软件 ●  在数据仓库、商业智能和数据集成领域中,开源软件工具的使用正以空

前的水平发展。开源软件的发展是由以下原因推动的(Russom,2009):1)经济衰

退带动了人们对低成本开源软件的兴趣;2)开源工具正在进入新的成熟阶段; 3)开

源软件发展了传统企业软件而不是代替它们。

软件即服务(Software as a Service,Saas),“扩展的 ASP 模型” ●  SaaS 是部署信

息系统应用的一种创新性方法,应用服务提供商向用户提供面向需求的服务许可应

用程序(通常在因特网上)。SaaS 软件供应商在自己的服务器上托管应用程序或者上

传应用程序至客户端。本质上,SaaS 是 ASP 模型的全新和改进版本。数据仓库用户

Page 39: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

66 第 2 章

很难找到能满足特殊需求的 SaaS 应用程序和资源。随着这些软件的获得变得越来越

便捷,作为数据仓库的应用平台,SaaS 的吸引力和实际使用也会增加。

云计算 ●  云计算也许是近年来最新和最具创新性的平台,其中汇聚和虚拟化了大量

硬件和软件资源,因此它们可以被自由分配给需要的应用和软件平台。随着工作量

的增加,信息系统应用程序也按比例增加。虽然云计算和类似的虚拟技术程序是为

业务应用程序而建立,但现在数据仓库应用平台也开始应用这些技术。当数据仓库

中的数据量变化不可预测时,云计算中的动态分配是特别有用的,然而这也增加了

容量规划(capacity planning)的难度。 基础设施 [系统架构 ( 软件和硬件 ) 系统升级 ]:

列式(一种在数据库中存储和获取数据的新方式)  ● 面向列式的数据库管理系统(也

称为列式数据库)是将数据表按列存储,而不是大多数关系数据库管理系统的按行存

储。也就是,这些列式数据库是按照列而不是行存储数据的,每一列的所有值都连

续地存储在一块磁盘中。这样的结构使关系数据库管理系统能够更精确地控制数据。

对于仅仅需要表中某一列的一小部分数据的查询来说,列式数据库表现卓越,因为

它仅需要访问某一列而不是访问每一行的该列值。但如果查询需要大部分的列值,

那么由于将所有列整合在一起花费的开销使列式数据库的表现就差强人意了。对于

列式数据库和行式数据库的标记需要考虑给定数据量的硬盘效率。

实时数据仓库 ●  实时数据仓库意味着目前数据仓库的数据更新周期更加频繁(几乎同

步于操作型数据库中的数据更新)。实时数据仓库系统能达到近实时的数据更新,数据

延迟通常从几分钟到几小时不等。随着延迟的减少,数据更新的成本近似成指数级增

长。未来的许多技术进步(从自动数据获取到智能软件代理)使实时数据仓库的价格

能够承受。 数据仓库应用(一体化的数据仓库解决方案)  ● 数据仓库应用包含集成的服务器、存

储、操作系统、数据库管理系统以及为数据仓库预装和提前优化的软件。实际上,

数据仓库应用为大数据市场提供中型的数据仓库,为 TB 级到 PB 级的数据量提供低

成本的方案。为了提升性能,许多数据仓库应用的供应商都采用了大规模并行处理

架构。尽管目前大多数数据库和数据仓库供应商都提供了数据仓库应用,但普遍认

为是 Teradata 最早提供商业化的数据仓库应用产品。目前的新趋势是供应商将硬件

和数据库软件进行绑定,作为数据仓库平台。从收益来看,数据仓库应用的总拥有

成本非常低,这些成本包括首次购买成本、持续维护成本以及随着数据规模增长扩

容的成本。通常,监控和调整成本占据了数据仓库总拥有成本的很大比例(通常高

达 80%)。而数据仓库应用则节省了日常的运营、设置和集成等管理开支。由于数据

仓库应用提供了一体化的解决方案,可以更好地优化系统的硬件和软件。这种一体

化的集成避免了多解决方案集成产生的兼容性问题,大大提高了对数据库、存储和

操作系统整合、测试的成功率。此外,数据仓库应用为解决问题提供了单一的信息

节点,以及更加简洁的软硬件升级方法。

数据管理技术和实践 ●  下一代数据仓库平台最迫切的需求包括技术和实践,一般我

们并不认为这是平台的一部分。特别地,许多用户需要更新数据管理工具,这些工

具可以通过数据仓库处理数据。未来主数据管理(MDM)技术将迅速发展。这个全

新且极其重要的概念正在日渐流行,原因如下:1)与业务系统更紧密的集成需要主

82

~

83

Page 40: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 67

数据管理;2)大多数据仓库仍缺少主数据管理和数据质量功能;3)常规和财务报

表必须完全清晰和准确。 数据库内处理技术(将算法加入数据库)  ● 数据库内处理(又叫数据库内分析)是指

将数据分析算法加入到数据仓库中。利用这种方法,数据和处理数据的分析工具驻

留在相同的环境中。使两者在一起提高了计算密集型分析的效率。目前,许多大型

数据库驱动的决策支持系统都使用这种技术,例如信用卡欺诈检测、投资银行风险

管理,与传统的方法相比,这种方法可以显著地提高计算性能,而时间对这些系统

来说是至关重要的。与传统的将数据从数据库(行列格式的扁平文件)中转移到单独

的分析环境(例如,SAS Enterprise Modeler、 Statistica Data Miner、IBM SPSS Modeler)进行处理的方式相比,数据库内处理是一项复杂的工作。数据库内处理对高吞吐量

的实时运营环境更有意义,包括欺诈检测、效用评价、风险管理、事务处理、定价

与收益分析、基于使用行为的市场细分、基于行为的广告定位、推荐引擎,例如客

户服务部门决定接下来的最佳行动。许多主流的数据仓库厂商将数据库内处理作为

附加特征进行宣传并加入到新产品中,例如 Teradata(将 SAS 的分析功能加入到数

据仓库应用中)、IBM Netezza、EMC Greenplum 和 Sybase 等。

内存存储技术(将数据放入内存进行更快速的处理)  ● 传统的数据库系统(例如,关

系型数据库)长久以来都是将数据存储在物理硬盘上。当收到应用的数据处理请求时,

数据库管理系统加载(部分)数据到内存中、处理数据、返回给应用。虽然数据库管

理系统将数据临时缓存在内存中,但是主要的数据存储还是在磁性硬盘中。与之相反,

内存数据库管理系统将数据永久地保存在内存中。当收到应用的数据请求时,数据库

管理系统直接访问内存中的数据,处理数据,返回给应用。这种从内存中直接访问数

据的方法比传统的方法快一个数量级。因此,内存技术的主要收益(可能也是唯一收

益)是难以想象的数据访问速度。其不足之处包括大量内存的成本(虽然内存的价格

正在降低,但拥有足够容纳整个公司数据的内存数量仍然需要花费很高的成本),需要

复杂的数据恢复机制(由于内存具有不稳定性,数据可能会被意外地清除) 。 新 DBMS ●  数据仓库平台由多种基本组件组成,其中最关键组件是数据库管理系统

(Database Management System,DBMS),这是理所当然的。事实上,DBMS 是数据

仓库平台中的组件,该平台需要执行大量工作来建立数据模型和优化查询性能。因

此,人们必然期望对新一代的 DBMS 进行创新。

高级分析 ●  当用户舍弃基于 OLAP 的基本方法并开始高级分析时,数据仓库将给用

户提供不同的分析方法。有些用户选择基于数据挖掘、预测分析、统计、人工智能

等高级分析方法。然而,大多数用户选择基于 SQL 的方法。不管是否基于 SQL,高

级分析方法似乎都将会是下一代数据仓库的希望。

数据仓库的未来似乎充满了希望和重要挑战。随着商业世界日益全球化和复杂化,对商

业智能和数据仓库工具的需求也日渐突出。快速发展的信息技术工具和技术正朝着可以满足

商业智能系统的未来需求的正确方向发展。

2.9 节复习题

1. 为确保数据仓库中客户数据的安全性和保密性,企业可以采取什么措施?

2. 数据仓库管理员应具备什么技能?为什么?

Page 41: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

68 第 2 章

3. 可以创建未来数据仓库的最新技术是什么?为什么?

2.10 资源、链接和 Teradata 大学网络连接

使用下列资源,加深对本章和其他各章的理解。

2.10.1 资源和链接

我们推荐你进一步阅读和查看下列资源和链接:

数据仓库协会( ● tdwi.com)。

《DM Review》( ● dereview.com)。

DSS 资源( ● dssresources.com)。

2.10.2 案例

所有大型 MSS 供应商(例如 MicroStrategy、Microsoft、Oracle、IBM、Hyperion、Cognos、Exsys、Fair Isaac、SAP 和 Information Builders)均提供有趣的客户成功案例。学术案例可

以在以下网站找到:哈佛商学院案例集(harvardbusinessonline.hbsp.harvard.edu)、商

业绩效提高资源中心(bpir.com)、思想集团出版社(idea-group.com)、常春藤联合出版社

(ivylp.com)、知识风暴(knowledgestorm.com)和其他网站。寻找更多的案例资源,请查

看 Teradata 大学网络(teradatauniversitynetwork.com)。对于数据仓库案例,我们特别推

荐 Teradata 大学网络(teradata universitynet work.com)的以下案例:“大陆航空公司应用实

时商业智能腾飞”、“北部卡罗莱纳州蓝十字和蓝盾的数据仓库治理”、“运用全球数据仓库,

3M 转向以客户为中心”、“第一美国公司数据仓库支持公司战略”、“ Harrah 从客户信息中获

得高回报”和“ whirlpool 公司”。同时也推荐数据仓库失败案例集,由 8 个简短的数据仓库

失败案例组成。

2.10.3 供应商、产品和演示

《 DM Review》(dereview.com)上刊登了供应商、产品和样品程序的完整列表。表 2-2列出了供应商信息。也可登录 techonologyevaluation.com 查看相关信息。

2.10.4 期刊

推荐下列期刊:

《Baseline》( ● baselinemag.com)。

《Business Intelligence Jounal》(商业智能杂志)( ● tdwi.org)。

《CIO》( ● cio.com)。

《CIO insight》( ● cioinsight.com)。

《Computerworld》(计算机世界)( ● computerworld.com)。

《Decision Support Systems》(决策支持系统)( ● elsevier.com)。

《DM Review》( ● dmreview.com)。

《eWeek》( ● eWeek.com)。

《 InfoWeek》( ● infoweek.com)。

《 InfoWorld》( ● infoworld.com)。

86

Page 42: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 69

《 InernetWeek》( ● internetweek.com)。

《Management Information Systems Quarterly》(管理信息系统季刊,《MIS Quarterly》, ● misq.org)。《Technology Evaluation》(技术评估)( ● technologyevalution.com)。

《Teradata Magazine》( ● teradata.com)。

2.10.5 其他参考文献

关于数据仓库的更多信息,请查看下列内容:

C.Imhoff,N.Galemmo,and J.G.Geiger.(2003). ● Mastering Data Warehouse Design: Relational and Dimensional Techniques.New York:Wiley. D.Marco and M.Jennings.(2004). ● Universal Meta Data Models. New York: Wiley. J.Wang.(2005). ● Encyclopedia of Data Warehousing and Mining. Hershey,PA:Idea Group Publishing.

更多关于数据库和数据仓库开发架构的信息,请查看下列内容:

R.T.Watson.(2006). ● Data Management,5th ed. New York:Wiley.

2.10.6 Teradata 大学网络连接

TUN(teradatauniversitynetwork.com)提供了大量数据仓库的信息和案例。最佳案例

之一是大陆航空公司案例,在后面的练习中我们也要求你解决该问题。本章前面部分提到了

其他的推荐案例。在 TUN 中,如果你点击“课程”(Courses)标签并选择“数据仓库”(Data Warehousing),你将看到许多相关文章、作业、著作章节、课程网站、PPT、项目、研究报

告、教学大纲和网络课程的链接。你也将看到动态数据仓库软件产品展示的链接。最后,你

将看到 Teradata 的链接(teradata.com),这里你会发现其他信息,包括优秀的数据仓库成

功案例、白皮书、网络课程和《Teradata Magazine》的网络版本。

本章要点

数据仓库是为组织数据 ● 而专门构建的数据存储库,这样终端用户可以很容易地使用应用程序访问数据。

数据集市包含了同一主题的数据(例如,营销)。数据集市是数据仓库中数据子集的复制。数据集市 ●是成本相对较低的解决方案,可以被数据仓库替代或者作为数据仓库的补充。数据集市可以依赖或

独立于数据仓库。

数据操作存储是一种客户信息档案数据库,该数据库通常被用做数据仓库架构的中间层。 ●数据集成包含 3 个主要过程:数据访问、数据联合和变化捕获。3 个过程正确执行后,就可以访问 ●数据、ETL 数组、分析工具和数据仓库环境。

ETL ● 技术从众多数据源提取、清理数据并加载数据到数据仓库中。ETL 是任何数据分析项目的必需

过程。

通过实时加载数据和向用户提供数据,实时或动态数据仓库补充并扩展了传统数据仓库,进入了制 ●定业务和战术决策领域。

数据和信息的安全和隐私是数据仓库 ● 领域的关键问题。

关键词

Active Data Warehousing(ADW,动态数据仓库) Extraction,Transformation,and Loaddependent data mart(非独立数据集市) (ETL,提取、转换和加载)

dimensional modeling(维度建模) Real-time Data Warehousing(RDW,实时数据仓库) dimension tables(维表) independent data mart(独立数据集市)

87

Page 43: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

70 第 2 章

cube(立方体) drill down(下钻) metadata(元数据) Enterprise Application Integration(EAI,企业应 OLAP(在线分析处理) 用集成)

data integration(数据集成) Enterprise Data Warehouse(EDW, 企业数据仓库)

data mart(数据集市) Enterprise Information Integration (CEll,企业信 Data Warehouse(DW,数据仓库) 息集成)

Operational Data Store(ODS,操作数据存储) Data Warehouse Administrator(DWA,数据仓库

snowflake schema(雪花模式) 管理员)

star schema(星形模式)

问题讨论

1. 比较数据集成和 ETL。它们之间有什么关系?

2. 什么是数据仓库?数据仓库的好处是什么?为什么网络可访问性对数据仓库很重要?

3. 数据集市可以代替或补充数据仓库,比较并讨论这两种选择。

4. 讨论数据仓库给终端用户带来的好处。

5. 列举数据库管理员和数据仓库管理员之间的异同。

6. 阐述数据集成如何提升数据质量。

7. 比较 Kimball 和 Inmon 数据仓库开发方法。说明它们分别在何时使用最有效。

8. 讨论创建数据仓库时的安全问题。

9. 研究当前离岸外包的数据仓库的开发实施。撰写关于此问题的报告。课堂上讨论此问题的利润、成

本和社会因素。

练习

Teradata 大学网络(TUN)和其他动手练习

1. 描述日本可口可乐公司数据仓库项目的开发和应用情况(应用案例 2.4 对此进行了总结)。可以在

DSS 资源网站上找到此案例,http://dssresources.com/cases/coca.colajapan。阅读此案例,回答 9 个

问题,并进一步分析和讨论。

2. 阅读 Ball(2005)文献并对其中介绍的标准进行排序(最好针对一个真实企业)。撰写报告阐述每条

标准的重要性并说明原因。

3. 在考虑数据仓库项目开发时,说明什么时候需要实施二层架构或者三层架构。

4. 阅读 teradatauniversitynetwork.com 网站的大陆航空公司案例(在章未应用案例的最后部分做了总

结),并回答问题。

5. 登录 teradatauniversitynetwork.com 网站,阅读案例“ Harrah's High Payoff from Customer Information”(Harrah 从客户信息中获取的高回报),并回答问题。将 Harrah 的结果与航空公司和赌场如何运用客

户数据联系起来。

6. 登录 teradatauniversitynetwork.com 网站,阅读“ Data Warehousing Failures”(数据仓库失败案例)

并回答问题。它介绍了 8 个案例,所以课堂上可以把学生分成 8 组,每组分配一个案例。此外,阅

读资料文献 Ariyachandra and Waston(2006a),分析每个案例的失败原因,不要专注于资料中一个

或多个的成功因素。

7. 登录 teradatauniversitynetwork.com 网站,阅读“ Ad-Vent Technology:Using the MicroStrategy Sales Analytic Model”(Ad-vent 技术:使用 Microstrategy 销售分析模型),并回答相关问题。Microstrategy 软件

可以从 TUN 网站下载。同时,也许想使用 Barbara Wixom 关于 Microstrategy 软件的 PPT(关于

Microstrategy 教程的演示幻灯片),这也可以从 TUN 网站下载。

88

Page 44: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 71

8. 登录 teradatauniversitynetwork.com 网站,观看名为“Real-Time Data Warehousing:The Next Generation of Decision Support Data Management”(实时数据仓库:下一代决策支持数据管理)和“ Building the Real-Time Enterprise”(建立实时企业)的网络研讨会。阅读文章“ Teradata's Real-Time Enterprise Reference Architecture:A Blueprint for the Future of IT”(Teradata 的实时企业相关架构:IT 的未来蓝

图),这也可以从此网站下载。介绍“实时的”概念和技术是如何发挥作用的,企业如何应用它们来

扩展现行数据仓库和商务智能架构以支持日常决策的。撰写一份报告,阐述实时数据仓库如何使企

业具备竞争优势。详细阐述项目实施和操作中的困难,并说明在实际中如何解决。

9. 登 录 teradatauniversitynetwork.com 网 站, 观 看 网 络 研 讨“ Dafa Integration Renaissance:New Drivers and Emerging Approaches”(数据集成复兴之路:新驱动和新兴方法)和“ In Search of Single Version of the Truth:Strategies for Consolidating Analytic Silos”(寻找唯一的事实:巩固分析的战略)

和“Data Integration:Using ETL、EAI 和 EII Tools to Create an Integrated Enterprise”(数据集成:运

用 ETL、EAI 和 EII 工具来创建集成企业)。同时阅读“Data Integration”(数据集成)研究报告。比

较这些报告。这些报告中最重要的问题是什么?将数据集市和电子表格集成为一个数据仓库架构,

最佳方法是什么?网络搜索相关领域的最新进展。将上述报告与你所发现的最新进展进行比较。

10. 研究数据仓库领域的未来发展趋势。对此主题进行网络搜索。同时,阅读 2 篇文章:L.Agosta,“ Data Warehousing in a Flat World:Trends for 2006”,DM Direct Newsletter,March 31,2006 ; J.G.Geiger,“CIFe: Evolving With the Times,”DM Review,November 2005,pp. 38—41。比较你在

这 2 篇文章中的发现。

11. 登录 teradatauniversitynetwork.com 网站。阅读最新的文章、研究报告和数据仓库案例。介绍此

领域中的最新进展。撰写报告说明数据仓库如何在商务智能和决策支持系统中应用。

12. 到 YouTube.com 网站搜索“ Teradata BSI Cases”,BIS 代表商业方案有限公司(Business Solution Inc.),选出 3 个数据仓库案例并认真观看,撰写一份报告,介绍你发现的商业问题和探索性解决方案。

小组任务和角色扮演

1. 在过去的 6 年里,Kathryn Avery 担任全国性连锁零售企业 Big Chain 的数据库管理员。最近,她被

任命主持 Big Chain 的第一个数据仓库项目。该项目得到了高级管理人员和 CIO 的大力支持。开发

数据仓库的目标是为了改善报表系统,特别是销售和营销领域的报表系统。从长远来看,项目的目

标是为改善 Big Chain 的客户关系管理。Kathryn 曾参与数据仓库协会的会议,并读过相关文章。但

她对开发方法仍有迷惑。她知道有 2 个小组:EDW(Inmon)和层次架构的数据集市(Kimball) ,两

者具有相同的健壮性。

最初,她认为两种方法完全不同,但当她经过认真研究后,她就不那么确定了。Kathryn 有一

些问题需要解答:

a. 两种方案的不同之处是什么?

b. 选择一个特定方案的影响因素是什么?

c. 她下一步该采取什么措施?

帮助 Kathryn 回答以上问题(此练习基于文献:K.Duncan,L.Reeves,and J.Griffin. “ BI Experts' Perspeetive.”Business Intelligence Journal,VoL. 8,No. 4 Fall 2003,PP.14-19.)

2. J eet Kumar 是一个大型区域银行的数据仓库管理员。5 年前他被任命负责实施一个支持银行客户关

系管理业务战略的数据仓库项目。应用数据仓库,银行能够成功地集成客户信息、分析客户利润、

吸引客户、增强客户关系和保留客户。

几年后,由于数据更新更加频繁,银行数据仓库逐渐发展成为实时数据仓库。现在,该银行计

划实施客户自助服务和呼叫中心应用系统,这就需要更快地更新数据。

Jeet Kumar 希望提供更加实时的数据。一个替代选择是实施实时数据仓库项目,Jeet Kumar 的 ETL供应商准备支持这个项目。然而,Jeet Kumar 已了解了 EAI 和 EII 技术,并想知道如何将这些技术

应用到项目中。

89

Page 45: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

72 第 2 章

Jeet Kumar 有以下问题需要解决:

a. 什么是 EAI 和 EII 技术?

b. EAI 和 EII 技术、ETL 技术有什么关系?

c. EAI、EII 技术与实时数据仓库有何关系?

d. EAI 和 EII 技术是实时数据仓库所需要的技术还是补充,或者是对实时数据仓库的替代?

帮助 Jeet 回答以上问题(此练习基于文献:S.Brobst,E.Levy,and C.Muzilla. Enterprise Application Integration and Enterprise Information Integration. Business Intelligence Journal,VoL. 10, No. 2,spring 2005, pp.27-33).3. 采访你所在大学或者企业的管理人员,判断数据仓库是如何协助他们工作的。撰写一份报告描述你

的发现。报告中应包括成本估计和项目收益。

4. 浏览本章中的数据仓库风险列表,并为每个风险找到两个案例。

5. 访问 teradata.com 网站,阅读白皮书“ Measuring Data Warehouse ROI”和“ Realizing ROI:Projecting and Harvesting the Business Value of an Enterprise Data Warehouse”。同时,观看网络课程“ The ROI Factor:How Leading Practitioners Deal With the Tough Issne of Measuring DW ROI”。描述其中最重要的

问题,并对这些问题与 Ariyachandra and Waston(2006)中介绍的成功因素进行比较。

6. 阅读 K.Liddell Avery 和 Hugh J.Watson 的论文“ Training Data Warehouse End-users,”Business Intelligence Journal,vol.9,No.4,Fall2004, pp. 40~51(该文可到 teradatauniversitynetwork.com 网站下载)。

将不同的小组看成不同的终端用户,说明他们遇到的难题,并讨论对不同小组进行合理培训的好

处。让小组中的每个成员扮演一个角色,讨论什么类型的数据仓库培训适合你。

网络练习

1. 上网搜索关于数据仓库的信息。找到对此概念感兴趣的新闻组。在图书馆、电子图书馆和 Google 上

搜索关于 ABI/INFORM 的最新文章。登录 tdwi.com、technologyevaluation.com 和主要供应商 teradata.com、sas.com、oracle.com 和 ncr.com。也可访问 cio.com、dmreview.com、dssresources.com和 db2mag.com。

2. 对某些 ETL 工具和供应商进行调查。登录 fairisaac.com 和 egain.com。也可访问 dmreview.com。

3. 联系一些数据仓库供应商,获取他们产品的信息。特别关注那些提供复杂功能产品的供应商,例如

Cognos、Software A&G、SAS Institute 和 Oracle。可以从这些供应商获取免费的在线演示程序。

下载并运行一两个程序,撰写一份实验报告。

4. 登录 teradata.com,下载数据仓库项目开发的成功案例。写一份报告介绍你的学习心得。

5. 登录 teradata.com 下载数据仓库的白皮书和网络课程。阅读白皮书并观看网络课程(将班级分组以

完成所有任务),写一份报告介绍你的学习心得。

6. 寻找数据仓库项目的最新成功案例。登录数据仓库供应商网站并寻找案例或者成功的故事。选择其

中一个并向班级同学做简要介绍。

章末应用案例

大陆航空公司因使用实时数据仓库而腾飞

当商务智能成为日常业务系统的关键组件时,提供用户快速更新和预警的实时数据仓库项目也在

日渐增加。大陆航空公司制订了一份积极的计划——“前行商业计划”,该计划由实时数据仓库和商务

智能支持,帮助改变大陆航空公司的经营状况,将其从业界最差转变为业界最受喜爱。大陆航空公司

是实时数据仓库和商务智能方面的领军企业。2004 年,大陆航空公司赢得了数据仓库协会颁发的最佳

实践和领导奖。虽然大陆航空公司成功部署实时数据仓库和商务智能已经有一段时间,但大陆航空公

司还是被看作实时动态数据仓库的一个成功案例和启蒙故事。

问题

大陆航空公司成立于 1934 年,当时公司位于美国西南部并且只有一架单引擎洛克希德飞机。2006

90

Page 46: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 73

年,大陆航空公司已经成为全美第 5 大航空公司和世界第 7 大航空公司。大陆航空公司拥有全美最广

泛的全球航线网络,拥有通向超过 227 个目的地的 2300 多条航线。

1994 年,大陆航空公司陷入了巨大的财务危机,两次申请美国破产法第 11 章的保护,并准备申

请第 3 次,最终很可能破产。由于客户关注的因素表现都很差,包括飞机的准时起飞率很低、行李托

运问题多、许多客户因航班超额预订(overbooking)而离开,所以机票订单下跌。

解决方案

大陆航空公司崛起于 1994 年,当时 Gordon Bethune 担任公司 CEO,并发起了前行计划(Go Forward Plan),该计划被分成 4 个相关的部分同时执行。通过更好地理解客户需求和客户对公司服务的意见,

Bethune 致力于提升客户价值绩效考核。财务管理活动也成为业务超越的一个目标。早在 1998 年,航

空公司拥有独立的营销和业务数据库,由外部供应商托管。查询处理过程和向高价值客户宣传营销计

划需要花费大量时间,并且毫无效率。此外,工作人员决策时很难获取相关信息。1999 年,大陆航空

公司选择了将营销、IT、收入和业务数据源系统集成为一个内部企业数据仓库。数据仓库带来了早期

的收益。

不久以后,大陆航空公司开始处于盈利状态,而且各项业绩指标均在航空领域排名第 1。Bethune和他的管理团队提升了公司目标。除了业绩最好之外,他们期望大陆航空公司成为最受客户欢迎的航

空公司。前行计划采取了更多可行的方法,使得大陆航空公司从排名第 1 转变为最受客户欢迎的公司。

技术成为支持该新行动方案的关键因素。早期,访问历史的集成数据就可以满足公司需求,产生可观

的战略价值。但企业对数据仓库实时的、可用的信息的需求日渐迫切,以满足企业级业务决策和商业

过程。

幸运的是,数据仓库开发团队已经预料到并安排了实时数据仓库项目。项目开始时,团队就设计

了一个系统架构,用来处理实时数据进入数据仓库的过程,从遗留系统中提取数据到数据仓库中,进

行实时业务查询。2001 年,可以从数据仓库中获取实时数据,存储数量也快速增长。大陆航空公司将

关于客户、机票预订、登机、运作和航线等方面的实时数据(从几分钟到几小时)转移到数据仓库中。

大陆航空公司的实时数据仓库包括下列内容:

财务管理和会计。 ● 客户关系管理。 ● 机组人员运作和工资。 ●安全与欺诈。 ●飞行作业。 ●

结果

仅仅第一年,在部署数据仓库项目后,大陆航空公司识别并消除了超过 700 万美元的诈骗,节约

了 4100 万美元的成本。伴随着 6 年内 3000 万美元的软硬件投资,大陆航空公司在财政收入增加、营

销成本节约、欺诈发现、需求预测和追踪以及改进数据中心管理方面收益 5 亿美元。管理人员对业务

有着统一、集成和可靠的认识,因此制定了更好的、更快的决策。

由于大陆航空公司的巨大成功,基于可伸缩的、可扩展的架构、实时数据基础上的决策、与终端

用户的良好关系、精干的数据仓库人员、能够明智权衡战略和战术决策支持的需求、理解决策支持与

业务运营之间的协同以及应用实时数据变革业务流程,它的数据仓库实施被认为是实时商务智能的一

个卓越案例。

章末应用案例问题

1. 介绍大陆航空公司实施前行战略(Continental Go Forward Strategy)的好处。

2. 说明为什么运用实时数据仓库对航空公司很重要。

3. 浏览 http://www.teradata.com/case-studies/Continental-Airlines-Case-Study-eb4349 的样本系统输出

屏幕,说明它如何帮助用户识别问题和机会。

Page 47: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

74 第 2 章

4. 识别传统数据仓库和大陆航空公司的实时数据仓库之间的主要区别。

5. 与传统数据仓库相比,大陆航空公司可从实时系统项目中获取什么战略优势?

来源:H. Wixom, J. Hoffer, R.Anderson-Lehman, and A. Reynolds, “ Real-Time Business Intelligence: Best Practices at Continental Airlines,” Information Systems Management Jourmal, Winter 2006, pp. 7-18; R. Anderson-Lehman, H. Watson, B. Wixom, and J. Hoffer, “ Continental Airlines Flies High with Real-Time Business Intelligence,"MIS Quarterly Executive, Vol. 3, No. 4, December 2004 pp. 163-176 (available at teradatauniversitynetwork.com); H. Watson, “ Real Time: The Next Generation of Decision-Support Data Management, ”Business Intelligence Journal, Vol. 10, No. 3, 2005, pp.4-6; M. Edwards, “2003 Best Practices Awards Winners: Innovators in Business Intelligence and Data Warehousing,“ Business Intelligence Journal, Fall 2003, pp. 57-64; R. Westervelt, “ Continental Airlines Builds Real-Time Data Warehouse, ” August 20, 2003, searchoracle techtarget.com; R. Clayton, “ Enterprise Business Performance Management: Business Intelligence + Data Warehouse = Optimal Business Performance,” Teradata Magazine, September 2005; and The Data Warehousing Institute, “2003 Best Practice Summaries: Enterprise Data Warehonse, ”2003.

参考文献

Page 48: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

数据仓库 75

Page 49: Business Intelligence: A Managerial Perspective On Analytics, 3E …images.china-pub.com/ebook4630001-4635000/4631270/ch02.pdf · 2015-03-26 · 第2 章 Business Intelligence: A

76 第 2 章

91

~

94