21
中国移劢大数据应用实践 徐萌 中国移动通信研究院 云计算系统部 2013年12月

徐萌:中国移动大数据应用实践

Embed Size (px)

DESCRIPTION

BDTC 2013 Beijing China

Citation preview

Page 1: 徐萌:中国移动大数据应用实践

中国移劢大数据应用实践

徐萌 中国移动通信研究院 云计算系统部

2013年12月

Page 2: 徐萌:中国移动大数据应用实践

中国移动网络规模和拥有用户数全球第一

900,000 基站、99% 人口覆盖、237 国家漫游

7亿3千万以上用户,占据中国大陆65% 市场份额

位于珠峰大本营的世界最高移动基站 6500m

2008年北京奥运会合作伙伴

连续四年入选道.琼斯指数DJSI

《金融时报》发布的“全球最强势100品牌”,排名第10位

2010年《商业周刊》评选全球创新企业50强,排名第18位

336

2001 2002

2003 2004 2005

2006 2007

2008

2009

2001-2012 世界500强排名

2010

287

230 242

224

202

180

148

99

77 87

2011 81

2012

Page 3: 徐萌:中国移动大数据应用实践

移动互联网用户流量激增,手机数据化、宽带化趋势明显

时间分布

移劢互联网:通信功能 = 80:20

数据来源:GSMA 2013

流量分布 用户分布

数据来源:Infoma 2013 数据来源:Cisco 2013

全球移劢互联网用户数量激增, 已3倍于固定互联网用户数量

移劢互联网流量激增,2012年底,移劢数据流量占比超过13%

移劢互联网应用使用时间激增,是使用通信服务时间的4倍

中国大陆移劢互联网发展有相类似的趋势,截至2013年6月,中国大陆手机网民已达4.6亿,上半年移劢互联网接入流量同比增长62.6%(CNNIC、工信部)

Page 4: 徐萌:中国移动大数据应用实践

• 面向结构化数据,非结构化处理效率低

• 基于昂贵硬件(小型机+磁盘阵列)或一体机

• 硬件平台兼容性差:在跨代硬件或跨厂商硬件环境下常常无法部署

• 扩展性达到PB级之上可选厂商较少,易绑定

• 具备结构化/非结构化混合分析的能力,大数据多为非结构化

• 基于消费级硬件,以常态化硬件故障为设计出发点,丌依赖高性能、高可靠性硬件保障系统性能和可靠性。

• 基于通用硬件,平台兼容性好,可跨代,跨厂商硬件部署

• 扩展性高,业内有上万节点级部署案例,大陆有千节点级部署

transaction

DBMS

ETL

DW

Analysis

Cluster Unstructure

Stream

Multiple data sources (MapReduce)

传统数据分析处理 大数据处理

Distributed architecture

Traditional DB/DW

TB PB EB ZB

MPP DW+Hadoop

Analysis

大数据处理核心基础的转变

Page 5: 徐萌:中国移动大数据应用实践

电信运营商发挥管道优势,深入挖掘大数据的价值

借助云计算技术和运营商优势,将大数据信息转

化为商业价值,促进业务创新

1. 改善用户体验:智能语音门户通过知识库和语义搜

索技术实现业务知识的机器智能回答

2. 助力市场决策:充分挖掘用户的移动互联网行为特

征,提升对用户消费偏好的精准把握,帮助市场营

销等决策,实现精准营销。

3. 优化网络质量:利用信令数据支撑终端、网络、业

务平台关联分析,优化网络,实现网络价值最大化

分析需求

流量分析 流量的构成和大趋势分析等

用户分析 用户兴趣偏好、近期关注、活动范围等

流量清单查询 为用户提供流量的去向查询等

上网日志内容字段

网络质量和效率分析

网络价值分析

业务端到端分析

客户感知及行为分析

PI 网元能力层

KPI 网络性能层

KQI 业务质量层

QOE 客户感知层

用户帐号

协议类型

业务类型

访问URL

终端信息

上行流量

下行流量

„„

劣力市场决策 优化网络质量

改善用户体验

Page 6: 徐萌:中国移动大数据应用实践

中国移动是国内云计算的先行者和倡导者

2007年3月,启动了“大云”研发项目 2008年11月,作为副主任委员单位发起成立了中国电子学会云计算专委会; 2010年1月,作为副理事长单位发起成立了中国云计算技术和产业联盟; 2011年8月,作为副理事长单位发起成立了中国云计算发展与政策论坛; 2010年5月,加入云计算国际测试床Open Cirrus,成为国内第一个成员单位; 2011年12月,正式发布“彩云”个人云服务 2012年12月,采用大云产品的国家教育云正式上线 2013年6月,为了加强云计算和大数据开发,研究院基于大云团队成立云计算系统部 2013年9月,大云项目被列为集团战略性重大项目之一

•中国移动从2007年就开始云计算的探索和实践,是国内云计算的先行者和倡导者,积极参与国内外的标准化和产业推动

2009年12月建成国内规模最大的云计算实验室,服务器节点数超过1300个

Page 7: 徐萌:中国移动大数据应用实践

“大云”是中国移动为助力移动互联网转型、实现IT支撑系统升级而实施的云计算创新研发计划

“大云”是中国移动为助力移动互联网转型、实现IT系统架构变革

而实施的云计算创新研发计划。项目研发将满足中国移动IT系统高

性能、低成本、高可扩展、高可靠性的需求,推动IT支撑系统集中

化的实现,增强大数据处理能力,打造移动互联网时代核心竞争能

策略研究

平台研发

方案/规范

标准化 产业推劢 应用研发

试验/试点

1 2

3

4

5

大云

Page 8: 徐萌:中国移动大数据应用实践

“大云”研发历程

“大云”是中国移动研究院为打造中国移动云计算基础设施而实施的关键技术研究、现网技术支撑及产品开发计划。项目从2007年3月启动,是国内最早启动的云计算研发项目之一。

2007.3 2008.3 2011.11 2007.7

确定了云计算研究方向

2010.5 2011.4

发布大云1.5

部署Hadoop系

统进行大数据研究

发布大云1.0

发布大云2.0

2012.8 2006.9

2006年2月,大数据基础软件Hadoop诞生

2006年9月,亚马逊AWS服务正式上线

2008年1月,Hadoop成为Apache顶级项目

2008年4月,Google PAAS服务GAE试商用

2011年7月,阿里云上线试商用

2010年7月,云计算

基础软件联盟OpenStack 成立

在双业务云部署

在公有云部署

在一级私有云部署

2013.6 2012.6

云计算引入策略、规范制定、产品研发、应用试验、产业链培育、标准化

行业动态

Google云计算论文:GFS /2003年,MapReduce/2004,BigTable/2006

2003

Page 9: 徐萌:中国移动大数据应用实践

对象存储 BC-oNest

数据仓库系统 BC-HugeTable

系统监控和管理

Clo

ud

Maste

r

平台安全管理

Clo

ud

Secu

rity

移劢互联网 业务平台

IDC服务 … 经分 集中化

结算 系统

云计算 资源池系统

并行数据挖掘工具集 BC-PDM

并行数据 抽取转换 BC-ETL

搜索引擎 BC-SE

经分系统 ETL/DM

信令 系统

物联 网应用

弹性计算 BC-EC

弹性块存储 BC-EBS

商务智能平台BI-PaaS

数据管理/分析类

计算/存储资源池

BC-Hadoop 数据存储和分析平台

IaaS 产品

PaaS 产品 “大云”产品

实时交易类

SQL数据库 BC-RDB

BC-BSP 数据并行框架

“大云”2.5产品体系架构

内存处理引擎 BC-DME

K-V数据库 BC-kvDB

2.0产品体系 2.5新增产品 2.5功能增强

Page 10: 徐萌:中国移动大数据应用实践

建设大云产品开源社区增强产品的研发和推广能力

版本不一,缺乏规划

• 集成商丌同,版本丌同

• 大云/华为/亚联/Intel/天

自有人员不足,控制力弱

• 主要由集成商引导和控制

• 自有力量薄弱

• 靠多家多轮测试

在试点中发现省公司关于使用Hadoop的问题:

调优复杂,门槛较高

• 应用不平台绑定

• 调优斱法复杂多样

开源的优势:

• 吸引多斱研发力量:包括集成商、应用开发商、高校科研机构、互

联网企业等

• 拓展应用渠道:推进开源产品的应用实践

• 促进统一版本:促进集团、省公司选择内部开源版本,全国版本统一

化,利于核心技术的掌控

• 提高集成商运维积极性:开源代码透明、可维护程度高

将基于开源Hadoop软件的大云大数据平台BC-Hadoop开源,尝试开源模式!

Page 11: 徐萌:中国移动大数据应用实践

大云开源社区BC-Hadoop最新进展

• 社区建设:在大云实验室搭建开源站点,选择github作为镜像站点,

并确定了开源组件模块和基线版本

• 开源合作:研究院大云团队和亚联、华为研发人员组成核心团队负

责社区研发的启劢,开源社区迓得到了来自卓望、新大陆、拓维、

东软、宜通、亿阳、斯特奇、北邮和东北大学等公司和院校的支持

• 大云开源社区期待幵欢迎各方的加入!

• http://www.bigcloudsys.com/opensouce

Page 12: 徐萌:中国移动大数据应用实践

“大云”应用逐年丰富,产品成熟度稳步提高

• 大云的商用涵盖公司“两朵云”以及外部行业云,成功应用于移动IT支撑系统,互联网业务平台,公众服务云、教育云和电子政务云等领域。

• 大云产品已部署了超过3000台服务器,裸存储容量约15PB。

• 截止12年底,累计为公司创收和节省成本7000万元以上。

27 27

21 15

9

4

大云实验室设备规模

计算节点1180个,内核总数6432个,内存18.8TB,存储容量4PB+

网络设备50台,千兆接入端口1248个,万兆接入端口384个,IB-40Gb接入端口80个

大数据资源池 测试区 研发区 虚拟化资源池

统一运营管理平台 统一运维管理平台

自服务资源申请、释放

资源使用监控和统计

PUE = 1.504

大云实验室功耗统计

大云实验室运营运维管理

自动化安装部署

自动化故障报修

Page 13: 徐萌:中国移动大数据应用实践

典型的应用场景之一:大数据批处理系统

目标:针对海量结构化、非结构化数据的ETL操作。从各种数据源获取数据,幵进

行清洗、转换、去重、缺值补充等操作。通常采用MapReduce等幵行计算技术。

技术要求丼例:

针对海量数据实时离线批处理运算(ETL),通常时间要求较为宽松,如几个小时级别。

数据ETL运算种类多,灵活性强,通常具有很强的定制化特征

数据通常需要导出到数据库、数据仓库,提供报表能力

需要灵活的调度的系统,便于系统需要和其他业务系统混合部署,提高资源利用水平

例图:分时段汇总的业务场景

Page 14: 徐萌:中国移动大数据应用实践

典型的应用场景之二:大数据查询系统

目标:针对海量结构化、半结构化数据的精确定位、区段扫描等条件查询操作,用

于网络优化、帐详单查询、故障定位、搜索引擎等业务场景。

采集预处理 计算1 计算2

融合 处理

大数据库 大数据库

原始 数据

消息

营业厅系统

营业厅1 营业厅2 营业厅3 营业厅4

例图:帐详单查询系统

技术要求丼例:

针对海量数据实斲交互式查询,迒回时间在1秒钟左右。

针对海量大数据规模实斲查询,数据规模可以达到100TB-10PB规模。

数据插入通常采用批处理斱式,而查询通常带有条件,通常迒回结果数较少

系统具备较高的并发性,支持大量用户同时查询,依然可以在给定时间出口迒回结果

数据具有很高的可靠性和可用性要求

Page 15: 徐萌:中国移动大数据应用实践

典型的应用场景之三:大数据分析挖掘系统

目标:针对海量结构化、非结构化数据的进行深度挖掘。通常需要根据业务需求设

计模型、训练集幵选择算法(分类、聚类、关联、非结构化)。通常会使用各种分

布式数据挖掘工具和算法

人群1

其它人群

例图:客户分类识别应用

技术要求丼例:

针对海量数据实斲全量数据挖掘,规模达到10TB-PB规模。

处理时间没有严格要求,通常达到几个小时,甚至更长时间

需要支持各种并行计算模式,如MapReduce、BSP等

数据挖掘系统需要较好的用户界面,用户通常具备业务知识,但是未必具备开发经验

系统可以和其他系统混合部署

数据具有一定的可靠性和可用性要求

Page 16: 徐萌:中国移动大数据应用实践

仸务统一调度

应用案例1:云化ETL完成了省公司每日近170亿的数据处理

16

接口机

文件采集到云平台

文件

级 校验

ODS层库外存

DWD层库外存

DW

层库外存储 数据

转换

应用层数据

传输协议

云计算Hadoop

库内处理

DW层数据

处理流程说明:

云平台从接口机采集数据入HDFS分布式文件系统,同时负责数据预处理、原始生产数据的清洗和转换,以及各平台间的数据交换,从而实现ODS-DWD-DW层数据处理加工工作。库外仸务由云平台统一调度、监控。传统数据仓库库内处理工作逐渐迁移至库外,只提供应用层展现功能。

数据 装载

文件采用LZO压缩(接近4:1) 6、库外稽核

每天新增约4.6T的原始数据量,压缩后大概1.3T

需先预处理,再进行文件采集,从而提高效率

原始数据 4.6TB

162亿条 约1.3TB

(经分13.5亿)

149亿条 约800GB

(经分50GB)

62亿条 约3.4TB

1 2 3 5 4

Datanode数量 67台

Namenode数量 2台

日程序运行开始时间

6:30:00

日程序运行结束时间

18:00:00

总流程平均运行时长

11.5小时

大数据平台处理能力 FTP方式获取 上游数据

通过Map/Reduce + SQL Loader将DW层数据加载至数据仓库(Oracle)指定表中

触发FTP抽取任务,从指定FTP路径抽取文件,再存入HDFS文件系统

流程70个 流程16个 流程81个

Page 17: 徐萌:中国移动大数据应用实践

•BC-SE:支持爬虫、网页解析、自然语言解析等; •爬虫速度500W网页/天/节点 •网页解析及分类1400W网页/天/节点

应用案例2:在互联网内容分析系统中应用

数据层

能力层

服务层

互联网网页 用户上网日志

Internet CMNET/CMWAP/WLAN

日志

用户群提取 访问热点分析

业务竞品分析

URL查询 关键词检索

SaaS DaaS

•BC-Hugetable:支持海量日

志存储及各种汇总、统计分析;网页存储

•BC-PDM:支持海量结构化及非结构化数据分析挖掘

结合用户上网日志及互联网网页内容,为精准行销提供用户行为偏好分析;为互联网业务发展提供大趋势及业务竞品分析能力

Page 18: 徐萌:中国移动大数据应用实践

应用案例3:去IOE实践

现网业务平滑迁移

BC-RDB支持标准SQL92,支持业务

从传统的关系型数据库平滑迁移到

BC-RDB之上。应用业务逻辑程序仅

需做少量改造(修改原有数据库的非

标准语句),甚至可以直接迁移。

•BC-RDB主要用于海量数据的实时在线交易处理系统,包括计费、结算系统等实时系统,CRM、ERP进销存等交易系统以及其他应用系统。

RDB相比传统方式有40%以上提升。

0

0.2

0.4

0.6

0.8

1

SQL1 SQL2 SQL3 SQL4 SQL5

CRM SQL耗时比对

oracle

rdb

RDB相比传统方式有40%~200%提升。

0

1

2

3

4

5

SQL1 SQL2 SQL3 SQL4 SQL5

PBOSS SQL查询耗时

oracle

RDB

Page 19: 徐萌:中国移动大数据应用实践

应用案例4:新浪微博爬取与挖掘

• ; 目标

针对新浪微博的用户信息、交往关系、微博内容、位置等数据进行实时爬取不分析。可实现市场产品的定向营销和目标客户群体发现。支持用户对自定义条件的目标群体进行检索和整体社交关系分析;支持对目标群体中的各社团子群体发现和特征分析;支持目标群体中用户关注内容和位置聚集信息分析;针对个人用户发现交往行为变化和实时关注点

主要 功能

1. 用户交往关系图生成:利用粉丝关注关系和转发评论,构建用户交往关系图 2. 用户地点信息统计:根据签到信息,统计用户常出现地点,发现活劢规律 3. 热点话题发现:从用户近期发布微博中发现用户关心的热点事件 4. 关键词提取:从用户近期微博中提取出关键词,从中发现用户特征 5. 用户信息挖掘:统计用户的性别、地域等基本信息 6. 个人分析:对用户发微博的时段分布、用户近期密友等进行统计分析

Page 20: 徐萌:中国移动大数据应用实践

谢 谢 Thanks !

Page 21: 徐萌:中国移动大数据应用实践

中国移动在我国云计算标准化中的工作

大云倡导IT事实标准和开源合作,推动产业整体健康发展。全面参与ITSS、SOA、CCSA等国内标准化组织

在首批云计算国家标准立项计划(共8项)中,中国移动牵头负责2项《弹性计算应用接口》和《基于对象的云存储应用接口》的国家标准的制定

云主机和云存储是云计算服务的基础功能,

使用最为广泛,对用户的价值最高。

2个应用接口标准的实现了云服务接口层的标

准化,为云服务的互操作、云服务的可迁移

提供了基础保障。

制定过程中广泛征求了主流云服务提供商的

意见,参考了业内事实标准(如AWS)的最

佳实践,实现了兼容性,扩展性和标准化的

有机统一。

“大云”产品全面支持国家云计算标准!

弹性计算接口 对象存储接口