Upload
others
View
13
Download
0
Embed Size (px)
Citation preview
• 数据科学:大数据,大机会,大挑战
• 为什么需要Team Data Science Process
• TDSP的四个主要元素
• 微软如何实施TDSP
• 现场演示
人工智能
云计算大数据与物联网
正引领我们进入第四次工业革命
$1.6T 接下来4年数据能给我们的商业带来的红利
大数据,大机会
Data source: Microsoft and IDC, April 2014
速度如何实现?
“Only 27% of the big data projects are regarded as successful”
“Only 8% of the big data projects are regarded as VERY successful”
Only 13% of organizations have achieved full-scale production for
their Big Data implementations
Source: CapGemini 2014
“Only 17% of survey respondents said they had a well-
developed Predictive/Prescriptive Analytics program in
place, while 80% said they planned on implementing
such a program within five years” – Dataversity 2015
Survey
Source: http://berkeleysciencereview.com/how-to-become-a-data-scientist-before-you-graduate/
质量控制
团队协作
知识积累
敏捷制造
全球化的团队
• 西雅图,旧金山,
波士顿,伦敦,新
加坡
多样化的成员
• 计算机,统计,物
理,神经生物学…
各行业的客户
• 金融机构,航空公
司,电商,制药…
Source: KDNuggets, October 2014
数据科学流程:有人在用吗?
标准化的项目流程
标准化的文档模板,以及标准化的Git
Repository目录结构
共享分布式的数据,计算平台
共享数据科学工具以提高效率
1
2
3
4
Cross-Industry Standard Process for Data Mining
(CRISP-DM)Knowledge Discovery in Databases
(KDD)
Templates Utilities
共享分布式的数据,计算平台
经验积累,效率提升
项目
效率
项目 1
项目 2
项目 3
项目 4
项目 5
项目 6
• Azure数据科学虚拟机作为基础的开发平台
• 使用Visual Studio Team Services (VSTS) • 记录追踪任务,sprint计划• Git repositories
• 每个项目一个git repository,并且采用标准化的目录结构和文档模板
• 一个git repository用以分享数据科学工具
xgboost
Vowpal Wabbit
Rattle
CNTK
Developer edition
IDEAR• 数据质量评估• 数据相关性评估• 机器学习任务难度评估• 揭示数据中的隐性结构• 获取对数据机器产生过程的深入了解• 所见即所得的方式产生数据报告AMAR
• 快速构建基准模型• 生成标准化的模型报告• 获取对模型,数据,以及机器学习任务的深入了解
数据科学团队
1. 更好地组织代码和文档2. 标准化数据科学流程3. 版本控制4. 知识积累5. 数据和信息安全
1. 更高的工作效率2. Collaboration:
distributed compute, no
contending for resources.
经理 数据科学家
所有的教材都在公共github repositories: http://aka.ms/tdsp
IDEAR and AMAR发布在公共github repository: https://github.com/Azure/Azure-
TDSP-Utilitieses
获取免费的VSTS帐户: http://www.visualstudio.com http://www.visualstudio.com
开源,共享,贡献你的力量,让我们一起让TDSP成为服务所有许据科学家的:• 版本受控• 信息安全• 团队协作• 运转高效的数据科学过程
扫描此二维码填写此次课程调查表格,即有机会赢取限量版精致好礼!