Upload
microsoft-decideurs-it
View
781
Download
2
Embed Size (px)
DESCRIPTION
Cette session permet de découvrir le paysage Big Data d'une façon pragmatique. Nous remettrons d'abord la question du BIG Data dans ses contextes business et techno. Ensuite, nous ferons un zoom sur les technologies Hadoop et leurs différentes possibilités d'implémentation.
Citation preview
Olivier [email protected] Solution Engineer Big Data –
Hortonworks
Big Data : Manage, Refine, Recycle(avec un gros zoom Hadoop)
Stéphane Goudeau Architecte Azure – Microsoft
Blaise [email protected]
Business Development Azure – Microsoft
Gagnez une Tablette Windows 8!
Souscrivez à l’offre d’essai ou activez votre accès Azure MSDN
Présentez-vous sur le stand Azure (zone Services & Tools)
Participez au tirage au sort à 18h30 le 12 ou le 13 février
1
2
3
Agenda
Introduction : Motivation et Scénarios
Hadoop : Etude d’un cas d’utilisation
Hadoop en environnement Microsoft
Hadoop: Stratégie Microsoft
IntroductionMotivations & Scénarios
La prochaine révolution?
Data Complexity: Variety and Velocity
Terabytes
Gigabytes
Megabytes
Petabytes Big
DataLog files
Spatial & GPS coordinates
Data market feeds
eGov feeds
Weather
Text/image
Click stream
Wikis/blogs
Sensors/RFID/devices
Social sentiment
Audio/video
Web 2.0
Web Logs
Digital Marketing
Search Marketing
Recommendations
Advertising
Mobile
Collaboration
eCommerce
ERP/CRM
Payables
Payroll
Inventory
Contacts
Deal Tracking
Sales Pipeline
De nouvelles contraintes sur la donnée
Volume
Variety
Velocity
Relational Data
Source: IDC's 2012 Vertical IT and Communications Survey
Portées par des demandes métiers
Source: IDC's 2012 Vertical IT and Communications SurveyN=4117
Une révolution qui semble mûre
Mais il reste de nombreuses questions
Source: IDC's 2012 Vertical IT and Communications SurveyN=4117
Big Data Challenges :
Le cycle de vie de la donnée
InsightManage Enrich
Impact
Manage - Gérer
RelationalNon-Relational Streaming
010101010101010101101010101010101001010101010101101010101010
Unified Monitoring, Management & Security
Data Movement
Enrich - enrichir
Discover
Combine
Refine
Insight
RelationalNon-Relational Streaming
010101010101010101101010101010101001010101010101101010101010
BI ProfessionalsBusiness AnalystsData Scientists
HadoopEtude d’un cas d’utilisation
OS Cloud VM Appliance
Enterprise Hadoop Platform Components
Hortonworks Data Platform (HDP)
Enterprise Hadoop
The ONLY 100% open source and complete distribution
Enterprise grade, proven and tested at scale
Ecosystem endorsed to ensure interoperability
PLATFORM SERVICES
HADOOP CORE
Enterprise ReadinessHigh Availability, Disaster Recovery, Snapshots, Security, etc…
HORTONWORKS DATA PLATFORM (HDP)
OPERATIONAL SERVICES
DATASERVICES
HCATALOG
HIVEPIGHBASE
OOZIE
AMBARI
HDFS YARN (in 2.0)
WEBHDFS MAP REDUCE
SQOOP
FLUME
© Hortonworks Inc. 2013
Next-Generation Data ArchitectureAP
PLIC
ATIO
NS
DATA
SYS
TEM
S
TRADITIONAL REPOSRDBMS EDW MPP
DATA
SO
URC
ES
OLTP, POS SYSTEMS
OPERATIONALTOOLS
MANAGE & MONITOR
Traditional Sources (RDBMS, OLTP, OLAP)
New Sources (web logs, email, sensor data, social media)
DEV & DATATOOLS
BUILD & TEST
Business Analytics Custom Applications Enterprise Applications
HORTONWORKS
DATA PLATFORM
Big DataTransactions, Interactions, Observations
Hadoop Patterns of UseBusiness Cases
HORTONWORKS DATA PLATFORM
Refine Explore Enrich
Batch Interactive Online
Operational Data RefineryDA
TA S
YSTE
MS
DATA
SO
URC
ES
1
3
1 CaptureCapture all data
ProcessParse, cleanse, apply structure & transform
ExchangePush to existing data warehouse for use with existing analytic tools
2
3
Refine Explore Enrich
2
APPL
ICAT
ION
S
Collect data and apply a known algorithm to it in trusted operational process
TRADITIONAL REPOSRDBMS EDW MPP
HORTONWORKS DATA PLATFORM
Business Analytics Custom Applications Enterprise Applications
Traditional Sources (RDBMS, OLTP, OLAP)
New Sources (web logs, email, sensor data, social media)
Big Data Exploration & VisualizationDA
TA S
YSTE
MS
DATA
SO
URC
ES
Refine Explore Enrich
APPL
ICAT
ION
S
1 CaptureCapture all data
ProcessParse, cleanse, apply structure & transform
ExchangeExplore and visualize with analytics tools supporting Hadoop
2
3
Collect data and perform iterative investigation for value3
2TRADITIONAL REPOS
RDBMS EDW MPP
1
HORTONWORKS DATA PLATFORM
Business Analytics
Traditional Sources (RDBMS, OLTP, OLAP)
New Sources (web logs, email, sensor data, social media)
Application EnrichmentDA
TA S
YSTE
MS
DATA
SO
URC
ES
Refine Explore Enrich
APPL
ICAT
ION
S
1 CaptureCapture all data
ProcessParse, cleanse, apply structure & transform
ExchangeIncorporate data directly into applications
2
3
Collect data, analyze and present salient results for online apps3
1
2TRADITIONAL REPOS
RDBMS EDW MPP
Traditional Sources (RDBMS, OLTP, OLAP)
New Sources (web logs, email, sensor data, social media)
Custom Applications Enterprise Applications
NOSQL
HORTONWORKS DATA PLATFORM
Patterns Across Verticals and Business Cases
Vertical Refine Explore Enrich
Retail & Web • Log Analysis/Site Optimization• Loyalty Program Optimization
• Brand and Sentiment Analysis• Market basket analysis
• Dynamic Pricing• Session & Content Optimization• Product recommendation
Telco • Customer profiling • Equipment failure prediction • Location based advertising
Government • Threat Identification • Person of Interest Discovery • Cross Jurisdiction Queries
Finance• Risk Modeling & Fraud
Identification• Trade Performance Analytics
• Surveillance and Fraud Detection• Customer Risk Analysis
• Real-time upsell, cross sales marketing offers
Energy • Smart Grid: Production Optimization
• Grid Failure Prevention• Smart Meters
• Individual Power Grid
Manufacturing • Supply Chain Optimization • Customer Churn Analysis• Dynamic Delivery• Replacement parts
Healthcare • Electronic Medical Records (EMPI)• Clinical decision support• Clinical Trials Analysis
• Insurance Premium Determination
demoDÉPLOIEMENT D’UN CLUSTER HORTONWORKS
Hébergement du cluster dans Azure
HadoopHadoop en environnement Microsoft
Windows Azure HDInsight Preview
https://www.hadooponazure.com/
http://www.microsoft.com/en-us/sqlserver/solutions-technologies/business-intelligence/big-data.aspx
http://gettingstarted.hadooponazure.com/
http://gettingstarted.hadooponazure.com/gettingStartedHw.html
demoAZURE HD INSIGHT SERVERDécouverte du service Hadoop On Azure
Hive : HDFS vs ASV
Hive & HDFS
• Parallel read/write• Data locality optimization• Rack locality optimization
Hive & ASV
• Parallel read/write• Independent scalability of
compute and storage• Azure topology awareness
MapReduce with HDFS
Name Node
Data Node 1
Data Node 2
Data Node 3
MetadataIp.csv (583 rows)- DataNode1 (1-193)- DataNode2 (194-387)- DataNode3 (338-583)
Ip.csv (1-193)
Ip.csv (194-387)
Ip.csv (388-583)
Split
Map TaskMF-001MF-002
MF-193
Map TaskMF-194MF-195
MF-387
Map TaskMF-388MF-389
MF-583
Combiner
(F;0, M;100
Combiner
Combiner
(F;42, M;41
(F;100, M;300
Reducer
(F;142,
M;441
Data locality optimization
MapReduce with ASV
MapMF-001MF-002
MF-193
MapMF-194MF-195
MF-387
MapMF-388MF-389
MF-583
Combiner
(F;0, M;100
Combiner
Combiner
(F;42, M;41
(F;100, M;300
Reducer
(F;142,
M;441
ASV
ASV://mycontainer/myfolder/Ip.csv
Skip(0)
Skip(194)
Skip(388)
demoAZURE HD INSIGHT SERVER
Chargement de données de ASV vers HDFS, exécution de requêtes, agrégation de résultats
Case Study – Klout Data Architecture
Serving Stores
SignalCollectors
(Java/Scala)
Data Warehouse
(Hive)
Klout.com(Node.js)
Event Tracker(Scala)
Mobile(ObjectiveC)
Analytics
Cubes(SSAS)
Klo
ut A
PI
(Sca
la)
Search Index(Elastic Search)
Registrations DB
(MySql)
Profile DB(HBase)
Streams(MongoDB)
Dashboards(Tableau)
Perks Analyics(Scala)
Monitoring(Nagios)
DataEnhanceme
ntEngine
(PIG/Hive)
Partner API(Mashery)
Case Study: Data Services Firm Uses Microsoft BI and Hadoop to Boost Insight into Big Data
Les briques d’une solution Big Data
PIG HIVE
Map/Reduce
Name Node Data
Node
Data Node
Data Node
Files System
ASV HDFS
File System
Connector
CEP
Bulk Load
MAHOUT Pegasus Reporting
Application Server
RDBMS
OLAP
System Center
Sources de données
Acquisition, Stockage, Traitement des donnéesBusiness
IntelligenceSupervision
Big Data : La proposition de valeur de MicrosoftCloud Services Virtual Machine On-premise
HDInsight Services
Map/Reduce
Name Node Data
Node
Data Node
Data Node
Files System
ASV HDFSSQOOP
StreamInsight
Plume
MAHOUT Pegasus
Microsoft Windows Azure
SSRS
SharePoint
SQL
Database
SSAS
System Center
Sources de données
Acquisition, Stockage, Traitement des donnéesBusiness
IntelligenceSupervision
PIG HIVESQL Reporting
demoAZURE HD INSIGHT SERVER, SQL2012, POWERPIVOT, POWERVIEW
Agrégation de données issues de multiples sources
Big DataStratégie Microsoft
Big Data : Stratégie Microsoft vis-à-vis d’Hadoop
• Apache distribution of Hadoop
• Submit changes back to Apache Foundation
• Optimized for Windows & Azure
• ‘Just works’ on Windows Azure and Server
• Wider Ecosystem • Integration with Visual Studio, Javascript, Excel, etc.
• Enterprise Readiness
• Performance, Scale, High Availability
• Management, Ease of use• Security, Data Governance• Integration with AD and SC.
• Structured and Unstructured
• Integrate as part of our overall data platform
Ressources techniqueshttps://www.hadooponazure.com/
http://www.microsoft.com/en-us/sqlserver/solutions-technologies/business-intelligence/big-data.aspx
http://gettingstarted.hadooponazure.com/
http://gettingstarted.hadooponazure.com/gettingStartedHw.html
http://weatherservice.cloudapp.net
http://www.srh.noaa.gov/rfcshare/ffg_download/ffg_download.php
http://social.technet.microsoft.com/wiki/contents/articles/14320.processing-noaa-flash-flood-guidance-data-in-sql-server.aspx
http://blogs.msdn.com/b/sqlcat/archive/2013/02/01/mash-up-hive-sql-server-data-in-powerpivot-amp-power-view-hurricane-sandy-2012.aspx
4 ouvrages écrits par 13 Microsoftees
http://www.editions-eyrolles.com/livres/Windows-8-pour-les-professionnels
© 2012 Microsoft Corporation. Tous droits réservés. Microsoft, Windows et les autres noms de produits sont des marques déposées ou des marques commerciales de Microsoft aux États-Unis et/ou dans d'autres pays.Les informations contenues dans ce document sont fournies uniquement à titre indicatif. Elles représentent l'opinion actuelle de Microsoft Corporation sur les points cités à la date de cette présentation. Microsoft s'adapte aux conditions fluctuantes du marché et ce document ne doit pas être interprété comme un engagement de la part de Microsoft ; de plus, Microsoft ne peut pas garantir la véracité de toute information présentée après la date de la présentation. MICROSOFT EXCLUT TOUTE GARANTIE, EXPRESSE, IMPLICITE OU STATUTAIRE, EN CE QUI CONCERNE CETTE PRÉSENTATION.
© 2012 Microsoft Corporation. Tous droits réservés. Microsoft, Windows et les autres noms de produits sont des marques déposées ou des marques commerciales de Microsoft aux États-Unis et/ou dans d'autres pays.Les informations contenues dans ce document sont fournies uniquement à titre indicatif. Elles représentent l'opinion actuelle de Microsoft Corporation sur les points cités à la date de cette présentation. Microsoft s'adapte aux conditions fluctuantes du marché et ce document ne doit pas être interprété comme un engagement de la part de Microsoft ; de plus, Microsoft ne peut pas garantir la véracité de toute information présentée après la date de la présentation. MICROSOFT EXCLUT TOUTE GARANTIE, EXPRESSE, IMPLICITE OU STATUTAIRE, EN CE QUI CONCERNE CETTE PRÉSENTATION.