89
de:code 2019 DP05 最新 Azure Big Data デザイン概論 IoT からビジネス データまで統合導線設計 AzureCAT / Azure Global Microsoft Corporation 佐々木 明夫

DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

de:code 2019 DP05

最新 Azure Big Data デザイン概論ー IoT からビジネスデータまで統合導線設計

AzureCAT / Azure Global

Microsoft Corporation

佐々木明夫

Page 2: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

現代の技術環境

Page 3: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

セキュリティとプライバシー保護と秘匿性

自由な選択肢どこからでも

どのデータへもアクセス

データウェアハウス

データレイク

オペレーション・業務DB

ソーシャル業務 グラフ IoT画像・動画CRM

ハイブリッド

データウェアハウス

データレイク

オペレーション・業務DB

Page 4: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

モデリングトレイン

Databricks

HDInsight

Data Lake Analyticsカスタムアプリ

センサーデバイス

保存

Azure Data

Lake Storage

インジェスト

Data Factory(Data movement, pipelines & orchestration)

Machine

Learning

Cosmos DB

SQL Data

Warehouse

Analysis Services

Event Hub

IoT Hub

SQL Database

分析ダッシュボード

予測

レポート

Intelligence

全体像

ビジネスアプリ

1001

SQLKafka

Page 5: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Advanced Analytics

Social

LOB

Graph

IoT

Image

CRM

INGEST STORE PREP & TRAIN MODEL & SERVE

Data orchestration

and monitoring

Big data store Analytics engines Data warehouse

BI + Reporting

ビッグデータ&データウェアハウス

Real Time Analytics

Page 6: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Azure関連サービス群

Page 7: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Azure Data

Factory

Azure Import/Export

service

Azure SDKAzure CLI

Cognitive servicesBot serviceAzure Search Azure Data Catalog

Azure ExpressRoute Azure network

security groups

Azure Functions Visual StudioOperations

Management Suite

Azure Active Directory Azure key

management service

Azure Blob Storage Azure Data Lake

Storage

Azure IoT Hub Azure event hubs

Kafka on Azure HDInsight

Azure SQL data warehouseAzure SQL DB Azure Cosmos DB Azure Analysis Services Power BI

Azure Data

Lake Analytics

Azure

HDInsight

Azure

Databricks

Azure

HDInsight

Azure

Databricks

Azure Stream

Analytics

Azure ML Azure

Databricks

ML Server

Page 8: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Azure Data

Factory

Azure Import/Export

service

Azure SDKAzure CLI

Cognitive servicesBot serviceAzure Search Azure Data Catalog

Azure ExpressRoute Azure network

security groups

Azure Functions Visual StudioOperations

Management Suite

Azure Active Directory Azure key

management service

Azure Blob Storage Azure Data Lake

Storage

Azure IoT Hub Azure event hubs

Kafka on Azure HDInsight

Azure SQL data warehouseAzure SQL DB Azure Cosmos DB Azure Analysis Services Power BI

Azure Data

Lake Analytics

Azure

HDInsight

Azure

Databricks

Azure

HDInsight

Azure

Databricks

Azure Stream

Analytics

Azure ML Azure

Databricks

ML Server

Page 9: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

ビッグデータと高度データ分析

新世代データウェアハウス

“データウェアハウスにすべてのデータを集約したい”

高度データ分析

“ロスト危機にある顧客を特定したい”

リアルタイム分析

“リアルタイムで端末機器からインサイトを得たい”

Page 10: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,
Page 11: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

新世代データウェアハウスはデータウェアハウスのETLを越えたビッグデータ機能を提供すると定義。

新世代データウェアハウス

“データウェアハウスにすべてのデータを集約したい”

高度データ分析

“ロスト危機にある顧客を特定したい”

リアルタイム分析

“リアルタイムで端末機器からインサイトを得たい”

Page 12: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

伝送 保存 加工Train(トレイン)

モデル化、出力

新世代データウェアハウス

Azure Blob Storage

Logs, files and media

(非構造化)

Azure SQL Data

Warehouse

Azure Data Factory

Azure Analysis

Services

Azure Databricks(Python, Scala, Spark SQL)

Polybase

Business/custom apps

(構造化)

Power BI

Azure also supports other Big Data services like Azure HDInsight and Azure Data Lake to allow customers to tailor the above architecture to meet their unique needs.

Page 13: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

高度データ分析(Advanced analytics)高度データ分析はとは機械学習や深層学習の技術を活用して予兆、規則性の特定を行います。

新世代データウェアハウス

“データウェアハウスにすべてのデータを集約したい”

高度データ分析

“ロスト危機にある顧客を特定したい”

リアルタイム分析

“リアルタイムで端末機器からインサイトを得たい”

Page 14: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

INGEST STORE PREP & TRAIN MODEL & SERVE

高度データ分析( A D V A N C E D A N A L Y T I C S )

Azure Blob Storage

Logs, files and media

(unstructured)

Azure SQL Data

Warehouse

Azure Data Factory

Azure Analysis

Services

Polybase

Business/custom apps

(Structured)

Power BI

AzureはAzure HDInsightやAzure Data Lakeなど更に大規模なビッグデータ環境に合わせてコンポーネント単位で切り替えが可能。

Azure Databricks(Python, Scala, Spark SQL)

Azure Databricks(Spark ML, Spark R, SparklyR)

Intelligent Apps

Cosmos DB

Page 15: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

リアルタイム分析—別名ストリームアナリティクス—データが生成されると即時処理し、得られたインサイトから早期対応できる一連の運用と定義。

新世代データウェアハウス

“データウェアハウスにすべてのデータを集約したい”

高度データ分析

“ロスト危機にある顧客を特定したい”

リアルタイム分析

“リアルタイムで端末機器からインサイトを得たい”

Page 16: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

INGEST STORE PREP & TRAIN MODEL & SERVE

リアルタイム分析

Logs, files and media

(unstructured)

Sensors and IoT

(unstructured)

HDInsight

(Kafka)

Power BIAzure Databricks(Python, Scala, Spark SQL)

Intelligent Apps

Cosmos DBEvent Hub

IoT HubAzure Databricks

(Spark ML, Spark R, SparklyR)

Azure Blob Storage

Batch Data

(Apps, logs)Azure Data Factory

Page 17: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

INGEST STORE PREP & TRAIN MODEL & SERVE

A Z U R Eラムダパターン

Azure Blob Storage

Batch Data

(Apps, logs)

Streaming Data

(web, sensors &

IoT)

Azure Data Factory

HDInsight

(Kafka)

Power BIAzure Databricks(Python, Scala, Spark SQL)

Azure SQL Data

WarehouseAzure Analysis

Services

IoT Hub

Event HubIntelligent Apps

Cosmos DBAzure Databricks(Spark ML, Spark R, SparklyR)

Page 18: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

新世代データウェアハウスはデータウェアハウスのETLを越えたビッグデータ機能を提供すると定義。

新世代データウェアハウス

“データウェアハウスにすべてのデータを集約したい”

高度データ分析

“ロスト危機にある顧客を特定したい”

リアルタイム分析

“リアルタイムで端末機器からインサイトを得たい”

Page 19: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

出力データ処理入力

構成要素の骨組み

伝送と保存

Page 20: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

データウェアハウス処理前に行うデータ加工と格納を行う

ダッシュボード

Business and custom

apps(structured)

Logs, files, and media

(unstructured)

r

データ処理ストレージに格納

Data Lake Store Azure Storage

出力用ストレージ

Azure SQL DW

AAS

Cosmos DB

業務引用データ

Cosmos DB SQL DB

アプリケーション

HDInsight Azure Data Lake Analytics

Azure Databricks

Data

factory

Azure Import/Export

Service

APIs, CLI, and

GUI tools

Azure Data

Box

データ伝送制御と手段

Page 21: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,
Page 22: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

データ伝送:データソース(情報生成する端末)からデータ処理を開始する最初の保存領域まで伝送する工程と仕組みと定義する。

Page 23: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

特性と機能における比較

選択する経路 低遅延(5 to 10 ms) 秘匿性 信頼性

インターネット X Good

VPN X Good

ExpressRoute

(専用線)X X Best

Page 24: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

特性と機能における比較

Azure Import/Export service Azure Data Box

物理構成 内部 SATA HDDs、またはSDD セキュア、改ざん防止、単体HWアプライアンス

物流をマイクロソフトが管理 X 〇

パートナー製品とインテグレーション X 〇

購買、複数ドライブへデータ移動の運用管理コスト

X 〇

Page 25: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Azure CLI AzCopy PowerShell AdlCopy Distcp Sqoop PolyBaseHadoop

command line

利用可能なプラットホームLinux, OS X,

Windows

Linux,

WindowsWindows

Linux, OS X,

Windows

Hadoop/

HDInsight *

Hadoop/

HDInsight *

Windows with

SQL Server

instance, Azure

SQL Data

Warehouse

Hadoop/

HDInsight *

リレーショナルDBへ双方向コピー X X X X X 〇 〇 X

blob storageへのコピー 〇 〇 〇 X 〇 〇 〇 〇

blob storageからのコピー 〇 〇 〇 〇 〇 〇 〇 X

data lake storeへのコピー X X 〇 〇 〇 〇 〇 〇

data lake storeからのコピー X X 〇 〇 〇 〇 〇 X

ビッグデータに最適化 X X X 〇 ** 〇 〇 〇 *** 〇

* Linux, OS X, Windowからコマンドライン、シェルから実行可能。** AdlCopyはAzure Data Lake Analytics アカウントからビッグデータ伝送の用途に最適化されている。*** PolyBaseパフォーマンス向上方法としてHadoopに処理をまかせ、 PolyBase scale-out groupsを利用してSQL Serverインスタンス群とHadoopノード群間で並列伝送が可能。

特性と機能における比較

Page 26: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Azure Storage Explorer Azure Portal* Azure Data Factory

リレーショナルDBへのコピー X X 〇

blob storageへコピー 〇 X 〇

blob storageからのコピー 〇 X 〇

data lake storeへコピー X X 〇

data lake storeからのコピー X X 〇

blob storageへアップロード 〇 〇 〇

data lake storeへアップロード 〇 〇 〇

データ伝送の制御オーケストレーション

X X 〇

データ変換のカスタマイズ

X X 〇

GUIツール特性と機能における比較

Page 27: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

ストレージへのデータ伝送

Applications

Dashboards

Business/custom apps

(structured)

Logs, files, and media

(unstructured)

r

Azure

Storage/

Data Lake

Store

データ伝送制御

Azure Data

Factory

加工無しでファイルをスケジューリングして

Data Lakeに格納

Page 28: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

データストレージ

Page 29: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Data ingest:保持されるストレージで、その後処理を行う各処理エンジンがデータソースとしてアクセスするターゲットになります。

Page 30: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

要件項目 備考

キャパシティ最大容量

テラ、ペタバイト級のデータ量を経済的に保存可能であるべき、ストレージがオブジェクト数と関連メタデータの格納できる仕様であること。

パフォーマンスデータ伝送のスピードに合わせて高速に保存できる必要がある、広帯域、高スループット、低遅延が望まれる。

マルチティア(長期保存対応)

月、年単位の長期保存に合わせ経済性に耐えるオプションを備えておくこと。(ホット、クール、アーカイブ)

マルチオブジェクトサイズ

オブジェクトは個別に保存管理可能が可能なこと—ギガバイト、テラバイト

レプリケーション複製機能

保全性、帯域、データガバナンス: LRS vs GRS

ファイルストレージ要件

Page 31: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Azure Data Lake Storage Azure Blob Storage containers

用途 Optimized storage for big data analytics workloadsGeneral purpose object store for a wide variety of

storage scenarios

構成 階層型ファイルシステム Object store with flat namespace

API REST API over HTTPS REST API over HTTP/HTTPS

Analytics workload performanceOptimized performance for parallel analytics workloads, high

throughput and IOPS分析用途の最適化されていない

サイズ制限 理論上の上限無し Max 500 TB per account and 4.75 TB per file

ジオ(大陸)間の冗長Locally-redundant (multiple copies of data in one Azure region)

Blobと同等化予定

Locally redundant (LRS), globally redundant (GRS), and

read-access globally redundant (RA-GRS). See Azure

Storage replication for more information

提供状況 サービス開始済 サービス開始済

提供データセンター 限定的(拡大予定) 全Azureリージョン対応

ファイルストレージ特性と機能における比較

Page 32: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Applications

DashboardsBusiness/custom apps

(structured)

Logs, files, and media

(unstructured)

r

データ保存ストレージ

Azure Storage/

Data Lake Store

データ伝送制御

Azure Data

Factory

加工無しでファイルをスケジューリングして

Data Lakeに格納

データを初期記憶領域に配置

Page 33: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Applications

DashboardsBusiness/custom apps

(structured)

Logs, files, and media

(unstructured)

r

データ保存ストレージ

Azure Storage/

Data Lake Store

データ伝送制御

Azure Data

Factory

加工無しでファイルをスケジューリングして

Data Lakeに格納

SQL DB

Transactional storage

アプリケーションが直接トランザクションデータを管理する

データを初期記憶領域に配置

Page 34: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

データ処理

Page 35: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

要件 備考

スケーラビリティ容量許容値

処理力: 容量、速度許容範囲:価格限度

言語の選択 テクノロジーの選択:Python, Java, U-SQL, HiveQL, and R

制御方法の選択Azure Storage、Azure Data Lake Storeへ。SQL Data Warehouseなどの外部データソースへのクエリ

データ処理要件

Page 36: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

データプロセシング:クレンジング、構造化、集約など分析処理が可能なようにデータを整える作業。このシナリオではバッチ処理(自動制御)にてデータウェアハウスにアップロードされる。

Page 37: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Azure Data Lake

Analytics

HDInsight with

Spark

HDInsight with

Hive

HDInsight with

Hive LLAP

SQL Data

WarehouseAzure Databricks

マネージドサービス

〇 〇 〇 〇 〇 〇

自動スケーリング X X X X X 〇

処理の一時停止(ポーズ)

X X X X 〇 〇

プログラミング U-SQLPython, Scala, Java, R,

SQLHiveQL HiveQL T-SQL

Python, Scala, Java,

SQL, R

プログラミング手法

宣言型と命令型 宣言型と命令型 宣言型 宣言型 宣言型 宣言型と命令型

価格モデルジョブ単位(ジョブx時間xユニット)

クラスタ/時間単位

クラスタ/時間単位

クラスタ/時間単位

クラスタ/時間単位

クラスタ/時間単位

データのバッチ処理特性と機能における比較

Page 38: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Azure Data Lake

Analytics

HDInsight with

Spark

HDInsight with

Hive

HDInsight with

Hive LLAP

SQL Data

WarehouseAzure Databricks

Access Azure Data Lake Store 〇 〇 〇 〇 〇 〇

Azure Storageへのクエリ 〇 〇 〇 〇 〇 〇

外部のリレーショナルデータベースへの九会あり(Azure SQL Database, SQL

Server on VM, Azure SQL Data

Warehouseなど)

〇 〇 〇 X 〇 〇

データのバッチ処理特性と機能における比較

Page 39: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Azure Data Lake

Analytics

HDInsight with

Spark

HDInsight with

Hive

HDInsight with

Hive LLAP

SQL Data

WarehouseAzure Databricks

スケールアウト単位 ジョブ単位 クラスタ単位 クラスタ単位 クラスタ単位処理ユニット(DWU)

クラスタ単位

高速スケールアウト(1分以下)

〇 X X X X 〇

インメモリのデータキャッシング

X 〇 X 〇 〇 〇

データのバッチ処理特性と機能における比較

Page 40: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Applications

DashboardsBusiness/custom apps

(structured)

Logs, files, and media

(unstructured)

r

Ingest storage

Azure Storage/

Data Lake Store

Data loading

Azure Data

Factory

Load flat files

into data lake on a

schedule

SQL DB

Transactional storage

Applications

manage their

transactional data

directly

Data processing

Read data from

files using DBFS

Orchestration

Azure Data

Factory

Extract and

transform relational

data

Load into SQL

DW tables

Azure Databricks

Azure Databrickでのデータ処理

Page 41: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,
Page 42: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Data serving とは分析クライアント(アプリケーション)やレポート生成ツール用に処理、加工されたデータ出力を指します。

データウェアハウスはバッチ処理と比較してより柔軟なクエリと高速なサービスを提供します。

Page 43: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

SQL Database SQL Data Warehouse Azure Analysis Services

マージ度サービス 〇 (Azure SQL Database) 〇 〇

主要データベースも捏リレーショナル (columnar format

columnstore index利用時)Relational tables + columnar storage

Tabular +

MOLAP semantic model

SQL サポート 〇 〇 X

高速サービスの最適化されている〇(memory-optimized tables and

hash ・ nonclustered index)X X

Data serving特性と機能における比較

Page 44: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

SQL Database SQL Data Warehouse Azure Analysis Services

Redundant regional servers for high availability

リージョン内でサーバの冗長化〇 (Azure SQL Database) 〇 X

クエリのスケールアウト X 〇 〇

動的パフォーマンス向上(スケールアっプ)

〇 (Azure SQL Database) 〇 〇

データのインメモリキャッシングをサポート

〇 〇 〇

Data serving特性と機能における比較

Page 45: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Applications

DashboardsBusiness/custom apps

(structured)

Logs, files, and media

(unstructured)

r

Ingest storage

Azure Storage/

Data Lake Store

Data loading

Azure Data

Factory

Load flat files

into data lake on a

schedule

SQL DB

Transactional storage

Applications

manage their

transactional data

directly

Data processing

DBFSでデータを読み込む

Orchestration

Azure Data

Factory

リレーショナルデータを抽出、変換

SQL DW

テーブルに書き込み

Azure Databricks

Serving storage

Azure SQL DW

処理済みのデータをテーブルに書き込み分析用に最適化

AzureデータウェアハウスパターンAzure Databricksでデータ処理

Page 46: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Hybrid architectures

Page 47: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

ハイブリッド・アーキテクチャはデータストレージ、処理、提供をオンプレ、クラウド環境にわたり提供可能な形態を提供する。

Page 48: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

遅延(5 -10 ms)

セキュアな伝送 信頼性

公衆インターネット X Good

VPN X Good

ExpressRoute(専用線) X X Best

A side-by-side comparison of the connectivity options

Page 49: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

想定要件 備考

データパイプランをハイブリッド上で運用

Data Management Gateway と Azure Data Factory 利用。圧縮、並列伝送、リトライを組み込む。

SQL Server Integration Services

(SSIS)をクラウドで走らせるSSIS integration runtime (IR)を Azure Data Factoryにプロビジョニング。Azure Data Factory はSSISのオーケストレーションが可能。

ノンリレーショナルなデータをAzureに転送して処理、加工

Azure Data Factory:データパイプラインの管理処理、加工エンジン; Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics, Azure

Machine Learning

Azure data factoryを選択するAzure Data Factoryがハイブリッド環境におけるデータパイプラン制御に合うパターン

Page 50: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Applications

Dashboards

Logs, files, and media

(unstructured)

r

Ingest storage Data processing

Azure

Storage/

Data Lake

Storage

Serving storage

SQL DW

Data loading

Azure Data

Factory

Read data from

files using DBFS

Load data into

tables optimized

for analytics

Enable querying via

TDS-compatible

clientsOn-premises

file share

Data

Management

Gateway

On-premises

Load data on a

scheduled basis

Azure Databricks

Azureデータウェアハウスパターンオンプレミスからデータをアップロード

Page 51: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

セキュリティ

Page 52: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

セキュリティ:

機密性の高いデータの保護とコンプライス要件に適合する機能と環境を提供する。

Page 53: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Azure Data Lake Store Azure Blob Storage containers

API REST API over HTTPS REST API over HTTP/HTTPS

データ運用制御:認証 Azure Active Directory Identities

共通鍵account access keys

shared access signature keys,

role-based access control (RBAC)

データ運用制御:認可POSIX access control lists (ACLs)

Azure Active Directory IDベース、ファイルとフォルダ単位ACL

アカウントレベル認証 account access keys.

アカウント、コンテナ、ブロブレベル認証 shared access

signature keys

保存状態時の暗号化➢ Transparent, server side

➢ With service-managed keys

➢ With customer-managed keys in Azure Key Vault

➢ Transparent, server side

➢ With service-managed keys

➢ With customer-managed keys in Azure Key Vault

(coming soon)

➢ Client-side encryption

運用管理(例:新規アカウント)

Role-based access control (RBAC) – アカウント管理用にAzure

が提供Role-based access control (RBAC)アカウント管理用にAzureが提供

データストレージのセキュリティA side-by-side comparison of the capabilities and features

Page 54: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Azure Data Lake

AnalyticsHDInsight with Spark

Apache Hive on

HDInsight

Hive LLAP on

HDInsightAzure Databricks

認証 Azure Active Directory XLocal/Azure Active

Directory *

Local/Azure Active

Directory *

Azure Active Directory

(native/built-in)

認可 〇 X 〇 * 〇 * 〇

監査(オーディット) 〇 X 〇 * 〇 * 〇

保持時の暗号化 〇 〇 〇 〇 〇

Rowレベルセキュリティ X X 〇 * 〇 * X

ファイヤーウォールサポート

〇 〇 〇 *** 〇 *** ロードマップ

Dynamic data masking

動的データマスキングX X 〇 * 〇 * X

* domain-joined HDInsight clusterが必須要件。** Transparent Data Encryption (TDE) が保存中のデータ暗号化、複合化に必要。*** Azure virtual network 利用時に使用可能。

データのバッチ処理セキュリティA side-by-side comparison of the capabilities and features

Page 55: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

SQL Database SQL Data Warehouse Azure Analysis Services Azure Cosmos DB

認証 SQL/Azure Active Directory SQL/Azure Active Directory Azure Active Directory

Database users and Azure Active

Directory via access control

(IAM)

認可 〇 〇 〇〇 (hash-based message

authentication code (HMAC))

監査(オーディット) 〇 〇〇 (when integrated with Azure

Monitor resource diagnostic

logs)

〇 (through audit logging and

activity logs)

保持時の暗号化 〇 ** 〇 ** 〇 〇

Row-level security 〇 X〇 (through object-level security

in model)X

ファイヤーウォールサポート

〇 〇 〇 〇

Dynamic data masking

動的データマスキング〇 X X X

** Transparent Data Encryption (TDE) が保存中のデータ暗号化、複合化に必要。*** Azure virtual network 利用時に使用可能。

Data serving securityA side-by-side comparison of the capabilities and features

Page 56: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Applications

DashboardsBusiness/custom apps

(structured)

Logs, files, and media

(unstructured)

r

Ingest storage

Azure Storage/

Data Lake Storage

Data loading

Azure Data

Factory

Load flat files

into data lake on a

schedule

SQL DB

Transactional storage

Applications

manage their

transactional data

directly

Data processing

Read data from

files using DBFS

Orchestration

Azure Data

Factory

Extract and

transform relational

data

Load into SQL

DW tables

Azure Databricks

Serving storage

Azure SQL DW

Load processed

data into tables

optimized for

analytics

Modern data warehousing pattern in AzureData processing with Azure Databricks

Page 57: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Advanced analyticsAdvanced analytics is the process of applying machine learning and deep learning techniques to data for the purpose of creating predictive and prescriptive insights

新世代データウェアハウス

“データウェアハウスにすべてのデータを集約したい”

高度データ分析

“ロスト危機にある顧客を特定したい”

リアルタイム分析

“リアルタイムで端末機器からインサイトを得たい”

Page 58: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Advanced analytics Canonical operations

Page 59: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Model

Collect

data

Prepare

data

Train

model

Evaluate

model

Deploy

model

Page 60: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Data collection and understanding, modeling, and deployment

Applications

DashboardsBusiness/custom apps

(structured)

Logs, files, and media

(unstructured)

r

Sensors and IoT

(unstructured)

Azure Data

Lake storageAzure

Storage

HDInsight Azure Databricks

Azure ML ML server

モデルのトレーニング

長期保存ストレージ データ処理

Azure Data Lake Analytics

Azure ML Studio

SQL Server (in-database ML)

Azure Databricks(Spark ML)

Data Science VM

Cosmos DB

データサービス

SQL DB

SQL DW

Azure Analysis Services

Cosmos DB

Batch AI

SQL DB

Azure Data

Factory

データオーケストレーション

Azure Container Service

モデルのホスティング

SQL Server (in-database ML)

Advanced analytics pattern in Azure

Page 61: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Advanced analytics pattern in Azure

Applications

Azure Data

Lake StoreHDInsight

(Spark cluster)

Azure ML Workbench and CLI

Scoring service

(Container in

Azure Container Service)

Model scoring

Read

training

data

Azure MLModel

Management

2) Register

model

Container registry

3) Upload

containerized

model

4) Deploy

container

instances Invoke

scoring web

service

1) Train

model

Model training

Deploy a trained model as a scalable web service

Page 62: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

リアルタイム分析Realtime Analytics

Page 63: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Real-time analytics—also called stream analytics—is the practice of processing data as soon as it’s generated in order to enable very quick analysis and insight for timely action

新世代データウェアハウス

“データウェアハウスにすべてのデータを集約したい”

高度データ分析

“ロスト危機にある顧客を特定したい”

リアルタイム分析

“リアルタイムで端末機器からインサイトを得たい”

Page 64: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,
Page 65: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

ストリーミング技術を必要とするIOTソリューション

携帯のサイト管理

コネクテッド・カー

物流の監視管理

Personnel tracking and crowd control

ライドシェア

ジオ・フェンシング

フリート管理

施設マネジメント

レーシングカーのテレメトリー

工場管理と監視

Page 66: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,
Page 67: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Real-time applications

Real-time dashboardsBusiness/custom apps

(structured)

Logs, files, and media

(unstructured)

r

Sensors and IoT

(unstructured)

Event hubs IoT hub Kafka on HDInsight Azure Stream

Analytics

Storm on

HDInsightAzure Databricks

(Spark Streaming)

Azure ML Studio

R Server Azure Databricks

(Spark ML)

機械学習

ストリーム・インジェスト

長期保持ストレージ

ストリーム分析

Data Lake Storage SQL DB Cosmos DB Azure Blob Storage

Page 68: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Real-time applications

Real-time dashboards

Trained model

Train

model

Model training

Score events

Scoring events

Business/custom apps

(structured)

Logs, files, and media

(unstructured)

r

Sensors and IoT

(unstructured)

ストリーミングと機械学習Streaming data can be used for training a model and for scoring events against a trained model

Page 69: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

▪ コンプライス要件を満たすため(raw data)

▪ Fバッチ処理によるビッグデー

タ分析を時間差で行う。

▪ 機械学習モデル化のトレーニ

ングデータとして活用

Event Hubs IoT Hub Kafka on HDInsight Stream

Analytics

Storm on

HDInsight Azure Databricks

(Spark Streaming)

ストリームデータのインジェスト

長期保有用のストレージ

ストリーム分析

Rawデータ データ処理

ストリーミングデータの保存

Page 70: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Azure Storage

Polybase

Azure SQL Data Warehouse

Azure Data Factory

Analytical dashboards

Web and mobile appsAzure Data Factory

Azure Databricks

(Spark ML, SparkR, sparklyr)

Azure Databricks

(Spark)

Azure HDInsight

(Kafka)

Azure Cosmos DB

Business/custom apps

(structured)

Logs, files, and media

(unstructured)

r

Page 71: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

参考:構成パターン

Page 72: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

General data architecture

Data sources

Stream processing

Batch processing

Analytical data store

Data storage

Analytics and

Reporting

Orchestration

Realtime message ingestion

Page 73: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

OLTP

Data sources

Stream processing

Batch processing

Analytical data store

Data storageAnalytics

and Reporting

Orchestration

Realtime message ingestion

OLTP Systems- Azure SQL Database- Azure SQL Database Managed Instance- SQL Server in Azure VM- Azure Database for MySQL - Azure Database for PostgreSQL

Client Apps- Azure Web Apps- Azure API Apps- Mobile Apps- Desktop Apps

Page 74: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Big data Lambda architecture

Data sources

Stream processing

Batch processing

Analytical data store

Data storage

Analytics and

Reporting

Orchestration

Realtime message ingestion

Batch Layer

Speed Layer

Serving Layer

Historical Reports

Live Reports

Page 75: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Big data batch technologies

Data sources

Stream processing

Batch processing

• U-SQL• Hive• Pig• Spark

Analytical data store

• SQL DW• Spark SQL• HBase• Hive

Data storage

• Azure Storage (Blob)• Azure Data Lake Store

Analytics and Reporting

• Azure Analysis Services

• Power BI• Excel

Orchestration

• Azure Data Factory• Oozie /Sqoop

Realtime message ingestion

Page 76: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Big data real-time technologies

Data sources

Stream processing

• Azure Stream Analytics

• Storm• Spark Streaming

Batch processing

Analytical data store

• SQL DW• Spark SQL• HBase• Hive

Data storage

• Azure Storage (Blob)• Azure Data Lake Store Analytics and

Reporting

• Azure Analysis Services

• Power BI• Excel

Realtime message ingestion

• Azure Event Hub• Azure IoT Hub• Kafka

Orchestration

Page 77: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Big data analytical reporting

Data sources

Stream processing

Batch processing

• R Server• Hive• Spark

Analytical data store

• Spark SQL• Interactive

Hive

Data storage

• Azure Storage (Blob)• Azure Data Lake Store

Analytics and Reporting

• Jupyter• Ambari• Beeline• ODBC

Orchestration

Realtime message ingestion

Page 78: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Big data ML architecture

Data sources

Stream processing

• Azure Stream Analytics

• Storm• Spark Streaming

Analytical data store

• SQL DW• Spark SQL• HBase• Hive

Data storage

• Azure Storage (Blob)• Azure Data Lake Store Analytics and

Reporting

• Azure Analysis Services

• Power BI• Excel• Jupyter

Orchestration

Realtime message ingestion

• Azure Event Hub• Azure IoT Hub• Kafka

Machine Learning

• Azure Machine Learning• Spark ML

Batch processing

• U-SQL• Hive• Pig• Spark

Page 79: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Data sources

Stream processing

Batch processing

Analytical data store

Data storage

Analytics and

Reporting

Orchestration

Realtime message broker

Machine Learning

• Azure Machine Learning• Spark ML• R Server

Page 80: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

OLTP > OLAP BI architecture

Data Sources

(LOB Apps)

Stream processing

• Azure Stream Analytics

Batch processing

• SQL• Custom

Analytical data store

• Azure SQL DW

Data storage• Azure SQL Database• SQL Server• Cosmos DB

Analytics and

Reporting• Azure

Analysis Services

• Power BI

Orchestration• ETL via SSIS / ADF

Realtime message ingestion• Event Hub• IoT Hub

Page 81: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

参考:Azure構成パターン

Page 82: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

インジェスト データ格納 データ成型トレイン

モデリング出力

Azure Data Lake Storage

Logs (unstructured)

Azure Data Factory

Azure Databricks

Media (unstructured)

Files (unstructured)

Polybase

Business/custom apps

(structured)

Azure SQL Data

Warehouse

Azure Analysis

Services

Power BI

現 代 の デ ー タ ウ ェ ア ハ ウ ス

Page 83: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

INGEST STORE PREP & TRAIN MODEL & SERVE

Modern Data Warehouse

Azure Blob Storage

Logs, files and media

(unstructured)

Azure SQL Data

Warehouse

Azure Data Factory

Azure Analysis

Services

Azure Data Factory

Azure Databricks /

HDInsight

Polybase

Business/custom apps

(Structured)

Operational Reports

&

Analytical Dashboards

(PowerBI)

Page 84: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

Advanced Analytics on Big Data

INGEST STORE PREP & TRAIN MODEL & SERVE

Azure Blob Storage

Business/custom apps

(Structured)

Logs, files and media

(unstructured)

Azure SQL Data

Warehouse

Azure Data Factory

Azure Analysis

Services

Azure Data Factory

Polybase

Azure Databricks /

HDInsight

Operational Reports

&

Analytical Dashboards

(PowerBI)

Azure Machine Learning

SQL Machine Learning

Page 85: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

INGEST STORE PREP & TRAIN MODEL & SERVE

Cosmos DB

Business/custom apps

(structured)

Files (unstructured)

Media (unstructured)

Logs (unstructured)

Azure Data Lake StorageAzure Data Factory Azure SQL Data

Warehouse

Azure Analysis

Services

Power BI

PolyBase

SparkR

Azure Databricks Apps

A D V A N C E D A N A L Y T I C S

Page 86: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

INGEST STORE PREP & TRAIN MODEL & SERVE

Real time analytics

Azure Blob Storage

Polybase

Business/custom apps

(Structured)

Logs, files and media

(unstructured)

Azure SQL Data

Warehouse

Azure Analysis

Services

Azure Data Factory

Sensors and IoT

(unstructured)

Azure HDInsight (Kafka)

Azure IoT Hub

Operational Reports

&

Analytical Dashboards

(PowerBI)

Azure Databricks /

HDInsight

Page 87: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

INGEST STORE PREP & TRAIN MODEL & SERVE

REAL-TIME ANALYTICS

Sensors and IoT

(unstructured)

Apache Kafka for

HDInsight Cosmos DB

Files (unstructured)

Media (unstructured)

Logs (unstructured)

Azure Data Factory

Azure Databricks

Real-time apps

Business/custom apps

(structured)

Azure SQL Data

Warehouse

Azure Analysis

Services

Power BI

PolyBase

Azure Data Lake Storage

Page 88: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,
Page 89: DP05 Azure Big Data デザイン概論 · 2019-06-05 · Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Azure Databricks Power BI (Python, Scala,

© 2018 Microsoft Corporation. All rights reserved.

本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。

© 2019 Microsoft Corporation. All rights reserved.

本情報の内容 (添付文書、リンク先などを含む) は、de:code 2019 開催日 (2019年5月29~30日) 時点のものであり、予告なく変更される場合があります。

本コンテンツの著作権、および本コンテンツ中に出てくる商標権、団体名、ロゴ、製品、サービスなどはそれぞれ、各権利保有者に帰属します。