Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
AI 時代のビッグ データ ウェアハウスAzure SQL Data Warehouse
日本マイクロソフト株式会社デジタルトランスフォーメーション事業本部データ & クラウド AI アーキテクト技術本部クラウド ソリューション アーキテクト高木 英朗
2
Azure SQL Data Warehouse 概要
事例紹介
Azure SQL Data Warehouse 仕組みと機能
Azure サービスの使い分けとデザイン例
4
1985 1990 1995 2000 2005 2010 2015 2020
CLOUD
MOBILE
ビッグデータ対応デジタル化、SNSやIoTの普及などにより、これまで取得できなかった粒度でデータ取得が可能となった。
・SNS(facebook、twitter等)の普及
・デバイスやセンサーからの詳細データ
クラウド基盤シフト今後も増大し続けるこれらのデータを蓄積し、分析に活かすためスケーラブルでコストエフェクティブなクラウド基盤にシフトしていく
5
0% 5% 10% 15% 20% 25% 30% 35% 40% 45% 50%
43%
38%
37%
37%
33%
32%
30%
19%
3%
柔軟に拡張(スケール)できない
メンテナンス/運用コストが高い
初期投資が高い
教育コストが高い
パフォーマンスが遅い
技術者が少ない
システム導入工数が多い
非構造化データを扱えない
課題は特にない
[Source] “State of the Data Warehouse” survey conducted for Snowflake by Dimensional Research in March 2015
現在のデータウェアハウスソリューションにおける課題は何ですか? (複数回答)
6
センサー/デバイス
非構造化データ
並列分散処理
機械学習
CognitiveServices / BOT
画像・音声認識など
Power BI
センサー/デバイス
データ受信
リアルタイムストリーム処理
Microsoft Azure(クラウド)
ETL
(収集・変換・集約)
DWH
(データ格納) 分析、R統計解析
レポート
IntegrationServices
Analysis Services
ReportingServices
(オンプレミス)
RelationalDatabase
R Server/SQL R
WEBダッシュボード・セルフサービスBI
7
クラウド型の並列分散データウェアハウス
8
向いている
向いていない
11
Azure SQL Data Warehouse を活用したデータ分析基盤を構築、ビッグ データを「蓄積」から「全社活用」の段階へ。
12
• 導入メリット• コンピュートとストレージが分離されているため、容量不足の際にストレージ
リソースだけを増やすことができ、運用コストの削減が可能。
• 管理するデータベース数が減り、バックアップ管理の工数も削減できた。
• マイクロソフトの技術サポートにより短期導入が可能に。
• リアルタイムのデータ提供が容易となり流動人口データを活用したビジネス
の拡大に貢献した。
• ユーザー コメント「インフラ面を気にする必要がないため、運用面で考えるべきことはかなり軽減
されました。また 1 つのデータベースに統合できたことで、1年を通した分析効
率も上がり、本来の目的であるデータ処理に集中できるようになりました。当
社はそもそもシステム屋ではありません。仮想マシンの管理やインフラ基盤の管
理などは本来ならかかわりたくない作業ですので、SQL Data Warehouse の
ような PaaS の存在は、当社にとって非常にありがたいものだったのです」
https://www.microsoft.com/ja-jp/casestudies/agoop.aspx
いつでも、どこでも、だれでも利用できる位置情報サービスをコンセプトに、ソリューションを提供する
Agoop。同社では、位置情報ログを利用したビッグ データ ソリューションである「流動人口データ」に、
Azure SQL Data Warehouse を採用しています。
14
コントロールノード
SQLDB
コンピュートノード
コンピュートノード
コンピュートノード
コンピュートノード
SQLDB
SQLDB
SQLDB
SQLDB
Azure Premium Storage (SSD)
100 DWU < > 2000 DWUコントロールノード
ユーザーからの接続コンピュートとストレージの調整
15
クエリ性能のパワーを表す指標
DWH において最も重要な以下の 3 要素を数値化
•行のスキャン性能
•ロード性能
•ノード間のコピー性能
スキャン性能 3.36M row/sec
ロード性能 130K row/sec
ノード間のコピー性能 350K row/sec
100 DWU あたりの参考性能
100 DWU
= 1 コンピュートノード
DWU
DW100
DW200
DW300
DW400
DW500
DW600
DW1000
DW1200
DW1500
DW2000
DW3000
DW6000
16
カラム数:80件数:16 億件論理容量:640
GB
カラム数:10件数:300
論理容量:30 KB
カラム数:40件数:8 億件
論理容量:160 GB
• 500 DWU ~ 2000 DWU の範囲で即時スケール変更を実施
• PolyBase による BLOB ストレージからの容易なデータロード
レスポンスタイム
Azure SQL DW
(500 DWU)
Azure SQL DW
(1000 DWU)
Azure SQL DW
(2000 DWU)
17
19
ラウンドロビン ハッシュ 複製 (Replicated table)
• 全てのディストリビューションに
均等にランダムに分散
• 指定した列のハッシュ値に基
づいて分散
• テーブルをすべてのコンピュート
のディストリビューションに配
置
DISTRIBUTION = ROUND_ROBIN DISTRIBUTION = HASH(Key) DISTRIBUTION = REPLICATE
Public preview (2017/11/28 現在)
20
19.7
10.9 1.8
CI PAGE CCSI
テーブル&インデックス 19.7 GB
ページ圧縮 10.9 GB
カラムストア 1.8GB
1/10 以下に圧縮
大量データを高速処理するための列単位でのデータ格納方式
日付 購入番号 区分 価格
20111001 11-AAA-11 200 1000
20111001 11-AAA-12 100 2000
20111002 12-BBB-21 300 1800
20111003 12-BBB-22 300 6000
20111003 13-CCC-31 200 4500
列ストア
行ストア
21
外部の半構造化データを Transact-SQL で取り扱う仕組み
SQL
Azure SQL DataWarehouse
1. 外部表を作成して Blob 内のファイル(CSV等)を参照
2. 外部表に対して SELECT し、データを別の表にロードする
22
※暗号化通信が可能
サポートツール
• SQL Server Management Studio
• SQL Server Data Tools
• Sqlcmd
• Azure Portal
• REST API / PowerShell
Windows or Linux からの接続が可能
23
GEO 冗長
バックアップからリストア
SQL Data Warehouse
backup ファイル
sabcp01bl21
Azure Storage
sabcp01bl21
24
26
SQL Data Warehouse Data Lake / HDInsight
評価済みのデータ 未評価データの物理的収集
十分に理解されたデータをもとにレポーティングを行う 未知のデータで実験/データ発見を行う
ある程度型の限定されたデータセット
(リレーショナルデータ等)
あらゆる種類のデータ(構造化 / 非構造化データ)
慣れている SQL をベースとしたスキル SQL、プログラミングを含む様々なスキル
インタラクティブクエリに最適化 すべてのワークロード - バッチ、インタラクティブ、ストリーミ
ング、機械学習
お互いの機能が歩み寄ってきているが、ユースケース次第でどちらも必要!!
27
28
データソース データ取り込み データ蓄積 データ可視化 ユーザー
SQL Server
Data
Warehouse
ETL Tool
• SQL Server Integration Services
• Azure Data Factory
• AZCopy + PolyBase
• データの増加、ニーズの多様化によって、柔軟でスケーラビリティの高い
データウェアハウスが重要となる
• エンタープライズでの要求にこたえられるアーキテクチャと機能
• SQL DW を中心に据えて必要な時に必要なサービスを組み合わせる