Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
© 2021, Amazon Web Services, Inc. or its Affiliates.
アマゾンウェブサービスジャパン株式会社
ソリューションアーキテクト
川村誠
データレイクアーキテクチャと Purpose-build な分析サービス活用事例の紹介
© 2021, Amazon Web Services, Inc. or its Affiliates.
自己紹介
川村誠
ソリューションアーキテクト
データ分析系サービスを担当
好きなサービス
• Amazon EMR
• AWS Glue
• Amazon Athena
© 2021, Amazon Web Services, Inc. or its Affiliates.
内容
データレイクを実現するリファレンスアーキテクチャ
サービス選択における基本的な考え方
Purpose-build な分析サービス活用事例
まとめ
© 2021, Amazon Web Services, Inc. or its Affiliates.
データレイクを実現する
リファレンスアーキテクチャ
© 2021, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存(ストレージ + データカタログ)
© 2021, Amazon Web Services, Inc. or its Affiliates.
ラムダアーキテクチャ
• Apache Storm の開発者 Nathan Marz が 2012 年に提唱
• データ処理の流れを,全量のデータを保持し定期的な処理を行うバッチレイヤーと,新しく入ってきたデータをストリーム処理するスピードレイヤーに分割
• 両者を組み合わせて結果を表示する
新しいデータ
すべてのデータ
スピードレイヤー
バッチレイヤー
バッチビュー
リアルタイムビュー
バッチ処理
ストリーム処理
クエリの実行
サービングレイヤー
© 2021, Amazon Web Services, Inc. or its Affiliates.
ストリーム処理を組み込んだデータレイクのアーキテクチャ
バッチ処理バッチ処理バッチ処理
ストリーム処理
収集 変換 分析
収集 変換 分析
保存
© 2021, Amazon Web Services, Inc. or its Affiliates.
ストリーム処理を組み込んだデータレイクのアーキテクチャ
バッチ処理バッチ処理バッチ処理
ストリーム処理
分析
収集 変換 分析
保存
収集 変換
あくまでこれは原則なので,こうならない場合もある
たとえば,ストリーム処理で「収集」と「変換」だけして「保存」してしまい,「分析」は後からバッチで実行するといったパターンなど
© 2021, Amazon Web Services, Inc. or its Affiliates.
ストリーム処理を組み込んだデータレイクのアーキテクチャ
バッチ処理バッチ処理バッチ処理
ストリーム処理
収集 変換 分析
収集
保存
変換 分析
バッチ処理側でも,たとえば変換と分析を同時にやってしまうパターンも考えられる
もちろんコンポーネントの連携が密になるため,処理時間の制約など,必要性に応じて選択
© 2021, Amazon Web Services, Inc. or its Affiliates.
さまざまな種類のデータ処理・分析がある
• データレイクに活用可能なデータを準備するための、多段 ETL
• 可視化 / 他サービス連携のための、SQL ベースのデータマート作成
• アクセスログに基づいたレコメンド
• アナリストのためのインタラクティブなデータ分析
• 離脱可能性の高いユーザー予測に基づくキャンペーンメール送信
© 2021, Amazon Web Services, Inc. or its Affiliates.
ユースケースに応じた最適なツールの選択
なんでも完璧にできる、唯一の万能なツールは存在しない
Swiss Army Knife Vector: https://www.freevector.com/swiss-army-knife-vector
© 2021, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存(ストレージ + データカタログ)
© 2021, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存(ストレージ + データカタログ)
Amazon Database
Migration Service
Amazon Kinesis
Amazon Managed
Streaming for Kafka
Amazon S3 AWS Glue AWS Lake Formation
AWS Glue
AWS Lake Formation
Amazon QuickSight
Amazon Athena
Amazon Redshift Amazon SageMaker
Amazon Personalize
Amazon Forecast
Amazon ESAmazon EMR
AWS Glue DataBrew
© 2021, Amazon Web Services, Inc. or its Affiliates.
サービス選択における基本的な考え方
• 同時に分析するユーザー数はどのくらい増える見込みがあるか
• 処理対象のデータ量はどのくらいの頻度でどう増えるか
• 処理にかかる時間が十分短いか、大幅に増減する可能性があるか
• 処理内容の変更頻度がどのくらい高いか
• 運用コストとカスタマイズ性のどちらを優先するか
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS が提供するフルマネージドな分析サービスインフラの管理ではなく、イノベーションと新しいアプリケーションの開発に時間を活用可能
セルフマネージド
アプリ中心の開発
データ処理設計
データ・ライフサイクルの最適化
ノードのプロビジョニング
ソフトウェア設定
データ取込とインデックス作成の自動化
データの分離とセキュリティ
業界のコンプライアンス
クラスターのサイズ変更
パッチ適用の自動化
アラートと監視
ハードウェアのメンテナンス
フルマネージド
アプリ中心の開発
データ処理設計
データ・ライフサイクルの最適化
ノードのプロビジョニング
ソフトウェア設定
データ取込とインデックス作成の自動化
データの分離とセキュリティ
業界のコンプライアンス
クラスターのサイズ変更
パッチ適用の自動化
アラートと監視
ハードウェアのメンテナンス
お客様 AWS
© 2021, Amazon Web Services, Inc. or its Affiliates.
サーバーレスとは
サーバーがない?
サーバーの存在を意識しない
ユーザーコントロール可能なサーバーを前提としない AWS のフルマネージドな管理 ただしコンピュータリソースを意識する設定はある
例) AWS Lambda:実行する関数のランタイムのメモリ量
© 2021, Amazon Web Services, Inc. or its Affiliates.
Purpose-build な分析サービスユースケース毎にパフォーマンス、コスト、スケーラビリティを最適化
Amazon EMR AWS Glue Amazon Redshift
ETL/ データカタログ データウェアハウス
Amazon Kinesis
リアルタイム分析 ビッグデータ処理
© 2021, Amazon Web Services, Inc. or its Affiliates.
ユースケース
© 2021, Amazon Web Services, Inc. or its Affiliates.
ユースケース1: Disney+ (米国) ストリーミング顧客分析
出典:re:invent 2020発表資料「How Disney+ uses fast data ubiquity
to improve the customer experience」より
https://www.youtube.com/watch?v=WAOrqsHpJuM
顧客の行動をリアルタイムに分析し、レコメンデーション、広告、顧客体験向上につなげるプラットフォーム
© 2021, Amazon Web Services, Inc. or its Affiliates.
ユースケース1: Disney+ (米国) ストリーミング顧客分析
出典:re:invent 2020発表資料「How Disney+ uses fast data ubiquity
to improve the customer experience」より
https://www.youtube.com/watch?v=WAOrqsHpJuM
顧客の行動をリアルタイムに分析し、レコメンデーション、広告、顧客体験向上につなげるプラットフォーム
© 2021, Amazon Web Services, Inc. or its Affiliates.
リアルタイム: Amazon Kinesis容易にビデオ/データストリームの収集・処理・分析をリアルタイムで実現可能
https://aws.amazon.com/jp/kinesis/
Kinesis
Data Firehose
データストリームをA
データストアにロード
Kinesis
Data Analytics
SQLやJava(Flink)でデータストリームをリアルタイムに分析
Kinesis
Data Streams
リアルタイム分析に必要なデータストリームを収集し、保存する
分析のための、動画ストリームのキャプチャ、
処理、保存
Kinesis
Video Streams
© 2021, Amazon Web Services, Inc. or its Affiliates.
リアルタイム: Amazon Kinesisストリーミングストレージ
https://aws.amazon.com/jp/kinesis/
データは、設定された期間受信した順序で保存され、設定期間内にいつでも再生可能
デフォルト保持期間 24 時間
延長保持期間
最大 1 年間長期データ保持
最大 7 日間
Kinesis
Data Streams
リアルタイム分析に必要なデータストリームを収集し、保存する
© 2021, Amazon Web Services, Inc. or its Affiliates.
Amazon Kinesis Data Streams
Amazon Kinesis
Data Analytics
Amazon Kinesis
Data Firehose
Spark on EMR
Amazon EC2
AWS LambdaINPUT
Capture and send data to
Amazon Kinesis Data Streams
Shard 1
Shard 2
Shard 3
Shard 4
Shard n
Kinesis Data Streams
リアルタイム分析に必要なデータストリームを収集し、保存する
OUTPUT
Analyze Streaming data using
your favorite BI tools
容易に管理できて低コスト
リアルタイム、弾力性のあるパフォーマンス
安全で耐久性のあるストレージ
複数のリアルタイム分析アプリケーションで利用可能
1台の標準コンシューマで平均 200 ミリ秒のレイテンシー
拡張ファンアウトは 70 ミリ秒の標準平均レイテンシーを提供します
© 2021, Amazon Web Services, Inc. or its Affiliates.
Amazon Kinesis Data Firehose
Amazon S3
Amazon Redshift
Amazon ES
Splunk
HTTP EndpointsINPUT
データをキャプチャして
Amazon Kinesis Data Frehoseに送信する
Kinesis Data Firehose
データを準備し、選択した宛先に継続的にロード
OUTPUTお好みの BI ツールを使用して
ストリーミングデータを分析する
管理不要でシームレスにオートスケール
データストアにストリームデータを直接連携
サーバーレスで継続的にデータを変換可能
ほぼリアルタイム
Parquet/ ORCへのデータ形式の変換
Datadog, Sumo Logic, New Relic, MongoDBに
データを直接配信
© 2021, Amazon Web Services, Inc. or its Affiliates.
Amazon Kinesis Data Analytics
OUTPUT処理されたデータを分析ツールに送信して、アラートを作成し、リアルタイムに応答可能
KINESIS DATA ANALYTICS
SQL
SQL を使用したストリーミングデータに対するクエリと分析
Apache Flink を使用したステートフルストリーム処理
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Streams
Amazon MSK
Additional
streaming sources
INPUTキャプチャされたストリーミングデータ
SQL または統合された Apache Flink アプリケーションを使用して、ストリーミングデータをリアルタイムに操作
完全に管理された伸縮自在なストリーム処理アプリケーションを構築可能
© 2021, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: リアルタイム分析を活用した広告データレイク
• リアルタイムデータソース• CDN,• リアルタイムビディング基盤• リターゲティング基盤
• ETL / アトリビューション /
機械学習に Spark on EMR を活用
• S3 にデータレイクを構築
• 可視化とレポーティングには3rd パーティツールを活用
• オンプレに対し、7割以上のコストを節約
Spark on EMR
ETL / アトリビューション/ 機械学習 3rd party
可視化ツール
Kinesis
3rd Party レポーティング
ツール
S3
CDN
リアルタイムビディング基盤
リターゲティング基盤
毎秒 2M+ のピークで毎日 90B+ メッセージがストリーミングされるデジタルマーケティングプラットフォームを運用。10 PB+ 規模のデータレイクには、200 TB の新しいデータが毎日追加されている。13 リージョンで 24 時間 365 日稼働中。
© 2021, Amazon Web Services, Inc. or its Affiliates.
ユースケース2: リアルタイム分析を活用した広告データレイク
• リアルタイムデータソース• CDN,• リアルタイムビディング基盤• リターゲティング基盤
• ETL / アトリビューション /
機械学習に Spark on EMR を活用
• S3 にデータレイクを構築
• 可視化とレポーティングには3rd パーティツールを活用
• オンプレに対し、7割以上のコストを節約
Spark on EMR
ETL / アトリビューション/ 機械学習 3rd party
可視化ツール
Kinesis
3rd Party レポーティング
ツール
S3
CDN
リアルタイムビディング基盤
リターゲティング基盤
毎秒 2M+ のピークで毎日 90B+ メッセージがストリーミングされるデジタルマーケティングプラットフォームを運用。10 PB+ 規模のデータレイクには、200 TB の新しいデータが毎日追加されている。13 リージョンで 24 時間 365 日稼働中。
© 2021, Amazon Web Services, Inc. or its Affiliates.
Amazon EMRSpark、Hadoop、Hive、Presto、Hbase など、ビッグデータフレームワークを簡単に実行可能
ローコスト
EC2スポットとリザーブドインスタンスでコストを50~80%削減
リソース利用率に基づくオートスケーリングでコスト削減
S3 をストレージとして利用
EMRFSコネクタを使用し、S3上のデータを高パフォーマンス
で安全に処理
最新バージョン
30日以内に最新のオープンソースフレームワークに更新
フルマネージドでクラスタのセットアップ、ノードのプロビジョニング、クラスタのチューニングは不要
簡単
https://aws.amazon.com/jp/emr/
© 2021, Amazon Web Services, Inc. or its Affiliates.
Amazon EMRコンピューティングとストレージの分離
永続的なクラスター
(Spark Streaming | Hbase)
一時的なクラスター : バッチジョブ(毎晩 N 時間稼働、ノードの足し引き可能) External Metastore
特定処理に特化したクラスター(必要なキャパやバージョンが異なる)
Amazon S3
© 2021, Amazon Web Services, Inc. or its Affiliates.
Amazon EMR性能向上
オープンソースの Apache Spark 3.0 よりも 1.7 倍のパフォーマンスを 40% のコストで実現
Graviton2 インスタンス利用で平均 25.7 %のコスト削減
Graviton2 インスタンス利用で平均 11.5 % のパフォーマンス向上
オープンソースの Presto 0.238 よりも最大 2.6 倍のパフォーマンスを 80 % のコストで実現
© 2021, Amazon Web Services, Inc. or its Affiliates.
ユースケース3: マーケティング&広告データレイクマーケティングソリューションのリーダーであり、最大の代理店持株会社Omnicom グループの一社。Amazon S3、AWS Glue、Amazon Redshift を使用して、高速で費用対効果の高いデータレイクソリューションを AWS
上に構築
AWS GlueData Catalog
ETL、結合、エンリッチ、フォーマット変換
Amazon Redshift
S3 生データ
各種レポート
S3最適化済データ
SNSデータ
1st party広告データ
Adサーバログデータ
• 複数ソースからデータを取り込み
• 動的に性能を調整
• 3 年間で数兆のイベントデータ
• AWS Glue を ETL とデータカタログとして使用
• Amazon Redshift Spectrumでスケーラブルなクエリ環境
© 2021, Amazon Web Services, Inc. or its Affiliates.
ユースケース3: マーケティング&広告データレイクマーケティングソリューションのリーダーであり、最大の代理店持株会社Omnicom グループの一社。Amazon S3、AWS Glue、Amazon Redshift を使用して、高速で費用対効果の高いデータレイクソリューションを AWS
上に構築
• 複数ソースからデータを取り込み
• 動的に性能を調整
• 3年間で数兆のイベントデータ
• AWS Glue を ETL とデータカタログとして使用
• Amazon Redshift Spectrumでスケーラブルなクエリ環境
AWS GlueData Catalog
ETL、結合、エンリッチ、フォーマット変換
Amazon Redshift
S3 生データ
各種レポート
S3最適化済データ
SNSデータ
1st party広告データ
Adサーバログデータ
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glueカタログ・ETL・データ前処理
データストアをクロールし、データフォーマットの識別とスキーマをサジェストの上、マネージドなカタログリポジトリで管理
Apache Spark / Python で ETL ジョブを実行するマネージドなサーバーレスエンジンを利用可能
ETL ジョブのビルド、保守、実行の作業を自動化可能
ジョブに使用されたリソースの料金のみの支払い
AWS Glue
Data
catalog
Serverless
Engine
Orchestration
AWS Glue
https://aws.amazon.com/jp/glue/
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glueカタログ・ETL・データ前処理
データストアをクロールし、データフォーマットの識別とスキーマをサジェストの上、マネージドなカタログリポジトリで管理
Apache Spark / Python で ETL ジョブを実行するマネージドなサーバーレスエンジンを利用可能
ETL ジョブのビルド、保守、実行の作業を自動化可能
ジョブに使用されたリソースの料金のみの支払い
https://aws.amazon.com/jp/glue/
AWS Cloud:: Data Lake Account
AWS Glue
ETL
AWS Glue
data catalog
/raw
Corporate
data center
Bucket policy
Crawler
転送サーバ
データレイク
/trusted
/refined
S3 Bucket
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Glue DataBrewノンコーディングで簡単にデータ加工
https://aws.amazon.com/jp/glue/
分析や処理を開始する前に必要となるデータの前処理(クリーニングや正規化等)を迅速に実施するための新しいビジュアルツール
ノンコーディングで視覚的にデータの前処理を実施することができるため、データ分析者やサイエンティストが容易に利用可能
250以上の構築済み変換処理を利用して効率的に異常値の排除やフォーマットの整理を行い、分析処理や学習処理に注力することができる
New
© 2021, Amazon Web Services, Inc. or its Affiliates.
ユースケース3: マーケティング&広告データレイクマーケティングソリューションのリーダーであり、最大の代理店持株会社Omnicom グループの一社。Amazon S3、AWS Glue、Amazon Redshift を使用して、高速で費用対効果の高いデータレイクソリューションを AWS
上に構築
• 複数ソースからデータを取り込み
• 動的に性能を調整
• 3年間で数兆のイベントデータ
• AWS Glue を ETL とデータカタログとして使用
• Amazon Redshift Spectrumでスケーラブルなクエリ環境
AWS GlueData Catalog
ETL、結合、エンリッチ, フォーマット変換
Amazon Redshift
S3 生データ
各種レポート
S3最適化済データ
SNSデータ
1st party広告データ
Adサーバログデータ
© 2021, Amazon Web Services, Inc. or its Affiliates.
Amazon Redshift最速かつ最も広く使用されているクラウドデータウェアハウス
最も高速なパフォーマンス
とスケーラビリティ
新しいインスタンスタイプ(RA3)とハードウェアアクセラレーション
(AQUA) を利用することで、さらなる高速処理を実現
他のクラウド DW よりも最大 3 倍のコストパフォーマンス
低コスト
コンピュートとストレージを分離、コスト最適化された
ワークロード
他のクラウドDW よりも少なくとも 50% 低コスト
データレイクとAWSサービスとの
統合
データウェアハウス、データレイク、オペレーショナル
データベースにまたがる膨大なデータに対する分析
セキュア
AWS グレードのセキュリティ機能
(eg. VPC, encryption with KMS,
CloudTrail)
主要なコンプライアンスをサポート
SOC, PCI, DSS, ISO,
FedRAMP, HIPPA
https://aws.amazon.com/jp/redshift/
© 2021, Amazon Web Services, Inc. or its Affiliates.
Amazon Redshift互換性を維持しつつ大きく進化
© 2021, Amazon Web Services, Inc. or its Affiliates.
Amazon Redshift最近のアップデート
全てのデータを分析する
AWS との統合によるレイクハウス
低コストで最高の価値
予測可能なコスト
パフォーマンスと拡張性
高速かつ自動チューニング
Data Lake
Export
Federated
Query
Amazon Redshift
Spectrum +
Lake Formation
Amazon
Redshift ML
Lambda UDF Partner console
integration
Data sharing Super data type
with JSON support
AQUA HyperLogLogMaterialized
views
Concurrency
scaling
RA3 nodes &
managed storage
100K tablesPerformance tuning:
automated
Data APIAutomatic
workload
manager
Cross-AZ cluster
recovery
Pause
and resume
Built-in
security features
Cost controlsOn-demand
and RIs
© 2021, Amazon Web Services, Inc. or its Affiliates.
まとめ
© 2021, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存(ストレージ + データカタログ)
Amazon Database
Migration Service
Amazon Kinesis
Amazon Managed
Streaming for Kafka
Amazon S3 AWS Glue AWS Lake Formation
AWS Glue
AWS Lake Formation
Amazon QuickSight
Amazon Athena
Amazon Redshift Amazon SageMaker
Amazon Personalize
Amazon Forecast
Amazon Elasticsearch Service
Amazon EMR
AWS Glue DataBrew
© 2021, Amazon Web Services, Inc. or its Affiliates.
ベーシックなデータレイクのアーキテクチャ
収集 変換 分析
保存(ストレージ + データカタログ)
Amazon Database
Migration Service
Amazon Kinesis
Amazon Managed
Streaming for Kafka
Amazon S3 AWS Glue AWS Lake Formation
AWS Glue
AWS Lake Formation
Amazon QuickSight
Amazon Athena
Amazon Redshift Amazon SageMaker
Amazon Personalize
Amazon Forecast
Amazon Elasticsearch Service
Amazon EMR
AWS Glue DataBrew
© 2021, Amazon Web Services, Inc. or its Affiliates.
まとめ
データレイクを実現するリファレンスアーキテクチャ
ラムダアーキテクチャ
ユースケースに応じた最適なツールを選択する(万能のツールは存在しない)
サービス選択における基本的な考え方
Purpose-build な分析サービス
Amazon Kinesis
Amazon EMR
AWS Glue
Amazon Redshift
© 2021, Amazon Web Services, Inc. or its Affiliates.
技術セミナー資料(以下のサイトに集約しています)
AWS クラウドサービス活用資料集
http://aws.amazon.com/jp/aws-jp-introduction/
© 2021, Amazon Web Services, Inc. or its Affiliates.
オンライン・セミナー(無料)
火曜・水曜にネット経由の無料セミナーを実施中
火曜 12時~13時
水曜 18時~19時
今後の予定&申し込みサイト
• https://aws.amazon.com/jp/about-aws/events/webinars/
© 2021, Amazon Web Services, Inc. or its Affiliates.
公式Twitter/Facebook
AWSの最新情報をお届けします
最新技術情報、イベント情報、お役立ち情報、お得なキャンペーン情報などを
日々更新しています!
@awscloud_jp
検索
もしくはhttp://on.fb.me/1vR8yWm
© 2021, Amazon Web Services, Inc. or its Affiliates.
Thank you.