Upload
yahoo
View
1.086
Download
0
Embed Size (px)
Citation preview
マルチビッグデータの活用を支えるDWHの作り方
ヤフー株式会社データプラットフォーム本部
櫻井 史彦
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.
自己紹介
データプラットフォーム本部DWHチーム櫻井 史彦(さくらい ふみひこ)
2008年にヤフーに入社 8年目DWHの構築とデータ整備を担当
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 1
アジェンダ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.
1. Yahoo! JAPANのビッグデータ
2. データプラットフォームの全体像
3. DWHの将来像
4. 最後に
2
アジェンダ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.
1. Yahoo! JAPANのビッグデータ
2. データプラットフォームの全体像
3. DWHの将来像
4. 最後に
3
ヤフーのビッグデータ?
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 4
5http://www.statista.com/statistics/277483/market-value-of-the-largest-internet-companies-worldwide/
0
50
100
150
200
250
300
350
400
bilion U.S. dollars
15th Largest Internet Company in market capas of May 2015
6
Extensive Reach to a Wide Range of Users
80 %
80% of all Japanese Internet users use Yahoo! JAPAN
Nielsen NetView June 2015 : Data by Brands. Access from home and work using PCs (excl. internet applications)
強力なサービス
Media
US
Search Video Answer Mail
JP
US
JP
Membership C2C Payment C2C EC B2C EC Local
Search Knowledge searchNews
YAHUOKU!Premium Wallet Loco
膨大なデータボリューム
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 8
68 Billion PV
PC + Tablet
33.6B PV
Smart Device
34.5B PV
ヤフーは多数のビッグデータを抱えたマルチビッグデータカンパニー
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 9
1. Yahoo! JAPANのビッグデータ
2. データプラットフォームの全体像
3. DWHの将来像
4. 最後に
アジェンダ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 10
全体像
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 11
NoSQLObject
StorageDWH
Hadoop
RDB
全体像
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 12
NoSQLObject
StorageDWH
Hadoop
RDB
6000 node
150 PB
800DBs
300,000Query/day
1500nodes
2000nodes
Phase1 2002-2008
Phase2 2009-2015
Phase3 2016-
主要サービスのデータを格納限られた利用者のみで使用
より多くの種類かつ大量なデータを格納多くの利用者に開放
Teradata以外のデータソースも統合する“logical DWH”構想
ヤフーのDWH
Teradata 5255Teradata 5255+5350
Teradata 5500Teradata 5500+5600Teradata 6690
Teradata 6690 & 2800Unified Data Architecture
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 13
1. Yahoo! JAPANのビッグデータ
2. データプラットフォームの全体像
3. DWHの将来像
4. 最後に
アジェンダ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 14
SQLだけでなく様々な分析クエリーを実行したい
構造化、非構造化データをつなげて分析したい
複数データソースにまたがって分析したい
全部、一箇所で…。
利用者のニーズ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 15
Logic
al D
WH
Teradata
構造化、非構造化データをつなげて分析できる
様々な分析クエリを実行で
きる
複数データソースにまたがって分析できる
Teradata
現在 1年後
今後のDWH
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 16
Logic
al D
WH
Teradata
QueryGrid, PrestoInformatica
HadoopRDB
NoSQLS3 Storage
Presto
Teradata
現在 1年後
具体的なコンポーネント
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 17
Logical DWH
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.18
Data Sources RDB RDB
Informatica
Exadata Hadoop
Hadoop RDB
QueryGridTDCH
Teradata RDBNoSQL
Low concurrency, large volumebatch queries
High concurrency, small volumeinteractive queries and small batches
Presto
S3-compatible Storage
Logical DWH
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.19
Data Sources RDB RDB
Informatica
Exadata Hadoop
Hadoop RDB
QueryGridTDCH
Teradata RDBNoSQL
Low concurrency, large volumebatch queries
High concurrency, small volumeinteractive queries and small batches
Presto
S3-compatible Storage
Prestoへの期待
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 20
Prestoとは
Facebook発のOSSプロジェクト
メモリベースの高速なクエリーエンジン
様々なデータソースにつながる技術
Teradata, Hive, MySQL, Cassandra, S3, etc.
※Teradata社も開発に積極参加Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 21
RDB NoSQL Hadoop DWHPresto
従来のクエリーのエントリーポイント
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 22
RDB NoSQL Hadoop DWHPresto
新しいクエリーのエントリーポイント
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 23
QueryGridとPrestoの関係
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 24Copyright (C) 2016 Teradata Japan, Ltd. All Rights Reserved.
どんな用途が考えられるか?
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 25
CustomerAttributes
Shopping Membership
Cassandra
ExecutiveDashboard
PersonalizationAnalysisReportsTargeting list
BrowsingWeb/click
Settlement
Teradata
・・・
Presto
Use Case – deliver personalization data
INSERT tableB@CassandraSELECT user_id FROM tableAWHERE segment_code = 1;
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 26
S3-compatible Storage Teradata
Service B
Service A
small data
small data
Presto
REST
REST
SELECT
SELECT
INSERT
INSERT
Use Case – small batches from storage
INSERT tableASELECT * FROM filename@S3storageWHERE log_date = date - 1;
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 27
Yahoo!スケールでの課題
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 28
課題
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 29
TBクラスのデータJOINを可能にする
push-down機能の強化
メモリーに乗り切らないデータの処理改善
ワークロード管理
重たいクエリーも、軽いクエリーもバランスよく
複数データソースに対して統一的なアクセスなど、
次世代データ分析基盤に必要な機能の共同開発
テラデータの最新技術とヤフーが持つ多様なユース
ケース及びビッグデータを用いた先行的な共同検証
UDA Product Advisory Councilに加盟。ビッグ
データ関連の課題を討議しフィードバック
Teradata Labsと協力
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 30
1. Yahoo! JAPANのビッグデータ
2. データプラットフォームの全体像
3. DWHの将来像
4. 最後に
アジェンダ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 31
Data Sources RDB RDB
Informatica
Exadata Hadoop
Hadoop RDB
QueryGridTDCH
Teradata RDBNoSQL
Low concurrency, large volumebatch queries
High concurrency, small volumeinteractive queries and small batches
Presto
S3-compatible Storage
DWHの将来像
32
求む DWHエンジニア!!!
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 33
大規模DWHの構築。膨大なデータ量&クエリ数と
格闘して経験値UP!
新しいコンセプトのDWHを作り上げるチャンス
経験できること
http://hr.yahoo.co.jp/job-info/career/0157/
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 34
ヤフー プラットフォーム開発エンジニア 検索
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 35