Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
1
より大きなデータ領域に取り組むためにAsk Bigger Questions
ジュセッペ小林 | Cloudera株式会社
March 19, 2013
CONFIDENTIAL - RESTRICTED
データが多くなっただけか?
©2011 Cloudera, Inc. All Rights Reserved.2
10,000
2005 20152010
5,000
0
2011年までに生成されたデータ量は1.8兆ギガバイト
・ 90%以上は非構造化データ
・ 約500兆ファイル
・ データ量は毎年2倍ずつ増えている
構造化データ 非構造化データ
生成されたデータ量(単位:10億)
Source: IDC 2011
入れ物が小さくなっただけか?
©2011 Cloudera, Inc. All Rights Reserved.3
10,000
2005 20152010
5,000
0
現在のデータベースソリューションは構造化データ向けのもの
・ 既知の質問にすぐ答えるために最適化されている
・ フォーム/コンテキストを決定するのはスキーマ
・ 新しいデータ形態や質問への対応が困難
・ ペタバイト級のデータ規模では非常に高価
構造化データ 非構造化データ
ギガバイト級のデータの生成
(単位:10億
)
10%
“Big” Data
Bigger Data
Big “ “ Data「風が吹く」
↓「砂ぼこりが飛び交う」
↓「砂が入った目をごしごし手でこするから、失明する人(盲人)がふえる」
↓「生計を立てるために、三味線をする人が増える」
↓「三味線を作るのに猫の皮が使われるから、猫が少なくなる」
↓「天敵の猫が減るから、ネズミが増える」
↓「大量に増えたネズミがたくさんの桶をかじる」
↓「桶が大量に不足する」
↓「桶屋が儲かる」
因果関係
解析
南アフリカ 対 オランダ
大雑把で良い
データ・サイエンス
アドベンチャー
バッチ処理
バッチも リアルタイムも
使用目的
データを集約する
10
バッチの先へ
ビッグデータのためのプラットフォーム
CONFIDENTIAL - RESTRICTED
Big Data = 生データ
©2011 Cloudera, Inc. All Rights Reserved.11
ビッグデータは、「コンテンツそのもの」だけでなく, 「それがいかに消費されのるか」という現象も包含している
データ規模&種類の爆発的な増加
柔軟性あるスケーラブルなソリューションへのニーズが台頭
これほどの規模に広がる多様なデータを処理するのは困難従来型プラットフォームはこの流れに追従できず
WEB ログ
ソーシャルメディア
トラディショナルデータ
スマートグリッド
オペレーショナルデータ
デジタルコンテンツ
R&Dデータ
広告のインプレッション数
ファイル
• あらゆる種類• あらゆるデータソース• 構造化&非構造化• 大規模
• 深い分析• 包括性&詳細• 洗練されたアルゴリズム• 迅速な結果の生成
• より多くの価値を抽出• より多くのデータ処理を実現• コスト効率性の向上• 非常に高い柔軟性y
ビッグデータ
困難な課題
最新かつ最善の手段が誕生
Customers Asking Bigger Questions
12
さまざまなブランドのWebサイト全体にわたる最新の行動履歴に基づき、Xさんが店舗にいらした時は何をお勧めすべきだろうか?
北米で最も効率的にトマトとトウモロコシ両方を収穫できるベストな地域はどうこだろう?
今後の事故の検出・未然防止に役立てることができる、最近2年間の不正行為全般に共通する因子は何だろう?
空室や価格競争のせいで、クリスマスのホテル客室の売上は不振なのか?
顧客のXさんが最後にWebサイトを訪れた時に見ていたものはどれ?
どうすれば、トマトの収穫を向上できる?
昨年検出した詐欺事件はどれだ?
ニューヨークのホテルを検索する時に、最も使われている検索用語は?
CONFIDENTIAL - RESTRICTED
HadoopとRDBの違い
©2011 Cloudera, Inc. All Rights Reserved.
RDB“スキーマ・オン・ライト”
Hadoop“スキーマ・オン・リード”
データをロードする前に、スキーマの作成が必須
データ型を明示したデータロード時は、DBの内部構造に合わせるためデータの変換処理が必要
データベースにデータをロードするには、そのデータを格納すると明示した新しいカラムの作成が必須
データはシンプルにファイルストアにコピーされるだけなので、データ変換は不要
データを読み出す間に必要なカラムを抽出(遅延バインディング)するため、SerDe(Serializer/Deserlizer) を適用
新しいデータはいつでも流れ始めることができ、またデータ解析のためにSerDeがアップデートされたら過去に遡ってデータを表示可
正反対「知らないデータを
知らない方法で見つける」
「知っているデータを
知っている方法で見つける」
データストア・アーキテクチャの変化
©2011 Cloudera, Inc. All Rights Reserved.14
ログ ファイル Webデータリレーショナル
データ
開発環境BI / 分析システ
ムエンタープライズレポーティング
エンタープライズデータウェアハウス
低レイテンシーサービスシステム
Web アプリケーション
マネジメントツール
オペレーター エンジニア アナリストS ビジネスユーザー 顧客
簡素化・統一・効率的
• スケーラブルで低コストなプラットフォームに大量データを格納
• エンドツーエンドのワークフローを実行
• 特殊なワークロードには専用システムを用意
• 事業部をまたいだデータアクセスを提供
複雑・分断・高コスト
•事業部ごとにデータが分離
• 高価な専用システムによる大量データの格納•EDW内の選択されたデータしか見られない
• 完全なビューがない
ClouderaによるHadoopの進化
15
データのことを考えた新しい方法で、企業の要求を実現
従来
データ処理、BI、分析ができる単一のデータプラットフォーム
ワークロードごとにプラットフォームが
複数存在
CONFIDENTIAL - RESTRICTED
Cloudera
思考の再構築
16
例: EDW の最適化 – 高価なリソースを解消
高パフォーマンスのオペレーショナルアナリティクスに特化したEDWシステムの最適化
CLOUDERAへの移行
• 履歴データ
• データ処理
• アドホック探索
• トランスフォーメーション/バッチ
• データハブ
EDWをそのまま維持
• オペレーショナルアナリティクス
• レポーティング
• ビジネスアナリティクス
CONFIDENTIAL - RESTRICTED
思考の再構築
17
データウェアハウスの解放– 正しいワークロードへの最適化
EDW + CLOUDERA
• 履歴データ
• データ処理
• アドホック探索
• トランスフォーメーション/バッチ
• データハブ
EDW
• オペレーショナルアナリティクス
• レポーティング
• ビジネスアナリティクス
現在成長し続けるEDW
次世代正しいシステムで正しいワークロード
100 TB100 TB200 TB100 TB
CONFIDENTIAL - RESTRICTED
18
データの経済性を変革
TO
コストの増加
100 TBの追加 =
従来型データウェアハウス
レガシーシステムのコストの1/10
100 TBの追加 =
Clouderaとの併用
CONFIDENTIAL - RESTRICTED
19
CDHプロジェクトは、それらに対応するサブスクリプションオプションに色分けされています
YAYARN
ZOZOOKEEPER
HDFSHADOOP DFS
HUHUE
OOOOZIE
WHWHIRR
SQSQOOP
FLFLUME
FILEFUSE-DFS
RESTWEBHDFS
HTTPFS
SQLODBCJDBC
MSMETASTORE
ACACCESS
BI ETL RDBMS
MRMAPREDUCE
MR2MAPREDUCE2
HIHIVE
PIPIG
MAMAHOUT
DFDATAFU
CLOUDERA NAVIGATORクラウド ユーザーインタフェース ワークフロー管理
メタデータ
インテグレーション バッチ処理リアルタイムアクセス& 計算処理
リソース管理&協調基盤
ストレージ
バッチ計算
IMIMPALA
Cloudera Enterprise CoreCDHの全てのコアコンポーネントの管理とサポートを含む
HBHBASE
CLOUDERA MANAGER
CORE(REQUIRED)
認定コネクタコネクタは、それらに対応するサブスクリプションオプションに色分けされています
管理ソフトウェア、データ管理&テクニカルサポート (サブスクリプション)
提供取得 検索 処理 分析格納
20
認定コネクタコネクタは、それらに対応するサブスクリプションオプションに色分けされています
CDHプロジェクトは、それらに対応するサブスクリプションオプションに色分けされています
YAYARN
ZOZOOKEEPER
HDFSHADOOP DFS
HBHBASE
HUHUE
OOOOZIE
WHWHIRR
SQSQOOP
FLFLUME
FILEFUSE-DFS
RESTWEBHDFS
HTTPFS
SQLODBCJDBC
MSMETASTORE
ACACCESS
BI ETL RDBMS
MRMAPREDUCE
MR2MAPREDUCE2
HIHIVE
PIPIG
MAMAHOUT
DFDATAFU
CLOUDERA NAVIGATOR
管理ソフトウェア、データ管理&テクニカルサポート (サブスクリプション)
クラウド ユーザーインタフェース ワークフロー管理メタデータ
インテグレーション バッチ処理リアルタイムアクセス& 計算処理
リソース管理&協調基盤
ストレージ
バッチ計算
Cloudera Enterprise RTDApache HBaseの管理とサポートを含む
IMIMPALA
CLOUDERA MANAGER
CORE(REQUIRED)
RTD
提供取得 検索 処理 分析格納
21
Cloudera Enterprise RTQCloudera Impalaの管理とサポートを含む
認定コネクタコネクタは、それらに対応するサブスクリプションオプションに色分けされています
CDHプロジェクトは、それらに対応するサブスクリプションオプションに色分けされています
YAYARN
ZOZOOKEEPER
HDFSHADOOP DFS
HBHBASE
HUHUE
OOOOZIE
WHWHIRR
SQSQOOP
FLFLUME
FILEFUSE-DFS
RESTWEBHDFS
HTTPFS
SQLODBCJDBC
MSMETASTORE
ACACCESS
BI ETL RDBMS
MRMAPREDUCE
MR2MAPREDUCE2
HIHIVE
PIPIG
MAMAHOUT
DFDATAFU
IMIMPALA
CLOUDERA NAVIGATOR
管理ソフトウェア、データ管理&テクニカルサポート (サブスクリプション)
クラウド ユーザーインタフェース ワークフロー管理メタデータ
インテグレーション バッチ処理リアルタイムアクセス& 計算処理
リソース管理&協調基盤
ストレージ
バッチ計算
CLOUDERA MANAGER
CORE(REQUIRED)
RTD RTQ
提供取得 検索 処理 分析格納
22
認定コネクタコネクタは、それらに対応するサブスクリプションオプションに色分けされています
CDHプロジェクトは、それらに対応するサブスクリプションオプションに色分けされています
YAYARN
ZOZOOKEEPER
HBHBASE
HUHUE
OOOOZIE
WHWHIRR
SQSQOOP
FLFLUME
FILEFUSE-DFS
RESTWEBHDFS
HTTPFS
SQLODBCJDBC
ACACCESS
BI ETL RDBMS
MRMAPREDUCE
MR2MAPREDUCE2
PIPIG
MAMAHOUT
DFDATAFU
IMIMPALA
CLOUDERA NAVIGATOR
管理ソフトウェア、データ管理&テクニカルサポート (サブスクリプション)
クラウド ユーザーインタフェース ワークフロー管理メタデータ
インテグレーション バッチ処理リアルタイムアクセス& 計算処理
リソース管理&協調基盤
ストレージ
バッチ計算
HIHIVE
HDFSHADOOP DFS
MSMETASTORE
Cloudera Enterprise BDRCloudera Enterpriseのバックアップ&ディザスタ·リカバリ·モジュール
CLOUDERA MANAGER
CORE(REQUIRED)
RTD RTQ
BDR
提供取得 検索 処理 分析格納
23
認定コネクタコネクタは、それらに対応するサブスクリプションオプションに色分けされています
CDHプロジェクトは、それらに対応するサブスクリプションオプションに色分けされています
YAYARN
ZOZOOKEEPER
HUHUE
OOOOZIE
WHWHIRR
SQSQOOP
FLFLUME
FILEFUSE-DFS
RESTWEBHDFS
HTTPFS
SQLODBCJDBC
ACACCESS
BI ETL RDBMS
MRMAPREDUCE
MR2MAPREDUCE2
PIPIG
MAMAHOUT
DFDATAFU
IMIMPALA
CLOUDERA NAVIGATOR
CLOUDERA MANAGER
CORE(REQUIRED)
RTD RTQ
管理ソフトウェア、データ管理&テクニカルサポート (サブスクリプション)
クラウド ユーザーインタフェース ワークフロー管理メタデータ
インテグレーション バッチ処理リアルタイムアクセス& 計算処理
リソース管理&協調基盤
ストレージ
バッチ計算
BDR
AUDIT(v1.0) LINEAGE
ACCESS(v1.0) LIFECYCLE
EXPLOREHIHIVE
HDFSHADOOP DFS
HBHBASE
MSMETASTORE
Cloudera Navigator 1.0Cloudera Enterpriseのデータ監査およびアクセス制御
提供取得 検索 処理 分析格納
24
主要企業における大規模ユースケース
Clouderaケーススタディ
CONFIDENTIAL - RESTRICTED
主要産業分野におけるユースケース
25
金融サービス
顧客リスク分析 監視と不正防止 中央データリポジトリ パーソナライゼーションと資産管理 市場リスクモデリング 取引業績分析
科学とエネルギー
ゲノム解析 公共料金と電力網 スマートメーター 生物多様性の指標付け ネットワーク障害の予防 地震探査データ
小売と製造業
顧客回転分析 ブランドと印象分析 POSトランザクション分析 価格モデル 顧客ロイヤリティ ターゲットオファー
WebとEコマース
オンラインメディア モバイル オンラインゲーム 検索品質 レコメンデーション 影響力
Hadoopユースケース
26
分析
1 22つのコアユースケース各業界垂直に適用
抽出
ソーシャルネットワーク分析
コンテンツ最適化
ネットワーク分析
顧客ロイヤルティ&プロモーション分析
不正分析
エンティティ分析
クリックストリーム(ページ遷移)分析
エンゲージメント
通信仲介
データファクトリー
取引調整
情報収集活動
業界用語 業界用語VERTICAL
Web
Media
通信
小売
金融
政府
バイオ医薬 ゲノムマッピングシーケンス分析
27
課題:• 1000人以上の研究者が独自に製品を開発• データ処理のボトルネックがもたらす開発の鈍化• 新製品の開発期間に5〜10年
この大手農業会社は、製品開発期間を年単位から月単位に削減するため、データ駆動型のR&Dを自動化
ソリューション:• Cloudera Enterprise with Impala – 全研究開発データの統合ビューを実現する1PB規模のプラットフォーム
• 統合 - Exadata, 空間認識と可視化
• ユーザビリティ – 研究者がHadoopへ直接アクセス
製品開発期間を削減
CONFIDENTIAL - RESTRICTED
リアルタイムデータハブを強化
28
ソリューション:• Cloudera Enterprise – 4 ペタバイトのデータを管理
• データアーカイブ、リアルタイムBIによるETL&分
析機能を持つ、単一でスケーラブルなビッグデータ用プラットフォーム
• Impalaの活用 – レイテンシを50%削減
このオンライン旅行代理店大手は、 エンドユーザーの検索結果を最適化し、adwordの効果を最大化
CONFIDENTIAL - RESTRICTED
課題:• より詳細なインサイトを実現するには、2年間のクリックストリームデータの把握が必要• レガシーシステムはデータ処理・分析をスケールできない
より大きなインサイトとコスト削減を実現
29
世界的な金融サービス企業は、より深い顧客分析を実現 – 3000万ドルのコスト削減をしつつデータ格納量は2倍以上
ソリューション:• Impala with Cloudera EnterpriseによるEDWの解放 –
200-300TB/52ノード以上の規模
• 大規模成長 -2TB/日のデータ量が2013年には倍増
• コストが1/15 - SANのコストを7000ドル/TB から500ドル/TBに削減
• 数時間で月次レポートを作成(日単位ではない)
• 4秒で月間データをスキャン(4時間ではない)
CONFIDENTIAL - RESTRICTED
課題:• 大量の金融トランザクションデータの処理を数週間以上削減したいという要望• 1年以上データを保存するには、EDWはコスト高
課題:• オンデマンドビデオのキャッシュ領域に制限• 人気のあるコンテンツの需要予測が困難• ロード時間が許容範囲以上に
ソリューション:• Cloudera Enterprise• データアーカイブ、リアルタイムBIによるETL&分析機能を持つ、単一でスケーラブルなビッグデータ用プラットフォーム
ビッグデータ管理を簡素化
30 CONFIDENTIAL - RESTRICTED
大手メディア&コミュニケーション企業は客のオンデマンド動画経験をベースにした分析を実現
31
この世界的な小売業は、Clouderaのソリューションを導入し需要予測と顧客ターゲットの進め方を改革しました
ソリューション:• Cloudera Enterprise with Impala —
1PB/250ノード以上
• 単一環境でクエリと機械学習を実現する統合ビッグデータプラットフォーム
CONFIDENTIAL - RESTRICTED
課題:• 高額な複数の従来型データウェアハウスにまたがっていたオンライン/オフラインデータの集約• 1つのデータグループからデータを取得するのに4週間必要 – 生産性の阻害
データ分析のスピードを向上
32
なぜClouderaが求められるのか
33
CLOUDERA
TIMELINE2008MIKE OLSON,AMR AWADALLAH &JEFF HAMMERBACHERの3名でCloudera設立
2009HADOOP 開発者
DOUG CUTTING入社
2009CDH:初の商用APACHE HADOOPディストリビューション
2010CLOUDERA MANAGER:
初のHadoop用管理アプリケーション
2011製品顧客100社を達成
2011CLOUDERA UNIVERSITY
140カ国で展開
2012CLOUDERA ENTERPRISE 4:企業向けHadoopのスタンダード
2012CLOUDERA CONNECT
パートナー企業300社を達成
さらに…データに対する
企業の意識を変革
CDH CLOUDERA MANAGER
CLOUDERA ENTERPRISE
4
CHANGING THE WORLDONE PETABYTE AT A TIME
ASK BIGGER QUESTIONS
ClouderaのHadoopへの貢献
34
プロジェクトごとのクローズチケット数2012年1月1日 – 2012年12月31日
0
200
400
600
800
1000
1200
1400
Cloudera Hortonworks MapR Facebook Yahoo Other = Project Founder at Cloudera
貢献度
38%
12%
38%
9%
Hadoopはさらに進化中
35
Doug Cutting:Hadoop 開発者 & ASF(Apache財団)チェアマン
MORE THAN
50 プロジェクトのコミッター、PMCメンバーとコードコントリビューターの合計人数
TENS OF
1000’s あらゆる業界にまたがり数千〜万ノード以上を管理
9 プロジェクト創設者の人数
5 Hadoopおよび関連プロジェクトについての出版書籍数
Team
36
数百社での開発実績Track Record
Clouderaのパートナーエコシステム
CONFIDENTIAL - RESTRICTED
500以上のハードウエア、ソフトウエア&サービスパートナー
Why Cloudera Leads
38
市場で最もオープンで高機能なビッグデータプラットフォーム
テクノロジ
最も経験豊かなHadoopの専門家&実践者で構成されたチーム
チーム
他のベンダすべてを合わせた実績と比較して、エンタープライズ分野におけるHadoopのデファクト企業
実績
39 CONFIDENTIAL - RESTRICTED