31
株式会社KSKソリューションズ BI×ビッグデータ PentahoHadoopに対する取組みのご紹介

BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

株式会社KSKソリューションズ

BI×ビッグデータ PentahoのHadoopに対する取組みのご紹介

Page 2: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

ビッグデータ?

TバイトやPバイトクラスのデータ、日次で発生

業務システム 各種ログデータ

Web、ブログ ソーシャル

モバイル、

各種センサー

ビッグデータ

Page 3: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

ユースケース

トランザクション

不正検知

金融サービス、株取引(アルゴリズム取引)

サブトランザクション

Webログ

ソーシャル/オンラインメディア

通信イベント

Page 4: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

ユースケース

ノントランザクション

Webページやブログ

ドキュメント

アプリケーションイベント

マシーンイベント(M2M)

Page 5: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

データレイク(データの池)

シングルソース

大きいボリューム

蒸留されていない

Page 6: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

データレイクの4つの要件

すべてのデータをストアする

日常の定型レポートや分析を行う

アドホック(非定型)のレポートや分析を行う

パフォーマンスとコストのバランス

Page 7: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

いままでのBI

データソース

データマート

テープor削除

? ?

?

? ?

Page 8: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

これならどうでしょう?

データソース

データレイク

データマート アドホック

データウェアハウス

ビッグデータ・アーキテクチャー

Page 9: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

ビッグデータはデータマートに代わるものではない

大きいレイテンシー

大量データのバッチ処理に最適化されている

データベースとして成熟していない

no-SQLデータベースである

Page 10: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

データソース

データレイク

データマート アドホック

データウェアハウス

ビッグデータ・アーキテクチャー

Page 11: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

Hadoopとは?

データ分散処理のためのJavaソフトウェアフレームワーク

Apacheプロジェクト

Yahoo!, Googleのアイデアによって作成

分散ファイルシステム+MapReduceエンジン

コモディティのハードウェアを使用

スケールアウト

Page 12: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

Hadoopの特徴とBI

分散処理システム(バッチ処理の高速化)

分散ファイルシステム(耐障害性)

コモディティのハードウェアを使用(低コスト)

プラットフォームの独立性

RDBの限界を超えて、スケールアウトが可能

多くのケースにおいて、それは唯一のソリューション

Page 13: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

Googleのユースケース

インターネットをインデキシングする必要性

大量の非構造化データ

事前に定義されたインプット

事前に定義されたアウトプット

事前に定義された質問

シングル・ユーザーコミュニティ

並列実行とストアの必要性

彼らの出した答えは、MapReduce

Page 14: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

Yahoo!のユースケース

インターネットをインデキシングする必要性

大量の非構造化データ

事前に定義されたインプット

事前に定義されたアウトプット

事前に定義された質問

シングル・ユーザーコミュニティ

並列実行とストアの必要性

彼らの出した答えは、MapReduce

Page 15: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

BIユーザーは?

インターネットをインデキシングしない

大量の構造化されたデータ

異なるインプットソースとフォーマット

異なるアウトプット

異なる質問

複数のユーザーコミュニティ

並列実行とストアの必要性

Page 16: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

HadoopをBIをためには使わない

なぜなら、それはBI用途には向いていないから

Page 17: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

でも、Hadoopに足りないところを補う方法があったら?

Page 18: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

Pentaho Data Integration(Pentahoデータ統合)

データマート、データウェアハウス、分析アプリケーション

Pentaho Data Integration

Hadoop Pentaho Data Integration

Pentaho Data Integration

デザイン

デプロイ

オーケストラ

Page 19: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

Pentaho Reporting(Pentahoレポーティング)

Pentaho Reporting

Hive

Hadoop (HDFS)

Hive JDBC Driver

Pentaho Metadata

CSV

Page 20: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)
Page 21: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

データソース

データレイク

データマート アドホック

データウェアハウス

ビッグデータ・アーキテクチャー

Page 22: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)
Page 23: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

Pentaho BI Suite 4.1

Hadoop

ビジネスユーザー

Hadoopデータソースに対するインタラクティブな分析

Hiveを経由したHadoopデータに対するレポートのスケジューリング

テクニカルユーザー

MapReduceジョブ、Pigスクリプト、Hive, Habseクエリー作成のためのグラフィカルデザイナー

Hadoopジョブやその他のジョブ

のスケジューリングやモニタリング

Hadoopデータと他のデータソースの統合

NoSQL

NoSQLデータとリレーショナルデ

ータを容易に統合

ネイティブで高パフォーマンスな

アクセス

サポートしているNoSQL

Apache Cassandra

DataStax

Hbase

Hive

MongoDB

HPCC systems

Elasticserach

XML Streaming

分析データベース

ネイティブなSQLをサポート

ネイティブなバルクローダーを

サポート

サポートしている分析データベ

ース

Infobright

EMC Greenplum

HP NonStop SQL/MX

HP Vertica

IBM Netezza

Actian Vectorwise

LucidDB

MonetDB

Teradata

Page 24: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

まとめ

Page 25: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

ビッグデータをデータウェアハウスとして使える?

たぶん可能

Page 26: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

ビッグデータをデータウェアハウスとして使うべき?

あまりお勧めしません

Page 27: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

データウェアハウス/データマートとは

データマート

クエリーやレポートのための構造化されたデータ

データウェアハウス

すべてのシステムに対するデータマートを作成したら、それを統合しないとなら

ない、データマートが整理・統合されたもの

Page 28: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

データウェアハウスの条件

複数のデータソース

クレンジング処理されている

整理されている

集計されている

Page 29: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

データウェアハウスに対する、ビッグデータ

大きいレイテンシー

大量データのバッチ処理に最適化されている

データベースとして成熟していない

no-SQLデータベースである

Page 30: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

でも、データウェアハウスとして、使いたくて使いたくて、たまらない場合は?

Page 31: BI×ビッグデータ - pentaho-partner.jpHadoopの特徴とBI 分散処理システム(バッチ処理の高速化) 分散ファイルシステム(耐障害性) コモディティのハードウェアを使用(低コスト)

データ・ウォーターガーデン

複数の大きなプールと池

整理されている

クレンジングされている

関連性がある