Upload
oss
View
6.657
Download
5
Embed Size (px)
DESCRIPTION
Citation preview
100420Copyright 2010(C) OSS Laboratories Inc. All Rights Reserved
1
Apache Hadoopによる
常識破壊@バッチ処理 2010/5/20
OSSラボ株式会社 代表取締役 船井 覚
OSS Laboratories Inc.!http://www.ossl.co.jp
Mail: [email protected] Twitter: http://twitter.com/satoruf
LinkedIn: http://jp.linkedin.com/in/satorufunai/ja
分散処理フレームワーク:
• スケールアウト分散処理のOSSフレームワーク
• Apacheのトップレベルプロジェクト
• Googleが2004年に発表した論文の実装クローン ! 【分散ファイルシステム】 GFS (Google File System) : HDFS (Hadoop Distributed File System) ! 【分散データ処理基盤】 Google MapReduce : Hadoop MapReduce ! 【分散ロックサービス】 Google Chubby : Hadoop Zookeeper ! 【DSL】 Google Sawzall : Hadoop Pig ! 【分散ストレージ】 Google BigTable : Hadoop Hbase ! 【データウェアハウス基盤】 Google ? : Hadoop Hive
• 数千台のクラスタまでリニアにスケールアウト
• 数百テラバイト級、1兆レコード以上の実績多数 • Yahoo!、Facebook、Amazon、China Mobile、VISA、JP Morgan Chase
• 楽天、はてな、クックパッド、三菱東京UFJ銀行、NTTデータ等
• ACID(Atomic、Consistent、Isolated、Durable)ではなく、BASE(Basically Available、Soft-State、Eventual Consistency)
• データウェアハウスや、基幹系バッチ業務への適応 100520 Copyright 2010(C) OSS Laboratories Inc. All Rights Reserved 2
Apache Hadoopプロジェクト概要
HDFS (Hadoop Distributed File System)
HBase (key-value store)
MapReduce (Job Scheduling/Execution System)
Pig (Data Flow) Hive (SQL)
BI Reporting ETL Tools
Avro
(Ser
ializ
atio
n)
Zook
eepr
(C
oord
inat
ion)
Sqoop
RDBMS
(Streaming/Pipes APIs)
入力されたファイルは、64MB以上のブロックサイズに分割され、最低3個以上の複製が自動的に作成さ
れる
HDFS: Hadoop Distributed File System
2
3
5
4
1
2
2
2
1
1
1
3 3
3
4
4
4
5 5
5
HDFS
MapReduce: Distributed Processing
大規模バッチ処理に特化したプログラミングモデル アルゴリズムの記述のみにプログラマが集中できる
ライブラリ側で面倒な事を全て担当 自動的に処理を分散/並列化 ロードバランシング ネットワーク転送、ディスク使用効率化 耐障害性の考慮 1ノードで失敗したら違う場所で再実行される
2
1
1
34
5
2
3
5
4
1
Map Reduce
Hadoopの使用例
Hadoop: Storage and Batch Processing
ETL/sqoop
OLAP Data Mart
Business Intelligence OLTP Data Store
Interactive Application
情報系 基幹業務
Engineers
入力データ
データストアとしてのHadoop ! 標準的ノードのハードウェア構成:
! 2x Quad Core Nehalems ! 24GB メモリ ! 12 * 1TB SATA ディスク(JBOD モード, RAIDは不要) ! 1 Gigabit Ethernet カード
! ノード当たりの費用: 約50万円 ! 実効HDFS 容量:
! ! reserved for temp shuffle space, which leaves 9TB/node ! 3 way replication leads to 3TB effective HDFS space/node ! But assuming 7x compression that becomes ~ 20TB/node
実効TB当り費用: 2万5千円/TB
Yahoo!(米国)事例• 世界最大のHadoopユーザーであり、コントリビュータ • 25,000台、 82PBストレージのサーバをHadoopで使用 • 最大のクラスタは、4,000ノード、64TBメモリ、16PBストレージ、32,000コア • 500ユーザーが検索インデックスの作成や、利用者ごとに表示するコンテンツや広告の最適化、電子メールサービスにおけるスパムフィルタの生成といったバッチ処理に使用
• 3年分のログを分析し、SearchAssistTM機能のデータベースを作成するバッチ処理が、26日間から20分に短縮
• 1,500ノードで1TBのデータをソートした場合、処理 には 62秒 • 3,700ノードで1PBのデータをソートした場合、処理 には 16 時間強
100520 Copyright 2010(C) OSS Laboratories Inc. All Rights Reserved 8
Facebook(米国)事例• 200 人のフェースブック社員が、Hive を駆使してDWHにHadoopを利用
• +12TB/日(圧縮時)の新規データ • 135TB/日のデータを検索 • 最大のクラスタは、1,050ノード、32TBメモリ、12.5PBストレージ、
4,800コア • 日次週次クリック/インプレッション定型レポートや、アドホックレポートに使用
100520 Copyright 2010(C) OSS Laboratories Inc. All Rights Reserved 9
!"#$%"&'"&($
%)&*#"$+*,-*"&$
.*/"&($
0&1,2)314$5*'"657,118$9/2(:"&$
;&7)/"$<=9$
.","&7:",$+>%?@$
%)&*#"657,118$9/2(:"&$=,A1)$5*'"657,118$
9/2(:"&$
5*'"$&"8/*)7314$
Disks
Node
Disks
Node
Disks
Node
Disks
Node
Disks
Node
Disks
Node
1 Gigabit 4 Gigabit
Node = DataNode + Map-Reduce
VISA(米国)事例• 現在2つのHadoopクラスタで、約340TBのデータを活用
• Hadoop #1 ~40Tb / 42 node • Hadoop #1 ~300Tb / 28 node
• Hadoopを使って、不正なカード利用がないか、各トランザクシ ョンの「リスク(危険度)」を分析
• カード利用情報(トランザクション)をHadoopクラスタに投入して 、 各顧客アカウントやトランザクションタイプ、IPアドレスなどにひも付けた分析を行い、不正なカード利用を探し出している。
• トランザクション情報は、2年分で7兆3000億件、合計36TB • そのデータを解析するのに、従来1カ月かかっていたが、
Hadoopを導入することによって、解析時間は13分にまで短縮できた。
100520 Copyright 2010(C) OSS Laboratories Inc. All Rights Reserved 10
チャイナモバイル 事例
• 携帯電話利用者は連結ベースで 5 億人 • 規模が大きい子 会 社であるCMCC(チャイナモバイル・コミュニケー
ショ ン・コーポレーション)の場合、CDR(通話情報、発呼側番号や着呼側番号、日付、 利用時間など)のデータが 1 日当たり 5TB~9TB、利用者数が 2,000万人と“小規模”な子会社でも 、データ量は1日当たり300GB
• BC-PDM(Big Cloud based Parallel Data Mining)プロジェクト • Hadoopの分散ファイルシステムHDFSを独自にチューニングした
「Hyper-DFS」というソフトウエアや、データマイニングのアプリケーション、Hadoopを運用するサーバーを管理するツールも独自で開発
• 16ノードでの検証結果 • ETLは12 ~ 16 倍 • データマイニング抽出10 ~ 50 倍 • 3種類のデータ分析アプリケーションが 3 ~ 7 倍
• 今後、Hadoopをサービス最適化や正確なマーケティ ンク活動、ネットワーク最適化、ログ解析などに活用する予定た。現状合計256台のサーバーで、Hadoopの検証中
100520 Copyright 2010(C) OSS Laboratories Inc. All Rights Reserved 11
JP モルガンチェース(米国)事例• Hadoopを「安価で拡張可能なストレージ」として利用 • 安価なPCサーバーだけで大規模データの保存と分析が可能 になり、従来巨費を投じていたリレーショナル データベース(RDBMS)を使うケースを減らせる。
• さらにRDBMSのために必要だったSAN/NAS などのエンタープライ ズストレージへの投資も、同時に削減
100520 Copyright 2010(C) OSS Laboratories Inc. All Rights Reserved 12
楽天 事例
• 商品リコメンデーション処理にHadoopを利用 • 毎日4,000万会員、2,000万アイテム商品から生成される、2億件/10GBの購買履歴
• 2コア4GBメモリx14台のクラスターで分析 • 従来製品では5日間かかった処理が、5時間弱になったため、毎日更新可能に
• 広告ユニークユーザー分析 • いつ何処でどんな人がどの広告に興味を示しているのかを統計解析
• 毎年配信ログが年150%増加 • 占有バッチ専用機から、処理速度580%向上
100520 Copyright 2010(C) OSS Laboratories Inc. All Rights Reserved 15
クックパッド 事例
• COOKPAD:月間816万ユーザー、月間3.9億PV、ユニークユーザー数816万人、登録レシピ数64万品以上、30代女性の4人に1人が利用する日本最大の料理サイト
• たべみる:地域別、週別月別で見れる、マーケティングデータ提供サービス
• Amazon EC2上に、50台のHadoopクラスタを構成 • 1台では1年分の処理に約7000時間かかる検索ログ解析処理が、30時間に
• かかった費用は、約4万8千円
100520 Copyright 2010(C) OSS Laboratories Inc. All Rights Reserved 16
日経ビジネスオンライン記事 http://business.nikkeibp.co.jp/article/tech/20100416/214016/
クラウデラ社 http://www.cloudera.com/
• Hadoopの商用サポートを目的に2009年3月に設立された • ClouderaのファウンダーにはMike Olson(元Oracle副社長、それ以前はオープンソース・データベスのパイオニア、SleepycatSoftwareのCEO)、 Christophe Bisciglia(Googleのアカデミック向けクラウドコンピューティング・サービスを創立し責任者を務めた)、Dr.Amr Awadallah( Yahoo!に買収されたVivaSmart)、Jeff Hammerbacher (Facebookデータ・チームの重要メンバー)などが名前を連ねている。
• Clouderaに対する出資者には、Diane Greene(元VMwareのCEO)、Mike Abbott(Palm上級副社長)、CaterinaFake(Flickrの共同ファウンダー)、Dr. Qi Lu(Microsoftのオンライン・サービス・グループの責任者で、元Yahoo!の執行副社長)、MartenMickos(元MySQLの CEO)、Jeff Weiner(LinkedIn社長、元Yahoo!上級副社長)、Gideon Yu(FacebookのCFO、元YouTubeのCFO)などが含まれる。
• 米国Yahoo!やFacebook、OpenPDC(Codeplex)というプロジェクトなどをサポートする他、Hadoopの商用ディストリビューションパッケージを配布、トレーニングを開催している
100520 Copyright 2010(C) OSS Laboratories Inc. All Rights Reserved 17
Pentaho + Hadoopインテグレーション• 2010/7 リリース予定 • Hadoopを公式サポートする世界初のBIツール
100520 Copyright 2010(C) OSS Laboratories Inc. All Rights Reserved 18
Hive
Hadoop DFS
IBM InfoSphere BigInsights• Apache Hadoopをベースにした分析エンジンの「BigInsights Core」と、その上で大規模データをWebブラウザを利用してスプレッドシートのようなユーザーインターフェイスで分析を行える「BigSheets」の2つから構成される。
• この製品の最大の特徴はBigSheetsにある。BigSheetsは、表計算のようなユーザーインターフェイスを利用してBigInsights Coreに命令を与え、プログラミング不要で大量のデータを分析する機能をもっている。
• BigSheetのダッシュボード画面例
100520 Copyright 2010(C) OSS Laboratories Inc. All Rights Reserved 19