View
2.123
Download
1
Category
Preview:
DESCRIPTION
IDCフロンティアで行われたNOAHユーザー会での発表資料になります。
Citation preview
Hadoop~Yahoo! JAPANの活用について~
2011/06/30
ヤフー株式会社 R&D統括本部
角田直行
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止1
自己紹介
角田 直行(かくだ なおゆき)
R&D統括本部 プラットフォーム開発本部検索開発部 開発3
–2005年 ヤフー株式会社入社
–Yahoo!地図
–Yahoo!路線
–Yahoo!検索
…
–2011年現在、検索プラットフォームを開発中
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止2
Agenda
–Introduction
–Hadoopとは
–事例紹介
–まとめ
Introduction
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止3
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止4
有名なネットサービス
月間 546億PV
1日 1億4千万のつぶやき
商品数 7750万
月間ユーザ数 7億5千万人
各サービスとも日々成長を続けています
2011年3月 月次報告より
2011年2月の平均Tweet数
2011年6月
2011年6月29日
楽天
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止5
莫大なデータ量との闘い
–成長を続けていくにはアクセスログ解析やデータマイニングなど
が必須
–億単位の行 or テラバイト級のデータを短時間で処理したい
毎日処理しなければならない
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止6
Yahoo! JAPANが扱うデータ
–ログは1日分だけでもかなりのサイズになる
–行数を数えるだけでも数日かかる
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止7
解決策としてのHadoop
–大規模な処理、大容量のデータを扱うには
1台のサーバでは不可能
–マルチコアによる並行処理アプローチは複雑すぎる
–数十~数千台規模で簡単にスケールする環境が不可欠
この発表では、Yahoo! JAPANがHadoopをどう活用しているか
について事例を交えて解説します
Hadoopとは?
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止8
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止9
Hadoopとは
–大規模分散処理システム
–Google MapReduce/GFSを論文を元に実装
–処理時間が数時間以上かかるようなバッチ処理に向いている
→ Webのように、即座に結果が返るような
リアルタイム処理には不向き
–Javaで書かれ、オープンソースとして公開
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止10
Hadoopとは
大きくMapReduceとHDFS(分散ファイルシステム)に分かれる
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止11
Hadoop MapReduce
長時間かかる巨大な処理を複数台のマシンに分散
・・・
・・・
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止12
Hadoop HDFS
・巨大なファイルを複数台に分割・複数サーバの各HDDを1つのHDDのように扱える
Hadoopの事例紹介
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止13
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止14
Hadoopを活用している会社
など・・・増え続けています!
Yahoo! Inc.での事例紹介
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止15
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止16
Hadoop at Yahoo! Inc
–Hadoopユーザ、テスター、コミッターの数が最も多い
–Hadoopのコードのおよそ70%がYahoo!からのもの
–Hadoopのクラスタ、台数が最も多い
– 多数のクラスタがあり、合計42000台以上
– 1クラスタにつき最大4000台
– コアコミッターを中心に、Horton Worksという会社を立ちあげ
– Yahoo!独自に進化させるのではなく、オープンソースとして
のHadoopにより貢献するため
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止17
Yahoo! Inc トップページ
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止18
Yahoo! Inc トップページ
広告最適化
検索インデックス
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止19
Yahoo! Inc トップページ
広告最適化
コンテンツ最適化
検索インデックス
スパムフィルター
コンテンツ管理
コンテンツ最適化
Yahoo! JAPANでの事例
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止20
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止21
Hadoop at Yahoo! JAPAN
様々なYahoo! JAPANのサービスを支えるプラットフォームで、
Hadoopが使われています
アクセスログデータプラットフォーム
検索プラットフォーム
レコメンデーションプラットフォーム
広告プラットフォーム
地域APIプラットフォーム
–例えば、Yahoo! JAPANの検索サービスでは・・・
22
Yahoo! JAPANの検索サービス
検索ログプラットフォーム
検索プラットフォーム(ABYSS)
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
検索のログをHadoopで分析してデータ提供
サービスに検索機能を提供
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止23
Yahoo!検索
–検索ログプラットフォームのデータを元に様々な機能を提供
関連検索ワード→
キーワード入力補助→
ショートカットの表示制御→
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止24
Yahoo!検索 リアルタイム検索
–検索プラットフォーム(ABYSS)が検索機能を提供
–Twitter社が提供した、リアルタイムのツイートデータを、ABYSS
側に送ってインデクシング
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止25
ABYSSでのHadoopの役割
– 検索データのストレージ
– 検索インデックスを生成
– 検索データを加工して提供(マージ処理)
サービス担当
Gateway
Hadoop
Ops/Direct API Admin UI
Crawler Workflow
UserDB
Index
フロントエンド
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止26
検索インデックス生成
Hadoop Server
サービス担当者ユーザ
サービス側フロントエンドサーバ
Index Server
ABYSS
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止27
検索インデックス生成
Hadoop Server
サービス担当者
1. 検索インデックス
の元になるデータをアップロードユーザ
サービス側フロントエンドサーバ
Index Server
ABYSS
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止28
検索インデックス生成
Hadoop Server
サービス担当者
1. 検索インデックス
の元になるデータをアップロード
2. Hadoopで検索インデックス生成
ユーザ
サービス側フロントエンドサーバ
Index Server
ABYSS
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止29
検索インデックス生成
Hadoop Server
サービス担当者
1. 検索インデックス
の元になるデータをアップロード
2. Hadoopで検索インデックス生成
3. 検索インデックス
をインデックスサーバに転送
ユーザ
サービス側フロントエンドサーバ
Index Server
ABYSS
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止30
検索インデックス生成
Hadoop Server
サービス担当者
1. 検索インデックス
の元になるデータをアップロード
2. Hadoopで検索インデックス生成
3. 検索インデックス
をインデックスサーバに転送
ユーザ
サービス側フロントエンドサーバ
4. サービス側のサ
ーバを通じてユーザが検索可能に
Index Server
ABYSS
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止31
Hadoop at ABYSS
– Hadoop クライアントとサーバに分けて運用を行っている
– サーバは開発用クラスタと、検証用クラスタ、本番用クラスタがある
– 本番用クラスタは、DRBD+Heartbeatで冗長化
– 別サーバからHadoop ClientでJobの実行や、ファイルの転送を行ってい
る
Hadoop Client Hadoop Client Hadoop Client
開発用クラスタ 検証用クラスタ 本番用クラスタ
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止32
Hadoopの事例まとめ
–データ解析、データマイニング
– ログ解析、レコメンデーション、テキストマイニングなど
–検索関係
– 検索インデックス生成、ランキング計算など
→大量のデータを読み込んで解析をする処理、大量の計算が必
要な「バッチ処理」に向いている
まとめ
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止33
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止34
まとめ
–Hadoopは大規模なデータを複数のマシンに分散して
処理できるプラットフォーム
–Hadoopを使う企業は増え続けていて、不可欠な技術に
なりつつある
–Hadoopは、大規模データを扱う処理や、大量の計算が必要な
バッチ処理に向いている
–Yahoo! JAPANはこれからもHadoopを活用していきます
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止35
Hadoopの連載記事
–いまさら聞けないHadoopとテキストマイニング入門
–Hadoopの基礎や、セットアップ方法を載せています
http://www.atmarkit.co.jp/fjava/rensai4/hadoop_tm01/01.html
ご静聴ありがとうございました!
Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止36
Recommended