Upload
cloudera-japan
View
830
Download
0
Embed Size (px)
DESCRIPTION
2013/4/23に実施したセミナーの資料です
Citation preview
1
ビッグデータ時代到来!どうするデータ活用
〜 Hadoop の導入事例から学ぶ〜川崎 達夫 | Cloudera 株式会社 エデュケーションサービス2013 年 4 月 24 日
2
自己紹介
• 川崎 達夫• シニアインストラクター&研修全般の業務を担
当• email: [email protected]
• Hadoop トレーニングに関するお問い合わせ先• web: http://www.cloudera.co.jp/university• email: [email protected]
3
後半のアジェンダ
• ビッグデータとは• Hadoop 事例紹介• Hadoop のアーキテクチャ• ビッグデータ時代の人材育成
4
Hadoopのアーキテクチャ
5
Google の課題
• Google の課題• Google の重要なサービスのひとつ、検索サービス• インターネット上のコンテンツを集めて、検索イン
デックスを作る必要があった• 2 つの課題
• 大量のコンテンツを「蓄積」(保存)しなければならない• 大量のコンテンツを「加工」(処理)しなければならない
インターネット
蓄積
加工
6
課題と解決(1)
• 一般的にデータはハードディスクに保存される• 利点
• GB あたりの単価が安い• 例) 3TB のディスクは $0.05/GB
• 欠点• 読み書き速度が遅い• 例)転送レートが 210MB/s のディスク
• 3TB の読み込みに約 4 時間かかる
→ 複数のディスクを並列で使用する
7
課題と解決(2)
• データを一カ所に保存する• 処理時に共有ディスクからデータを読み込む• ボトルネックの要因
• 処理するデータのサイズが大きい• 多くの台数が同時にアクセス• ネットワークの帯域
→ 処理をデータ側に持ってくる
8
課題と解決(3)
• 一台で処理するのではなく、複数のマシンに処理を分散する• 一方、分散処理は難しい• C 言語、フォートラン、 MPI 、、、、• 専門知識が必要
→ 汎用言語と高レベルな API を使用して 複雑さを抽象化
9
課題と解決(4)
• 分散システムには高価なコンポーネントが必要• 障害の可能性を最小限に抑える
→ 障害は発生すると認識した設計
10
Google の解決策 : GFS と MapReduce
• GFS (分散ファイルシステム)• 多数のサーバ上に分散してデータを保存できるファイ
ルシステム• Google は GFS を使って大量の web ページを多数の
サーバの上に保存した• MapReduce (分散処理)
• GFS で分散された多数のサーバの上でそのまま計算処理を行うための分散フレームワーク
• Google は MapReduce を使って検索インデックスを作成した
キーワードは「分散」
11
Hadoop の登場
• Hadoop = Google が公開した論文を元にしてオープンソースで開発されたクローン
• GFS -> HDFS (Hadoop 分散ファイルシステム)• MapReduce -> MapReduce (分散処理)
12
Hadoop のアーキテクチャ
マスタ・スレーブ型ただしスレーブ数は非常に多い (10-1000 台、 10000 台も可能 )
マスター
スレーブ群
13
Hadoop のアーキテクチャ
データを分散して保存
マスター
スレーブ群
データ
14
Hadoop のアーキテクチャ
処理を分散して実行
マスター
スレーブ群
処理
15
ここまでのまとめ
• Hadoop のアーキテクチャ• 「分散して蓄積」と「分散して処理」
• Hadoop が有効なケース• 大量のデータを蓄積したい• 比較的単純な処理を高速に行いたい→ 台数を増やすことで容易にスケールアウトできます
• Hadoop に向いていないケース• RDBMS ではありません(低遅延ではありません)• トランザクションのような複雑な処理はありません
16
ビッグデータ時代の人材育成Cloudera University
17
ビッグデータと人材不足
• ‘ビッグデータ’を業務に活かす基盤は整って来た
• 大きな課題は「人材不足」
• 関連記事• 日経コンピュータ 2011 年 9 月 15 日号
• ビッグデータ革命:最大の課題は人材不足• COMPUTERWORLD ( IDC調査)
• Hadoop/MapReduce 関連ソフトの世界市場、今後 5 年間の年平均成長率は 60.2% の見通し。(中略)その一方で、今後2 〜 3 年間、 HadoopやMapReduce を使いこなせる人材の不足がこれらの技術の普及拡大のネックになるだろうとも付け加えている
18
Hadoop エンジニアと給与
• 関連記事• 10 Tech Skills That Will Instantly Net You A $100,000+
Salary• 第7位 : “Haddop は少なくとも $103,000 の価値がある”
• http://www.businessinsider.com/10-tech-skills-that-will-instantly-net-you-100000-salary-2012-8?op=1
• As Demand Keeps On Increasing, Hadoop And NoSQL Skills Pay Off• “Hadoop と NoSQL を使用している社員の年収は $100,000以
上であり、 IT 業界平均年収の平均 $85,619よりもかなり高い”• http://inside-bigdata.com/as-demand-keeps-on-increasing-hadoop-
and-nosql-skills-pay-off/
なぜ Hadoopのトレーニングなのか?
不足 エキスパートを雇用するよりも社員に研修を行う方が安価速度 訓練されたプロフェッショナルは迅速でより効率的に業務を遂行セキュリティ 認定資格はリーダーシップとスキルの明らかな証明
19
戦略 独自の利用事例と卓越した研究拠点の構築を開始
25%
$115K
20
Hadoop プロフェッショナル:育成か雇用か?Hadoop のスキルを持つエンジニアの給与は、少なくとも一般より多く必要
Hadoop の開発者は、現在技術職において賃金が最も高額であり、この水準以上になっている
Sources: Business Insider, “10 Tech Skills That Will Instantly Net You A $100,000+ Salary,” 11 August 2012.Business Insider, “30 Tech Skills That Will Instantly Net You A $100,000+ Salary,” 21 February 2013.
GigaOm, “Big Data Skills Bring Big Dough,” 17 February 17 2012.
$300Kかなりシニアなデータサイエンティストの求人における賃金
21
なぜ Clouderaのトレーニングなのか?
1広範囲なコース体系開発 ,管理 ,HBase,Hive & Pig, データサイエンス
2
3
経験豊かな講師2009 年以降、 15,000 人以上が受講
5世界各国で実施ほとんどのコースが 20 カ国、およびバーチャルでも提供
6 プラットフォームとコミュニティに密接CDH は他社のディストリビューションよりも展開されている
7詳しいトレーニング教材ハンズオン演習と仮想マシンが実操作に役立つ
認定資格のリーダーCloudera の認定取得者は 5,000 人以上
4 最高水準のカリキュラムHadoop の進化に伴い定期的に更新 8 学習の継続
ビデオチュートリアルと e-learning でトレーニングを補完
55%
22
が Cloudera のトレーニングを受講
Source: Fortune, “Fortune 500 “ and “Global 500,” May 2012.
Cloudera はトップ企業への研修を提供
100%の企業の社員に対する研修を Cloudera で提
供
Hadoop の導入を検討している世界のテクノロ
ジー企業のトップ 20 社のう
ち
Fortune 100 企業のビッグデータプロ
フェッショナルのうち、
94%
66%
23
が Cloudera のトレーニングを同僚または知人に推奨、または強く推奨
が少なくとも毎月開催している Clouderaのトレーニングを当てにしている
Source: Cloudera Past Public Training Participant Study, December 2012, n = 206
40% が Cloudera のトレーニング後、新しいアプリケーションを開発、あるいはビジネスに重要な分析を実施
Cloudera のトレーニング受講者は現場のリーダー
88% が Cloudera のトレーニングは受講生の役割に求められる Hadoop の専門知識を提供していると示唆
24
“ ”
講師の専門スキルと講義中に得られる技術知識の向上は素晴らしかった。 トレーニングの品質は大学の授業に比肩する
25
Cloudera Universityとは何か?
役割ベースのトレーニングコー
ス
開発者 管理者 分析者
専門的な認定資格
プロジェクトベースのビデオチュートリ
アル(英語)
製品ベースのE-Learning
Hadoop クラスタの発展
Cloudera ナレッジベース
26
Cloudera エッセン
シャル1 日
Hadoop管理者向け
3 日間 & 認定試験
ClouderaEnterprise
1 日間
Hadoop開発者向け
4 日間 & 認定試験
Proposed Company Training Timeline
Proposed Evolution of Cloudera Enterprise Deployment
ApacheHBase
2 日間 & 認定試験
Apache Hive & Pig
2 日間
DataScience
3 日間 & 認定試験
最初のユースケース
追加のユースケース
リアルタイムのユースケース
広範囲なユーザーが採択
Estimated Data in Production
最新の分析
Hadoop選択のライフサイクル
Hadoop で何をすることが
できるか?
本番環境でのHadoop を準備
27
ラーニングパス:開発者とソフトウェアエンジニア
Data Scienceトレーニン
グ
開発者向けトレーニン
グ
HBaseトレーニン
グ
本番環境で MapReduce プログラムを記述する方法を学習実際のデータ分析に必要となる高度な API のトピックをマスター
大量データセットでの遅延を最小化するためのスキーマ設計秒間数十万オペレーションまでスケールアップ
レコメンダとデータ解析を実装異種データの分析からすぐに利用可能な洞察力を認識
28
ラーニングパス:システム管理者と IT マネージャー
Hive & Pigトレーニン
グ
Cloudera Enterprise
トレーニング
迅速なクラスタのデプロイと拡大のために Cloudera Manager を使用クラスタの性能向上のためにどのツールと技術を使用するかを学習
外部 BI ツールなしに大量データセットの完全な分析を実行高い価値がある用途で扱うためにデータを変換して操作
管理者向けトレーニング
設定、インストール、最適なパフォーマンスのための監視セキュリティ機能と複数ユーザを実現するための実装
29
ラーニングパス:分析者 & ビジネス情報スペシャリスト
Data Scienceトレーニン
グ
Cloudera エッセン
シャルトレーニン
グ
Hive & Pigトレーニング
既存の技術と並行して Hadoop の価値を創造複数の構造化された大量な量のデータを分析するための方法を学習
大きすぎるデータセットに対して SQL とスクリプト言語を適用Hadoop のアクセスの容易さを加速する高度なテクニックを取得
好機を生かすために業界固有のデータプラットフォームを構築コスト削減、利益拡大、顧客維持のためにデータを使用
30
Course Overview
Cloudera Apache Hadoop エッセンシャル1 日
なぜ Hadoop が存在しているのか、いつ利用するのが適切か、拡張を成功させるために必要なリソースは何かを学習します。 Hadoop の主要なコンポーネントと広範囲な Hadoop エコシステムを紹介します。
Cloudera Apache Hadoop 開発者向けトレーニング4 日間
HDFS と MapReduce の基本と同様に、 API を使用してどのようにプログラムを記述するのか、デバッグと最適化のテクニック、大きなワークフローの管理方法を学習します。関連する Apache プロジェクトの概要を紹介します。
Cloudera Apache Hadoop 管理者向けトレーニング3 日間
Hadoop システム管理者のコンセプトと実務について、インストールと設定、デプロイにおける問題の診断と解決するための負荷分散とチューニングについて学習します。
Cloudera Enterprise トレーニング1 日
大規模 Hadoop クラスタを維持管理するために、 Cloudera Manager を含むCloudera Enterprise の一部として提供されるアプリケーションの使用方法について学習します。
Cloudera Apache HBase トレーニング2 日間
低遅延クエリと高スループットを実現するための分散データストアとして、HBase の使用方法を学習します。本コースではスキーマ設計、アプリケーションの作成、設定とメンテナンスも網羅しています。
Cloudera Apache Hive & Pig トレーニング2 日間
Apache Hadoop で分析とデータ変換を行うための、 2 つの人気のあるApache プロジェクト、 Hive と Pig の使用方法について、フィルタ、結合、ユーザー定義関数などを学習します。
データサイエンス入門:レコメンドシステムを構築する3 日間
データサイエンティストとは何か、解決できる問題は何か、異なる業界においてデータからビジネスの価値を導くために現実的な課題に適用する方法について学習します。自動化されたレコメンダシステムを実装します。
31
“
”
Cloudera はビッグデータの動向に福音を説いている最適なベンダーであり、業界で Hadoop を促進する素晴らしいサービスを提供している。開発者向けトレーニングは私が旅を始めるのに素晴らしい方法だった。
32
なぜプライベートトレーニングなのか?
利便性希望日に希望した場所で
プライバシー相互の情報開示契約はない
フォーカス1教室あたり 10名または 20名に限定
関連性Hadoop の目的に合わせた議論
カスタマイズ研修の内容はご要望に応じて提供
価格旅費と最小限の作業に追加費用は発生しない
34
本日のまとめ
• ビッグデータとは何か• Hadoop の事例• Hadoop のアーキテクチャ• ビッグデータ時代の人材育成
• 前半の資料は参加者のみに期間限定で公開しています
35 CONFIDENTIAL - RESTRICTED