Upload
yuuki-takizawa
View
160
Download
0
Embed Size (px)
Citation preview
©AllRightsReserved,Copyright2017,ZEALCorporation,
2017年11月07日
株式会社ジール
アナリティクスソリューションセンターAVANTGROUP
はやい、やすい、うまい(簡単)クラウドで始めるビッグデータ分析
Hadoop on Azure
©AllRightsReserved,Copyright2017,ZEALCorporation, 2
会社/自己紹介■会社名 株式会社 ジール (英文名:ZEAL Corporation )
■設立 2012年7月 (事業継承に伴う新法人設立の為。母体は1991年設立)
■資本 1億円
■所在地 【本社】東京都品川区上大崎二丁目13番17号 目黒東急ビル6階
【大阪支社】大阪府吹田市豊津町1番18号 エクラート江坂ビル5階
■事業内容 BI/DWH/CPMコンサルティング事業BI/DWH/CPMインテグレーション事業BI/DWH/CPMソフトウェアライセンス・ハードウェアの販売及び保守アウトソーシング事業 (一般労働者派遣:派13-305385)
■従業員数 232名(2017年10月1日現在)JQA-IM0563
<自己紹介> 名前:瀧澤 祐樹 たきざわ ゆうき
IT歴:12年(その前は、小売業界に身を置いていました。)
私のミッション:BIを「ツール」と狭い意味ではなく「情報活用全般」ともっと広い意味で捉えていただくよう広めていく。なので、AIやExcelだって情報活用=BIの一部と私は捉えています。BIってなんか「楽しい」・「キレイ」・「簡単」と、最初の入り口の敷居を下げて裾野(利用者や認知)を広げることを日々考えています。
©AllRightsReserved,Copyright2017,ZEALCorporation, 3
エピローグ
Q データ量が非常に大きいのですが、高額なアプライアンスDBを用意しなくてはいけませんか?また、Hadoopはバッチのイメージが強く、アドホックな分析には向かないイメージがありますが?
いいえ、大量データを分析することが目的というならば、必ずしも高額なアプライアンスDBを用意する必要はありません。また、Hadoopには様々なエコシステムがあり、大容量のバッチも勿論、アドホック分析も守備範囲です。
Q Hadoopは導入するのに敷居が高そうなイメージなんですが?
そんなことはありません。確かにRDB技術者に比べてエンジニア数は少ないですが、ShellコマンドとGUIで容易に導入が可能です。
Q Hadoopは複数台のマシン準備が必要で調達、初期設定などに時間がかかりそうですが?
いいえ、クラウド環境であれば映画を1本見るころには調達、初期設定は終わっています。
つまり、Hadoopはまさに、「はやい」、「やすい」、「うまい(簡単)」なんです!
©AllRightsReserved,Copyright2017,ZEALCorporation, 4
本日のシステム構成図
Microsoft Azure
管理
Cloudera Director
作成
削除
データ
Azure Data Lake Store
取込
デモ会場
利用
Tableau Desktop
参照
分析
Cloudera Manager Master Nodes Worker Nodes Edge Nodes
(Optional)
©AllRightsReserved,Copyright2017,ZEALCorporation, 5
本日のシステム構成図(補足)
Microsoft Azure
管理
Cloudera Director
分析
Cloudera Manager Master Nodes Worker Nodes Edge Nodes
(Optional)
作成
削除
データ
Azure Data Lake Store
取込
デモ会場
利用
Tableau Desktop
参照
データ・件数:約2億件・ファイル:CSV・サイズ:46GB・Tableauのsuper storeが元ネタ
1台 3台 1台
サーバースペック(1台あたり)・DS13_V2 Standard- vCPU :8- MEM :56GB- SSD :112GB
1台
©AllRightsReserved,Copyright2017,ZEALCorporation, 6
環境構築フロー
概要
主な操作
作業時間
1.初期セットアップ 2.データ準備 3.分析環境を作成 4.分析する
初回のみ2時間程度
Azureの仮想マシンとしてDirectorサーバーを構築。DNS・ネットワーク・Azureの自動操作権限の設定 ブラウザ コマンド(SSH)
Directorのセットアップ Azure設定
自社ネットワークからADLS(米国東部)へ46GBのCSVファイルアップロードに2時間程度
分析に利用するCSVファイルをAzure Data Lake Store(ADLS)にアップロード コマンド
(PowerShell)
分析データのアップロード
[構築]ボタンを押してから約18分で構築完了
データ取込は15分程度
DirectorのWeb画面から、各種サーバーの設定を入力し[構築]ボタンを押す ブラウザ
分析環境にデータ取込 コマンド(SSH)
データ格納形式を指定(Parquet[パーケイ])
分析環境の構築 分析データ取込 チューニング
ODBCドライバのダウンロードとインストールに3分程度
分析ツールから接続する Tableau Power BI
分析環境に接続
©AllRightsReserved,Copyright2017,ZEALCorporation, 7
(参考)Cloudera DirectorをAzure上に構築
©AllRightsReserved,Copyright2017,ZEALCorporation, 8
(参考)Azure Data Lake Storeにファイルアップロード
©AllRightsReserved,Copyright2017,ZEALCorporation, 9
(参考)Cloudera Managerの作成画面
©AllRightsReserved,Copyright2017,ZEALCorporation, 10
(参考)分析環境の作成画面[サービス構成の選択]
©AllRightsReserved,Copyright2017,ZEALCorporation, 11
(参考)分析環境の作成画面[サーバー台数の選択]
©AllRightsReserved,Copyright2017,ZEALCorporation, 12
(参考)分析環境作成中の画面
©AllRightsReserved,Copyright2017,ZEALCorporation,
本資料に関するお問い合わせは下記までご連絡ください。
株式会社ジールTel:03-5422-8477
Mail:[email protected]::http://www.zdh.co.jp/contact/