Upload
phungkhanh
View
230
Download
0
Embed Size (px)
Citation preview
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
最新事例とベンチマーク結果から学ぶ
クラウドHPCの実力
アマゾンウェブサービスジャパン株式会社
ソリューションアーキテクト松尾康博ソリューションアーキテクト小川貴士
アジェンダ
• HPC on AWSが求められる背景
• 自工会様による評価結果のご紹介
• HPC on AWSの最新事例と技術詳細
Who am I ?• 名前
– 松尾康博• 所属
– アマゾンウェブサービスジャパン株式会社– ソリューションアーキテクト– 製造業のHPC、CAE、ビッグデータ解析等を担当
• 経歴
– 九州大学でスパコンの効率化研究– SIerで 分散キューの開発・導入、分散処理研究– Web系スタートアップCTO– SIerで仮想化基盤の研究・導入・運用– 現職
• コア数制限無く最適な環境(CPU/OS/etc.)を使いたい
• 待ち時間を短縮してほしい
• 計算機クラスタの管理・更改が面倒
• 解析結果を共有してコラボレーションしたい
HPCに求められる計算機環境
立場による目的の相違
• HPC利用者は出来る限り早く計算結果を得たい
• 様々なジョブがある(コア数、計算時間)
• ITインフラチームは稼働率を高めようとする
結果:
• キューが計算資源の調整弁になる
• 待ち時間を含めたジョブ完了時刻の予測は困難
• ユーザはジョブ投入数を妥協し、きめ細やかなシミュレーションが行われなくなる
?
キュー(待ち時間)は見えないコスト(損失)
1日1週間
コア数無制限(クラウド)コア数有限(オンプレ)
ユーザ満足度、業務効率の面で有利なのは?
ジョブ単体の速度とジョブのスループット
HPCインフラとしてAWSが選ばれる背景
• Scale and Elasticity
– 必要な時に待たずに必要なキャパシティを利用。従量課金。
• Code as Infrastructure
– コードとして定義することでクラスタ環境の用意を自動化
• Ability to Experiment
– いつでも様々な実験、テストを、並列に繰り返し、実行できる
– 失敗のリスクを最低限に抑えることができる
12 のリージョン1. US EAST (Virginia)
2. US WEST (N. California)
3. US WEST 2 (Oregon)
4. EU WEST (Ireland)
5. JAPAN (Tokyo)
6. South America (Sao Paulo)
7. ASP 1 (Singapore)
8. ASP 2 (Sydney)
9. GovCloud
10. BJS 1 (Beijing China) limited preview
11. EU (Frankfurt)
12. Seoul (2016年1月 NEW)
33 のアベイラビリティ・ゾーン
54のエッジロケーション※2017年にかけてカナダ、中国寧夏、インド、オハイオ、イギリスにもリージョン開設予定
膨大なリソース要求に答えるインフラ
18 時間205,000 個の分子分析ジョブ
156,314 コア(ピーク時)
2.3M コア時間( 264コア年)
トータル費用: $33,000
Scale and Elaticity
EC2インスタンスタイプ
• 様々なスペックの仮想マシンをご用意
244
122
60
30
16
8
4
2
1
1 2 4 8 16 32+
Mem
ory
(G
iB)
コアあたりのメモリ大
小規模向け
vCPU
10
コア性能重視
https://aws.amazon.com/jp/ec2/instance-types/
バランスのとれた汎用インスタンス
X1
高性能インスタンスの変遷
CC1 CC2 C3 C4
vCPU 16 32 32 36
RAM (GiB) 23 60.5 60 60
CPU Xeon X5570(Nehalem)
Xeon E5-2670(Sandy Bridge)
Xeon E5-2680v2(Ivy Bridge)
Xeon E5-2666v3(Haswell)
NIC 10Gbps 10Gbps 10Gbps 10Gbps
Launch Date
Jul, 2010 Nov, 2011 Nov, 2013 Jan, 2015
既存のOS/アプリ/ミドルウェアが利用可能
開発言語・アプリケーション・ミドルウェア
×OS
AWSをHPCとして使う際の懸念点
• 計算性能
• セキュリティ
• 構築と運用
この後のJAMA様の発表にて!
この後のJAMA様の発表にて!
後半にご説明!
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
日本自動車工業会様
CAEクラウド評価タスクとその結果一般社団法人日本自動車工業会
電子情報員会デジタルエンジニアリング部会次世代スパコン検証WG CAEクラウド調査タスク
本田技研工業株式会社IT本部システム基盤部インフラ推進ブロックチーフ
多田歩美様
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
一般社団法人
日本自動車工業会
電子情報委員会デジタルエンジニアリング部会
次世代スパコン検証WG CAEクラウド調査タスク リーダー多田歩美
自動車業界におけるCAEクラウド利用に向けた取組みとベンチマーク結果のご紹介
2016年6月3日 : AWS Summit Tokyo 2016
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
アジェンダ
・自工会ご紹介
・2014年 調査フェーズ
・ 本タスク発足の背景
・ CAEクラウド調査タスク体制
・ 本タスク活動開始時の課題と狙い
・ 2014年度活動内容振り返り
・2015年 利用確認フェーズ・ CAEクラウド調査タスク体制
・ 2015年度目標・スケジュール
・ CSP性能調査
・ セキュリティ
・まとめ ~2016年の活動に向けて(活用フェーズ)
・最後に・・・
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
自工会のご紹介
名称: 一般社団法人 日本自動車工業会(略称:自工会)
Japan Automobile Manufacturers Association, Inc.(略称:JAMA)
所在地: 〒105-0012 東京都港区芝大門1-1-30 日本自動車会館
設立: 1967年(昭和42年)4月3日
目的: 本会は、我が国の自動車工業の健全な発達を図り、
もって経済の発展と国民生活の向上に寄与すること。
東京MOTOR SHOW 2015 主催
SMART MOBILITY CITY 2015 主催
自動車工業の発展に貢献してます
http://www.jama.or.jp/intro/summary.html
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
自工会の組織と本タスクの位置づけ
CAEクラウド調査タスク
3D図面活用検討WG
LTAR WG
デジタルエンジニアリング部会
標準企画タスク
標準維持タスク
3DAMS・JIS化検討タスク
DE統括分科会
次世代スパコン検証WG
個社では解決できない課題に業界として取り組み業界を超えた標準化による基盤強化と
将来動向を踏まえた先端技術の実用検証により質の高い新たな日本の「ものづくり」をリードする
-デジタルエンジニアリング部会 基本理念-
今後ともご協力を
お願致します
※2016年3月現在の組織体制です
http://www.jama.or.jp/intro/organize/index.html
10年後のスーパーコンピュータ環境を想定したシミュレーション技術の可能性について研究・検証
CAEのクラウド利用に関する先行調査
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
2014年 調査フェーズ~CAEクラウド調査タスク体制
~ CAEクラウド調査タスク活動フェーズ ~
調査フェーズ
利用確認フェーズ
活用フェーズ
2014 2015 2016
CAEクラウドのビジネス活用に向けて取り組み開始!
Step1 調査: 現状分析・調査Step2 利用確認: 利用確認と課題の洗い出しStep3 活用: 理想のCAEクラウドを描く
3つのフェーズで 「CAEクラウドの良い活用」 を目指す
タスクリーダー
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
実験
• CAE(H/W)リソース制約からの開放→解析利用の変動に応じたリソース調達を実現したい!→研究開発の自由度を高めたい!
構想設計 基本設計・詳細設計 試作
1次元解析 構造・衝突・流体解析車両開発A
車両開発B
車両開発C
CAEリソース
リソース不足 リソース不足
CAEリソース上限
金型解析等・・・
一時的に大量リソースを必要とする場合は 「CAEクラウド」 を活用していく
2014年 調査フェーズ~本タスク発足の背景(1/2)
リソース不足をどう補おうか・・・
CAE計算ができないよ!
Cloud
CAE向けパブリッククラウドの進出
よしっ!クラウドを活用しよう
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
本タスク発足前(2014年度前)は上位WGである「次世代スパコン検証WG」の中でクラウド活用が検討されていた。 トライアルBMの結果では本CFD計算においては
Ethernetを用いたクラウド環境でも「2013年末時点のサービスレベル」が社内環境※とほぼ同等の計算速度に近づきつつあることが確認できた。
※社内環境・・・XeonE5-2670,InfiniBand QDR
2011年末時点のサービスレベル
2013年末時点のサービスレベル社内環境
time
CFD解析計算時間
実用レベルまで向上
CAE用途で用いることができるクラウドを共同で調査・検証し、自動車向けCAEクラウドサービスの底上げと調査の効率化を図ることを目的として昨年度(2014年度)発足・活動がスタートした。
社内環境との性能差はなくなってきたけど、「セキュリティは?」 「コストは?」 大丈夫?
2014年 調査フェーズ~本タスク発足の背景(2/2)
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
なぜCAE領域ではクラウドの利用が進んでいないのか?ビジネス系でのクラウド利用との大きな違いは?
自工会各社がCAEクラウドを利用できるような仕組みにしていくだけでなく、技術的な観点にも注目し、サービス提供各社様とディスカッションをしながら
ユーザーとしてCAEクラウド利用のビジネスモデルをリードしていく。
高速のCPU(コア) ノード間高速通信(InfiniBand等)
大量の計算ノード
これらを満たす要件のクラウドサービスのコストは高い!サーバーリソースを常に100%使うCAE・・・。ビジネス系のリソースとは特性に違いがある
ソフトウェアベンダ様
S/W契約には利用制約・制限がありますよ!
ITサポートベンダ様
環境構築には専門スキルが必要ですよ!
大量・高速のメモリ
2014年 調査フェーズ~本タスク活動開始時の課題と狙い
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
• 目指したもの:“クラウドサービス”全般に対する理解を深め、みんなが狙いたいCAEクラウドサービスの理想像を描いたり、評価を行えるだけの材料を集める。
クラウドサービスプロバイダー様(CSP)ディスカッション実施。
各CSPのサービスを知る
クラウドを知る
クラウドサービス内容の調査項目を作成
クラウド全体像
クラウド調査項目
1年後・・・
2014年 調査フェーズ~活動内容振り返り(1/2)
• 結果:自工会各社がクラウドサービスに対して気になる点を洗い出し、共通した調査項目を策定
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
• 調査残項目
自工会 SWベンダ様
CAEクラウドを使ってみる(構造・流体・衝突解析)SWベンダ様への提言とご協力のお願い(S/Wもクラウド活用しやすくなる為に)
各CSP提供のクラウドサービス自社CAEテストデータ
オンプレと比較しよう!
S/Wもご検討ください
善処・改善致します
CSP性能評価 SWベンダ各社様とのディスカッション
2014年 調査フェーズ~活動内容振り返り(2/2)
• 活動した中で見えてきた課題最新情報のキャッチアップ
クラウドサービスは日進月歩!常に最新の情報をキャッチアップする必要がある!
最新情報をウォッチ!
セキュリティの確保(安全性・信頼性)
本タスクだけで評価基準作成や情報収集をするのではなく、JAMAとして横串での活動も必要。
安全性は大丈夫?
これらの項目を順次、2015年度以降の活動内で実施していくこととした。
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
2014年度から活動を開始し、2年目。
いすゞ様が加わり自工会11社、ベンダー様は12社にご協力をいただいて推進いたしました。
CSP+ITサポートベンダ SWベンダ
他CSP 3社
CSP様
2015年 利用確認フェーズ~CAEクラウド調査タスク体制
掲載位置は順不同です。
タスクリーダー
ITサポートベンダ様
SCSKCDH
ANSYS
CD-adapco
Dassault
JSOL
MSC Software
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
2015年度タスク活動スケジュール(実績)
Q1 Q2 Q3 Q4(2016年)
4 5 6 7 8 9 10 11 12 1 2 3
①CSP性能調査自工会内まとめ協力ベンダーへの
説明
まとめ
自工会内準備
(BMモデル等)
CSP様ベンチマーク環境準備・実施・報告
ディスカッション① ディスカッション② ディスカッション③
• 目標:残調査項目となっていたものの対応
① CSP性能調査(実データによるベンチマーク)
(実際に各社の環境でCAE計算を実行し、課題・問題点を探る)
② 主要SWベンダ各社様とのディスカッション
(要件整理と今後のクラウド対応の考え方についての意見交換会
タスク目標(課題)
②SWベンダ各社様とのディスカッション
2015年 利用確認フェーズ~目標・スケジュール
本日はAWSで実施したベンチマーク結果を共有します
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
自工会各社から構造・衝突・流体それぞれ以下のような計算モデルを提供し、協力会社の皆様から多大なご協力を頂きました。
BMTデータ 並列数 計算時間(目安) モデルサイズ 解析タイプ 備考
提出データ1 64~256 ~4.6h 2300万 空力定常解析 自工会メンバー自社データ
提出データ2 64~256 ~11h 440万 空力非定常解析 自工会メンバー自社データ
BMTデータ 並列数 計算時間 モデルサイズ 解析タイプ 備考提出データ1
(SOL111 AMLS)2~8 ~3.25h
480万自由度モーダル周波数応答解析
自工会メンバー自社データ
提出データ2(SOL111 ACMS)
- 3.4h
BMTデータ 並列数 計算時間(目安) モデルサイズ 解析タイプ 備考
提出データ1 32~256 ~ 450万要素 側突 自工会メンバー自社データ
提出データ2(3cars)
32~128 ~0.9h 82万要素 3cars汎用ベンチマークモデル
Star-CCM+BMTデータ 並列数 計算時間(目安) モデルサイズ 解析タイプ 備考
提出データ1 256 4.3h 6,800万要素 空力解析 自工会メンバー自社データ
提出データ2(アンダーフードモデル)
64,128,256100イタレーション
(スケーラビリティ確認のため)6,380万要素 熱流体解析 CD-Adapco様モデル
提出データ3(KCS船体モデル)
64,128,256100イタレーション
(スケーラビリティ確認のため)300万要素 混相流解析 CD-Adapco様モデル
提出データ4(ルマンモデル)
64,128,256100イタレーション
(スケーラビリティ確認のため)10,400万要素 空力解析 CD-Adapco様モデル
ISV主要4社からご協力頂きました
2015年 利用確認フェーズ~CSP性能調査 (ベンチマーク対象アプリとデータ仕様)
MSC Nastran
LS-DYNA
Star-CCM+
ANSYS Fluent
Copyright (C) Japan Automobile Manufacturers Association, Inc.201628
2015年 利用確認フェーズ~CSP性能調査:AWS(BM環境)
• 計算用ノード
– C4.8xlarge
– R3.8xlarge
• 管理系ノード
– NFS:C4.xlarge
+500GiB EBS
– License:t2.micro
• 可視化ノード
– G2.2xlarge
VPC Subnet VPC Subnet
172.31.16.0/20
東京リージョン
計算ノード
NFS
FileServer
LicenseNode1
LicenseNode2
計算ノード
Placement Group Placement Group
PowerOn
DemandCD-adapco管理のライセンスサーバ
インターネット経由
インターネット経由SSHデータ転送はSCP
SSH/SCP
PCoIP
インターネット経由PCoIP
可視化ノードG2.2xlarge
• OS
– RHEL6.6
(2.6.32-
504.3.3.el6.x86_64)
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
・全クラウドがデータ提出元オンプレ環境に対して計算時間が遅かった。(クロック速度の影響もあったと推測する)
NASTRAN特有(コア潰し・スクラッチ領域等)のチューニングは必要。(CPU世代選びよりもハードウェアチューニングの方が重要)
高速CPU チューニング大量・高速のメモリ
++
+ノード間低遅延インターコネクト大量・高速CPU
S/Wにあわせて特有の設定が必要だな
2015年 利用確認フェーズ~CSP性能調査 (全CSP BM結果考察まとめ 1/2)
・計算並列数を上げるとインターコネクト種類の違いによる性能差が顕著に表れるため、高並列計算を実行する場合は、CPU性能だけでなくノード間通信速度も考慮する必要がある。
MSC Nastran
LS-DYNA
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
・InfiniBand搭載しているCSPはEthernetより10%程度速い。また、コア飛ばしの効果は5%程度。
・仮想化による計算時間のゆらぎはほとんどない。クラウドでの実行はオンプレミスの環境と遜色ない。ハードウェア仕様によっては早くなる。
大量・高速CPU 大量・高速のメモリ
+
ノード間高速インターコネクト(Infiniband)
大量・高速のメモリ
++
必ずしもInfinibandが早いとは限らないね
2015年 利用確認フェーズ~CSP性能調査 (全CSP BM結果考察まとめ 2/2)
・InfiniBand搭載のサービスでもEthernet搭載のものより計算が遅くなる場合が見られた。計算の種類およびサービス種類(CPU/仮想・物理)の組合せによってはEthernetでも十分な性能がでることがある。・スケーラビリティは今回の最大並列実行数である256まで出ているところが多い。
大量・高速CPU
Star-CCM+
ANSYS Fluent
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
CAEクラウドを使いたい時は・・・
社内IT管理者 CAEエンジニア
総括: ・AWSをはじめ、各クラウドともに 概ね計算時間は許容範囲。
・計算サーバの仮想化に起因する「計算時間のゆらぎ」はほぼない。
・CSPによってサービス種類(CPU/インターコネクト/仮想・物理)やMPI、組み合わせ・費用が異なり、また、計算時間も計算内容・ソルバーにも依存
するため、”一律でこのCSPがベスト”という結論は出せない。
2015年 利用確認フェーズ~CSP性能調査 (総括)
「CAEクラウドサービス利用」は「従来のリソース確保=H/Wリソースを購入する」感覚とはまったく別物
ITサポートベンダ様
SWベンダ様
構築のアドバイスします
SWのアドバイスします
MSC Nastran LS-DYNA STAR-CCM+ ANSYS Fluent
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
Internet
重要データをクラウドへ保管したい…
DataCenter
CSPの皆様にご協力いただき、「クラウドセキュリティ他業界調査」を実施。
不正侵入・データ流出に対する防御手段として、スタンダードな方法を把握したい。
データセキュリティに対し厳しい業界の「基準」を知りたい
クラウド(DataCenter)は安全なのか・・・・?
2015年 利用確認フェーズ~セキュリティ(1/4)
重要データの持ち出しや紛失
スキミング 成りすまし
DCへの不当進入
リスクがありそうで重要データを
クラウドに出すのは不安・・・
個人情報やユーザディレクトリの機密
漏えい
ウィルス汚染(クラッキング)
自然災害
契約終了時のデータ消去
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
基準に厳しい3業界のセキュリティの考え方の調査を実施。⇒業界や用途によっても基準や対策レベルは異なることがわかった。⇒「自社のポリシーと利用用途にマッチした具体的な対策」を検討する必要がある
AWS様もホワイトペーパー等でセキュリティに関する情報を出しているので参考にしよう!
2015年 利用確認フェーズ~セキュリティ(2/4)
http://aws.amazon.com/jp/compliance/https://aws.amazon.com/jp/whitepapers/
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
2015年 利用確認フェーズ~セキュリティ(3/4)
InternetDataCenter
重要データの持ち出しや紛失
スキミング 成りすまし
DCへの不当進入
個人情報やユーザディレクトリの機密漏えい
ウィルス汚染(クラッキング)
自然災害
契約終了時のデータ消去
リスクがありそうで重要データを
クラウドに出すのは不安・・・
さらに、ここで改めて不安に感じているリスクをみてみると、、、、これらのリスクは「クラウド」だから起こるリスクなのでしょうか?
天災・人災…オンプレもクラウドも、どんな環境でも「100%安全」はありえません。どんなリスクがあるのかを理解し、事が起きた時にどう対応するのかを考えておくことが大事です。
つまり、「自社のセキュリティポリシーを参考に実際の利用用途に応じてしっかりとリスク評価をし、具体的な対策を考え、実施する」ことが重要となる!
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
2015年 利用確認フェーズ~セキュリティ(4/4)
では、クラウド利用をする上ではどうやってリスクを把握していく必要があるのでしょうか?
AWSホワイトペーパー「Introduction to AWS Security July 2015」より抜粋https://d0.awsstatic.com/whitepapers/Security/Intro_to_AWS_Security.pdf
利用者自身でクラウドセキュリティのコントロールを実施する範囲
AWSがクラウドのセキュリティを担当する範囲
クラウドにおけるセキュリティは利用者がコントロール
AWSはクラウドのセキュリティを管理
クラウドサービスを利用する上で重要な考え方:責任共有モデル
特にクラウドサービスにおいては、利用者が責任を持つ範囲と、クラウドサービスプロバイダ(CSP)が責任を持つ範囲を明確に区分し、それぞれが責任を果たすために必要な対策を実施することでサービス全体のセキュリティを保つという考えが大事です。
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
CSP性能評価について
• 今回調査した各CSP様の各サービスを含むCAEクラウド環境は「使えるレベル」まで向上。
• SWの計算特性に合わせたサービス種類(Infini・Ethernet/CPU/仮想・物理)の組み合わせが大事。事前にSWベンダ様・ITサポートベンダ様へ相談が必要です。
セキュリティについて
• CSPが保有するセキュリティの第三者認証の銘柄を信頼するだけではなく、「CSP/自社の責任範囲を明確にし、自社にマッチした具体的なセキュリティ対策」を検討する事が大事。
• デジタルエンジニアリング特有のセキュリティの考え方は大きな課題。
2014年は「調査」、2015年は「利用(確認)」とステップを進めてきました。2016年は「活用」に向けた仕上げの活動を実施します。
「活用(ビジネス)」に向けて引き続き皆様のご協力をお願い致します。
まとめ ~2016年の活動に向けて
Cloud Service
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
最後に・・・AWS様へのお願い
大量のノードを利用する計算時は低遅延ネットワークが重要。CAEクラウドサービスの充実性を図るため、ご検討をお願い致します。
2.低遅延インターコネクト(Infiniband等の設置)
BMテストをするだけでも契約(主にNDA)にかなり時間を要した。法務部門間の条項調整に時間がかかる場合があるので契約書のサンプルが事前に入手できるようにしてほしい。
1.契約締結までのリードタイム短縮対策
即時利用を目指すにはCAEサービス全体のコーディネートが重要になってくる。SaaS形体で提供されるようなサービス拡充が進むことを期待している。(関係各社一体となり、CAEクラウドサービス向上にむけての協力をお願い致します。)
3.CAEクラウドサービスの全体最適化に向けた取組みCSP様
ISV様
ITサポートべンダ様
ネットワークベンダ様
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
ご参考
• JAMA電子情報委員会およびデジタルエンジニアリング部会では年に1回(2~3月頃)に各活動の成果報告会を実施しています。案内告知などはJAMAサイトに掲載されますので、ご興味のある方は定期的にチェックされることをお勧めします。
• 2015年度のフォーラムの開催報告(発表資料)は以下に掲載してありますので、ご覧ください。
• その他、デジタルエンジニアリングに関する活動成果物の一部は以下に掲載してありますので、合わせてご覧ください。
http://www.jama.or.jp/it/event/jdf2016/report/index.html
http://www.jama.or.jp/it/dg_egr/index.html
Copyright (C) Japan Automobile Manufacturers Association, Inc.2016
引き続きJAMA活動へのご理解とご協力を
宜しくお願い致します。
一般社団法人日本自動車工業会電子情報員会デジタルエンジニアリング部会
次世代スパコン検証WG CAEクラウド調査タスク本田技研工業株式会社
IT本部システム基盤部インフラ推進ブロックチーフ多田歩美様
アジェンダ
• HPC on AWSが求められる背景
• 自工会様による評価結果のご紹介
• HPC on AWSの最新事例と技術詳細
Who am I
名前:小川貴士 (おがわたかし)
所属:アマゾンウェブサービスジャパン
ソリューションアーキテクト
CAEを中心としたHPCのお客様を担当
経歴: SIerでインフラエンジニア
長年に渡りCAE/HPCインフラの
設計構築・運用サポート・プリセールスを担当
←AWSオンラインセミナーの企画運営もやってます!AWSテクノロジのキャッチアップに是非ご活用下さい。
HPC on AWS事例
多様な分野で使われるHPC on AWS
先端研究
設計・開発
ライフサイエンス
エネルギー
Walt Disney Animation Studiosオンプレミスの拡張リソースでAWSを利用最大40000coreのリソースをコアあたり$0.02/hで利用
クラウドHPCで起こされるイノベーション
HGSTピーク時85000コアを同時利用し従来1か月掛かる計算を数時間で完了
NOVARTISピーク時90000コアを同時利用し38年分の計算処理を9時間で完了
HEP (High Energy Physics) Cloud project
最先端の研究基盤として
https://aws.amazon.com/jp/blogs/news/
experiment-that-discovered-the-higgs-boson-uses-aws-to-probe-nature/
フェルミ研究所のオンプレミス環境に58000コアを伸縮自在に追加する環境を構築。
290万ジョブを処理し、従来6週間かかるシミュレーションを10日間で完了
Fermilab HEP Cloud稼働中の様子
如何にして使うのかHow to use HPC for AWS ?
自社オフィス環境
社内サーバルーム orデータセンター環境
sshアクセス
ログインノード
計算ノード
ライセンスサーバ
マスターサーバNFSサーバ
Internet VPNor
専用線
従来のHPC環境
AWSクラウド環境
ログインノード
計算ノード
ライセンスサーバ
マスターサーバNFSサーバ
自社オフィス環境
sshアクセス
Internet VPNor
専用線
AWSでも基本的なシステム構成は同じ
Corporate
Data Center
Elastic Data
Center
M
従来のクラスタ構成は固定
ジョブが無ければ無駄発生
ジョブが無い時は最小限のノード
違いは必要な時に必要なだけ利用すること
Corporate
Data Center
Elastic Data
Center
M
必要に応じて必要な台数でクラスタを構成
従来のクラスタ構成は固定
ジョブが無ければ無駄発生
違いは必要な時に必要なだけ利用すること
Corporate
Data Center
Elastic Data
Center
M
従来のクラスタ構成は固定
ジョブが無ければ無駄発生
処理が終了するとインスタンスを終了
課金停止
違いは必要な時に必要なだけ利用すること
aws ec2 run-instances \
--image-id ami-f8832490 \
--key-name id_rsa \
--security-group-ids sg-6128f804 \
--instance-type c4.8xlarge \
--subnet-id subnet-52484126 \
--count 3 \
--region us-east-1
CLIやAPIで
https://aws.amazon.com/jp/blogs/news/amazon-web-services-to-acquire-nice/
+
2016年2月 NICE社がAWSにJoin
Remote rendering delivers 3D graphics performance and large memory,
providing a high-end workstation experience in the cloud.
• Rendering on Linux g2.2xlarge
• r3 application server running Windows, up to 244 GB of RAM
可視化もクラウドで
どうやって始めるのかHow to start AWS for HPC ?
https://aws.amazon.com/jp/hpc/
AWS HPCポータルサイト
https://d0.awsstatic.com/International/ja_JP/Whitepapers/Intro_to_HPC_on_AWS.pdf
AWS上で最適なHPC環境を構築・運用する為のベストプラクティスが記載された1冊。
基礎概念からシステム構成例をはじめセキュリティ、ISVの扱いについても触れています。
HPCホワイトペーパー
http://jawsug-hpc.connpass.com/
<JAWS-UG HPC専門支部>
HPCユーザーコミュニティ
昨年8月発足し、過去5回開催!
次回は来週6/10(金)開催予定!!
CfnCluster
ジョブ本数を監視して計算ノードを自動でスケールさせるクラスターを簡単に構成
マスター&計算ノードのOS:
-CentOS
-Ubuntu
-Amazon Linux
ジョブスケジューラ:
-Torque
-SGE
-OpenLava
-SLURM
https://aws.amazon.com/hpc/cfncluster/
ツールを活用する
構築運用を頼むシステムインテグレーター
アプリケーションを使うSaaS環境提供ベンダー
HPC on AWS パートナーを活用する
ISID PLEXUS CAE
HPC SaaS on AWS事例
https://portal.plexusplm.com/plexus-cae
キャパシティセキュリティ性能
実績エコシステム
まとめクラウドHPCを阻む不安材料
キャパシティセキュリティ性能
実績エコシステム
まとめ
アマゾン ウェブ サービス ジャパン株式会社
ソリューションアーキテクト 松尾康博ソリューションアーキテクト 小川貴士