Upload
takahisa-shiratori
View
39
Download
2
Embed Size (px)
Citation preview
re:Invent 2017
HPCとDeep Learning関連アップデート
2017年12月7日 re:CAP -サーバーワークス re:Invent 2017 視察報告会-
白鳥 貴久博士(工学)
サーバーワークス営業部 ビジネスデベロップメント担当
略歴2015年3月 流体力学分野の研究により博士(工学)を取得2015年4月 サーバーワークスに入社2016年3月 技術課に配属 顧客向けの環境構築を担当2017年9月 営業部に配属 主にHPC分野のビジネスデベロップメントを担当
@takashiratori
AWSに対してよくある意見(イメージです)
• 流体シミュレーションにクラウド利用を検討中• MPIを使用するため、InfiniBandが使えるMicrosoft Azureが第一候補• AWSではインスタンス間の通信帯域の細さがシミュレーションのボト
ルネックになることを懸念
• Big Data分析や深層学習用途でクラウドを利用中• Jupyterに慣れているので、GCPのCloud Datalabを使っている
• 基幹システムでは圧倒的存在感のAWSだが、科学技術計算や深層学習の分野では他の IaaS が好まれるケースも多かった
• re:Invent 2017では、それらに対するAWSの「答え」が示された印象
AWSに対してよくある意見(イメージです)
• 流体シミュレーションにクラウド利用を検討中• MPIを使用するため、InfiniBandが使えるMicrosoft Azureが第一候補• AWSではインスタンス間の通信帯域の細さがシミュレーションのボト
ルネックになることを懸念
Cluster HPC と Grid HPC
re:Invent 2017 CMP207 など
• Cluster HPC• 特徴
• 頻繁にインスタンス間の通信が発生する• 使用すべきAWSの機能
• Placement Group
• Enhanced Networking
• Elastic Network Adapter (ENA)• 25 Gbps を実現可能
• Grid HPC• 特徴
• インスタンス間の通信が少ない• 使用すべきAWSの機能
• Spot Instance
• Auto Scaling
• Amazon SQSAWS Batch
HPC環境で使える3つのアップデート
Spread Placement Group
AZ間にまたがることができるPlacement Group
ハードウェア障害時に、インスタンスが全滅する可能性を低くできる
これでPlacement Groupは「Cluster(従来のもの)」と「Spread」の2種となった
Spot Instance Hibernation
Spotインスタンスが強制削除となった際、メモリ内の情報をEBSに出力する
これまで強制削除時は計算データが消失していたが、これが救出可能になった
AWS Batch Array Job
複数のジョブをまとめるArrayという管理単位ができた
Array内のジョブを1つずつ順次実行したり、複数Array内のジョブ間に依存関係を持たせることが可能
AWSに対してよくある意見(イメージです)
• Big Data分析や深層学習用途でクラウドを利用中• Jupyterに慣れているので、GCPのCloud Datalabを使っている
Amazon SageMaker
深層学習の大まかな流れ
ニューラルネットワークをコーディングする
いぬ ねこ
学習させる 予測させる
いぬ
Amazon SageMaker
深層学習の大まかな流れ
ニューラルネットワークをコーディングする
いぬ ねこ
学習させる 予測させる
いぬ
AWSマネージドのJupyter Notebook環境
高レベルAPI
予測エンドポイントAmazon SageMaker
AWS DeepLens
いぬ
AWS DeepLens
いぬ
いぬ ねこ
Amazon SageMaker
AWS DeepLens
いぬ
いぬ ねこ
AWS
Greengrass
Amazon SageMaker
AWS DeepLens
いぬ
いぬ ねこ
AWS
Greengrass
AWS IoT
Amazon SageMaker