Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
© 2018 IBM Corporation
IBM Spectrum LSF分散コンピューティング環境における厳しい要求に対応する
ワークロード・マネージャー
実用アプリケーション・シンポジウム
2018年9月18日日本アイ・ビー・エム株式会社IBMシステムズ・ハードウェア事業本部大澤 暁 [email protected]
© 2018 IBM Corporation
本日の内容
▪ Spectrum Computing
▪ Spectrum LSF ファミリー
▪ Cloud Bursting
▪ コンテナー・サポート
▪ Application Center & Process Manager
▪ Precise Scheduling
2
© 2018 IBM Corporation
Spectrum Computing
© 2018 IBM Corporation
IBM Spectrum Computing ポートフォリオ
4
Enterprise Grid Orchestrator
Cognitive andDeep Learning
High PerformanceComputing
LifeSciences
MaterialScience
CAEOil & Gas
High PerformanceAnalysis
FinancialAnalytics
SocialAnalytics
Big DataBusiness
Intelligence
Servers & Storage
© 2018 IBM Corporation
IBM Spectrum Computing
5
クラスター仮想化ソフトウェア▪ 複数ユーザー、複数アプリケーションによる計算リソースの共有
▪ 性能及びコストの最適化と、管理の簡単化を実現
▪ 25年にわたるleadingソフトウェア
▪ 高いscalabilityと高信頼性を確保
複数のアーキテクチャ、フレームワークのユニファイド管理を実現
• OpenPOWER• x86• LinuxOne• ARM• GPU
• Docker• VMs• Hadoop• Spark• TensorFlow
▪ コグニティブ・リソース、アプリケーションを容易に管理
▪ 研究、デザイン、シミュレーションのTAT短縮
▪ Red Bull Racingでは、30%高速化
IBMSpectrumLSF
▪ 究極の低レイテンシー、高スループット環境
▪ 分析アプリケーションのTAT短縮
▪ CME Groupでは、700倍のスケーラビリティと、100倍の高速化
IBMSpectrumSymphony
▪ Spark アナリティクス、AI フレームワークに対応
▪ クラスターの共有
▪ 最大58%高速化
IBMSpectrumConductor
従来
非効率な実行
より短いTATより少ないリソース
最適化された実行
© 2018 IBM Corporation 6
© 2018 IBM Corporation
Power Accelerated Computing Platform
7
オープン・サイエンスを推進する新しい計算環境
✓ CORAL compute構成をベース
✓ Power9、GPGPU、Storage、ソフトウェアがall in one
想定アプリケーション
✓ High Performance Computing
✓ Artificial Intelligence
✓ Quantum Computing Simulator
© 2018 IBM Corporation
Spectrum LSF ファミリー
© 2018 IBM Corporation
IBM Spectrum LSF ファミリー
9
High Performance Workload Scheduling
Power x86 aarch64
HPC環境がどのように使用されているかの洞察による
運用効率化
使いやすさ、アクセスしやすさおよびシンプル性の追求による
ユーザーの生産性向上
効果的なスケジューリングと資産の効率的共有による使用率向上
コスト削減 生産性向上
Analytics
ExplorerProcess Manager
Application Center
MPIData
Manager
License Scheduler
Report, Track, Monitor
IBM Spectrum MPI
© 2018 IBM Corporation
IBM Spectrum LSF Suites 10.2
10
Suite for Enterprise
Suite for HPC
Suite for Workgroups
Cluster Deployment
and Monitoring
ApplicationCentric User
Portal
Lightweight Reporting & Dashboards
Workflow Automation
Intelligent Data Staging
Software License
Optimization
Enterprise Scalability
Hybrid Cloud Auto-scaling
High Performance Workload Scheduling
Power x86 aarch64
IBM Spectrum MPI
© 2018 IBM Corporation
フォーカス・エリア
11
コア・スケジューリング
✓ パフォーマンス、拡張性
✓ GPU、コンテナー
✓ コグニティブ・スケジューリング
マルチ・クラウドへの対応
✓ ワーク連携: MultiCluster
✓ Autoscaling: Resource Connector
✓ データ連携: Data Manager
使用操作性の追求
✓ Portals: Application Center
✓ Workflows: Process Manager
✓ Reporting: Explorer
✓ Management: RTM (Report, Track, Monitor)
© 2018 IBM Corporation
Cloud BurstingAny Compute Anywhere
© 2018 IBM Corporation
Cloud Bursting
13
On Premise On Cloudジョブ投入
LSFスケジューラ
LSFスケジューラ
計算ノード
LSF MultiCluster は事前定義されたポリシーに基づき、ジョ
ブをクラウド側に転送
© 2018 IBM Corporation
Cloud Bursting
14
On Premise On Cloudジョブ投入
LSFスケジューラ
LSFスケジューラ
計算ノード
LSF MultiClusterは事前定義されたポリシーに基づき、ジョ
ブをクラウド側に転送
LSF Resource Connectorは、ジョブ・ワークロードに必要なリソースとクラウド上のポリシーに基づき、リソース量を動的に調整
© 2018 IBM Corporation
Cloud Bursting
15
On Premise On Cloudジョブ投入
LSFスケジューラ
LSFスケジューラ
クラウド上にデータがない場合コピーが必要!!計算ノード
© 2018 IBM Corporation
データのPre-stagingとPost-staging
16
On Premise On Cloudジョブ投入
LSFスケジューラ
LSFスケジューラ
計算ノード
LSF Data Managerは、クラウド側でホストがprovisionされる前に
必要なデータをpre-staging
Data Managerは、同一ファイルの重複転送を防止するために
クラウド側でcaching
実行終了後は、post-staging
© 2018 IBM Corporation
データのPre-stagingとPost-staging
17
On Premise On Cloudジョブ投入
LSFスケジューラ
LSFスケジューラ
計算ノード
LSF Data Managerは、データ移動のWhatとWhenを制御
Howは複数構成可能
IBM Asperaによる高速転送も可能
© 2018 IBM Corporation
データのPre-stagingとPost-staging
18
On Premise On Cloudジョブ投入
LSFスケジューラ
LSFスケジューラ
計算ノード
Spectrum Scaleとの連携も可能
© 2018 IBM Corporation
コンテナー・サポート
© 2018 IBM Corporation
LSF & Kubernetes
HPCワークロード、Kubernetesワークロードの両方を同時に対応
• シングル・インタフェース
• 同一ポリシー
• 統一的で容易な管理
20
管理者
Charts
Defines Application (Chart)
scheduler: lsfresources:
mem: 256Mcpu: 100m
Deploys Application
LSF – K8s Scheduler
IBM Cloud Private,RedHat OpenShift
Pending Deployed
LSF
Reservation Job (bsub)
Job Host Allocated
Query Pending Update host
© 2018 IBM Corporation
コンテナー・サポートの特徴
LSFクラスタで、Dockerジョブの実行が可能
Docker対応の構築および管理が容易
従来のHPCユーザが、Dockerジョブと非Dockerジョブを同一インタフェースで実行可能
LSFの従来の機能が、Dockerジョブで使用可能
Dockerセキュリティにも対応
ユーザから、管理者 (root)権限を分離
セキュリティに強いアーキテクチャ
Dockerユーザ・グループにユーザ登録せずにコンテナー・ジョブの実行が可能
‐ 計算ノード・クラスターでは、管理者権限を留保
‐ 開発ノード・クラスターでは、Dockerユーザ・グループを使用
LSFファミリー製品との融合も実現
21
© 2018 IBM Corporation
Application Center &Process Manager
© 2018 IBM Corporation
Application Centerの特徴
よく使用するアプリケーションをカタログ化
‐ GUI画面で簡単実行
‐ 容易なインタフェース・ビルダー
Webブラウザーからジョブの実行、変更、管理
‐ 今後増加するmobilityに配慮し、RESTful標準プロトコルを使用
‐ Desktop GUIとも連携
モバイル端末から、ジョブ状況の確認や通知が可能
23
いつでも、どこでも、簡単にHPDAワークロードにアクセス
© 2018 IBM Corporation
Process Managerの特徴
複雑なフローをブラウザ上で作成
‐ フローの分岐、サブ・フロー
‐ XML形式で保存
様々な実行トリガー
‐ ブラウザWeb画面
‐ コマンド・ライン
‐ カレンダー・イベント
Application Centerと高度に連携
24
複雑なワークフローも簡単に制御
© 2018 IBM Corporation
Precise Scheduling
© 2018 IBM Corporation
GPUジョブの制御
26
NUMA1
ME
MO
RY
2
GPU3 GPU4
bsub -n 10 ¥
-R “affinity[core(same=numa): ¥
distribute=pack]” ¥
-gpu “num=1:mode=exclusive” ¥
./train.py
bsub -n 10 ¥
-R “affinity[core(same=numa): ¥
distribute=pack]” ¥
-gpu “num=1:mode=exclusive” ¥
./train.py
ユーザ B
ユーザー A
NUMA0
ME
MO
RY
1
GPU1 GPU2
© 2018 IBM Corporation
計算クラスター
free core occupied core
host1 host2 host3 host4
N0 N0 N0 N0 N1N1N1N1
32 Core Job
repeat 8 bsub –n 1 ./a.outrepeat 8 bsub –n 1 –R “order[-slots] affinity[core(1):distribute=balance]” ./a.out
27
ジョブのPacking制御
© 2018 IBM Corporation
IBM Spectrum LSF
© 2018 IBM Corporation
継続的な性能向上
• 時間あたりのスケジューリング性能
Plan Based Reservations
Burst Buffer連携
LSF Simulator
……
Faster Time to Results
29
LSF 9.1.2 LSF 10.1 ~9 million jobs/hr
5倍 高速化
http://www.theedison.com/pdf/2014_IBM_Platform_LSF_WP.pdf
© 2018 IBM Corporation
ご静聴ありがとうございました
30
© 2018 IBM Corporation
ワークショップ、セッション、および資料は、 またはセッション発表者によって準備され、それぞれ独自の見解を反映したものです。それらは情報提供の目的のみで提供されており、いかなる参加者に対しても法律的またはその他の指導や助言を意図したものではなく、またそのような結果を生むものでもありません。本講演資料に含まれている情報については、完全性と正確性を期するよう努力しましたが、「現状のまま」提供され、明示または暗示にかかわらずいかなる保証も伴わないものとします。本講演資料またはその他の資料の使用によって、あるいはその他の関連によって、いかなる損害が生じた場合も、 は責任を負わないものとします。 本講演資料に含まれている内容は、 またはそのサプライヤーやライセンス交付者からいかなる保証または表明を引きだすことを意図したものでも、 ソフトウェアの使用を規定する適用ライセンス契約の条項を変更することを意図したものでもなく、またそのような結果を生むものでもありません。
本講演資料で 製品、プログラム、またはサービスに言及していても、 が営業活動を行っているすべての国でそれらが使用可能であることを暗示するものではありません。本講演資料で言及している製品リリース日付や製品機能は、市場機会またはその他の要因に基づいて 独自の決定権をもっていつでも変更できるものとし、いかなる方法においても将来の製品または機能が使用可能になると確約することを意図したものではありません。本講演資料に含まれている内容は、参加者が開始する活動によって特定の販売、売上高の向上、またはその他の結果が生じると述べる、または暗示することを意図したものでも、またそのような結果を生むものでもありません。 パフォーマンスは、管理された環境において標準的な ベンチマークを使用した測定と予測に基づいています。ユーザーが経験する実際のスループットやパフォーマンスは、ユーザーのジョブ・ストリームにおけるマルチプログラミングの量、入出力構成、ストレージ構成、および処理されるワークロードなどの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと同様の結果を得られると確約するものではありません。
記述されているすべてのお客様事例は、それらのお客様がどのように 製品を使用したか、またそれらのお客様が達成した結果の実例として示されたものです。実際の環境コストおよびパフォーマンス特性は、お客様ごとに異なる場合があります。
、 ロゴ、 、 以下当該情報に関連し商標リスト中に掲載されたIBMブランドやIBMの製品名称があれば追加する は、世界の多くの国で登録された の商標です。他の製品名およびサービス名等は、それぞれ または各社の商標である場合があります。現時点での の商標リストについては、 をご覧ください。
ロゴ ロゴは、 の米国およびその他の国における登録商標または商標です。
は の登録商標です。
インテル ロゴ ロゴ ロゴ および は または子会社の米国およびその他の国における商標または登録商標です。
は、 の米国およびその他の国における登録商標です。
および ロゴは の米国およびその他の国における商標です。
は の登録商標です。
は の米国およびその他の国における登録商標です。
は、 の米国およびその他の国における商標であり、同社の許諾を受けて使用しています。
およびすべての 関連の商標およびロゴは やその関連会社の米国およびその他の国における商標または登録商標です。
ロゴ および ロゴは、 および の米国およびその他の国における商標です。
および は、 またはその子会社の米国およびその他の地域における登録商標または商標です。
31