Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
スーパーコンピュータ SX-ACEと 今後のアプローチ
第134回 NEC C&CシステムSP研究会
2015年9月25日
NEC ITプラットフォーム事業部
高原 浩志、 百瀬 真太郎
2 © NEC Corporation 2015
NECの目指すHPCソリューション
初期のベクトル型スーパーコンピュータ以来、一貫したコンセプト アプリケーションを見据えた最適なシステムの提供
高い実効性能によるTime-to-Solutionの短縮
演算性能のみではなく、メモリ性能とのバランスを重視
使いやすい利用環境の提供
最先端技術
高い実効性能 容易な性能向上
長年にわたるハードウェア/ ソフトウェアの開発ノウハウ
ベクトル最適化技術
強力なハードウェア 洗練された基本ソフトウェア ~ OS、コンパイラ、
開発支援環境
カスタマ・リレーション お客様の課題に即した
ソリューション
ソフトウェアハウス、 コミュニティとの連携
最適なHPC
ソリューション
3 © NEC Corporation 2015
NECのHPC製品
アプリケーション特性に応じて、最適なプラットフォームを お客様にご提供
計算密度
メモリアクセス密度
多体問題、天体
化学系
物性、ナノ物理
気象・気候 流 体
アクセラレータ系が適している領域
粒子系
電磁場
HPCクラスタソリューション
ベクトルが 適している領域
ベクトル型スーパーコンピュータ
4 © NEC Corporation 2015
SXシリーズと技術の進化 Perf
orm
an
ce
1990 2000 2010
SX-1/2
SX-3
SX-4
SX-5
SX-6
製品発表
(2013年11月)
SX-8/8R
SX-9
バイポーラ 水冷
マルチノード CMOS 空冷
1チップ ベクトルプロセッサ
3Dノード モジュール
マルチコア All in One Chip ECOスパコン
SX-7 100GF
プロセッサ
ES
ES2
分散並列化 (MPI-SX)
100+ノード クラスタ対応
1000+ノード クラスタ対応
自動ベクトル化 コンパイラ
マルチレーン IXS対応MPI
自動共有並列化 SUPER-UX
NECは一貫して、ベクトルアーキテクチャに基づくスーパーコンピュータSXにより、高い実効性能をご提供しています
5 © NEC Corporation 2015
SXシリーズの納入実績
国内・海外を含め、SXシリーズ全体で、11,000ノード 以上の累積出荷を実現
Europe
Japan
North America
South America
Asia
Oceania
Africa
6 © NEC Corporation 2015
津波浸水被害予測の実証 (東北大学様との共同プロジェクト)
津波浸水被害のシミュレーション予測・配信を、迅速に行いたい
• 浸水域内人口 • 建物被害棟数
•津波到達時間 •浸水域 •浸水深分布
地方自治体
地震検知 地震規模・震源特定 シミュレーション 予測結果の配信
6時間以上
20分以内
利用者
20倍以上の時間短縮
スーパーコンピュータの活用によって、 地震検知~予測・配信までを、大幅短縮
*総務省 G空間シティ構築事業 ~リアルタイム津波浸水・被害予測・災害情報配信による自治体 の減災力強化の実証事業 (2014年9月~) / 代表機関 東北大学災害科学国際研究所
7 © NEC Corporation 2015
SX-ACEによるリアルタイム津波浸水予測
SX-ACEでは、10分以内でシミュレーション予測が可能
高知 静岡
宮城
津波浸水シミュレーションに要する時間(静岡エリア)
Intel Xeon
SX-ACE
153.4
82.1
47.5
36.4 45.6
24.6
14.0 9.1 6.8
0
20
40
60
80
100
120
140
160
32 64 128 256 512
実行時間(分)
並列プロセス数
LX 406Re-2
SX-9
SX-ACE
静岡エリア:6.8分 宮城エリア:6分以内(推定) 高知エリア:6分以内(推定) 今後対象地域を拡大予定
地震検知 地震規模・震源特定 シミュレーション 予測結果の配信
20分以内
10分以内 実証実験の
目標
8 © NEC Corporation 2015
0.01
0.1
1
10
100
1000
10000
2000 2004 2008 2012 2016 2020
Xeon GF/CPU
Xeon Byte/Flop
GPGPU GF/CPU
GPGPU Byte/Flop
Moore's law
汎用スカラ(x86)/GPGPUの性能諸元推移
Gap拡大
アプリ視点でのアーキテクチャ類型 ~ 多様性が存在 A: メモリバンド幅/容量重視型 B: 汎用型(ポスト京システムなど) C: 演算重視型(加速機構型) D: メモリ削減型
汎用CPUは、演算性能に対するデータ供給能力が低下傾向(Byte/Flop 0.2以下) よりメモリバンド幅の大きなアーキテクチャの開発が必要
※文部科学省・科学技術試験研究委託事業 「高メモリバンド幅 に適した将来のHPCIシステムのあり方の調査研究」 (2012~13年度)
汎用プロセッサのトレンド
ベクトルCPU向き
演算性能よりメモリ
帯域を要する領域
スカラCPU向き
演算重視。メモリ
帯域は要さない領域
スカラCPUのByte/Flop
9 © NEC Corporation 2015
将来スパコン技術のあり方研究(HPCI-FS)による知見
現状すでに、メモリ帯域が性能向上におけるボトルネックとなっているアプリケーションが多数存在。2020年頃にはこの傾向がより深刻に
~ 特に地球環境・防災、ものづくり、素材設計 など
アプリケーション高並列化のための書換えはユーザ負荷が甚大。回避への要望大 (研究コミュニティ、産業界双方の意見)
システム規模拡大に伴う消費電力増大は、将来スパコンの最大の課題
一方、アプリケーションの解法、適用対象によって、
リーディングマシンの所要性能特性(演算、メモリ、
通信等)は大きく相違
⇒ 複数タイプのリーディングマシンが必須
参考) 文部科学省 将来のHPCIシステムのあり方の調査研究 東北大チーム成果報告書(2013年度)
10 © NEC Corporation 2015
将来システムのアプリケーション領域
既存HPC領域
更なる高度化・高精度化 スパコン領域
気象予報
気候変動
航空機/自動車
新素材探索
画像解析
防災/減災
健康/医療
金融モデリング
エネルギー創生
新規応用 ビックデータ解析
防衛 暗号解析
社会科学
ライフサイエンス 創薬
機械/機構
地球科学
ビックデータの進展に伴い、ベクトル技術の適用範囲を拡大
大量データセットに対する同様な処理の繰り返し処理需要増加
データアクセス頻度増加に伴いメモリ性能の需要増加
11 © NEC Corporation 2015
NECのHPC方向性
科学的成果の創出と産業波及を先導する先進性の高いスーパーコンピュータを継続的に提供
高性能計算の活用、ビッグデータ連携を通じ、国家、地球規模で貢献
◆ 科学研究基盤の向上
◆ 科学的・社会的課題の解決
◆ 産業競争力の強化
◆ イノベーション創出による国際競争力向上
地球環境問題、エネルギー問題、防災・減災、安全保障などに関する解決策への貢献
NECは、30年にわたるベクトル技術の蓄積、高性能計算機の 研究・開発、国内・海外でのシステム導入・サポートの実績を通し、 これらの課題解決に継続的に貢献していきます。
SX-ACE
アーキテクチャと性能評価
13 © NEC Corporation 2015
開発コンセプト
ビッグコア
より少ないコア数で、より高い性能を実現する
世界トップクラスの単一コア性能: 64GF
世界一のメモリ帯域/コア: 64~256GB/s
低消費電力
メモリ帯域重視型アプリケーションで最良の電力効率を実現
ハイブリッド環境
ベクトル/スカラ連携により、あらゆるアプリケーション領域をカバー
3.0x GB/s / Watt
x86プロセッサとの比較
システムソフト群
メモリ帯域重視アプリケーションの加速
14 © NEC Corporation 2015
プロセッサ
core core core
RCU
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
memory crossbar
ADB (Assignable Data Buffer)
SPU VPU
256GB/s
256GB/s
256GB/s
256GB/s
8GB/s x2
8GB/s x2
Memory(DDR3)
Interconnect
Architecture Vector
CORE
Clock Frequency 1.0GHz
Performance 64GFlops
ADB size 1MB
ADB bandwidth 256GB/s
Memory bandwidth 64GB/s~
256GB/s
Memory Byte/Flop 1.0 ~ 4.0
CPU
Cores 4
Performance 256GFlops
Memory bandwidth 256GB/s
Byte/Flop 1.0
Memory capacity 64GB
Vector Processing Unit
Scalar Processing Unit
Remote access Control Unit
Memory controller
15 © NEC Corporation 2015
システム構成
Node Card
1CPU, 256GF, 256GB/s
2-Node Module
2 nodes = 2 CPUs
16-Node Cage
8 modules = 16 nodes =
16 CPUs
Rack
64 nodes = 16TF, 16TB/s
System
ラック諸元
16TF, 16TB/s, 64 CPUs 0.75m x 1.5m x 2.0m Power (LINPACK): 17KW
16-Node Cage x4
4 cages = 32 modules = 64 nodes =
64CPUs
16 © NEC Corporation 2015
STREAMベンチマーク
メモリ帯域評価ベンチマーク STREAM (TRIAD)
Mem
ory
bandw
idth
[G
B/s
]
Pow
er
effic
iency
ratio
実効性能/プロセッサ 電力効率 (SX-ACE=1)
# of cores used per processor
SX-ACE
6x 3~7x 26x 4x
1コアでプロセッサ最大メモリ帯域を利用可能 最大の電力効率を実現
17 © NEC Corporation 2015
姫野ベンチ
メモリ帯域+キャッシュ帯域の混合型ベンチマーク ヤコビ反復法によるポワッソン方程式の求解処理ベンチマーク ベンチマーク性能にキャッシュ、メモリへのアクセス性能が大きく影響
Susta
ined p
erf
orm
ance r
atio
Pow
er
effic
iency r
atio
25x 3~25x 3x 3~17x
メモリサブシステム強化により SX-9から3倍の性能改善
メモリサブシステム強化、及び分散並列アーキテクチャ化により、25倍の電力効率改善
実効性能/プロセッサ (SX-ACE=1) 電力効率 (SX-ACE=1)
Auroraプロジェクト
次世代ベクトルプロダクトの開発
19 © NEC Corporation 2015
Aurora
SX-2 SX-3
SX-4 SX-5
SX-6 SX-7
SX-8 SX-9
SX- ACE
2017年度発売を目指し 次期ベクトル製品開発のAuroraプロジェクトを推進中
Aurora
2017
*Aurora: project code for NEC’s next generation vector product
20 © NEC Corporation 2015
Aurora戦略
メモリアクセス密度
演算密度
LIN-
PACK
Quantum
Science
Nuclear
physics
国家PJ
官需
民需
世界最速 レベル
先端科学
民間利用
Me
teo
rolo
gy
Flu
id D
yn
am
ics
Seis
m
Ele
ctr
om
ag
neti
c
M
ate
rial scie
nc
e
Mole
cula
r desig
n
Dru
g d
evelo
pm
ent
Cra
sh
an
aly
sis
S
tru
ctu
ral a
na
lys
is
Ima
ge
an
aly
sis
Fin
an
ce
Ge
ne
an
aly
sis
Elementary
particle
Space
New Target
High
Low High
21 © NEC Corporation 2015
ターゲット領域例
HPC分野 気候・気象、防災・減災分野
設計分野 セキュリティ分野
医療分野 様々な社会基盤
Aurora data analysis
Aurora data analysis Aurora data analysis
Aurora Aurora
Aurora
supercomputer
22 © NEC Corporation 2015
新アーキテクチャ
SX-6 SX-7
SX-8 SX-9
SX- ACE
SX-3 SX-4
SX-5
NEXT
高実効性能 標準環境・柔軟性
標準のLINUX環境で、SXの超高性能を実現する
23 © NEC Corporation 2015
価格・電力あたり最大のメモリ帯域 従来SXから、大幅な低コスト化・低電力化
使いやすく、高性能 Linux標準環境 + ベクトルプロセッサ + ベクトルソフトウェア
高実効性能 最大の単一コア演算性能・メモリ帯域
Auroraで実現する価値
24 © NEC Corporation 2015
システムコンセプト
PCクラスタ SXシリーズ
Linux OS
専用 OS
標準 ツール
専用 ツール
専用 I/O
専用 NW
専用 コンパイラ
標準 コンパイラ
標準 I/O
標準 NW
標準環境 高実効性能
Aurora 標準環境 + 高実効性能
Linux OS
標準 ツール
標準 I/O
標準 NW
専用 ツール
専用 コンパイラ
vector CPU
vector CPU
25 © NEC Corporation 2015
プロセッサ設計思想
コモディティプロセッサの課題
世界一のコア性能 世界一のコアメモリ帯域
価格・電力あたり メモリ帯域最大
SXアーキテクチャの 継承・強化
超並列 メモリウォール SIMD
メモリ帯域重視アプリケーションを加速させる設計 ① ビッグコア戦略継承 ② メモリ帯域重視設計継承 ③ ベクトルアーキテクチャのさらなる磨き込み
26 © NEC Corporation 2015
Auroraで拡がる利用形態
Auroraの柔軟構成により、小規模~大規模までの利用ニーズをカバー ~中規模システム: コード開発・デバッグ・最適化・実行 大規模システム: 大規模実行、超高速実行
大規模システム 計算機センター、データセンター
小型Aurora
研究所・研究室
コード開発 デバッグ、最適化
小型Aurora
企業
小規模 シミュレーション
大規模実行 大規模実行
Aurora
Aurora Aurora