Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Intel® Core™ i7 プロセッサ 920
Preliminary Performance Report
スケーラブルシステムズ株式会社
ノード性能評価
• ノード性能の評価– NAS Parallel Benchmark Class B
– OpenMP版での性能評価
– 実行スレッド数を4で固定(デュアルソケットでは各プロセッサに2スレッド)
– 全て、2.66GHzのコアとなるため、コアあたりのピーク性能は同じ• 評価システム
– Intel® Core™ 2 Extreme QX6700 (シングルソケット)• 2.66GHz、1066MHz FSB、2x4MB L2キャッシュ
– Intel® Xeon 5150(デュアルソケット構成)• 2.66GHz、1333MHz FSB、4MB L2キャッシュ
– Intel® Xeon 5430(デュアルソケット構成)• 2.66GHz、1333MHz FSB、2x6MB L2キャッシュ
– Intel® Core™ i7 920 (シングルソケット)• 2.66GHz、8MB L3キャッシュ、3 チャネル DDR3 1066 MHz
スケーラブルシステムズ株式会社
評価システム構成
Core 0 Core 2
4MB shared L2
Cache
Bus I/F
MCH FSB
Core 0 Core 2
4MB shared L2
Cache
Bus I/F
MCH FSB
Core 0 Core 2
4MB shared
L2 Cache
Bus I/F
Core 0 Core 2
4MB shared
L2 Cache
Bus I/F
MCH FSB
Core 2 Extreme QX6700
Core 0 Core 2
4MB shared L2
Cache
Bus I/F
MCH FSB
Core 2 Duo
(シングルソケット)
Xeon 5150(デュアルソケット)
Core 0 Core 2
6MB shared
L2 Cache
Bus I/F
Core 0 Core 2
6MB shared
L2 Cache
Bus I/F
MCH FSB
Core 0 Core 2
6MB shared
L2 Cache
Bus I/F
Core 0 Core 2
6MB shared
L2 Cache
Bus I/F
MCH FSB
Xeon 5430(デュアルソケット)
スケーラブルシステムズ株式会社
Intel® Core™ i7 プロセッサ 920
(Nehalemプロセッサ)
スケーラブルシステムズ株式会社
Core Core Core Core
Memory Controler
L3 Cache
MIS
C IO
QP
I 1
MIS
C IO
QP
I 0
Queue
マルチスレッド向けシステム強化
• 完全にモジュール化されたシステム設計
• マイクロアーキテクチャ拡張
–マルチスレッドアプリケーションで重要となる同期プリミティブの高速化
• キャッシュ階層
– L1、L2、L3の3階層のキャッシュ構成
– 256KBの専用L2キャッシュ
– CPU中の全てのCPUコアで共有する大容量のL3
キャッシュ
• プロセッサ上のメモリコントローラスケーラブルシステムズ株式会社
性能評価について
スケーラブルシステムズ株式会社
このレポートでの性能評価は、以前に弊社で実行したベンチマークの結果とCore i7搭載システムの性能を
比較したものです。コンパイラは、そのテストを実施した時点での最新版を利用しているため、各システムの性能評価毎に違ったバージョンでの性能評価となっています。利用しているコンパイラオプションは、-O3 –openmp
だけを指定しています。
また、このベンチマークレポートは、マイクロプロセッサとチップセットの世代毎の違いの概要を評価するためだけに行っています。
性能評価結果(相対性能)2008.03 実施
スケーラブルシステムズ株式会社
0
1
2
3
4
5
6
7
BT CG EP FT IS LU MG SP
相対性能(C
ore
2 D
uoの性能
=1)
Core2Duo/2 Core2Quad/4 Xeon5150/4 Xeon5430/4 Xeon5430/8
65nm プロセッサ 45nm プロセッサ
性能評価結果(相対性能)
• Core 2 Duoなどの65nmプロセッサと比較しても、同一クロックでも性能向上が45nmプロセッサは示している。
– LUベンチマーク:2x6MB キャッシュでの性能向上
– EPベンチマーク:マイクロアーキテクチャ+コンパイラによる性能向上
• 全般的に、同一のFSB速度にも関わらず、高い性能向上を示している。
• Intel Xeon 5400番台プロセッサの高い潜在能力を示す。
スケーラブルシステムズ株式会社
性能評価結果(相対性能)2008.12 実施
スケーラブルシステムズ株式会社
0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
BT CG EP FT IS LU MG SP
相対性能(C
ore
2 E
xtr
em
e Q
X670
0 =
1)
NPB OpenMP – 4スレッドベンチマーク性能比較
Core 2 Extreme QX6700 Xeon 5150 DP Xeon 5430 DP Core i7
同じクァッドコアプロセッサに対して、同一クロックで2-3倍の性能
性能評価結果(相対性能)2008.12 実施
スケーラブルシステムズ株式会社
0
0.5
1
1.5
2
2.5
3
3.5
4
BT CG EP FT IS LU MG SP
相対性能(C
ore
2 E
xtr
em
e Q
X670
0 =
1)
NPB OpenMP – 2スレッドベンチマーク性能比較
Core 2 Extreme QX6700 Xeon 5150 DP Xeon 5430 Core i7
Intel® Core™ i7 プロセッサ 920
OpenMPスケーラビリティ
スケーラブルシステムズ株式会社
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
BT CG EP FT IS LU MG SP
スケーラビリティ(シングルスレッドに対する性能比
)
NPB OpenMP – スケーラビリティ評価
1 2 4
従来のプロセッサを大きく上回るマルチスレッドでのスケーラビリティ
Intel® Core™ i7 プロセッサ 920
OpenMPスケーラビリティ
スケーラブルシステムズ株式会社
0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
BT CG EP FT IS LU MG SP
スケーラビリティ(C
ore
2 E
xtr
em
e Q
X6
70
0 =
1)
NPB OpenMP – スケーラビリティ評価
QX6700/1 QX6700/2 QX6700/4 Core i7/1 Core i7/2 Core i7/4
シングルコアでの性能差 << マルチスレッドでの性能差
性能評価結果(相対性能)
• Core i7-920の圧倒的な性能
–従来のCore2プロセッサやXeonプロセッサと比較して、その高いメモリバンド幅による並列処理での高いスケーラビリティ
–シングルプロセッサ内の複数コアでのスレッド処理での高いスケーラビリティ
• 高いメモリバンド幅
• 新しいマイクロアーキテクチャの拡張
• キャッシュシステム
スケーラブルシステムズ株式会社
SMP LINPACKベンチマーク
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1000 2000 5000 10000 15000 18000
Efficiency(%
toPeak)
Matrix Size
SMP LINPACK Efficiency
1スレッド 4スレッド
スケーラブルシステムズ株式会社
高いメモリバンド幅と低いメモリレイテンシ
メモリ階層ベンチマーク
• メモリ階層の簡単なベンチマークツール
• Cachebench
– http://icl.cs.utk.edu/projects/llcbench/cachebench.h
tml
– Cachebenchは、現在は、LLCbench として公開されている
• LLCbench - Low Level Architectural
Characterization Benchmark Suite
• http://icl.cs.utk.edu/projects/llcbench/index.html
• Xeon 5160/Core2Quad/Opteronなどと比較
スケーラブルシステムズ株式会社
メモリ階層ベンチマーク
スケーラブルシステムズ株式会社
0
5000
10000
15000
20000
25000
30000
35000
40000
100 400 1600 6400 25600 102400 409600 1638400 6553600 26214400
MB
/sec
C Size (bytes)
double Read Cache Test
Opteron 2.8GHz
Xeon 5160 3.0GHz
Core2Quad 2.6GHz
Core i7 2.6GHz
メモリ階層ベンチマーク
スケーラブルシステムズ株式会社
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
50000
100 400 1600 6400 25600 102400 409600 1638400 6553600 26214400
MB
/sec
C Size (bytes)
double write Cache Test
Opteron 2.8GHz
Xeon 5160 3.0GHz
Core2Quad 2.6GHz
Core i7 2.6GHz
メモリ階層ベンチマーク
スケーラブルシステムズ株式会社
0
10000
20000
30000
40000
50000
60000
70000
100 400 1600 6400 25600 102400 409600 1638400 6553600 26214400
MB
/sec
C Size (bytes)
Double read/modify/write Cache Test
Opteron 2.8GHz
Xeon 5160 3.0GHz
Core2Quad 2.6GHz
Core i7 2.6GHz
Core i7 プロセッサ
• メモリ階層のベンチマーク結果は、Core i7 プロセッサの高い性能を裏付ける結果となっています。
• 非常に優れたキャッシュ性能と従来製品を大きく上回るメモリ性能は、HPC分野のアプリケーション性能を大きく向上させることが可能となります。
注)
このベンチマーク結果は、弊社が独自に行ったベンチマーク結果であり、その妥当性についての責任は弊社にあります。また、この結果は特定の製品の性能を保証するものではありません。
スケーラブルシステムズ株式会社
0
1000
2000
3000
4000
5000
6000
7000
14
8
MF
LO
PS値
スレッド数
AMD Opteronプロセッサ 2384(Shanghai, 2.7GHz)x 2P
AMD Opteronプロセッサ 2380(Shanghai, 2.5GHz)x 2P
Intel Core i7 プロセッサ 920(Nehalem, 2.66GHz)x 1P
Himeno Benchmark ***)
スケーラブルシステムズ株式会社
Opteron のデータは、これらのシステムを所有する販売会社が実施し、ホームページに公開されているデータを参照しました。***) Himeno Benchmark (http://w3cic.riken.go.jp/HPC/HimenoBMT/index.html)
メモリコントローラ内蔵では先行したAMD社のプロセッサと比較しても、Core i7プロセッサは、マイクロアー
キテクチャの優位性と今回のメモリバンド幅の大幅な向上によって、非常に大きな性能面での優位性を示すことになる。最新のOpteronプロセッサ2台よりも
シングルプロセッサで高い性能を示す。(Opteronの4スレッドは、2ソケットを利用した結果)
マルチスレッドアプリケーション
スケーラブルシステムズ株式会社
0:00:00
0:07:12
0:14:24
0:21:36
0:28:48
0:36:00
0:43:12
0:50:24
0:57:36
1:04:48
1
2
4
経過時間
スレッド数
VOXELCON/Voxel Analysis Solver**
Core2 Quad Q6700 Core i7
Intel® Core™ i7 920 (シングルソケット)2.66GHz、8MB L3キャッシュ、3 チャネルDDR3 1066 MHz
12GB メモリ構成Red Hat Enterprise Linux 4.7(for x64)
Intel® Core2 Quad Q6700 2.66GHz
2.66GHz、2x4MB L3キャッシュ1066 MHz FSB
8GB メモリ構成Red Hat Enterprise Linux 5(for x64)
**株式会社くいんとhttp://www.quint.co.jp
Technology Partners for HPC
スケーラブルシステムズ株式会社
スケーラブルなアプリケーション性能プロセッサの性能を最大限に引き出すことが可能高いIOとネットワーク性能
‘使い易さ’充実した運用管理機能
開発環境豊富なアプリケーションオープンなシステム環境
高い生産性(High Productivity)
高い性能(High Performance )