43
スーパーコンピュータにおける 電⼒性能最適化フレームワークの評価 井上 弘⼠ 九州⼤学

スーパーコンピュータにおける 電⼒性能最適化フレームワー …...九州 学UIプロジェクトKyudai Taro,2007 ばらつきを考慮して全モジュールの電

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • スーパーコンピュータにおける電⼒性能最適化フレームワークの評価

    井上 弘⼠九州⼤学

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    発表⼿順

    • 電⼒制約型スーパーコンピュータ• 評価環境• 電⼒制約を考慮した性能モデリング

    – 解決すべき課題– 性能モデリング⼿法

    • 定量的評価• まとめと今後の課題• その他の研究成果

    2

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    発表⼿順

    • 電⼒制約型スーパーコンピュータ• 評価環境• 電⼒制約を考慮した性能モデリング

    – 解決すべき課題– 性能モデリング⼿法

    • 定量的評価• まとめと今後の課題• その他の研究成果

    3

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    電⼒制約型スーパーコンピュータ4

    従来設計/運⽤•HW設計

    – ピーク消費電⼒が制約を超えない分量のHWのみインストール

    •SW設計– 各構成要素のアクティビティを最

    ⼤化して実効性能を⾼める

    提案設計/運⽤• HW設計

    – ピーク消費電⼒が制約を超える事を許す!(⼤量の計算ノードやメモリ)

    – 電⼒性能特性を調整する各種ノブ(DVFS等)を提供

    • SW設計– 性能が最⼤になるようアプリ特性に応じ

    てノブを調整– 実効消費電⼒が制約を超えないよう制御

    CPU

    Mem

    NW

    Peak(TDP)

    A

    Pow

    er

    B

    TDP: Thermal Design Power

    Limit

    CPU

    MemNW

    CPU

    Mem

    NW

    C

    Workload

    CPUMem

    NWCPU

    Mem

    NW

    Peak(TDP)

    A B

    CPU

    MemNW

    CPU

    Mem

    NW

    C

    Workload

    CPU

    Mem

    NW

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    電⼒制約を考慮した性能推定の必要性

    • ユーザ視点– 電⼒制約が馳せられる実⾏キュー– ⾃分のアプリケーションの実⾏時間を予測

    • ジョブスケジューラ視点– システムレベル電⼒制約を満たす上でのスループット向上– ジョブ間電⼒特性の違いを考慮した電⼒資源配分– 電⼒指向リソースマネージャ

    • HPC7:電⼒制約を考慮した資源管理ツールによるHPCシステムの電⼒性能解

    5

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    発表⼿順

    • 電⼒制約型スーパーコンピュータ• 評価環境• 電⼒制約を考慮した性能モデリング

    – 解決すべき課題– 性能モデリング⼿法

    • 定量的評価• まとめと今後の課題• その他の研究成果

    6

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    ⽤語の定義7

    CPU = プロセッサ(チップ)モジュール = CPU+「CPUに直接繋がっているDRAM」

    • 本来の電⼒制約対象はモジュール• 電⼒制約はCPUにのみ適⽤可能

    ü DRAMへの直接的な電⼒制約は考えないü DRAM消費電⼒を考慮してCPUへの電⼒制約値を決定

    CPUcore

    core

    core

    core

    cache

    MC

    mem

    ory module

    mem

    ory module

    mem

    ory module

    mem

    ory module

    core

    core

    core

    core

    cache

    MC

    mem

    ory module

    mem

    ory module

    mem

    ory module

    mem

    ory module

    CPUモジュールモジュール

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    評価環境

    • ベンチマーク– HPC Challenge: star DGEMM, star STREAM(Triad)– NPB: BT, SP– Magneto Hydro-Dynamics(MHD) simulation– Fiber benchmark suite: mVMC-mini (mVMC)

    • 実⾏プラットフォーム– 九⼤HA8000

    8

    Site Node Micro-Architecture #ofModules

    Procs. Per Node

    Cores Per Procs.

    Power Msrmt.

    HA8K(Kyushu Univ.) Intel E5-2697v2 Ivy Bridge 965 2 12 RAPL

    Blue=EP typeRed=With Comm. & Sync.

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    電⼒制約下での性能推定〜オーバビュー〜9

    モジュール

    全系

    電力制約値モジュール性能

    アプリ&入力

    実行時間

    アプリ&入力

    性能モデル 実⾏時間

    電⼒資源配分ポリシ

    電⼒制約値

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    電⼒制約下での性能推定〜オーバビュー〜10

    モジュール

    全系

    電力制約値

    実行時間

    アプリ&入力

    実行時間

    アプリ&入力

    性能モデル 実⾏時間

    電⼒資源配分ポリシ

    電⼒制約値

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    モジュール電⼒性能特性のモデリング11

    モジュール電力制約値

    実行時間

    CPU周波数

    モジュール

    消費電力

    CPU周波数

    実行時間 +

    2段階での特性モデリング

    1.モジュール性能とCPU動作周波数の関係2.CPU動作周波数とモジュール消費電力の関係

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    モジュール電⼒性能特性のモデリング12

    モジュール電力制約値

    実行時間

    CPU周波数

    モジュール

    消費電力

    CPU周波数

    実行時間 +

    2段階での特性モデリング

    1.モジュール性能とCPU動作周波数の関係2.CPU動作周波数とモジュール消費電力の関係

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    解決すべき課題

    モジュール性能のCPU周波数依存性はアプリ特性に依存する!

    13

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    CPU周波数実⾏時間の関係(1/3)14

    実線:各CPU周波数での実測値

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    CPU周波数実⾏時間の関係(1/3)15

    CPUインテンシブ→反比例関係

    メモリインテンシブ→反比例関係で表現できず!→2点測定はNG

    実線:各CPU周波数での実測値 破線:2点測定+反比例近似

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    CPU周波数実⾏時間の関係(2/3)16

    f maxf mintmax

    tmin

    f high

    t high

    f low f3

    t low

    CPU動作周波数

    正規

    化実

    ⾏時

    間高周波数領域低周波数領域

    近似3点モデル• ⾼周波数領域と低周波数領域に着⽬• 各領域で2点のCPU周波数で実測• 各領域で反⽐例モデルを作成• 交点を⾼/低周波数領域を分ける周波数と定義

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    CPU周波数実⾏時間の関係(3/3)17

    実線:各CPU周波数での実測値破線:2点反比例破線:近似3点反比例

    近似3点モデル(4回の事前実⾏)にて精度良く実⾏時間を推定可能!

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    モジュール電⼒性能特性のモデリング18

    モジュール電力制約値

    実行時間

    CPU周波数

    モジュール

    消費電力

    CPU周波数

    実行時間 +

    2段階での特性モデリング

    1.モジュール性能とCPU動作周波数の関係2.CPU動作周波数とモジュール消費電力の関係

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    モジュール消費電⼒CPU周波数の関係

    • CPU周波数とモジュール消費電⼒は線形関係– VFSを前提– DVFS対応は今後の課題

    • アプリ特性によらず線形性を観測

    • 最⼤/最⼩CPU周波数での電⼒測定でOK

    19

    0""

    20""

    40""

    60""

    80""

    100""

    120""

    140""

    1.2"" 1.4"" 1.6"" 1.8"" 2.0"" 2.2"" 2.4"" 2.6""

    Power"con

    sump4

    on"(W

    )

    CPU"frequency"(GHz)

    DGEMMCPU"

    DRAM"

    CPU+DRAM"

    0""

    20""

    40""

    60""

    80""

    100""

    120""

    140""

    1.2"" 1.4"" 1.6"" 1.8"" 2.0"" 2.2"" 2.4"" 2.6""

    Power"con

    sump4

    on"(W

    )

    CPU"frequency"(GHz)

    Random'AccessCPU"

    DRAM"

    CPU+DRAM"

    DRAM

    CPUModule

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    解決すべき課題

    モジュール間消費電⼒性能特性はLSI製造ばらつきの影響を受ける!

    20

    0""

    20""

    40""

    60""

    80""

    100""

    120""

    140""

    1.2"" 1.4"" 1.6"" 1.8"" 2.0"" 2.2"" 2.4"" 2.6""

    Power"con

    sump4

    on"(W

    )

    CPU"frequency"(GHz)

    DGEMMCPU"

    DRAM"

    CPU+DRAM"

    Pwr

    Perf.

    Module 1

    Pwr

    Perf.

    Module 2Pw

    r

    Perf.

    Module 3

    Pwr

    Perf.

    Module N

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    半導体の製造ばらつき

    • イオン注⼊やエッチングにおいて⾮均⼀性が発⽣• その結果,ゲート⻑やトランジスタ閾値がばらつく• 微細化が進むにつれより深刻化

    21

    1.41.4

    130nm

    30%

    5X0.90.9

    1.01.0

    1.11.1

    1.21.2

    1.31.3

    11 22 33 44 55Normalized Leakage (INormalized Leakage (Isbsb))

    Nor

    malized

    Fre

    quen

    cyNor

    malized

    Fre

    quen

    cy

    1.41.4

    130nm

    30%

    5X0.90.9

    1.01.0

    1.11.1

    1.21.2

    1.31.3

    11 22 33 44 55Normalized Leakage (INormalized Leakage (Isbsb))

    Nor

    malized

    Fre

    quen

    cyNor

    malized

    Fre

    quen

    cy

    [source: numerical technologies]S. Borkar, Parameter variations and impact on circuits and microarchitecture, DAC, 2003.

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    スパコンにおける消費電⼒ばらつき22

    star DGEMM

    30%

    0""

    20""

    40""

    60""

    80""

    100""

    120""

    140""

    0" 300" 600" 900" 1200" 1500" 1800"

    Power""[W]

    Module"IDs

    Module"(CPU+DRAM)"power"

    CPU$power$

    DRAM%power%

    Module power= CPU power + DRAM power

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    電⼒制約型スパコンでの電⼒ばらつき問題(1/3)23

    全モジュールに対し均一に電力制約を施すと・・・

    50#

    60#

    70#

    80#

    90#

    100#

    110#

    120#

    1.0## 1.5## 2.0## 2.5##CPU#Power#[W

    ]

    CPU#clock#frequency#[GHz]

    No#power#constraint

    0""

    20""

    40""

    60""

    80""

    100""

    120""

    140""

    0" 300" 600" 900" 1200" 1500" 1800"

    Power""[W]

    Module"IDs

    Module"(CPU+DRAM)"power"

    CPU$power$

    DRAM%power%

    30%

    star DGEMM

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    50#

    60#

    70#

    80#

    90#

    100#

    110#

    120#

    1.0## 1.5## 2.0## 2.5##CPU#Power#[W

    ]

    CPU#clock#frequency#[GHz]

    No#power#constraintCPU#power#cap

    電⼒制約型スパコンでの電⼒ばらつき問題(2/3)24

    「消費電⼒ばらつき」が「CPU動作周波数ばらつき」に!

    50#

    60#

    70#

    80#

    90#

    100#

    110#

    120#

    1.0## 1.5## 2.0## 2.5##CPU#Power#[W

    ]

    CPU#clock#frequency#[GHz]

    No#power#constraintCPU$power$cap

    0""

    20""

    40""

    60""

    80""

    100""

    120""

    140""

    0" 300" 600" 900" 1200" 1500" 1800"

    Power""[W]

    Module"IDs

    Module"(CPU+DRAM)"power"

    CPU$power$

    DRAM%power%

    30%

    star DGEMM全モジュールに対し均一に電力制約を施すと・・・

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    電⼒制約型スパコンでの電⼒ばらつき問題(3/3)25

    40#

    50#

    60#

    70#

    80#

    90#

    100#

    110#

    120#

    130#

    140#

    0.8## 1.2## 1.6## 2.0## 2.4## 2.8## 3.2##

    Module#(CPU+DRAM)#Power#[W

    ]

    Normalized#ExecuIon#Time

    No#power#constraint

    1.0

    star DGEMM 全モジュールに対し均一に電力制約を施すと・・・

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    電⼒制約型スパコンでの電⼒ばらつき問題(3/3)26

    31%

    40#

    50#

    60#

    70#

    80#

    90#

    100#

    110#

    120#

    130#

    140#

    0.8## 1.2## 1.6## 2.0## 2.4## 2.8## 3.2##

    Module#(CPU+DRAM)#Power#[W]

    Normalized#ExecuIon#Time

    No#power#constraint

    Cm=110W

    1.0

    Cm=Target#Average#Power#

    Constraint#for#Module

    star DGEMM 全モジュールに対し均一に電力制約を施すと・・・

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    40#

    50#

    60#

    70#

    80#

    90#

    100#

    110#

    120#

    130#

    140#

    0.8## 1.2## 1.6## 2.0## 2.4## 2.8## 3.2##

    Module#(CPU+DRAM)#Power#[W]

    Normalized#ExecuIon#Time

    No#power#constraint

    Cm=110W

    Cm=100W

    Cm=90W

    Cm=80W

    Cm=70W

    1.0

    Cm=Target#Average#Power#

    Constraint#for#Module

    電⼒制約型スパコンでの電⼒ばらつき問題(3/3)27

    64%

    star DGEMM 全モジュールに対し均一に電力制約を施すと・・・

    「消費電⼒ばらつき」が「モジュール性能ばらつき」に!

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    ばらつきを考慮して全モジュールの電⼒性能特性モデルを⽣成する!

    28

    消費電⼒テーブル(アプリ依存)

    Module ID PowerConsumption

    1

    k

    N..

    ..

    Pwr

    Perf.

    Module 1

    Pwr

    Perf.

    Module 2

    Pwr

    Perf.

    Module 3

    Pwr

    Perf.

    Module N

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    ModuleID

    NormalizedPower

    1 1.0

    k 1.2

    N 0.8

    ばらつきを考慮して全モジュールの電⼒性能特性モデルを⽣成する!

    29

    電⼒ばらつきたーベル(アプリ⾮依存)

    ....

    ....

    システム導⼊時に1度だけ測定

    消費電⼒テーブル(アプリ依存)

    Module ID PowerConsumption

    1

    k

    N..

    ..

    Pwr

    Perf.

    Module 1

    Pwr

    Perf.

    Module 2

    Pwr

    Perf.

    Module 3

    Pwr

    Perf.

    Module N

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    ModuleID

    NormalizedPower

    1 1.0

    k 1.2

    N 0.8

    ばらつきを考慮して全モジュールの電⼒性能特性モデルを⽣成する!

    30

    Module ID PowerConsumption

    k 120W

    ....

    ....

    Module ID PowerConsumption

    1

    k

    N..

    ..

    Pwr

    Perf.

    Module 1

    Pwr

    Perf.

    Module 2

    Pwr

    Perf.

    Module 3

    Pwr

    Perf.

    Module Nモジュール k での事前実⾏

    電⼒ばらつきたーベル(アプリ⾮依存)

    消費電⼒テーブル(アプリ依存)

    モジュール k での実測(アプリ依存)

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    ModuleID

    NormalizedPower

    1 1.0

    k 1.2

    N 0.8

    ばらつきを考慮して全モジュールの電⼒性能特性モデルを⽣成する!

    31

    Module ID PowerConsumption

    k 120W

    ....

    ....

    Module ID PowerConsumption

    1

    k 120W

    N..

    ..

    Pwr

    Perf.

    Module 1

    Pwr

    Perf.

    Module 2

    Pwr

    Perf.

    Module 3

    Pwr

    Perf.

    Module N

    電⼒ばらつきたーベル(アプリ⾮依存)

    消費電⼒テーブル(アプリ依存)

    モジュール k での実測(アプリ依存)

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    ModuleID

    NormalizedPower

    1 1.0

    k 1.2

    N 0.8

    ばらつきを考慮して全モジュールの電⼒性能特性モデルを⽣成する!

    32

    Module ID PowerConsumption

    k 120W

    (120W/1.2) x 0.8アプリ依存の平均消費電⼒

    ....

    ....

    Module ID PowerConsumption

    1

    k 120W

    N..

    ..

    Pwr

    Perf.

    Module 1

    Pwr

    Perf.

    Module 2

    Pwr

    Perf.

    Module 3

    Pwr

    Perf.

    Module N

    電⼒ばらつきたーベル(アプリ⾮依存)

    消費電⼒テーブル(アプリ依存)

    モジュール k での実測(アプリ依存)

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    ModuleID

    NormalizedPower

    1 1.0

    k 1.2

    N 0.8

    ばらつきを考慮して全モジュールの電⼒性能特性モデルを⽣成する!

    33

    Module ID PowerConsumption

    k 120

    (120W/1.2) x 0.8

    Module ID PowerConsumption

    1

    k 120W

    N 80W

    ....

    ....

    ....

    ....

    モジュール N の消費電⼒

    Pwr

    Perf.

    Module 1

    Pwr

    Perf.

    Module 2

    Pwr

    Perf.

    Module 3

    Pwr

    Perf.

    Module N

    電⼒ばらつきたーベル(アプリ⾮依存)

    消費電⼒テーブル(アプリ依存)

    モジュール k での実測(アプリ依存)

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    ModuleID

    NormalizedPower

    1 1.0

    k 1.2

    N 0.8

    ばらつきを考慮して全モジュールの電⼒性能特性モデルを⽣成する!

    34

    Module ID PowerConsumption

    k 120

    Pwr

    Perf.

    Module 1

    Pwr

    Perf.

    Module 2

    Pwr

    Perf.

    Module 3

    Pwr

    Perf.

    Module N

    Module ID PowerConsumption

    1 100W

    k 120W

    N 80W

    ....

    ....

    ....

    ....

    電⼒ばらつきたーベル(アプリ⾮依存)

    消費電⼒テーブル(アプリ依存)

    モジュール k での実測(アプリ依存)ばらつきを考慮した

    全モジュールの消費電⼒

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    推定精度35

    Pow

    er ra

    tio [P

    red

    icte

    d /

    Mea

    sure

    d]

    0.80

    0.85

    0.90

    0.95

    1.00

    1.05

    1.10

    1.15

    1.20

    0 200 400 600 800 10001200140016001800

    Maximum module power(Error rate = 1.4%)

    Minimum module power(Error rate = 1.5%)

    Module ID

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    電⼒制約下での性能推定〜オーバビュー〜36

    モジュール

    全系

    電力制約値

    実行時間

    アプリ&入力

    実行時間

    アプリ&入力

    性能モデル 実⾏時間

    電⼒資源配分ポリシ

    電⼒制約値

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    発表⼿順

    • 電⼒制約型スーパーコンピュータ• 評価環境• 電⼒制約を考慮した性能モデリング

    – 解決すべき課題– 性能モデリング⼿法

    • 定量的評価• まとめと今後の課題• その他の研究成果

    37

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    性能推定結果38

    0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6

    110W

    100W 90

    W

    80W

    100W 90

    W

    90W

    80W

    70W

    80W

    70W

    60W

    80W

    70W

    60W

    80W

    70W

    60W

    DGEMM triad MHD NPB(BT) NPB(SP) mVMC

    実⾏

    時間

    :推

    定値

    /実測

    0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6

    110W

    100W 90

    W

    80W

    100W 90

    W

    90W

    80W

    70W

    80W

    70W

    60W

    80W

    70W

    60W

    80W

    70W

    60W

    DGEMM triad MHD NPB(BT) NPB(SP) mVMC

    実⾏

    時間

    :推

    定値

    /実測

    値推定値(電⼒予測) 推定値(全モジュール電⼒測定)

    全モジュール⼀律電⼒制約時

    (ばらつき未考慮)

    電⼒資源配分ポリシ

    各モジュール適切電⼒制約時

    (ばらつき考慮)SCʼ15

    モジュール当たり平均電⼒制約値

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    発表⼿順

    • 電⼒制約型スーパーコンピュータ• 評価環境• 電⼒制約を考慮した性能モデリング

    – 解決すべき課題– 性能モデリング⼿法

    • 定量的評価• まとめと今後の課題• その他の研究成果

    39

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    まとめと今後の課題

    • まとめ– 電⼒制約型スパコンにおける性能推定法の提案

    • 少数モジュールにて4回の事前実⾏(1モジュールでも可能)• 製造ばらつきを考慮し全モジュールの電⼒性能特性を推定• ⼤規模システムでの実⾏時間を推定

    – 評価結果• 予測誤差:平均で約10%〜15%

    • 今後の課題– 更なる精度改善– 事前全系実⾏コストの削減

    40

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    発表⼿順

    • 電⼒制約型スーパーコンピュータ• 評価環境• 電⼒制約を考慮した性能モデリング

    – 解決すべき課題– 性能モデリング⼿法

    • 定量的評価• まとめと今後の課題• その他の研究成果

    41

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    コードレベル性能最適化が電⼒効率に与える影響の評価 (Graph500)

    42

  • 九州⼤学UIプロジェクト Kyudai Taro,2007

    43

    Graph500を対象とした電⼒制御