26
Rearrangeable NoC: 配配配配配配配配配配配配配配 配配配配配配配 松松 松松 ( 松松 ) 松松 松松 ( NII ) 松松 松 ( 松松 ) 松松 松松 ( 松松 )

Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

  • Upload
    abe

  • View
    60

  • Download
    4

Embed Size (px)

DESCRIPTION

Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ. 松谷 宏紀 (慶大) 鯉渕 道紘 (NII) 中村  宏 (東大) 天野 英晴 (慶大). M. M. L2$. L2$. M. M. sparc. sparc. sparc. sparc. Cores. Core#0. M. M. L2$. L2$. M. M. Crossbar. L2$. L2$. M. M. その先は?. M. M. Core#1. L2$. L2$. L2 $ nodes. M. M. - PowerPoint PPT Presentation

Citation preview

Page 1: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

Rearrangeable NoC: 配線遅延を考慮した分散ルータ

アーキテクチャ

松谷 宏紀 ( 慶大 )鯉渕 道紘 ( NII )中村  宏 ( 東大 )天野 英晴 ( 慶大 )

Page 2: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

Many-core architecture

# of nodesSmall Large

Niagara 2

Crossbar

spar

csp

arc

spar

csp

arc

spar

csp

arc

spar

csp

arc L2$

L2$

L2$

L2$

L2$

L2$

L2$

L2$

TRIPS (OCN)

MMMMMMMM

MMMMMMMM

Core#0

Core#1

???

その先は ?

Cores

L2 $ nodes

キャッシュの面積割合は増えるどういうレイアウトが良いの ?

Page 3: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

Many-core architecture

# of nodesSmall Large

Niagara 2

Crossbar

spar

csp

arc

spar

csp

arc

spar

csp

arc

spar

csp

arc L2$

L2$

L2$

L2$

L2$

L2$

L2$

L2$

TRIPS (OCN)

MMMMMMMM

MMMMMMMM

Core#0

Core#1

???

その先は ?

Cores

L2 $ nodes

チップ中央に L2$ nodes

キャッシュの面積割合は増えるどういうレイアウトが良いの ?

Page 4: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

Many-core architecture

# of nodesSmall Large

Niagara 2

Crossbar

spar

csp

arc

spar

csp

arc

spar

csp

arc

spar

csp

arc L2$

L2$

L2$

L2$

L2$

L2$

L2$

L2$

TRIPS (OCN)

MMMMMMMM

MMMMMMMM

Core#0

Core#1

???

その先は ?

Cores

L2 $ nodes

チップ外周に L2$ nodes

キャッシュの面積割合は増えるどういうレイアウトが良いの ?

Page 5: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

Many-core architecture

# of nodesSmall Large

Niagara 2

Crossbar

spar

csp

arc

spar

csp

arc

spar

csp

arc

spar

csp

arc L2$

L2$

L2$

L2$

L2$

L2$

L2$

L2$

TRIPS (OCN)

MMMMMMMM

MMMMMMMM

Core#0

Core#1

???

その先は ?Cores

局所性を活かした配置

キャッシュの面積割合は増えるどういうレイアウトが良いの ?

メモリバンド幅の確保 トポロジ , ルーティング , ルータ構造の工夫で !

Page 6: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

Network topology for many cores

# of nodesSmall Large

Niagara 2

Crossbar

spar

csp

arc

spar

csp

arc

spar

csp

arc

spar

csp

arc L2$

L2$

L2$

L2$

L2$

L2$

L2$

L2$

TRIPS (OCN)

MMMMMMMM

MMMMMMMM

Core#0

Core#1

???

その先は ?

Cores

L2 $ nodes

Page 7: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

Network topology for many cores

# of nodesSmall Large

TRIPS (OCN)

MMMMMMMM

MMMMMMMM

Core#0

Core#1

???

その先は ?

Cores

L2 $ nodes

Crossbar

スループット ( 高 )

ノードが多いとコスト ( 高 )

Page 8: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

Network topology for many cores

# of nodesSmall Large

???

その先は ?

Cores

L2 $ nodes

Crossbar 2-D mesh

スループット ( 高 )

ノードが多いとコスト ( 高 )

配置が容易 リンク長 ( 短 )

ノードが多いと直径 ( 長 )

Page 9: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

Network topology for many cores

# of nodesSmall Large

???

どんなトポロジが良い ?

Crossbar 2-D mesh

メモリバンド幅の確保

小さい diameter大きい bisection BW

スループット ( 高 )

ノードが多いとコスト ( 高 )

配置が容易 リンク長 ( 短 )

ノードが多いと直径 ( 長 )

Page 10: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

Network topology for many cores

# of nodesSmall Large

Crossbar 2-D mesh Hypercube ??

スループット ( 高 )

ノードが多いとコスト ( 高 )

配置が容易 リンク長 ( 短 )

ノードが多いと直径 ( 長 )

直径 ( 短 ), 帯域 ( 高 )

配置が困難 リンク長 ( 長 )

Page 11: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

レイアウトの問題 : Long wires & delay

• 高性能トポロジ– Hypercube– Torus– Flatten butterfly– Fat H-Tree

• 配線遅延– 微細化により増加– ゲート遅延より深刻– 配線長の 2 乗に比例 Hypercube (binary n-cube)

binary n-cube

k-ary n-cube

[Kim,ISCA’07]Loooong wires

長~い配線がいっぱい !!

Page 12: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

レイアウトの問題 : Long wires & delay

• 高性能トポロジ– Hypercube– Torus– Flatten butterfly– Fat H-Tree

• 配線遅延– 微細化により増加– ゲート遅延より深刻– 配線長の 2 乗に比例

binary n-cube

k-ary n-cube

[Kim,ISCA’07]

長~い配線がいっぱい !!

配線遅延のせいで高性能トポロジは実装 ( 難 ) これを解決するルータ

Flatten Butterfly

Loooong wires

Page 13: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

レイアウトの問題 : Long wires & delay

• 高性能トポロジ– Hypercube– Torus– Flatten butterfly– Fat H-Tree

• 配線遅延– 微細化により増加– ゲート遅延より深刻– 配線長の 2 乗に比例

binary n-cube

k-ary n-cube

[Kim,ISCA’07]

長~い配線がいっぱい !!

Loooong wires

配線長 [mm] vs. 配線遅延 [FO4s]

配線遅延のせいで高性能トポロジは実装 ( 難 ) これを解決するルータ

70nm semi-global

15FO4s

60FO4s

配線パラメータは [Ho, IEEE Proc’01] より

Page 14: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

配線遅延を考慮した分散ルータ• オリジナル Network-on-Chip (NoC) リンク

ArbiterArbiter

On-chip router On-chip router

Crucial wire delay

RC VA/SA ST RC VA/SA ST

多量のリピータバッファ リンクエネルギー ( 増 )

オンチップルータの機能を分解して , リンク上に分散配置しよう

Page 15: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

配線遅延を考慮した分散ルータ• ルータの機能を分解して , リンク上に分散配置し

よう

ArbiterArbiter

On-chip router On-chip router

Crucial wire delay

RC VA/SA ST RC VA/SA ST

Page 16: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

配線遅延を考慮した分散ルータ• ルータの機能を分解して , リンク上に分散配置し

よう

Arbiter

On-chip router On-chip router

RC VA/SA RC VA/SA ST

Arbiter

Unit

Page 17: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

配線遅延を考慮した分散ルータ• ルータの機能を分解して , リンク上に分散配置し

よう

Arbiter

Unit On-chip router

RC VA/SA RC VA/SA ST

Arbiter

ST

Unit Unit

Page 18: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

配線遅延を考慮した分散ルータ• ルータの機能を分解して , リンク上に分散配置し

ようUnit

RC VA/SA

分解された機能は , リピータバッファの置換えに

Arbiter

ST

Unit Unit Unit

RC

Unit

予備評価 : リンク長が 5mm のとき , 最大動作周波数が 29.4% 向上

  Rearrangeable NoC アーキテクチャの詳細は予稿集を参照 

Page 19: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

関連研究• 配線遅延を考慮したリピータ

– Elastic interconnects– Adaptive channel buffers

[Dally 研 , ISSCC’01] [Kodi, TC’08]

値を保持できるバッファ

RC,VA,SA,ST RC,VA,SA,ST

Page 20: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

関連研究• 配線遅延を考慮したリピータ

– Elastic interconnects– Adaptive channel buffers

• Router micro architecture

[Puente 研 , ISCA’07]

[Dally 研 , ISSCC’01] [Kodi, TC’08]

RC,VA,SA,ST

値を保持できるバッファ

Conventional router Rotary router

ルータ内部をリング化

RC,VA,SA,ST

ST

ルータの機能を分解して , リンク上に分散配置

STRC VA,SA

Page 21: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

ご相談 1: 分散ルータのアーキテクチャ• オンチップルータの機能を , どういう単位で分割する ?

– 何個に分割する ?– どこでバッファリングする ?– スイッチング (wormhole or circuit sw) によってどう変わる ?– ルーティング ( 固定型 or 適応型 ) によってどう変わる ?

Unit

RC VA/SA

Arbiter

ST

Unit Unit Unit

RC

Unit

Page 22: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

ご相談 2: Multiple networks on a chip• 用途に応じて複数ネットワークは当たり前

– Dynamic network (wormhole)– Static network (circuit sw)

• ネットワーク間の相互乗り入れ– Circuit sw で途中まで行き , 途中から wormhole に切り替え– そもそも “乗り入れ” は要らない ?

Network (WH)

Network (WH)

Network (CS)

Network (CS)

RC,VSA,ST RC,VSA,ST

ハイブリッド型 [Jerder,NOCS’08]

Page 23: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

ご相談 2: Multiple networks on a chip• 用途に応じて複数ネットワークは当たり前

– Dynamic network (wormhole)– Static network (circuit sw)

• ネットワーク間の相互乗り入れ– Circuit sw で途中まで行き , 途中から wormhole に切り替え– そもそも “乗り入れ” は要らない ?

Network (WH)

Network (WH)

Network (CS)

Network (CS)

RCXbar XbarVSA

ハイブリッド型 [Jerder,NOCS’08]

Page 24: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

ご相談 2: Multiple networks on a chip• 用途に応じて複数ネットワークは当たり前

– Dynamic network (wormhole)– Static network (circuit sw)

• ネットワーク間の相互乗り入れ– Circuit sw で途中まで行き , 途中から wormhole に切り替え– そもそも “乗り入れ” は要らない ?

Network (WH)

Network (WH)

Network (CS)

Network (CS)

RCXbar XbarVSA

ハイブリッド型 [Jerder,NOCS’08]

Page 25: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

ご相談 3: Many-core architecture• コアとメモリの比率 , レイアウトは ?• どんなトポロジが良い ?

Cores

L2 $ nodes

Cores

L2 $ nodes

Cores

L2 $ nodes

メモリ – コア間の通信は ?

Page 26: Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

Backup slides