Upload
abe
View
60
Download
4
Embed Size (px)
DESCRIPTION
Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ. 松谷 宏紀 (慶大) 鯉渕 道紘 (NII) 中村 宏 (東大) 天野 英晴 (慶大). M. M. L2$. L2$. M. M. sparc. sparc. sparc. sparc. Cores. Core#0. M. M. L2$. L2$. M. M. Crossbar. L2$. L2$. M. M. その先は?. M. M. Core#1. L2$. L2$. L2 $ nodes. M. M. - PowerPoint PPT Presentation
Citation preview
Rearrangeable NoC: 配線遅延を考慮した分散ルータ
アーキテクチャ
松谷 宏紀 ( 慶大 )鯉渕 道紘 ( NII )中村 宏 ( 東大 )天野 英晴 ( 慶大 )
Many-core architecture
# of nodesSmall Large
Niagara 2
Crossbar
spar
csp
arc
spar
csp
arc
spar
csp
arc
spar
csp
arc L2$
L2$
L2$
L2$
L2$
L2$
L2$
L2$
TRIPS (OCN)
MMMMMMMM
MMMMMMMM
Core#0
Core#1
???
その先は ?
Cores
L2 $ nodes
キャッシュの面積割合は増えるどういうレイアウトが良いの ?
Many-core architecture
# of nodesSmall Large
Niagara 2
Crossbar
spar
csp
arc
spar
csp
arc
spar
csp
arc
spar
csp
arc L2$
L2$
L2$
L2$
L2$
L2$
L2$
L2$
TRIPS (OCN)
MMMMMMMM
MMMMMMMM
Core#0
Core#1
???
その先は ?
Cores
L2 $ nodes
チップ中央に L2$ nodes
キャッシュの面積割合は増えるどういうレイアウトが良いの ?
Many-core architecture
# of nodesSmall Large
Niagara 2
Crossbar
spar
csp
arc
spar
csp
arc
spar
csp
arc
spar
csp
arc L2$
L2$
L2$
L2$
L2$
L2$
L2$
L2$
TRIPS (OCN)
MMMMMMMM
MMMMMMMM
Core#0
Core#1
???
その先は ?
Cores
L2 $ nodes
チップ外周に L2$ nodes
キャッシュの面積割合は増えるどういうレイアウトが良いの ?
Many-core architecture
# of nodesSmall Large
Niagara 2
Crossbar
spar
csp
arc
spar
csp
arc
spar
csp
arc
spar
csp
arc L2$
L2$
L2$
L2$
L2$
L2$
L2$
L2$
TRIPS (OCN)
MMMMMMMM
MMMMMMMM
Core#0
Core#1
???
その先は ?Cores
局所性を活かした配置
キャッシュの面積割合は増えるどういうレイアウトが良いの ?
メモリバンド幅の確保 トポロジ , ルーティング , ルータ構造の工夫で !
Network topology for many cores
# of nodesSmall Large
Niagara 2
Crossbar
spar
csp
arc
spar
csp
arc
spar
csp
arc
spar
csp
arc L2$
L2$
L2$
L2$
L2$
L2$
L2$
L2$
TRIPS (OCN)
MMMMMMMM
MMMMMMMM
Core#0
Core#1
???
その先は ?
Cores
L2 $ nodes
Network topology for many cores
# of nodesSmall Large
TRIPS (OCN)
MMMMMMMM
MMMMMMMM
Core#0
Core#1
???
その先は ?
Cores
L2 $ nodes
Crossbar
スループット ( 高 )
ノードが多いとコスト ( 高 )
Network topology for many cores
# of nodesSmall Large
???
その先は ?
Cores
L2 $ nodes
Crossbar 2-D mesh
スループット ( 高 )
ノードが多いとコスト ( 高 )
配置が容易 リンク長 ( 短 )
ノードが多いと直径 ( 長 )
Network topology for many cores
# of nodesSmall Large
???
どんなトポロジが良い ?
Crossbar 2-D mesh
メモリバンド幅の確保
小さい diameter大きい bisection BW
スループット ( 高 )
ノードが多いとコスト ( 高 )
配置が容易 リンク長 ( 短 )
ノードが多いと直径 ( 長 )
Network topology for many cores
# of nodesSmall Large
Crossbar 2-D mesh Hypercube ??
スループット ( 高 )
ノードが多いとコスト ( 高 )
配置が容易 リンク長 ( 短 )
ノードが多いと直径 ( 長 )
直径 ( 短 ), 帯域 ( 高 )
配置が困難 リンク長 ( 長 )
レイアウトの問題 : Long wires & delay
• 高性能トポロジ– Hypercube– Torus– Flatten butterfly– Fat H-Tree
• 配線遅延– 微細化により増加– ゲート遅延より深刻– 配線長の 2 乗に比例 Hypercube (binary n-cube)
binary n-cube
k-ary n-cube
[Kim,ISCA’07]Loooong wires
長~い配線がいっぱい !!
レイアウトの問題 : Long wires & delay
• 高性能トポロジ– Hypercube– Torus– Flatten butterfly– Fat H-Tree
• 配線遅延– 微細化により増加– ゲート遅延より深刻– 配線長の 2 乗に比例
binary n-cube
k-ary n-cube
[Kim,ISCA’07]
長~い配線がいっぱい !!
配線遅延のせいで高性能トポロジは実装 ( 難 ) これを解決するルータ
Flatten Butterfly
Loooong wires
レイアウトの問題 : Long wires & delay
• 高性能トポロジ– Hypercube– Torus– Flatten butterfly– Fat H-Tree
• 配線遅延– 微細化により増加– ゲート遅延より深刻– 配線長の 2 乗に比例
binary n-cube
k-ary n-cube
[Kim,ISCA’07]
長~い配線がいっぱい !!
Loooong wires
配線長 [mm] vs. 配線遅延 [FO4s]
配線遅延のせいで高性能トポロジは実装 ( 難 ) これを解決するルータ
70nm semi-global
15FO4s
60FO4s
配線パラメータは [Ho, IEEE Proc’01] より
配線遅延を考慮した分散ルータ• オリジナル Network-on-Chip (NoC) リンク
ArbiterArbiter
On-chip router On-chip router
Crucial wire delay
RC VA/SA ST RC VA/SA ST
多量のリピータバッファ リンクエネルギー ( 増 )
オンチップルータの機能を分解して , リンク上に分散配置しよう
配線遅延を考慮した分散ルータ• ルータの機能を分解して , リンク上に分散配置し
よう
ArbiterArbiter
On-chip router On-chip router
Crucial wire delay
RC VA/SA ST RC VA/SA ST
配線遅延を考慮した分散ルータ• ルータの機能を分解して , リンク上に分散配置し
よう
Arbiter
On-chip router On-chip router
RC VA/SA RC VA/SA ST
Arbiter
Unit
配線遅延を考慮した分散ルータ• ルータの機能を分解して , リンク上に分散配置し
よう
Arbiter
Unit On-chip router
RC VA/SA RC VA/SA ST
Arbiter
ST
Unit Unit
配線遅延を考慮した分散ルータ• ルータの機能を分解して , リンク上に分散配置し
ようUnit
RC VA/SA
分解された機能は , リピータバッファの置換えに
Arbiter
ST
Unit Unit Unit
RC
Unit
予備評価 : リンク長が 5mm のとき , 最大動作周波数が 29.4% 向上
Rearrangeable NoC アーキテクチャの詳細は予稿集を参照
関連研究• 配線遅延を考慮したリピータ
– Elastic interconnects– Adaptive channel buffers
[Dally 研 , ISSCC’01] [Kodi, TC’08]
値を保持できるバッファ
RC,VA,SA,ST RC,VA,SA,ST
関連研究• 配線遅延を考慮したリピータ
– Elastic interconnects– Adaptive channel buffers
• Router micro architecture
[Puente 研 , ISCA’07]
[Dally 研 , ISSCC’01] [Kodi, TC’08]
RC,VA,SA,ST
値を保持できるバッファ
Conventional router Rotary router
ルータ内部をリング化
RC,VA,SA,ST
ST
ルータの機能を分解して , リンク上に分散配置
STRC VA,SA
ご相談 1: 分散ルータのアーキテクチャ• オンチップルータの機能を , どういう単位で分割する ?
– 何個に分割する ?– どこでバッファリングする ?– スイッチング (wormhole or circuit sw) によってどう変わる ?– ルーティング ( 固定型 or 適応型 ) によってどう変わる ?
Unit
RC VA/SA
Arbiter
ST
Unit Unit Unit
RC
Unit
ご相談 2: Multiple networks on a chip• 用途に応じて複数ネットワークは当たり前
– Dynamic network (wormhole)– Static network (circuit sw)
• ネットワーク間の相互乗り入れ– Circuit sw で途中まで行き , 途中から wormhole に切り替え– そもそも “乗り入れ” は要らない ?
Network (WH)
Network (WH)
Network (CS)
Network (CS)
RC,VSA,ST RC,VSA,ST
ハイブリッド型 [Jerder,NOCS’08]
ご相談 2: Multiple networks on a chip• 用途に応じて複数ネットワークは当たり前
– Dynamic network (wormhole)– Static network (circuit sw)
• ネットワーク間の相互乗り入れ– Circuit sw で途中まで行き , 途中から wormhole に切り替え– そもそも “乗り入れ” は要らない ?
Network (WH)
Network (WH)
Network (CS)
Network (CS)
RCXbar XbarVSA
ハイブリッド型 [Jerder,NOCS’08]
ご相談 2: Multiple networks on a chip• 用途に応じて複数ネットワークは当たり前
– Dynamic network (wormhole)– Static network (circuit sw)
• ネットワーク間の相互乗り入れ– Circuit sw で途中まで行き , 途中から wormhole に切り替え– そもそも “乗り入れ” は要らない ?
Network (WH)
Network (WH)
Network (CS)
Network (CS)
RCXbar XbarVSA
ハイブリッド型 [Jerder,NOCS’08]
ご相談 3: Many-core architecture• コアとメモリの比率 , レイアウトは ?• どんなトポロジが良い ?
Cores
L2 $ nodes
Cores
L2 $ nodes
Cores
L2 $ nodes
メモリ – コア間の通信は ?
Backup slides