Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
11
Support Q
&A
検証
編S
upport Q&
Aフ
ィジ
カル
編S
upport Q&
A論
理合
成編
New
s Release
ニュ
ース
リリ
ース
Industry TrendW
hat's New
in DesignW
are IP?
Custom
erH
ighlightP
artnerH
ighlightTechnology U
pdate最
新技
術情
報
強力なパフォーマンス
GPUプロトタイピングに求められる条件
Imagination Technologies 社のデュアルクラスタ 64 コア GPU、PowerVR Series6XT のプロトタイピング
シノプシス シニア・スタッフ・アプリケーション・コンサルタント Andy Jolley
Customer Highlight
Imagination Technologies社は、シノプシスのFPGAベース・ハードウェア・プロトタイピング・ソリューション HAPSとHAPS対応ソフトウェア ProtoCompilerを組み合わせることにより、GPU ASICのプロトタイプを短期間で完成させることに成功しました。この事例について、シノプシスのシニア・スタッフ・アプリケーション・コンサルタント、Andy Jolleyがご紹介します。
Imagination Technologies社(以下Imagination社)は、GPU(Graphics
Processing Unit)の開発に当たり、ウェアラブル機器やモバイル機器からハ
イエンドのゲーム / コンピューティングまで幅広いアプリケーションの要求
をサポートできるスケーラブルなIPを提供するというアプローチを採用して
います。これらすべての市場の要求を満たすためには、面積と消費電力を最小
限に抑えて最高水準のパフォーマンスを発揮できるアーキテクチャを開発す
る以外にありません。
新しいPowerVR® Rogueアーキテクチャは、これまでの世代のGPUに比べ、
面積当たりのパフォーマンス(GFLOPS/mm2)と消費電力当たりのパフォー
マンス(GFLOPS/mW)に優れており、Imagination社はマーケット・リーダー
としての地位を確かなものとしています。最高水準のパフォーマンスを達成
するため、GPUアーキテクチャは強力な並列処理性能を活かして、非常に負荷
の高いグラフィックスおよびGPU演算タスクを実行しています。このように
高度な機能と強力なパフォーマンスを持つGPU IPを構成しようとすると、
ゲート数が増大して複雑なデバイスとなり、通常はSoCのアプリケーション・
プロセッサIPをはるかにしのぐ規模となります。PowerVR Series6 GPUコア
で最大構成のGPUは、最小構成のGPUの8倍の規模に達します(図1)。
Imagination社の設計チームにとって、大規模化と複雑化を続けるGPUをど
のようにしてテストするかが大きな課題となっていました。ハイエンドの
GPUは最大容量のFPGAより規模が大きく、データパスが大半を占めるGPU
構造を複数のFPGAに人手で分割するのは非常に時間のかかる困難な作業の
図1. Imagination社のPowerVRアーキテクチャ(画像提供:Imagination社)
ため、FPGAベースのプロトタイピングはあまり利用されていませんでした。
唯一の現実解として考えられるのはテスト・チップを製造するという方法で
したが、そのために必要なコストと時間は増え続ける一方で、これが最終製品
のリードタイムを遅らせる要因となっていました。
GPU IPの大規模化と複雑化は、Imagination社のGPU開発チームにとってだ
けの問題ではありません。同社のIPをSoCに組み込んでいる顧客企業も、複数
のFPGAに分割してプロトタイピングを行おうとすると同様のテスト課題に
直面することになります。
シノプシスはImagination社の設計チームと協力し、同社の最大規模のGPU
を複数のFPGA上でモデリングする方法を検討してきました。FPGAベース・プ
ロトタイプはGPU単体でのインプリメンテーションとテストだけでなく、
GPUを統合したSoCの開発期間短縮にも貢献する必要があるため、GPUファ
ミリー全体にわたってすべての構成をサポートできるメソドロジが要求され
ました。
シノプシスのチームはまず、Imagination社のPowerVR Series6 GPUの
FPGAベース・プロトタイプに関する実証実験プロジェクトに着手しました。
このプロトタイピング環境には、単体でリグレッション・テストを実行でき
るようにトップレベルのテスト・インフラストラクチャ(図2;P12掲載)が
必要でした。このテスト・インフラストラクチャでは、ホストPCと接続する
ためのPCI Express®インターフェイス、およびテスト・スティミュラスと
ホストCPUバス
ホストCPUインターフェイス
制御 / レジスタ・バス
頂点データマスタ
ピクセルデータ・マスタ
演算データマスタ
粗粒度スケジューラ
コアマネジメント
ユニット
ユニファイド・シェーディング・クラスタ・アレイ
USC0 テスクチャユニット
USC1
USCn-1 テクスチャユニット USCn
マルチレベル・メモリー・キャッシュ・ユニット(MCU)
タイリングコプロセッサ
ピクセルコプロセッサ
2Dコア(TLA)
システムメモリー
実行 システム・メモリーインターフェイス システム・メモリー・バス
ASTC*PVRTC
追加のローパワーGFLOPS
* LDRおよびHDR ASTCフォーマットの両方をサポート
…
12
次世代GPUの開発
テスト結果を格納するためのDDR3メモリー・インターフェイスをサポート
する必要がありました。これらのテスト・インターフェイスには、大規模な
レート変換ロジックが必要でした。こうして実装したテスト・インフラストラ
クチャを利用して、テスト・チームはUMRBus(Universal Multi-Resource
Bus)経由でシステムを設定したり、ホストPCからテスト・スティミュラスお
よびテスト結果にアクセスするなど、GPUの制御と解析を行います。
シノプシスのチームは4個のFPGAを搭載したシノプシスHAPS-70 S48プロ
トタイピング・システムにデザインをインプリメントするため、手作業での分
割を実行しました。この作業は、I/O多重比とパフォーマンスのトレードオフ
を考慮しながら何度も分割を繰り返し、次にシステムをデバッグしてから合
成と配置配線を実行し、最後にプロトタイピング・システムをブリングアップ
するという工程を踏み、最大構成のGPUを分割するのに2週間かかりました。
このプロトタイプはFPGAの利用率が55 ~ 90%で、クロック速度は8MHzを
達成しました。これにより、テスト・チップをインプリメントすることなく
7,000回のリグレッション・テストを完了できました(図3)。
シノプシスのHAPSプロトタイピング・ボードとCertifyソフトウェアを用い
たPowerVR Series6 GPUのプロトタイプ実証実験プロジェクトと並行して、
Imagination社の設計チームは、次世代GPUのPowerVR Series6XTファミ
リーの開発を進めていました。
Series6XT GPUは、大規模な並列処理によってTFLOPSレンジまでのスケー
ラブルな処理性能を発揮します。Imagination社の設計チームは、最大規模
のSeries6XT GPUにもプロトタイピングを適用できないか検討を開始しま
した。
Series6から派生したSeries6XTはさらに大規模なデザインとなっており、こ
れを複数のFPGAに分割するだけでも容易ではありません。しかもテストの一
部としてライブ・ビデオ出力をサポートするためのテスト・ロジックを追加
し、なおかつ十分なパフォーマンスを達成する必要がありました。
まずテスト・ロジックとGPUのトップレベル・デザインの規模を見積もったと
ころ、これらのブロックだけで1個のVirtex®-7 2000T FPGAのリソース利用
率が100%を超えてしまうことが予想されたため、Series6 GPUで作成した
プロトタイプ・デザインの再分割が必要となりました。
それに加え、Imagination社のチームからは何らかのプロトタイプをなるべ
く早く完成させてほしいと要望があったため、最初のプロトタイプ完成まで
の期間を短縮することが最重要課題となりました。
図2. リグレッション テストをサポートするためのトップレベルのテスト インフラストラクチャ
図3. HAPS-70にインプリメントしたImagination社のPowerVR Series6 GPU
テスト・ロジック
ホストPC PCIe同期回路
同期回路
同期回路
DDR3
PowerVR Series6
GPU
シェーダーコア1
シェーダーコア2
TPU テスト・ロジック + トップレベル
デバイス利用率
ACPM比= 8(8MHzのシステム・パフォーマンス)
DDR3:テスト・スティミュラス / 結果を格納
PCIe I/F:テスト / 結果データ ホストPC
UMRBusによるシステム設定 / デバッグ
Customer HighlightImagination Technologies社のデュアルクラスタ64コアGPU、PowerVR Series6XTのプロトタイピング
前ページより続く
13
Support Q
&A
検証
編S
upport Q&
Aフ
ィジ
カル
編S
upport Q&
A論
理合
成編
New
s Release
ニュ
ース
リリ
ース
Industry TrendW
hat's New
in DesignW
are IP?
Custom
erH
ighlightP
artnerH
ighlightTechnology U
pdate最
新技
術情
報
シノプシスのプロトタイピング・チームは2つの開発アプローチを検討しま
した。1つは既存のHAPS-70 S48システムを再分割するというものです。こ
れは十分に可能なアプローチでしたが、その場合は多重比を32:1とする必要
があり、それではシステム性能が2MHzまで低下することが予想されました。
実行時間をここまで犠牲にすると、ライブ・ビデオ出力の解析はサポートでき
ません。
もう1つのアプローチは、Imagination社が次世代GPUの開発を進めるのと
並行してシノプシスが開発を進めていた第2世代の自動FPGA分割ツール
ProtoCompilerを利用するというものでした。ProtoCompilerは、シノプシ
スのHAPSシリーズ・システムの立ち上げと配布にかかる労力と時間を最小
限に抑えてIPバリデーションとソフトウェア開発を開始できるように設計
されています。このツールは、デザイン・プランニング、論理合成、デバッグを
自動化する機能のほか、シノプシスのVCSやZeBuといった他の検証環境へ
のコネクティビティも備えています。このプロトタイピング・ソフトウェア
はHAPSシリーズと緊密に統合されており、優れたシステム・パフォーマンス
を発揮します。
シノプシスのチームはDriverLive Active Video出力用のフレーム・バッファ
とロジックを含む追加のテスト・インフラストラクチャ・ロジックをキャプ
チャし、まず6個のFPGAで構成されるプロトタイピング環境にマッピングし
ました。また、分割に関する基本的な制約条件を従来のPowerVR Series6の
構成からポーティングし、これに基づいて再分割を実行しました。これ以外に
も、十分なFPGA容量を確保すること、FPGA利用率を80%に制限すること、シ
ンプルなピン多重化方針を採用することなどの制約条件を使用しました。
ProtoCompilerにはさまざまな分割の影響を極めて短時間に検討できるアブ
ストラクション・フロー機能があります。プロトタイピング・チームはこの機
能を利用してFPGA間の最適なインターコネクトを検討しました(図4)。一般
的なシナリオであれば、1分程度で解析が可能です。
プロトタイピング・チームはProtoCompilerのアブストラクション・フローを
利用してFPGA間の通信ボトルネックを特定し、ハードウェアのインターコネ
クト容量を増やした場合の効果を短時間で解析しました。HAPS環境の大きな
特長の1つに、プロトタイプ構成が固定I/Oの制約を受けないという点があり
ますが、ProtoCompilerはこの機能をうまく活用しています。最終的に、プロ
トタイピング・チームは多重比を12までに制限すれば7.3MHzという高いプ
ロトタイプ動作速度が得られるとの結論に達しました。
次に、DriverLive Active Video出力をサポートするためのロジックを既存の
テスト・ロジックに追加しましたが、全体的なFPGA分割には影響しませんで
した。ProtoCompilerはデザイン全体の再コンパイルが不要なインクリメンタ
ル・アップデートをサポートしているため、プロトタイプ・デザインの変更も容
易でした。ライブ・ビデオ出力機能を追加したことにより、Imagination社の設
計チームはGPUのプロトタイピング・ステージで動画をリアルタイムに評価
できるなど、非常に強力なデバッグ機能を手にすることができました(図5)。
6つのFPGAのうち5つにプロトタイピング・デザインをマッピングした後、
チームはパフォーマンスの最適化に着手しました。ハイスピード・タイムドメ
イン・マルチプレキシング(HSTDM)によるI/O共有はFPGAインターコネク
図4. アブストラクション フローを用いてFPGA間のインターコネクトを検討
図5. ライブ ビデオ出力用に圧縮 / 伸長 フレーム バッファを追加
テスト・ロジック
ホストPC PCIe同期回路
同期回路
同期回路
DDR3
圧縮 / 伸長 + フレーム・バッファ
DVI出力
PowerVR Series6
GPU
FPGA B FPGA C250
50
50
50
50
250 250 200
200
200
FPGA A FPGA D
FPGA A
14
目覚ましい成果
トの帯域幅を拡大します。HAPS-70のコネクタはすべてHSTDMをサポートし
ており、ソース・シンクロナス・クロックの割り当て、多端子ネットからポイン
ト・ツー・ポイントのHSTDM通信への分割、ダイレクトおよびHSTDMネットの
HAPSプラットフォームへの割り当てなど、HSTDMのインプリメンテーショ
ンはProtoCompilerがすべて自動で実行します。HSTDM比を24x2とすること
により、チームはプロトタイプのパフォーマンスを12.0MHzに引き上げるこ
とに成功しました。この作業は、1人のエンジニアが約半日かけてプロトタイプ
を検討し、さらに半日かけてインプリメンテーションを行いました(図6)。
今回のImagination社とシノプシスの協業が示すように、非常に大規模で複
雑なGPUであっても、適切な環境さえ用意すればFPGAベースの早期プロトタ
イピングが可能です。
PowerVR Series6およびSeries6XTの両方でプロトタイピングに成功した
Imagination社の設計チームは、これまでのようにテスト・チップに依存しな
くても新しいGPUを市場に投入できるようになると考えられます。早期段階
で物理プロトタイプを利用できるようになれば、システム・バリデーションや
早期ソフトウェア開発、そしてハードウェアとソフトウェアの統合が容易に
なります。
図6. HAPS上でDriverLive Active Video出力をサポートしたPowerVR Series6XTのプロトタイプ
今回のプロトタイピング・プラットフォームでは12MHzというパフォーマン
スを達成できたため、Imagination社のチームはわずか数時間で数千ものテ
ストを実行でき、早期ソフトウェア開発のプラットフォームとして活用でき
ました。さらに、HAPSシステムからのビデオ出力もサポートしたため、実際の
I/Oを実速度で利用してイメージ処理の正確性と品質を検査することもでき
ました。
シノプシスのFPGAベース・プロトタイピング・プラットフォームを利用した
結果、非常に大規模なGPUデザインと追加のテスト・インフラストラクチャを
ごく短時間で複数のFPGAに分割でき、その後もRTLの変更やHSTDMを用い
たシステム・パフォーマンスの最適化が容易に行えました。
このように最初のプロトタイプが短期間で完成したことは、新製品の早期市
場投入という形でImagination社に恩恵をもたらしただけでなく、シノプシ
ス製品を利用してImagination社のGPUをSoCに統合しようという企業にも
大きなメリットがあります。シノプシスは現在、Imagination社と協力してテ
スト・インフラストラクチャのコンフィギュレーション性を拡張することが
可能か検討しています。これが実現すれば、シノプシスの設計および検証フ
ロー内でImagination社のGPUをより簡単に統合できるようになります。
* PowerVR®はImagination Technologies社の登録商標です
Customer HighlightImagination Technologies社のデュアルクラスタ64コアGPU、PowerVR Series6XTのプロトタイピング
前ページより続く
著者紹介Andy Jolley:シノプシスのシニア・スタッフ・アプリケーション・コンサルタント。FPGAベース・プロトタイピングに関するワールドワイド・プロダクト・ライン・リードを務める。電気通信、レーダー、ビデオ業界で設計者として従事した後、旧Synplicity社およびシノプシスにてFPGA合成およびプロトタイピング・テクノロジを担当するなど、FPGAテクノロジ分野で25年以上の経験を持つ。現在はシノプシスのHAPSプラットフォームを導入して複雑なCPU SoCおよびGPU IPのプロトタイピングを行っているイギリス国内の顧客企業をサポートするとともに、これらのSoCおよびGPU IPをアプリケーションに統合している世界中のユーザー企業をサポート。ブライトン大学(イギリス)にて電子工学の学士号を取得。
詳細情報● シノプシスのFPGAベース・プロトタイピング ウェブページ http://www.synopsys.com/JP2/prototyping/fpgabasedprototyping● Imagination Technologies社 ウェブサイト http://www.imgtec.com/
動作速度12MHz
DDR3:テスト・スティミュラス / 結果を格納
HDMI
ライブ・ビデオの検査
PCIe I/F:テスト / 結果データ
UMRBus
ホストPCシステム設定 /デバッグ
AXIテスト
ロジック
USC060%
TPU65%
HSTDM
USC160%
6XT GPU80%