34
1 エヌビディアが加速する AI 革命 エヌビディア合同会社 エンタープライズマーケティング本部長 林 憲一

GTC 2017 基調講演からディープラーニング関連情報のご紹介

Embed Size (px)

Citation preview

Page 1: GTC 2017 基調講演からディープラーニング関連情報のご紹介

1

エヌビディアが加速する AI 革命

エヌビディア合同会社

エンタープライズマーケティング本部長 林 憲一

Page 2: GTC 2017 基調講演からディープラーニング関連情報のご紹介

2

ムーアの法則後の世界

1980 1990 2000 2010 2020

102

103

104

105

106

107

40 年間のマイクロプロセッサのトレンド

Original data up to the year 2010 collected and plotted by M. Horowitz, F. Labonte,

O. Shacham, K. Olukotun, L. Hammond, and C. Batten New plot and data collected

for 2010-2015 by K. Rupp

シングルスレッド性能

年率 1.5 倍

年率 1.1 倍トランジスタ数

(千単位)

Page 3: GTC 2017 基調講演からディープラーニング関連情報のご紹介

3

1980 1990 2000 2010 2020

GPU コンピューティング性能年率 1.5 倍

2025年までに

1000倍

GPU コンピューティングの登場

Original data up to the year 2010 collected and plotted by M. Horowitz, F. Labonte,

O. Shacham, K. Olukotun, L. Hammond, and C. Batten New plot and data collected

for 2010-2015 by K. Rupp

102

103

104

105

106

107

シングルスレッド性能

年率 1.5 倍

年率 1.1 倍

アプリケーション

システム

アルゴリズム

CUDA

アーキテクチャ

Page 4: GTC 2017 基調講演からディープラーニング関連情報のご紹介

4

GPU コンピューティングの登場

GPU コンピューティング開発者5 年で 11 倍

GTC 参加者5 年で 3 倍

2017 2017

511,0007,000

20122012

1年間 の CUDA ダウンロード数2016 年

1,000,000+

Page 5: GTC 2017 基調講演からディープラーニング関連情報のご紹介

5

マシンラーニングの時代

“A Quest for Intelligence”— Fei-Fei Li

“The Master Algorithm”— Pedro Domingos

Page 6: GTC 2017 基調講演からディープラーニング関連情報のご紹介

6

現代の AI のビッグバン

AutoEncoders

GANLSTMIDSIA

CNN on GPU

Stanford &NVIDIA

Large-scale DNN on GPU

U Toronto AlexNeton GPU

CaptioningNVIDIA BB8 Style TransferBRETTImageNet

Google PhotoArterys

FDA Approved AlphaGo

Super Resolution Deep Voice

Baidu

DuLight

NMT

Superhuman ASR

ReinforcementLearning

Transfer Learning

Page 7: GTC 2017 基調講演からディープラーニング関連情報のご紹介

7

$5B

現代 AI のビッグバン

Udacity でのAI プログラム2 年で 100 倍

NIPS、ICML、CVPR、ICLR 参加者数2 年で 2 倍

2016 2017

20,00013,000

20152014

AI スタートアップ投資4 年で 9 倍

50億ドル

20162012

Page 8: GTC 2017 基調講演からディープラーニング関連情報のご紹介

8

NVIDIA

ディープラーニングSDK

GPU AAS

NVAIL

INCEPTION

インターネットサービス

エンタープライズ

ヘルスケア

GPU システムフレームワーク

TESLA

HGX-1

DGX-1

NVIDIA

RESEARCH

エヌビディアが加速する AI 革命

Page 9: GTC 2017 基調講演からディープラーニング関連情報のご紹介

9

NVIDIA INCEPTION プログラム1300 のディープラーニングスタートアップを支援

ヘルスケア

ビジネスインテリジェンス 及び 可視化

開発プラットフォーム

リテール eテール

IOT 及び 製造

プラットフォーム 及び API

データマネージメント

建築

金融 セキュリティ

サイバー自律動作機械

Page 10: GTC 2017 基調講演からディープラーニング関連情報のご紹介

10

エンタープライズのためのSAP AI

SAP から提供される最初の商業的 AI オファリング

Brand Impact、Service Ticketing、Invoice-to-Record アプリケーション

DGX-1 と AWS で NVIDIA GPU を利用

Page 11: GTC 2017 基調講演からディープラーニング関連情報のご紹介

11

年々複雑さを増すモデル

2016 — Baidu Deep Speech 22015 — Microsoft ResNet 2017 — Google NMT

1.05 垓回の計算量87 億パラメータ

2000 京回の計算量3 億パラメータ

700 京回の計算量6000 万パラメータ

Page 12: GTC 2017 基調講演からディープラーニング関連情報のご紹介

12

発表 Tesla V100AI と HPC のための大きな飛躍Tensor コアを搭載した Volta アーキテクチャ

210 億トランジスタ | TSMC 12nm FFN | 815mm2

5120 CUDA コア

7.5 FP64 TFLOPS | 15 FP32 TFLOPS

120 Tensor TFLOPS

総レジスタファイル 20MB | 16MB キャッシュ

900 GB/s の 16GB HBM2

300 GB/s NVLink

Page 13: GTC 2017 基調講演からディープラーニング関連情報のご紹介

13

新開発 Tensor コア

CUDA Tensor 演算命令及び データフォーマット

4x4 行列処理配列

D[FP32] = A[FP16] * B[FP16] + C[FP32]

ディープラーニングに最適化

アクティベーション入力 重み入力 出力結果

Page 14: GTC 2017 基調講演からディープラーニング関連情報のご紹介

14

発表 Tesla V100AI と HPC のための大きな飛躍Tensor コアを搭載した Volta アーキテクチャ

Pascal 世代と比較して

HPC のための汎用演算性能 1.5 倍

ディープラーニングトレーニングのための

Tensor 演算性能 12 倍

ディープラーニング推論のための

Tensor 演算性能 6 倍

Page 15: GTC 2017 基調講演からディープラーニング関連情報のご紹介

15

発表Volta 対応フレームワーク

時間

CNN トレーニング(ResNet-50)

時間

NCCL 2.0 を利用したマルチノードトレーニング(ResNet-50)

0 5 10 15 20 25

64x V100

8x V100

8x P100

0 10 20 30 40 50

V100

P100

K80

時間

LSTM トレーニング(ニューラル機械翻訳)

0 10 20 30 40 50

8x V100

8x P100

8x K80

Page 16: GTC 2017 基調講演からディープラーニング関連情報のご紹介

16

発表Tesla V100 搭載 NVIDIA DGX-1AI 研究に必須の道具

960 Tensor TFLOPS | Tesla V100 8基 | NVLink ハイブリッドキューブ

TITAN X で 8 日かかる計算が 8 時間に

CPU サーバー 400台分の性能がワンボックスに

Page 17: GTC 2017 基調講演からディープラーニング関連情報のご紹介

17

発表Tesla V100 搭載 NVIDIA DGX-1AI 研究に必須の道具

960 Tensor TFLOPS | Tesla V100 8基 | NVLink ハイブリッドキューブ

TITAN X で 8 日かかる計算が 8 時間に

CPU サーバー 400台分の性能がワンボックスに

ご注文は: nvidia.com/DGX-1

Page 18: GTC 2017 基調講演からディープラーニング関連情報のご紹介

18

発表NVIDIA DGX ステーションパーソナル DGX

480 Tensor TFLOPS | Tesla V100 4基

NVLink 全結合 | 3つの DisplayPort

1500W | 水冷

Page 19: GTC 2017 基調講演からディープラーニング関連情報のご紹介

19

480 Tensor TFLOPS | Tesla V100 4基

NVLink 全結合 | 3つの DisplayPort

1500W | 水冷

ご注文は: nvidia.com/DGX-Station

発表NVIDIA DGX ステーションパーソナル DGX

Page 20: GTC 2017 基調講演からディープラーニング関連情報のご紹介

20

発表ハイパースケール推論のための Tesla V100Skylake に対して 15~25 倍の推論性能

150W | FHHL PCIE

Page 21: GTC 2017 基調講演からディープラーニング関連情報のご紹介

21

GPU で加速されたデータセンターの例

Tesla V100 によって 1/15に500 ノードの CPU サーバー 33 ノードの GPU で加速されたサーバー

データセンター全体で300,000 推論/秒

CPU 当り 300 推論/秒➡ 1000 CPU

1000 CPU ➡ 500 ノード

ノード 3000ドル

ノード 500W

➡ 150万ドル

➡ 250KW

Page 22: GTC 2017 基調講演からディープラーニング関連情報のご紹介

22

NVIDIA ディープラーニングスタック

ディープラーニングフレームワーク

ディープラーニングライブラリNVIDIA cuDNN, NCCL,

cuBLAS, TensorRT

CUDA ドライバ

オペレーティングシステム

GPU

システム

Page 23: GTC 2017 基調講演からディープラーニング関連情報のご紹介

23

コンテナ、データセット、事前学習済みのモデルのレポジトリ

NVIDIA

GPU クラウド

CSP

発表NVIDIA GPU クラウド

NVDocker のコンテナとして提供 | フルスタックで最適化常に最新 | エヌビディアによって完全にテストおよびメンテナンス | 7月にベータ提供

ディープラーニングに最適化された GPU で加速されたクラウドプラットフォーム

Page 24: GTC 2017 基調講演からディープラーニング関連情報のご紹介

24

GPU コンピューティング性能

0

8

16

24

32

40

AMBER 性能 (ns/day)

P100

2016

K80

2015

K40

2014

K20

2013

AMBER 12

CUDA 4

AMBER 14

CUDA 5

AMBER 14

CUDA 6

AMBER 16

CUDA 8

0

2400

4800

7200

9600

12000

GoogleNet 性能 (i/s)

cuDNN 2

CUDA 6

cuDNN 4

CUDA 7

cuDNN 6

CUDA 8

NCCL 1.6

cuDNN 7

CUDA 9

NCCL 2

8x K80

2014

8x Maxwell

2015

DGX-1

2016

DGX-1V

2017

Page 25: GTC 2017 基調講演からディープラーニング関連情報のご紹介

25

NVIDIA

ディープラーニングSDK

GPU AAS

NVAIL

INCEPTION

インターネットサービス

エンタープライズ

ヘルスケア

GPU システムフレームワーク

TESLA

HGX-1

DGX-1

NVIDIA

RESEARCH

自動車

AI シティ ロボット

NVIDIA

ディープラーニングSDK

DRIVE PX

JETSON TX

エヌビディアが加速する AI 革命

エッジでの AI

Page 26: GTC 2017 基調講演からディープラーニング関連情報のご紹介

26

AI が革新するトランスポーテーション

ドミノピザ: 一日100万個のピザを配達米国では 2億5000万台の車のために8億の駐車場

年間 4500億キロ

Page 27: GTC 2017 基調講演からディープラーニング関連情報のご紹介

27

NVIDIA DRIVE — AI カープラットフォーム

コンピュータビジョンライブラリ

OS

認識 AI

CUDA、cuDNN、TensorRT

自己位置推定 パスプランニング

1 TOPS

10 TOPS

100 TOPS

DRIVE PX 2 ParkerLevel 2/3

DRIVE PX XavierLevel 4/5

Page 28: GTC 2017 基調講演からディープラーニング関連情報のご紹介

28

NVIDIA DRIVE

ガーディアン エンジェルコ パイロットマッピングから運転へ

Page 29: GTC 2017 基調講演からディープラーニング関連情報のご紹介

29

発表トヨタ、自動運転車向けに NVIDIA DRIVE PX を選択

Page 30: GTC 2017 基調講演からディープラーニング関連情報のご紹介

30

自動運転のための AI プロセッサ

XAVIER

30 TOPS DL

30W

カスタム ARM64 CPU

512 コア Volta GPU

10 TOPS DL アクセラレータ

汎用アーキテクチャ

特定用途アクセラレータ

エネルギー効率

CPU

FPGA

CUDA

GPU

DLA

PascalVolta

Page 31: GTC 2017 基調講演からディープラーニング関連情報のご紹介

31

自動運転のための AI プロセッサ

XAVIER

30 TOPS DL

30W

カスタム ARM64 CPU

512 コア Volta GPU

10 TOPS DL アクセラレータ

汎用アーキテクチャ

特定用途アクセラレータ

エネルギー効率

CPU

CUDA

GPU

DLA

Volta

+

Page 32: GTC 2017 基調講演からディープラーニング関連情報のご紹介

32

発表Xavier DLA オープンソース化

アーリーアクセス予定: 7 月 | 一般リリース予定: 9 月

Command Interface

Tensor Execution Micro-controller

Memory Interface

Input DMA

(Activations

and Weights)

Unified

512KB

Input

Buffer

Activations

and

Weights

Sparse Weight

Decompression

Native

Winograd

Input

Transform

MAC

Array

2048 Int8

or

1024 Int16

or

1024 FP16

Output

Accumulators

Output

Postprocess

or

(Activation

Function,

Pooling

etc.)

Output

DMA

Page 33: GTC 2017 基調講演からディープラーニング関連情報のご紹介

33

エヌビディアが加速する AI 革命

NVIDIA GPU クラウド全てのクラウドに NVIDIA GPU

Xavier DLA

オープンソース化

DGX-1 及び DGX ステーションTesla V100

TensorRT

Tensor コア

NVIDIA

GPU CLOUD

CSPs

Page 34: GTC 2017 基調講演からディープラーニング関連情報のご紹介

34