2
NVIDIA TESLA V100 GPU ACCELERATOR 가장 진보된 데이터 센터 GPU NVIDIA Tesla V100은 AI, HPC 및 Graphic 가속을 위해 개발된 세계에서 가장 진보 된 데이터 센터 GPU입니다. 최신 GPU 아키텍처인 NVIDIA Volta를 기반으로 한 Tesla V100은 단일 GPU에서 최대 100개의 CPU와 동일한 성능을 제공하므로 데 이터 과학자, 연구원 및 엔지니어가 과거 불가능하다고 여겨지는 문제를 해결할 수 있습니다. SPECIFICATIONS Tesla V100 PCle Tesla V100 SXM2 GPU Architecture NVIDIA Volta NVIDIA Tensor Cores 640 NVIDIA CUDA ® Cores 5,120 Double-Precision Performance 7 TFLOPS 7.8 TFLOPS Single-Precision Performance 14 TFLOPS 15.7 TFLOPS Tensor Performance 112 TFLOPS 125 TFLOPS GPU Memory 32GB /16GB HBM2 Memory Bandwidth 900GB/sec ECC Yes Interconnect Bandwidth 32GB/sec 300GB/sec System Interface PCIe Gen3 NVIDIA NVLink Form Factor PCIe Full Height/Length SXM2 Max Power Comsumption 250 W 300 W Thermal Solution Passive Compute APIs CUDA, DirectCompute, OpenCL , OpenACC TESLA V100 | DATA SHEET | MAR18 CPU Server: Dual Xeon Gold [email protected], GPU Servers: same CPU server w/ 4x V100 PCIe | CUDA Version: CUDA 9.x| Dataset: NAMD (STMV), GTC (mpi#proc.in), MILC (APEX Medium), SPECFEM3D (four_material_simple_model) | To arrive at CPU node equivalence, we use measured benchmark with up to 8 CPU nodes. Then we use linear scaling to scale beyond 8 nodes. 1 GPU Node Replaces Up To 54 CPU Nodes Node Replacement: HPC Mixed Workload # of CPU-Only Nodes Physics (GTC) 0 40 20 60 Geo Science (SPECFEM3D) Physics (MILC) Life Science (NAMD) 14 17 32 54 Workload: ResNet-50 | CPU: 1X Xeon E5-2690v4 @ 2.6GHz | GPU: add 1X NVIDIA ® Tesla ® P100 or V100 Tesla V100 Tesla P100 1X CPU 0 20X 50X 40X 10X 30X Performance Normalized to CPU 47X Higher Throughput than CPU Server on Deep Learning Inference 15X 47X Time to Solution in Hours Lower is Better 12 16 8 4 0 8X V100 8X P100 15.5 Hours 5.1 Hours Server Config: Dual Xeon E5-2699 v4 2.6GHz | 8X Tesla P100 or V100 | ResNet-50 Training on MXNet for 90 Epochs with 1.28M ImageNet dataset. Deep Learning Training in Less Than a Workday

NVIDIA TESLA V100 GPU ACCELERATOR · 2019-02-21 · nvidia tesla v100 . gpu accelerator. 가장 진보된 데이터 센터 gpu. nvidia tesla v100은 ai, hpc 및 graphic 가속을

  • Upload
    others

  • View
    31

  • Download
    0

Embed Size (px)

Citation preview

Page 1: NVIDIA TESLA V100 GPU ACCELERATOR · 2019-02-21 · nvidia tesla v100 . gpu accelerator. 가장 진보된 데이터 센터 gpu. nvidia tesla v100은 ai, hpc 및 graphic 가속을

NVIDIA TESLA V100 GPU ACCELERATOR

가장 진보된 데이터 센터 GPUNVIDIA Tesla V100은 AI, HPC 및 Graphic 가속을 위해 개발된 세계에서 가장 진보 된 데이터 센터 GPU입니다. 최신 GPU 아키텍처인 NVIDIA Volta를 기반으로 한 Tesla V100은 단일 GPU에서 최대 100개의 CPU와 동일한 성능을 제공하므로 데이터 과학자, 연구원 및 엔지니어가 과거 불가능하다고 여겨지는 문제를 해결할 수 있습니다.

SPECIFICATIONS

Tesla V100PCle

Tesla V100SXM2

GPU Architecture NVIDIA Volta

NVIDIA Tensor Cores 640

NVIDIA CUDA® Cores 5,120

Double-Precision Performance 7 TFLOPS 7.8 TFLOPS

Single-Precision Performance 14 TFLOPS 15.7 TFLOPS

Tensor Performance 112 TFLOPS 125 TFLOPS

GPU Memory 32GB /16GB HBM2

Memory Bandwidth 900GB/sec

ECC Yes

Interconnect Bandwidth 32GB/sec 300GB/sec

System Interface PCIe Gen3 NVIDIA NVLink

Form Factor PCIe FullHeight/Length SXM2

Max Power Comsumption 250 W 300 W

Thermal Solution Passive

Compute APIs CUDA, DirectCompute,OpenCL™, OpenACC

TESLA V100 | DATA ShEET | MAR18

CPU Server: Dual Xeon Gold [email protected], GPU Servers: same CPU server w/ 4x V100 PCIe | CUDA Version: CUDA 9.x| Dataset: NAMD (STMV), GTC (mpi#proc.in), MILC (APEX Medium), SPECFEM3D (four_material_simple_model ) | To arrive at CPU node equivalence, we use measured benchmark with up to 8 CPU nodes. Then we use linear scaling to scale beyond 8 nodes.

1 GPU Node Replaces Up To 54 CPU NodesNode Replacement: HPC Mixed Workload

# of CPU-Only Nodes

Physics(GTC)

0 4020 60

Geo Science(SPECFEM3D)

Physics(MILC)

Life Science(NAMD)

14

17

32

54

Workload: ResNet-50 | CPU: 1X Xeon E5-2690v4 @ 2.6GHz | GPU: add 1X NVIDIA® Tesla® P100 or V100

Tesla V100

Tesla P100

1X CPU

0 20X 50X40X10X 30X

Performance Normalized to CPU

47X Higher Throughput than CPU Server on Deep Learning Inference

15X

47X

Time to Solution in HoursLower is Better

12 16840

8X V100

8X P10015.5 Hours

5.1 Hours

Server Config: Dual Xeon E5-2699 v4 2.6GHz | 8X Tesla P100 or V100 | ResNet-50 Training on MXNet for 90 Epochs with 1.28M ImageNet dataset.

Deep Learning Training in Less Than a Workday

Page 2: NVIDIA TESLA V100 GPU ACCELERATOR · 2019-02-21 · nvidia tesla v100 . gpu accelerator. 가장 진보된 데이터 센터 gpu. nvidia tesla v100은 ai, hpc 및 graphic 가속을

© 2018 NVIDIA Corporation. All rights reserved. NVIDIA, the NVIDIA logo, Tesla, NVIDIA GPU Boost, CUDA, and NVIDIA Volta are trademarks and/or registered trademarks of NVIDIA Corporation in the U.S. and other countries. OpenCL is a trademark of Apple Inc. used under license to the Khronos Group Inc. All other trademarks and copyrights are the property of their respective owners. MAr18

To learn more about the Tesla V100 visit www.nvidia.com/v100

GROUNDBREAKING INNOVATIONSTENSOR CORE640 개의 Tensor 코어가 장착된 Tesla V100은 125 TeraFLOPS의 딥러능 성능을 제공합니다. 이는 Pascal GPU와 비교시, DL 트레이닝의 경우 12X Tensor FLOPS 및 DL 추론시 6X Tensor FLOPS입니다.

HBM2900GB/s의 개선된 대역폭과 95 %의 높은 DRAM 이용 효율을 결합한 Tesla V100은 Pascal GPU보다 STREAM 측정시 1.5배 더 높은 메모리 대역폭을 제공합니다. Tesla V100은 현재 표준 16GB 제품의 메모리를 두 배로 늘려 32GB 구성으로 제공됩니다.

VOLTA ARCHITECTURE통합아키텍처내에서 CUDA 코어와 Tensor 코어를 페어링함으로써 Tesla V100 GPU를 장착한 단일 서버는 기존의 HPC 및 Deep Learning을 위한 수백 개의 범용 CPU 서버를 대체 할 수 있습니다.

MAXIMUMEFFICIENCY MODE새로운 최대 효율 모드를 통해 데이터 센터는 기존 전력 예산 내에서 랙당 최대 40% 더 높은 컴퓨 팅 성능에 도달 할 수 있습니다. 이 모드에서 Tesla V100은 최대프로세스 효율로 동작되며, 절반의 전력 소비로 최대 80%의 성능을 제공합니다.

NEXT GENERATION NVLINK Tesla V100의 NVIDIA NVLink는 이전 세대에 비해 2배 높은 처리량을 제공합니다. 최대 8 개의 Tesla V100 가속기를 최대300GB/s로 상호 연결하여 단일 서버에서 가능한 최고의 응용 프로그램 성능을 발휘할 수 있습니다.

PROGRAMMABILITYTesla V100은 처음부터 프로그래밍 기능을 단순화하기 위해 설계되었습니다. 새로운 독립적인 스레드 스케줄링을 통해 finer-grain 동기화가 가능하며 소규모 작업간에 리소스를 공유함으로써 GPU 활용도가 향상되었습니다.

Tesla V100은 딥러닝, HPC 및 그래픽을위한 테슬라 데이터 센터 컴퓨팅 플랫폼의 주력 제품입니다. Tesla 플랫폼은 550 가지 이상의 HPC 애플리케이션과 모든 주요 학습 프레임 워크를 가속화합니다. 데스크톱에서 서버, 클라우드 서비스에 이르기까지 모든 곳에서 사용할 수 있으므로 성능이 크게 향상되고 비용을 절감 할 수 있습니다.

C

EVERY DEEP LEARNING FRAMEWORK 550+ GPU-ACCELERATED APPLICATIONS

HPC HPCAMBERAMBER ANSYS FluentANSYS Fluent

HPC GAUSSIANGAUSSIAN HPC GROMACSGROMACS

HPC HPCLS-DYNALS-DYNA NAMDNAMD

HPC HPCOpenFOAMOpenFOAMHPC HPC Simulia AbaqusSimulia Abaqus

VASPVASPHPC HPC WRFWRF