Инструментарий Nvidia для deep learning

Антон Джораев, adzhoraev@nvidia.com

РЕШЕНИЯ NVIDIA ДЛЯDEEP LEARNING

Искусственный интеллектКомпьютерная графикаВычисления на GPU

NVIDIA“THE AI COMPUTING COMPANY”

GPU NVIDIA В

МОЩНЕЙШИХ

СУПЕРКОМПЬЮТЕРАХ

МИРА РАБОТАЮТ НА

РАЗВИТИЕ НАУКИ И

ИСКУССТВЕННОГО

ИНТЕЛЛЕКТА

ISC KEYNOTE: HPC AND AI

“Investments in computer systems — and I think the

bleeding-edge of AI, and deep learning specifically,

is shifting to HPC — can cut down the time to run an

experiment, and therefore go around the circle,

from a week to a day and sometimes even faster.”

— Andrew Ng, Baidu

“…deep learning and cognitively enabled applications

are driving large-scale high-performance computing

(HPC) projects that are heavier on GPUs. IDC expects

major advances and potential large build-outs…”

— IDC

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ ПОВСЮДУ

“где я припарковал машину?”

“найти сумку которую я только что видел в журнале”

“какой следующий фильм мне посмотреть?”

ВЛИЯЕТ НА НАШУ ЖИЗНЬ

Сводит родные души ломая языковые барьеры

Указывает на предрасположенность к заболеваниям чтобы их избежать

Позволяет незрячим видеть мир, читать эмоции собеседников

ДВИЖЕТ РАЗВИТИЕ ВСЕХ ОТРАСЛЕЙ

Видеоаналитика увеличивает безопасность в ТЦ, аэропортах…

Интеллектуальные сервисы и в отелях, банках, магазинах

На 90% снижает расход химикатов в сельском хозяйстве

2010 2011 2012 2013 2014 2015

МАССОВАЯ АДАПТАЦИЯБЛАГОДАРЯ СВЕРХЧЕЛОВЕСКИМ

РЕЗУЛЬТАТАМ

Глубокое обучение

ImageNet — точность %

Облачные сервисы, использующие ИИ, на базе NVIDIA

Alibaba/Aliyun Amazon Baidu eBay Facebook

Flickr Google iFLYTEK iQIYI JD.com

Orange Periscope Pinterest Qihoo 360 Shazam

Skype Sogou Twitter Yahoo Supermarket Yandex YelpЗапрограммированные детекторы

Человек

74%76%

РАСПОЗНАВАНИЕ ДОРОЖНЫХ ЗНАКОВ

Человек способен распознать 98.81%

Глубокая нейронная сеть 99.17%

The German Traffic Sign Recognition Benchmark

ДЛЯ DEEP LEARNING НУЖЕН ДРУГОЙ ЦOД

ОБУЧЕНИЕ НЕЙРОСЕТИ

ПРИМЕНЕНИЕ НЕЙРОСЕТИ

Данные и пользователи

Масштабируемая производительность

Эффективность и пропускная способность

Миллиарды TFLOPS на цикл обучения

Годы вычислений на Xeon CPU

GPU превращают годы в дни

Миллиарды TFLOPS для inference

Секунды на ответ с Xeon CPU

GPU для мгновенной реакции

ПЛАТФОРМА NVIDIA ДЛЯ DEEP LEARNING

NVIDIA DEEP LEARNING SDK

РАЗРАБОТКА С DIGITS TensorRT

ОБУЧЕННАЯ МОДЕЛЬ

НАБОР ДАННЫХ

ДЛЯ ОБУЧЕНИЯ

ОБУЧЕНИЕ

УПРАВЛЕНИЕ ДАННЫМИ

ОЦЕНКА МОДЕЛИ

EMBEDDED

AUTOMOTIVE

DATA CENTER

0 50 100 150 200 250 300

1x CPU (14 cores)

Время исполнения inference (мс)

11 мс

6 мс

Пользовательский опыт: мгновенный ответPascal + TensorRT в 45 раз быстрее

Интеллектуальные сервисы вроде распознавания голоса или перевода речи работают быстрее.Эффективный inference на изображениях, видео и др. данных в production ЦОД.

Based on VGG-19 from IntelCaffe Github: https://github.com/intel/caffe/tree/master/models/mkl2017_vgg_19CPU: IntelCaffe, batch size = 4, Intel E5-2690v4, using Intel MKL 2017 | GPU: Caffe, batch size = 4, using TensorRT internal version

NVIDIA TensorRTВысокопроизводительный фреймворк для Inference

260 мс

40x Efficient vs CPU, 8x Efficient vs FPGA

AlexNet

CPU FPGA 1x M4 (FP32) 1x P4 (INT8)

Images/

Максимальная эффективность для масштабируемых серверов

# of CUDA Cores 2560

Peak Single Precision 5.5 TeraFLOPS

Peak INT8 22 TOPS

Low Precision4x 8-bit vector dot product

with 32-bit accumulate

Video Engines 1x decode engine, 2x encode engine

GDDR5 Memory 8 GB @ 192 GB/s

Power 50W & 75 W

AlexNet, batch size = 128, CPU: Intel E5-2690v4 using Intel MKL 2017, FPGA is Arria10-1151x M4/P4 in node, P4 board power at 56W, P4 GPU power at 36W, M4 board power at 57W, M4 GPU power at 39W, Perf/W chart using GPU power

TESLA P4

TESLA P40

# of CUDA Cores 3840

Peak Single Precision 12 TeraFLOPS

Peak INT8 47 TOPS

Low Precision4x 8-bit vector dot product

with 32-bit accumulate

Video Engines 1x decode engine, 2x encode engines

GDDR5 Memory 24 GB @ 346 GB/s

Power 250W

20 000

40 000

60 000

80 000

100 000

GoogLeNet AlexNet

8x M40 (FP32) 8x P40 (INT8)

Images/

4x Boost in Less than One Year

GoogLeNet, AlexNet, batch size = 128, CPU: Dual Socket Intel E5-2697v4

Максимальная пропускная способность для масштабируемых серверов

P40/P4: INFERENCE-ИНСТРУКЦИИ “INT8”

• Операция Integer 8-bit Dot Product with 32-bit accumulate

• Поддерживаются только на P40/P4

A0A1A2A3

B0B1B2B3

A0 * B0

A1 * B1

A2 * B2

A3 * B3

4x INT8

intermediate

INT32C

ПРОДУКТ ТОЧНОСТЬ INFERENCE TOPS*

M4 FP32 2.2

M40 FP32 7

P100 FP16 21.2

P4 INT8 22

P40 INT8 47

*TOPS = Tera-Operations per second, base on boost clocks

Jetson TX1

JETSON TX1

GPU 1 TFLOP/s 256-core Maxwell

CPU 64-bit ARM A57 CPUs

Memory 4 GB LPDDR4 | 25.6 GB/s

Video decode 4K 60Hz

Video encode 4K 30Hz

CSI Up to 6 cameras | 1400 Mpix/s

Display 2x DSI, 1x eDP 1.4, 1x DP 1.2/HDMI

Wifi 802.11 2x2 ac

Networking 1 Gigabit Ethernet

PCIE Gen 2 1x1 + 1x4

Storage 16 GB eMMC, SDIO, SATA

Other 3x UART, 3x SPI, 4x I2C, 4x I2S, GPIOs

Jetson TX1 Developer Kit

NVIDIA DEEPSTREAM SDKРеализация видео-аналитики в масштабе

Inference

PreprocessHardware Decode

“Boy playing soccer”

Простой, высокопроизводительный API для видео-аналитики

Decode H.264, HEVC, MPEG-2, MPEG-4, VP9

Исполняемый на CUDA resize and scale

TensorRT

1x Tesla P4 Server +DeepStream SDK

13x E5-2650 v4 Servers

Количеств

ото

ков в

идео

Параллельная обработка видео-потоков

720p30 decode | IntelCaffe using dual socket E5-2650 v4 CPU servers, Intel MKL 2017Based on GoogLeNet optimized by Intel: https://github.com/intel/caffe/tree/master/models/mkl2017_googlenet_v2

P100 ДЛЯ САМОГО БЫСТРОГО ОБУЧЕНИЯ

M40 MAXWELL P40 PASCAL P100 PASCAL

FP16 / FP32 (TFLOPs)

NA / 7 NA / 12 21.2 / 10.6

Register File 6 MB 7.5 MB 14 MB

Memory BW 288 GB/s 346 GB/s 732 GB/s

Chip-Chip BW 32 GB/s (PCIE) 32 GB/s (PCIE)160 GB/s (NVLINK)

+ 32 GB/s (PCIE)

Mem Size (Max DL model size)

24 GB 24 GB 16GB x 8 (Model Parallel)

NVIDIA DGX-1Суперкомпьютер из коробки для ИИ

170 TFLOPS | 8x Tesla P100 16GB | NVLink Hybrid Cube Mesh

2x Xeon | 8 TB RAID 0 | Quad IB 100Gbps, Dual 10GbE | 3U — 3200W

Производительность здесь и сейчас — plug-and-play, поддержка всех фреймворков глубокого обучения

Оптимизация всех компонетов решения для максимальной производителности

Постоянные обновления из облака

Поддержка нескольких, одновременно работающих фреймворков, благодаря контейнеризации

Доступ к экспертам NVIDIA

ПРОГРАММНЫЙ СТЕК DGXПолностью интегрированная платформа для глубокого обучения

ПЛАТФОРМА TESLA ДЛЯ DEEP LEARNING

ОБУЧЕНИЕ INFERENCE

Система для обучения DIGITS

Deep Learning фреймворки

Tesla P100

DeepStream SDK

TensorRT

Tesla P40 & Tesla P4

ПОРТАЛ ДЛЯ РАЗРАБОТЧИКОВ

http://developer.nvidia.com

Место размещения всех инструментов, руководств и др.ресурсов

ЛЕКЦИЯ/МАСТЕР-КЛАСС ПО DL В МГУ И МФТИ

adzhoraev@nvidia.com

Антон Джораев

Напишите мне, я вышлю приглашение, участие свободное

Антон Джораев, adzhoraev@nvidia.com

РЕШЕНИЯ NVIDIA ДЛЯDEEP LEARNING

Инструментарий Nvidia для deep learning

Technology

NVIDIA DEEP LEARNING INSTITUTE · >>Deep Learning Workflows with TensorFlow, MXNet, and NVIDIA-Docker >>Image Segmentation with TensorFlow >>Image Classification with Microsoft Cognitive

NVIDIA Deep Learning Institute 2017 基調講演

NVIDIA AI Inference Platform Technical Overview · 2018-10-09 · complex problems in deep learning, and while the NVIDIA deep learning platform is the standard industry solution

NVIDIA GPUs on OpenShift Deep Learning Workloads with · Deep Learning Workloads with NVIDIA GPUs on OpenShift 28 October, 2019 Mayur Shetty Senior Solutions Architect, Red Hat Mehnaz

Программирование для GPU с использованием NVidia CUDA

NVIDIA DGX-1 ARTIFIcIAL INTELLIGENcE SYSTEM · 2019. 1. 6. · DEEP LEARNING LIBRARIES NVIDIA cuDNN and NCCL DEEP LEARNING USER SOFTWARE NVIDIA® DIGITS™ ACCELERATED SOLUTIONS CONTAINERIZATION

DEEP LEARNING INTRODUCTION - NVIDIA Developer

THE NVIDIA DEEP LEARNING ACCELERATOR · 2018-08-19 · Encourage Deep Learning applications Invite contributions from the community ... ©2018 NVIDIA CORPORATION ©2018 NVIDIA CORPORATION

NVIDIA DEEP LEARNING INSTITUTE · >>Fundamentals of Deep Learning for Multiple Data Types AUTONOMOUS VEHICLES >>Deep Learning for Autonomous Vehicles – Perception GAME DEVELOPMENT

Deep Visual Learning on Hypersphere - Nvidia

Deep Learning at Scale on NVIDIA V100 Accelerators...Deep Learning at Scale on NVIDIA V100 Accelerators Rengan Xu, Frank Han and Quy Ta AI Engineering, Server and Infrastructure Systems

DEEP LEARNING WITH GPUS - Nvidiaimages.nvidia.com/EMEAI/pdfs/ECS-Israel-2014/Maxim-Deep... · 2014-11-20 · 14 GPU Tesla K40 and Tegra K1 NVIDIA Tesla K40 NVIDIA Jetson TK1 CUDA

NVIDIA Deep Learning SDK NVIDIA Deep Learning SDK DA-08640-001_v01 | 1 Chapter 1. INTRODUCTION The NVIDIA Deep Learning SDK provides powerful tools and …

Deep Learning and Beyond - Nvidia · BEYOND DEEP LEARNING Opportunities to Accelerate Data Science Deep Learning Machine Learning (Regressions, Decision Trees, Graph) Analytics MACHINE

NVIDIA Containers For Deep Learning Frameworks · 2020-01-27 · Docker Containers NVIDIA Containers For Deep Learning Frameworks DU-08518-001_v001 | 2 that are not affected by the

The NVIDIA DGX-1 Deep Learning System - One Stop SystemsSupercharge Deep Learning Performance The NVIDIA DGX-1 software stack includes major deep learning frameworks, the NVIDIA Deep

DEEP LEARNING WITH NVIDIA GPUS LEARNING WITH NVIDIA GPUS . 2 ... Deep Neural Network “watches” human drivers , ... Software Systems Hardware cuDNN DIGITS DevBox Titan X Tesla

DGXUPDATE - NVIDIA...NVIDIA Docker GPU DRIVER NVIDIA Driver SYSTEM Host OS Advantages: Instant productivity with NVIDIA optimized deep learning frameworks Caffe, CNTK, MXNet, PyTorch,

Антон Джораев, NVIDIA - old.kpfu.ruold.kpfu.ru/inf/bin_files/dzhoraev-nvidia!28.pdf · CUDA для параллельных ... Maxwell equation solver ... ANSYS Mechanical

The NVIDIA DGX-1 Deep Learning System · 2019-02-21 · The NVIDIA DGX-1 Deep Learning System Author: NVIDIA Corporation Subject: A fully integrated and accelerated Deep Learning