View
200
Download
0
Category
Preview:
Citation preview
Антон Джораев, adzhoraev@nvidia.com
РЕШЕНИЯ NVIDIA ДЛЯDEEP LEARNING
2
Искусственный интеллектКомпьютерная графикаВычисления на GPU
NVIDIA“THE AI COMPUTING COMPANY”
3
GPU NVIDIA В
МОЩНЕЙШИХ
СУПЕРКОМПЬЮТЕРАХ
МИРА РАБОТАЮТ НА
РАЗВИТИЕ НАУКИ И
ИСКУССТВЕННОГО
ИНТЕЛЛЕКТА
4
ISC KEYNOTE: HPC AND AI
“Investments in computer systems — and I think the
bleeding-edge of AI, and deep learning specifically,
is shifting to HPC — can cut down the time to run an
experiment, and therefore go around the circle,
from a week to a day and sometimes even faster.”
— Andrew Ng, Baidu
“…deep learning and cognitively enabled applications
are driving large-scale high-performance computing
(HPC) projects that are heavier on GPUs. IDC expects
major advances and potential large build-outs…”
— IDC
5
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ ПОВСЮДУ
“где я припарковал машину?”
“найти сумку которую я только что видел в журнале”
“какой следующий фильм мне посмотреть?”
6
ВЛИЯЕТ НА НАШУ ЖИЗНЬ
Сводит родные души ломая языковые барьеры
Указывает на предрасположенность к заболеваниям чтобы их избежать
Позволяет незрячим видеть мир, читать эмоции собеседников
7
ДВИЖЕТ РАЗВИТИЕ ВСЕХ ОТРАСЛЕЙ
Видеоаналитика увеличивает безопасность в ТЦ, аэропортах…
Интеллектуальные сервисы и в отелях, банках, магазинах
На 90% снижает расход химикатов в сельском хозяйстве
8
72%
74%
84%
88%
93%
96%
2010 2011 2012 2013 2014 2015
МАССОВАЯ АДАПТАЦИЯБЛАГОДАРЯ СВЕРХЧЕЛОВЕСКИМ
РЕЗУЛЬТАТАМ
Глубокое обучение
ImageNet — точность %
Облачные сервисы, использующие ИИ, на базе NVIDIA
Alibaba/Aliyun Amazon Baidu eBay Facebook
Flickr Google iFLYTEK iQIYI JD.com
Orange Periscope Pinterest Qihoo 360 Shazam
Skype Sogou Twitter Yahoo Supermarket Yandex YelpЗапрограммированные детекторы
Человек
74%76%
9
РАСПОЗНАВАНИЕ ДОРОЖНЫХ ЗНАКОВ
Человек способен распознать 98.81%
Глубокая нейронная сеть 99.17%
The German Traffic Sign Recognition Benchmark
10
ДЛЯ DEEP LEARNING НУЖЕН ДРУГОЙ ЦOД
ОБУЧЕНИЕ НЕЙРОСЕТИ
ПРИМЕНЕНИЕ НЕЙРОСЕТИ
Данные и пользователи
Масштабируемая производительность
Эффективность и пропускная способность
Миллиарды TFLOPS на цикл обучения
Годы вычислений на Xeon CPU
GPU превращают годы в дни
Миллиарды TFLOPS для inference
Секунды на ответ с Xeon CPU
GPU для мгновенной реакции
11
ПЛАТФОРМА NVIDIA ДЛЯ DEEP LEARNING
NVIDIA DEEP LEARNING SDK
РАЗРАБОТКА С DIGITS TensorRT
ОБУЧЕННАЯ МОДЕЛЬ
НАБОР ДАННЫХ
ДЛЯ ОБУЧЕНИЯ
ОБУЧЕНИЕ
УПРАВЛЕНИЕ ДАННЫМИ
ОЦЕНКА МОДЕЛИ
EMBEDDED
AUTOMOTIVE
DATA CENTER
12
0 50 100 150 200 250 300
P40
P4
1x CPU (14 cores)
Время исполнения inference (мс)
11 мс
6 мс
Пользовательский опыт: мгновенный ответPascal + TensorRT в 45 раз быстрее
Интеллектуальные сервисы вроде распознавания голоса или перевода речи работают быстрее.Эффективный inference на изображениях, видео и др. данных в production ЦОД.
Based on VGG-19 from IntelCaffe Github: https://github.com/intel/caffe/tree/master/models/mkl2017_vgg_19CPU: IntelCaffe, batch size = 4, Intel E5-2690v4, using Intel MKL 2017 | GPU: Caffe, batch size = 4, using TensorRT internal version
NVIDIA TensorRTВысокопроизводительный фреймворк для Inference
260 мс
13
40x Efficient vs CPU, 8x Efficient vs FPGA
0
50
100
150
200
AlexNet
CPU FPGA 1x M4 (FP32) 1x P4 (INT8)
Images/
Sec/W
att
Максимальная эффективность для масштабируемых серверов
P4
# of CUDA Cores 2560
Peak Single Precision 5.5 TeraFLOPS
Peak INT8 22 TOPS
Low Precision4x 8-bit vector dot product
with 32-bit accumulate
Video Engines 1x decode engine, 2x encode engine
GDDR5 Memory 8 GB @ 192 GB/s
Power 50W & 75 W
AlexNet, batch size = 128, CPU: Intel E5-2690v4 using Intel MKL 2017, FPGA is Arria10-1151x M4/P4 in node, P4 board power at 56W, P4 GPU power at 36W, M4 board power at 57W, M4 GPU power at 39W, Perf/W chart using GPU power
TESLA P4
14
TESLA P40
P40
# of CUDA Cores 3840
Peak Single Precision 12 TeraFLOPS
Peak INT8 47 TOPS
Low Precision4x 8-bit vector dot product
with 32-bit accumulate
Video Engines 1x decode engine, 2x encode engines
GDDR5 Memory 24 GB @ 346 GB/s
Power 250W
0
20 000
40 000
60 000
80 000
100 000
GoogLeNet AlexNet
8x M40 (FP32) 8x P40 (INT8)
Images/
Sec
4x Boost in Less than One Year
GoogLeNet, AlexNet, batch size = 128, CPU: Dual Socket Intel E5-2697v4
Максимальная пропускная способность для масштабируемых серверов
15
P40/P4: INFERENCE-ИНСТРУКЦИИ “INT8”
• Операция Integer 8-bit Dot Product with 32-bit accumulate
• Поддерживаются только на P40/P4
A0A1A2A3
B0B1B2B3
A0 * B0
A1 * B1
A2 * B2
A3 * B3
4x INT8
4x INT8
INT32
intermediate
INT32
intermediate
INT32
intermediate
INT32
intermediate
INT32C
INT32
ПРОДУКТ ТОЧНОСТЬ INFERENCE TOPS*
M4 FP32 2.2
M40 FP32 7
P100 FP16 21.2
P4 INT8 22
P40 INT8 47
*TOPS = Tera-Operations per second, base on boost clocks
17
Jetson TX1
JETSON TX1
GPU 1 TFLOP/s 256-core Maxwell
CPU 64-bit ARM A57 CPUs
Memory 4 GB LPDDR4 | 25.6 GB/s
Video decode 4K 60Hz
Video encode 4K 30Hz
CSI Up to 6 cameras | 1400 Mpix/s
Display 2x DSI, 1x eDP 1.4, 1x DP 1.2/HDMI
Wifi 802.11 2x2 ac
Networking 1 Gigabit Ethernet
PCIE Gen 2 1x1 + 1x4
Storage 16 GB eMMC, SDIO, SATA
Other 3x UART, 3x SPI, 4x I2C, 4x I2S, GPIOs
18
Jetson TX1 Developer Kit
19
NVIDIA DEEPSTREAM SDKРеализация видео-аналитики в масштабе
Inference
PreprocessHardware Decode
“Boy playing soccer”
Простой, высокопроизводительный API для видео-аналитики
Decode H.264, HEVC, MPEG-2, MPEG-4, VP9
Исполняемый на CUDA resize and scale
TensorRT
0
20
40
60
80
100
1x Tesla P4 Server +DeepStream SDK
13x E5-2650 v4 Servers
Количеств
о п
ото
ков в
идео
Параллельная обработка видео-потоков
720p30 decode | IntelCaffe using dual socket E5-2650 v4 CPU servers, Intel MKL 2017Based on GoogLeNet optimized by Intel: https://github.com/intel/caffe/tree/master/models/mkl2017_googlenet_v2
20
P100 ДЛЯ САМОГО БЫСТРОГО ОБУЧЕНИЯ
M40 MAXWELL P40 PASCAL P100 PASCAL
FP16 / FP32 (TFLOPs)
NA / 7 NA / 12 21.2 / 10.6
Register File 6 MB 7.5 MB 14 MB
Memory BW 288 GB/s 346 GB/s 732 GB/s
Chip-Chip BW 32 GB/s (PCIE) 32 GB/s (PCIE)160 GB/s (NVLINK)
+ 32 GB/s (PCIE)
Mem Size (Max DL model size)
24 GB 24 GB 16GB x 8 (Model Parallel)
21
NVIDIA DGX-1Суперкомпьютер из коробки для ИИ
170 TFLOPS | 8x Tesla P100 16GB | NVLink Hybrid Cube Mesh
2x Xeon | 8 TB RAID 0 | Quad IB 100Gbps, Dual 10GbE | 3U — 3200W
22
Производительность здесь и сейчас — plug-and-play, поддержка всех фреймворков глубокого обучения
Оптимизация всех компонетов решения для максимальной производителности
Постоянные обновления из облака
Поддержка нескольких, одновременно работающих фреймворков, благодаря контейнеризации
Доступ к экспертам NVIDIA
ПРОГРАММНЫЙ СТЕК DGXПолностью интегрированная платформа для глубокого обучения
23
ПЛАТФОРМА TESLA ДЛЯ DEEP LEARNING
ОБУЧЕНИЕ INFERENCE
Система для обучения DIGITS
Deep Learning фреймворки
Tesla P100
DGX-1
DeepStream SDK
TensorRT
Tesla P40 & Tesla P4
24
ПОРТАЛ ДЛЯ РАЗРАБОТЧИКОВ
http://developer.nvidia.com
Место размещения всех инструментов, руководств и др.ресурсов
25
ЛЕКЦИЯ/МАСТЕР-КЛАСС ПО DL В МГУ И МФТИ
adzhoraev@nvidia.com
Антон Джораев
Напишите мне, я вышлю приглашение, участие свободное
Антон Джораев, adzhoraev@nvidia.com
РЕШЕНИЯ NVIDIA ДЛЯDEEP LEARNING
Recommended