英伟达的AI技术及AI应用普及实践

英伟达的AI技术及AI应用普及实践

展开查看详情

1. 区 术 cn 社 技 g. 能 cu 智 ai 工 . ww 侯宇涛 英伟达GPU应用市场总监 G人 wahou@nvidia.com 13801005536 CU AI

2. 区 术 cn 社 技 g. 英伟达公司的AI计算加速技术: 能 cu • Tensorcore,TensorRT,DeepStream 智 ai 工 . ww 英伟达公司的AI技术普及的实践: G人 w • GauGan,Jetbot CU AI 1

3. 区 术 cn 社 技 g. 英伟达公司的AI计算加速技术: 能 cu • Tensorcore,TensorRT,DeepStream 智 ai 工 . ww 英伟达公司的AI技术普及的实践: G人 w • GauGan,Jetbot CU AI 2

4. RISE OF NVIDIA GPU COMPUTING 区 术 cn 社 技 g. 能 cu 107 GPU-Computing perf FLOPS/ Transistor 1.5X per year 1000x By 智 ai 6000 2025 1.1X per year 105 工 . 4000 ww 2000 103 0 Kepler Maxwell G人 w Pascal Volta Single-threaded perf 1.5X per year 1980 1990 2000 2010 2020 CUDA – Domain Specific Computing Architecture 40 Years of CPU Trend Data CU 10X in 5 Years AI Original data up to the year 2010 collected and plotted by M. Horowitz, F. Labonte, O. Shacham, K. Olukotun, L. Hammond, and C. Batten New plot and data collected for 2010-2015 by K. Rupp 3

5. NVIDIA DATA CENTER PLATFORM Single Platform Drives Utilization and Productivity 区 术 cn 社 技 g. CUSTOMER USE CASES Molecular Weather Seismic Creative & Knowledge Speech Translate Recommender Healthcare Manufacturing Finance 能 cu Simulations Forecasting Mapping Technical Workers CONSUMER INTERNET & INDUSTRY APPLICATIONS SCIENTIFIC APPLICATIONS VIRTUAL GRAPHICS 智 ai APPS & Amber 工 . +600 FRAMEWORKS NAMD ww Applications CUDA-X & MACHINE LEARNING G人 w DEEP LEARNING HPC VIRTUAL GPU cuDF cuML cuDNN cuGRAPH cuDNN CUTLASS TensorRT OpenACC cuFFT vDWS vPC vAPPS NVIDIA SDKs CU CUDA & CORE LIBRARIES - cuBLAS | NCCL AI TESLA GPUs & SYSTEMS TESLA GPU NVIDIA DGX FAMILY NVIDIA HGX EVERY OEM EVERY MAJOR CLOUD 4

6.TESLA V100 区 术 cn TENSOR CORE GPU 社 技 g. World’s Most Advanced Data Center GPU 能 cu 智 ai 5,120 CUDA cores 640 NEW Tensor cores 工 . 7.8 FP64 TFLOPS | 15.7 FP32 TFLOPS ww | 125 Tensor TFLOPS 20MB SM RF | 16MB Cache 32 GB HBM2 @ 900GB/s | 300GB/s NVLink G人 w CU AI 5

7.TESLA PLATFORM ENABLES DRAMATIC REDUCTION IN TIME TO TRAIN 区 术 cn 社 技 g. Relative Time to Train Improvements (ResNet-50) 能 cu At scale 智 ai 14 Minutes 256x V100 工 . DGX-1 4 Hours 8x V100 ww Single Node 30 Hours G人 w 1X V100 Single Node 4.8 Days 1X P100 2x CPU 25 Days CU 0 20 40 60 80 100 120 140 AI 6 ResNet-50, 90 epochs to solution | CPU Server: dual socket Intel Xeon Gold 6140

8. 极具突破性的推理性能 区 Tesla T4 引入革命性的 Turing Tensor Core 技术,具备人工智能推理的多精度计算性能。 术 cn 社 从 FP32 到 FP16 再到 INT8,又到 INT4 精度,T4 的性能比 CPU 高出 40 倍,实现性能的重大 技 g. 突破。 能 cu 智 ai 工 . ww G人 w CU AI 7

9. TensorRT 区 NVIDIA TensorRT™是一种高性能深度学习推理优化器和运 术 cn 社 行时加速库,可为深度学习推理应用程序提供低延迟和高 技 g. 吞吐量。 使用TensorRT,可以优化神经网络模型,以高精 度校准低精度,最后将模型部署到超大规模数据中心,嵌 能 cu 入式或汽车产品平台。 智 ai 1. 对于MLP和RNN的新层,与CPU相比,吞吐量提高了45倍 工 . ww 2. 在TensorRT中使用ONNX解析器导入的ONNX模型,V100与CPU 的推理性能提高50倍 G人 w 3. 支持NVIDIA DRIVE™ Xavier - AI Computer for Autonomous Vehicles 4. 使用API在Volta Tensor Core上运行, FP16自定义层的推 CU 理加速达到3倍以上 AI 8

10. AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn TensorRT Video 社 区 9

11. DeepStream 区 术 cn NVIDIA DeepStream SDK 是为大规模创建何部署基于视频分析应用程序解决方案而设计 社 技 g. 的,它提供完整的框架和所有基本的构建模块 能 cu • Gstreamer 智 ai • TensorRT 工 . ww G人 w CU AI 10

12. 区 术 cn 社 技 g. 英伟达公司的AI计算加速技术: 能 cu • Tensorcore,TensorRT,DeepStream 智 ai 工 . ww 英伟达公司的AI技术普及的实践: G人 w • GauGan,Jetbot CU AI 11 11

13. AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 区 12

14. AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 区 13

15. AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 区 14

16.JETSON NANO DEVELOPER KIT JETSON NANO MODULE 区 术 cn 社 Small, low-power AI Computer 技 g. 128 CUDA Cores | 4 Core CPU 能 cu 4 GB Memory 智 ai 472 GFLOPs 工 . 70x45mm ww 5W | 10W G人 w CU AI 15

17. AI CU G人 w ww 工 . 智 ai 能 cu sample 技 g. 术 cn 社 区 16

18. AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 区 DEEPSTREAM ON JETSON NANO 17

19. JETSON NANO RUNS MODERN AI 区 术 cn 社 技 g. Inference 50 能 cu 40 智 ai 30 工 . ww 20 Img/sec 10 G人 w 0 CU D… D… D… et 19 50 se lo v4 n tio Yo Un Po G- et n SS SS SS lu io sn en VG ny so pt Re Op Ti re ce In AI r pe Su TensorFlow PyTorch MxNet TensorFlow TensorFlow TensorFlow Darknet Caffe Not supported/Does PyTorch notCaffe run Coral dev board (Edge TPU) Raspberry Pi 3 + Intel Neural Compute Stick 2 Jetson Nano Not supported/DNR 18

20. 区 智能小车Jetbot框架图 术 cn 社 技 g. Power supply Communication 能 cu USB 智 ai Motor 1 工 . ww Motor I2C Nano CSI camera Driver G人 w (CPU+GPU) Motor 2 CU AI Chassis 19

21.实验平台介绍 安装简单 区 术 cn • 社 技 g. 1. 软件:https://drive.google.com/open?id=1GF2D814hkViwluZ5SgNKW56cQu_5Ekt5 能 cu 2. 电控部件 智 ai 1)英伟达 NANO开发板 工 . 电机及驱动模组 ww 2) 摄像头 Raspberry Pi Camera V2:(链接) G人 w 3) 4)无线路由 TP-WR702N:(链接) 5)迷你显示板:(链接) CU 6)整车电源(链接) AI 3. 车架部件(链接) 20

22. Jetbot 软件环境搭建 安装简单 区 • 术 cn 社 技 g. jetbot_image_v0p3p2.zip 能 cu 智 ai GPU Driver 工 . 1. ww 2. CUDA G人 w 3. 4. OpenCV TensorFlow 5. PyTorch CU 6. TensorRT Jupyter Notebook AI 7. 21

23. 区 Jetbot 代码实验环境 Jupyter Notebook 术 cn PDF file 社 技 g. 能 cu 智 ai 工 . ww G人 w CU AI 22

24. AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 区 23

25. AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 区 24

26. AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 区 25

27. AI CU G人 w ww 工 . 智 ai 能 cu 技 g. 术 cn 社 区 26

28. 电机驱动模组 区 术 cn 社 • 4 full H-Bridges: the TB6612 chipset provides 1.2A per bridge with thermal shutdown protection, internal kickback protection diodes. Can run motors on 4.5VDC to 13.5VDC. 技 g. • Up to 4 bi-directional DC motors with individual 12-bit speed selection (so, about 0.02% resolution) 能 cu • Up to 2 stepper motors (unipolar or bipolar) with single coil, double coil, interleaved or micro-stepping. • Motors automatically disabled on power-up 智 ai 工 . ww G人 w CU AI 27

29. 电机 区 术 cn 减速电机:降低电机速度,一般用在增加输出扭矩 社 调速电机:通过调速器可以改变电机的速度 技 g. 步进电机:位置控制 能 cu 智 ai TT直流减速电机的 工 . • 传动比为1:0.48, ww 3VDC到6VDC驱动 G人 w • • 120~250 RPM • 1.1~1.5 AMPS CU AI 28