中国DPU行业发展白皮书

下载 7

石破天

发布于

482

人观看

#信息技术

前言

伴随着数据中心的高速发展，通信能力和计算能力成为数据中心基础设施中的两个重要的发展方向。随着网络传输带宽的增加，数据中心的计算资源被愈加复杂的基础设施操作所占据，使得业务处理遭遇瓶颈。DPU的提出背景就是应对数据中心的数据量和复杂性的指数级增长带来的性能瓶颈。DPU对数据中心来说，是通过更明细的分工来实现效率的提升、实现总体系统的成本最优化。
本白皮书内容共分4章内容，包括智能网卡的简介及趋势分析、DPU的简介及分析、 DPU产业分析及NVIDIA的DPU前景展望等。
第一章为智能网卡的简介及趋势分析。该章节介绍了智能网卡的发展背景，并与通用网卡的框架做对比，介绍了网卡及智能网卡的技术差别，对比了各种智能网卡不同实现的技术要点，分析了智能网卡发展的优劣势，引出了DPU在数据中心的发展。
第二章为DPU的简介及分析，介绍了DPU的发展背景和DPU的定义，对DPU介绍并分析了其优势和未来技术发展路径。并从NVIDIA BlueField-3 DPU产品技术特点、产业定位分析、技术优势分析、和技术对比等方面综合介绍了NVIDIA BlueField-3 DPU产品技术情况。
第三章为DPU的产业宏观分析，分别列举出目前市场上主流产品的产品技术特点，分析了DPU行业的市场竞争格局，概述了DPU应用市场的发展现状，研究了DPU行业的发展趋势，展望了数据中心的未来前景。
第四章为NVIDIA DPU的前景分析，从结构通用化、功能多样化、应用广泛化，场景丰富化四个方面对NVIDIA DPU的前景进行了相关分析与展望。

展开查看详情

1 . 2021 中国DPU行业发展白皮书赛迪顾问股份有限公司

2 .

3 .前言伴随着数据中心的高速发展，通信能力和计算能力成为数据中心基础设施中的两个重要的发展方向。随着网络传输带宽的增加，数据中心的计算资源被愈加复杂的基础设施操作所占据，使得业务处理遭遇瓶颈。DPU的提出背景就是应对数据中心的数据量和复杂性的指数级增长带来的性能瓶颈。DPU对数据中心来说，是通过更明细的分工来实现效率的提升、实现总体系统的成本最优化。本白皮书内容共分4章内容，包括智能网卡的简介及趋势分析、DPU的简介及分析、 DPU产业分析及NVIDIA的DPU前景展望等。第一章为智能网卡的简介及趋势分析。该章节介绍了智能网卡的发展背景，并与通用网卡的框架做对比，介绍了网卡及智能网卡的技术差别，对比了各种智能网卡不同实现的技术要点，分析了智能网卡发展的优劣势，引出了DPU在数据中心的发展。第二章为DPU的简介及分析，介绍了DPU的发展背景和DPU的定义，对DPU介绍并分析了其优势和未来技术发展路径。并从NVIDIA BlueField-3 DPU产品技术特点、产业定位分析、技术优势分析、和技术对比等方面综合介绍了NVIDIA BlueField-3 DPU产品技术情况。第三章为DPU的产业宏观分析，分别列举出目前市场上主流产品的产品技术特点，分析了DPU行业的市场竞争格局，概述了DPU应用市场的发展现状，研究了DPU行业的发展趋势，展望了数据中心的未来前景。第四章为NVIDIA DPU的前景分析，从结构通用化、功能多样化、应用广泛化，场景丰富化四个方面对NVIDIA DPU的前景进行了相关分析与展望。

4 .

5 .目录一、智能网卡简介和趋势分析 1 （一）智能网卡发展背景及技术简介 1 1.智能网卡发展背景 1 2.网卡及智能网卡技术简介 1 （二）智能网卡的优劣势分析 5 二、DPU简介及分析 7 （一）DPU发展背景与定义 7 1.DPU发展背景 7 2.DPU定义及综述 7 （二）DPU优势及发展趋势分析 8 1.DPU优势分析 8 2.DPU技术发展趋势分析 9 （三）NVIDIA BlueField-3 DPU产品定位及优势分析 10 1.BlueField-3 DPU产品简介 10 2.BlueField-3 DPU技术特点 12 3.BlueField-3 DPU产业地位分析 13 4.BlueField-3 DPU优势分析 13 （四）NVIDIA BlueField-3 DPU技术分析和技术对比 15 1.BlueField-3 DPU技术分析 15 2.智能网卡及DPU分析 19 三、DPU产业分析 21 （一）DPU产业宏观分析 21 1.DPU产业分析 21 2.DPU竞争格局 21 （二）DPU产业现状与趋势 25 1.DPU产业发展现状 25 2.DPU产业发展趋势 26 四、DPU前景分析 28

6 .图目录图1 网卡架构示意图 1 图2 智能网卡架构示意图 2 图3 智能网卡不同技术实现示意图 2 图4 智能网卡与DPU架构示意图 6 图5 DPU产品示意图 7 图6 DPU实现业务与基础设施的操作分离 8 图7 OpenShift部署DPU前后性能对比 9 图8 DPU和网络计算成为以数据为中心计算架构的核心 10 图9 NVIDIA DPU产品发展路线图 11 图10 BlueField-3 DPU产品示意图 11 图11 NVIDIA DOCA软件开发包 12 图12 BlueField-3 DPU实现无阻塞通信后的性能表现实例 14 图13 NVIDIA DOCA软件栈 15 图14 BlueField-3 DPU总体架构 16 图15 RDMA技术通过远程直接内存访问实现低延迟 17 图16 GPU-Direct RDMA技术示意图 17 图17 英特尔IPU概念图 24 图18 OCTEON 10系列DPU架构 25 图19 全球DPU市场规模 26 图20 中国DPU市场规模 27 表目录表1 智能网卡不同技术实现参数对比 3 表2 网卡与智能网卡性能参数对比 3 表3 BlueField DPU系列的优势 10 表4 BlueField-3 DPU解决网络高速传输数据安全瓶颈 13 表5 BlueField-2和BlueField-3 DPU技术指标对比 14 表6 智能网卡和DPU对比分析 20 表7 DPU竞争格局 22

7 . 2021中国DPU行业发展白皮书一、智能网卡简介和趋势分析（一）智能网卡发展背景及技术简介 1、智能网卡发展背景网卡（Network Interface Card，简称NIC）是将电脑接入局域网的设备，网卡插在计算机主板的总线插槽中，负责将用户要传递的数据转换为网络设备能够识别的格式，通过网络介质传输。智能网卡（Smart NIC），也称智能网络适配器，除了能完成标准网卡所具有的网络传输功能之外，还提供内置的可编程、可配置的硬件加速引擎，提升应用的性能和大幅降低CPU在通信中的消耗，为应用提供更多的CPU资源。例如，在高度虚拟化的环境中，主机CPU需要运行OVS（Open Virtual Switch）相关任务，同时CPU还要处理存储、数据包的在线加解密或离线加解密、数据包深度检查、防火墙、复杂路由等操作，这些操作不仅消耗大量的CPU资源，同时由于不同业务之间的CPU资源争夺，导致业务的性能不能发挥到最佳。网卡作为连接各种业务的枢纽，在网卡上对于上述业务进行加速，成为了最理想的场所。智能网卡的出现，为解决这个问题提供了新的思路，我们可以通过智能网卡来将OVS操作从CPU卸载下来，并完成存储加速、数据加密、深度包检测和复杂路由等各种功能，将花费在处理这些工作负载上的大量的CPU周期返回给主机CPU，同时解决了不同业务之间的冲突问题，大幅提升了各项业务的性能，也确保了服务器CPU能为应用提供最大的处理能力或者提供更多的虚拟机（VM）服务，创造更大的价值。 2、网卡及智能网卡技术简介（1）网卡架构技术特点网卡的架构如图所示，一个典型的NIC由一个处理网络流量的处理器、一对处理数据移动的DMA引擎和一个用于缓冲区和Doorbell的本地存储器（通常是RAM）组成。图1 网卡架构示意图数据来源：ISLPED'03, 赛迪顾问整理 2021,11 1

8 .智能网卡简介和趋势分析（2）智能网卡架构技术特点智能网卡是具有独立的计算单元，能完成特定的基础设施功能操作的网卡，如智能网卡可完成特定的重组加速、安全加速等操作，相对于普通网卡可以带来较大的性能提升。智能网卡上的可编程ASIC或 FPGA单元有可以运行自定义软件的计算层，计算层可以为网络流量提供服务，并可以执行特定网络及数据中心基础设施功能，还为外部网络和服务器OS之间提供了额外的安全层（也就是将安全保障由ToR交换机转移向了该设备）。图2 智能网卡架构示意图数据来源：Vmware官网，赛迪顾问整理 2021,11 （3）各种智能网卡实现的技术要点对比目前的智能网卡有ASIC、FPGA和片上系统（SoC）三种实现。图3 智能网卡不同技术实现示意图数据来源：公开资料, 赛迪顾问整理 2021,11 2

9 . 2021中国DPU行业发展白皮书不同实现方式的智能网卡在成本、编程的简易性和灵活性方面存在各种权衡。ASIC非常具有成本效益，可以提供最佳的性价比，但它的灵活性受ASIC中定义的功能的限制。基于FPGA智能网卡则可以在可用逻辑门约束范围内，花费足够的时间和成本来相对有效地支持几乎任何功能。但FPGA编程简易性较差且价格昂贵。对于更复杂的、更广泛的用例，基于SoC（如NVIDIA的BlueField DPU）提供了最佳的智能网卡实施选项：良好的性价比、易于编程且高度灵活。表1 智能网卡不同技术实现参数对比 ASIC FPGA SoC 性价比高低中易编程度中低高灵活性低中高功耗低高中数据来源：赛迪顾问 2021,11 （4）网卡与智能网卡的性能对比（如表2所示）表2 网卡与智能网卡性能参数对比能力加速工作负载网卡智能网卡 Capability Workloads Accelerated NIC Smart NIC 入门级虚拟化与数据移动 Entry Level Virtualization and Data Movement TCP/IP 加速企业工作负载 √ √ TCP/IP Acceleration Enterprise workloads 虚拟化NIC (SR-IOV) 企业工作负载 √ √ NIC Virtualization (SR-IOV) Enterprise workloads 网络虚拟化多租户工作负载 √ √ Network Virtualization (VXLAN) Multi-tenant workloads 数据传输加速和可编程数据面 Data Transport Acceleration & Programmable Data Plane 虚拟机、存储、大数据、人工智能/机器 RoCE 加速学习 √ RoCE Acceleration VM, Storage, Big Data, Al/ML 3

10 .智能网卡简介和趋势分析数据平面开发套件虚拟化网络功能 √ √ DPDK Virtualized Network Functions Spark加速大数据 √ Spark Acceleration Big Data NVMe-oF存储存储 NVMe-over-Fabrics Storage √ √ Storage （NVMe-oF） OVS硬件加速高效、可扩展的虚拟化应用程序 √ OVS Hardware Acceleration Efficient, Scalable Virtualized Apps 网络服务器/内容分发网络 QoS 和 ACL 加速 Web Servers/ Content Distribution √ QoS and ACL Acceleration Networks 可视性、网络数据包代理、IBN 流量监控/报告 Visibility, Network Packet Broker, √ Flow monitoring/reporting IBN 流匹配/动作引擎软件定义网络 √ Flow match/action engine Software Defined Networking 完全可编程数据面网络功能虚拟化 √ Fully Programmable Data Plane Network Function Virtualization NAT、负载均衡、无状态防火墙 ASAP2 虚拟交换/路由 NAT, Load Balancing, stateless fire- √ ASAP2 Virtual Switching/Routing wall 智能网络和虚拟化 Smart Networking & Virtualization 虚拟交换政策引擎 OVS控制面 √（*） Virtual Switch Policy Engine OVS Control Plane DPI网络监控与诊断分析引擎 DPI, Network Monitoring and Diag- √（**） Analytics engine nostics 容器加速多样（AI/ML，大数据，分析） √（*） Container Acceleration Various (AI/ML, Big Data, Analytics) 服务器分解与资源共享智能云虚拟化 Server Disaggregation & Resource √ Smart Cloud Virtualization Sharing 安全、压缩、网络功能虚拟化、存储 Security, Compression, Network Function Virtualization, Storage 公钥加密、RNG 认证、密钥交换Authentication, Key √ Public Key Crypto, RNG Exchange 故障域隔离/HA 裸金属云 √ Fault Domain Isolation/HA Bare Metal Cloud 4

11 . 2021中国DPU行业发展白皮书 IP/ACL状态防火墙过滤负载均衡IPD/IDS/UTM Load √ Stateful IP/ACL filtering Balancing IPD/IDS/UTM 存储：哈希、ECC、压缩除编码、精简配置、重复数据删除 Storage: Hashing, ECC, Com- Erasure Coding, Thin Provisioning, √ pression Dedup 加密/解密静态/动态数据 √ Encryption/Decryption Data at Rest or on-the-fly 防火墙、IDS、IPS、反恶意软件、防安全VNF卸载 DDos √ Security VNF Offloading Firewall, IDS, IPS, Anti-malware, An- ti-DDos （*）该功能FPGA型的智能网卡不具备，DPU具备（**）该功能ASIC型的智能网卡不具备，DPU具备数据来源：公开资料，赛迪顾问整理 2021,11 （二）智能网卡的优劣势分析智能网卡为数据中心网络提供了几项重要优势，包括： 1) 对于运营大型数据中心的公共云服务提供商而言，智能网卡可以释放CPU核来为最终用户运行业务应用程序，从而可能实现更高的服务器利用率。 2) 各种基础设施操作卸载。例如 R D M A 融合以太网 ( Ro C E ) 、传输控制协议（ TC P ）、 N V M e - oF（NVMe-over-Fabrics）、互联网安全协议（IPSec）、安全传输层协议（TLS）、深度报文检测（DPI）、OVS（Open Virtual Switch）等。 3) 某些类别的智能网卡是可编程的，可以针对广泛的应用程序进行定制，并且可以重新组装以满足新的要求。智能网卡并非没有缺点，在智能网卡被更广泛的采用之前，需要解决以下问题： 1) 与标准网卡相比，智能网卡的价格显着溢价。考虑到相同的端口速度，溢价可能会影响智能网卡的普及，尤其是在批量生产时需要降低价格。 2) 智能网卡的功耗较普通网卡高，一般20W~80W，随着更多功能的集成，功耗也会越来越高。 3) 鉴于智能网卡上支持的功能越来越多，其可编程性和复杂性也越来越高，它们可能会消耗大量工程资源来进行开发和调试，从而导致实施时间长且成本高。基于以上考虑，主要的云服务提供商和网卡供应商已经基于不同的解决方案开发了智能网卡：基于 ARM的SoC、FPGA和定制ASIC。这些解决方案中的每一个都提供不同程度的卸载和可编程性，本文中将会对于不同的实现进行对比。在智能网卡发展的过程中，NVIDIA将智能网卡升级为DPU（Data Processing Unit）。DPU延续了智能网卡的基本功能，并将通用工作任务做了加速处理。如图4所示，相比智能网卡在数据层面上实现加速，DPU的最大的区别是能在实现智能网卡的功能的基础之上实现控制面的加速。 5

12 .智能网卡简介和趋势分析图4 智能网卡与DPU架构示意图数据来源：NVIDIA官网，赛迪顾问整理 2021,11 6

13 . 2021中国DPU行业发展白皮书二、DPU简介及分析（一）DPU发展背景与定义 1、DPU发展背景随着数据中心的高速发展，通信能力和计算能力成为数据中心基础设施的相辅相成的两个重要发展方向。若数据中心仅关注计算能力的提升，通信基础设施的提升跟不上，那么数据中心的整体系统性能依然受限，无法发挥出真正的潜力。DPU的提出背景就是应对这些数据量和复杂性的指数级增长。未来，需要将计算移至接近数据的位置，这是目前业界所公认的以数据为中心的体系结构下的创新。综上，DPU对数据中心来说，是通过更明细的分工来实现效率的提升、实现总体系统的成本最优化。 2、DPU定义及综述图5 DPU产品示意图数据来源：NVIDIA官网, 赛迪顾问整理 2021,11 DPU（Data Processing Unit）市场仍处于百家争鸣的早期发展阶段，各家厂商定义略有不同。目前市场上主流的DPU定义是NVIDIA提出的，即DPU是集数据中心基础架构于芯片的通用处理器。它结合了： 1) 行业标准的、高性能及软件可编程的多核CPU，通常基于已应用广泛的ARM架构，与其它的SoC组件密切配合。 2) 高性能网络接口，能以线速或网络中的可用速度解析、处理数据，并高效地将数据传输到GPU和 CPU。 7

14 .DPU简介及分析 3) 各种灵活和可编程的加速引擎，可以卸载AI、机器学习、安全、电信和存储等应用，并提升性能。 4) 具备开放性集成功能，未来支持更多功能集成。例如NVIDIA计划未来在Bluefield-4产品中，将GPU 集成至DPU中以完成数据中心的架构的终极整合。 5) NVIDIA DPU的软件开发包DOCA，提供了统一的面向各种应用的编程接口，让用户可以不用关注 DPU的底层硬件接口而直接对硬件进行编程。 DPU的出现实现了以数据为中心的业务和基础设施操作的分离，大幅降低了业务的长尾延时，对于实现安全的、裸性能的、云原生的下一代大规模计算至关重要。（二）DPU优势及发展趋势分析 1、DPU优势分析（1）DPU实现了业务与基础设施的操作分离 DPU将基础设施任务从CPU转移至DPU，释放CPU的资源，使更多的服务器CPU核可用于运行应用程序，完成业务计算，从而提高服务器和数据中心的效率。如通过在DPU上运行OVS，使业务域和基础设施域分离，实现VM和VM间的高效安全通信，如图6所示，传统应用场景中会使用CPU来执行OVS操作，其效率较低，消耗CPU核较多，且VM之间的通讯延时较长。Red Hat在部署了DPU后，用DPU来执行同样的OVS操作，其效率大幅提升，几乎不消耗CPU核，VM之间的通讯延时也得到了大幅缩减，大幅减少了长尾延时，从而提升了应用的性能。以数据为中心的计算架构成为了趋势以数据为中心的计算架构成为了趋势图6 网络计算和DPU成为以数据为中心计算架构的核心网络计算和DPU成为以数据为中心计算架构的核心 DPU实现业务与基础设施的操作分离 CPU CPU执行基础设施操作（OVS为例）执行基础设施操作（OVS为例） DPU DPU执行基础设施操作（OVS为例）执行基础设施操作（OVS为例）实现了业务和基础设施操作的分离，大幅降低了长尾延时实现了业务和基础设施操作的分离，大幅降低了长尾延时数据来源：NVIDIA官网，赛迪顾问整理 2021,11 （2）DPU卸载网络数据实现性能提升 DPU针对云原生环境进行了优化，提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务。如图7所示，红帽Red Hat的容器化云平台即服务（PaaS）OpenShift上，借助DPU优化数据中心资源利用率，将网络相关的数据处理（如VxLan和IPSec等）卸载到DPU加速执行，在25Gb/s网络条件下，OpenShift部署DPU用来加速，可以只用1/3的CPU占用了来达到25Gb/s性能，而在100Gb/s网络条件下，未部署DPU的场景将达不到100Gb/s网络线速，DPU可以带来10倍的性能优势。 8

15 . 2021中国DPU行业发展白皮书图7 OpenShift部署DPU前后性能对比数据来源：Red Hat官网，赛迪顾问整理 2021,11 （3）DPU可以提供零信任安全保护零信任（Zero Trust）是一种以安全性为中心的模型，其基于以下思想：企业不应对其内外的任何事物授予默认信任选项。零信任可以减少数据泄露、拒绝未授权的访问，因此在数据安全方面价值巨大。 DPU可以为企业提供零信任保护，通过将控制平面由主机下放到了DPU，实现主机业务和控制平面的完全隔离，数据将无法进行穿透，保证安全性。DPU的出现相当于为每个服务器配备了一台“计算机前的计算机”以提供独立、安全的基础设施服务，并与服务器应用域安全隔离。如果主机遭受入侵，安全控制代理与被入侵主机之间的DPU隔离层可防止攻击扩散至整个数据中心。这样DPU就解决了企业不愿直接在计算平台上部署安全代理的情况。通过在完全隔离于应用程序域的DPU上部署安全代理，企业不仅能获得对应用程序工作负载的可见性，还能在其基础设施中执行一致的安全策略。（4）DPU助力实现“算存分离” DPU的BlueField SNAP技术方案通过在服务器系统的数据入口处引入计算资源，在DPU上独立实现面对应用需求的存储方案，帮助存储厂商在数据中心中低成本地灵活部署、升级高级存储协议，而完全不需要对现有软件栈进行任何更改。存储厂商可以把自家团队为各行业应用开发的开放系统的直连式存储 (DAS)、纵向扩展（Scale-UP）、横向扩展（Scale-OUT）、超融合架构（Hyperconverged）等存储解决方案，零开销地推广到各个应用领域的现有业务处理平台和数据中心基础架构中，而所有的安全加密、数据压缩、负载均衡等复杂又必须的功能则完全由DPU透明地卸载。存储行业的革新算法和实现，可以在 DPU架构中，独立于服务器操作系统进行部署。DPU技术帮助存储厂商实现真正的“算存分离”，完全发挥自家产品的技术优势，打通最高效服务应用需求的通路。 2.DPU技术发展趋势分析目前DPU以数据为中心作为计算架构，能针对数据中心的安全、网络、存储、AI、HPC等业务进行加速。从DPU概念的提出者NVIDIA的现有技术发展趋势来看，未来的技术发展趋势将会是高度集成化的片上数据中心的模式（Data Center Infrastructure on a chip），即一个GPU、CPU、DPU共存的时代。 NVIDIA布局的数据中心从核心到边缘（Edge）都采用了统一的一个计算架构——CPU、GPU、DPU，如图所示，形成了“3U”一体架构。3U一体的统一计算单元架构将会让管理程序、调度程序都会变得非常容易。通过CPU、GPU、DPU之间的协调计算，可以在数据中心和边缘端都可以达到高性能与高安全性。 9

16 .DPU简介及分析图8 DPU和网络计算成为以数据为中心计算架构的核心数据中心的变革已经来临数据中心成为了新的计算单元 AI & ML GPU DPU Data Processing Unit Accelerated Software-Defined, Computing Hardware-Accelerated GPU Accelerates DPU Accelerates AI & Machine Learning Data Intensive Tasks Every workload will become Networking, Security, Storage accelerated AI CPU 20 数据来源：NVIDIA官网, 赛迪顾问整理 2021,11 （三）NVIDIA BlueField-3 DPU产品定位及优势分析 1、BlueField-3 DPU产品简介现代超大规模云技术推动数据中心走向了新的架构，利用一种专门针对数据中心基础架构软件而设计的新型处理器，来卸载和加速由虚拟化、网络、存储、安全和其它云原生AI服务产生的巨大计算负荷，这种产品即BlueField DPU系列。NVIDIA 创始人兼首席执行官黄仁勋表示：“现代超大规模云正在推动数据中心的新架构。需要一种旨在处理数据中心基础设施软件的新型处理器来卸载和加速虚拟化、网络、存储、安全和其它云原生AI服务的巨大计算负载。BlueField DPU的时代已经到来。”如表3所示， BlueField DPU系列产品优势有：从外围设备到服务器都具备安全性、适用不断扩展的工作负载的数据存储、高性能且高效的网络、软件定义的基础架构等。表3 BlueField DPU系列的优势图1 特点优势详情从设备到数据皆 BlueField DPU支持零信任的全方位安全架构，其安全性覆盖范围从硬件安全性安全无虞设备到数据传输，再到恶意攻击的安全加速引擎，确保从内到外的防护。借助于对NVMe over Fabrics SNAP（NVMe-Of SNAP），GPUDirect 适用不断扩展的 Storage(存储)、加密（Encryption）、弹性存储(Elastic Storage)、数可扩展性工作负载的数据据完整性(Data Integrity)、压缩（Decompression）和重复数据删除计算与存储 (Deduplication)的支持，BlueField可提供高性能存储访问，而其远程存储延迟可媲美直连式存储。 10

17 . 2021中国DPU行业发展白皮书 BlueField是一款强大的数据中心服务加速器，可为传统应用程序和现代高性能且高效的网络性能 GPU加速的应用程序提供高达400Gb/s的以太网和InfiniBand的带宽，同时网络释放主机CPU核心以运行其它的应用程序。借助NVIDIA DOCA软件开发套件（SDK），开发者可以不必考虑DPU 软件定义的基础可开发性底层的硬件加速接口，直接利用行业标准API轻松创建软件定义的高性能架构云原生DPU加速服务。数据来源：NVIDIA官网, 赛迪顾问整理 2021,11 图9 NVIDIA DPU产品发展路线图 BlueField-4 64B Transistors 160 SPECint* 1000 TOPS NVIDIA DPU 路线图 100X 800 Gbps 芯片级可编程数据中基础架构 BlueField-3 BlueField-4 DPU 22B Transistors 10X 42 SPECint* ·Arm CPU Computing 1.5 TOPS 400 Gbps ·A100 GPU Accelerated Computing ·InfiniBand/Ethernet/PCIe Network BlueField-2 ·Computing/Storage/Security Framework 7B Transistors 1X 9 SPECint* ·Data Acceleration 0.7 TOPS 200 Gbps DOCA — ONE DEVELOPMENT ARCHITECTURE 2020 2022 2024 * SPECint2k17-rate 数据来源：NVIDIA官网, 赛迪顾问整理 2021,11 图10 BlueField-3 DPU产品示意图关于 NVIDIA BLUEFIELD-3 DPU 首款 400Gb/s 速度的DPU 22B transistors 400Gb/s Ethernet & InfiniBand Connectivity 400Gb/s Crypto Acceleration 16 ARM CPU Cores 300 Equivalent x86 Cores 18M IOP/s Elastic Block Storage 5 数据来源：NVIDIA官网, 赛迪顾问整理 2021,11 11

18 .DPU简介及分析 NVIDIA的BlueField DPU产品发展路线图如图所示，包括了已有的二代产品BlueField-2，目前即将面世的首款达400Gb/s速度的BlueField-3 DPU，以及未来整合了NVIDIA GPU功能，可达800Gb/s的 BlueField-4 DPU。 BlueField-3 DPU是首款达400Gb/s为AI和加速计算而设计的DPU，助力各企业在任何规模的应用上都能实现业内领先的性能和数据中心的安全性。一个BlueField-3 DPU所提供的数据中心服务可相当于多达300个CPU核才能实现的服务，从而释放宝贵的CPU资源来运行关键业务应用。这款DPU针对多租户、云原生环境进行了优化，提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务。 2、BlueField-3 DPU技术特点 BlueField-3 DPU可以从业务应用中将数据中心的基础设施服务卸载和隔离出来，实现了由传统基础设施到现代基于“零信任”环境的转型，可对数据中心的每个用户进行身份认证，保障了企业从云到核心数据中心，再到边缘的安全性，同时在效率和性能上有了更大的提升。 BlueField-3 DPU是首款支持第五代PCIe总线并提供数据中心时间同步加速的DPU。BlueField-3 DPU可为NVIDIA的基于AI技术的网络安全平台，Morpheus提供实时的网络可视化、网络威胁的检测与响应、以及监控、遥测和代理服务。BlueField-3 DPU将传统计算环境转变为安全且加速的虚拟私有云，使组织能够在安全的多租户环境中运行应用程序。BlueField-3 DPU采用NVIDIA的网络计算技术，支持下一代超级计算平台，提供最佳裸机性能和对多节点租户隔离的原生支持。图11 NVIDIA DOCA软件开发包 PLATFORM CYBER INFRASTRUCTURE STORAGE EDGE SECURITY NVIDIA DOCA 软件开发包助力BlueField合作生态系统 DOCA Software Development Framework for BlueField DPUs ORCHESTRATION SECURITY NETWORKING STORAGE Offload, Accelerate, and Isolate Infrastructure Processing MANAGEMENT Support for Hyperscale, Enterprise, Supercomputing and Hyperconverged Infrastructure ACCELERATION LIBRARIES TELEMETRY Software Compatibility for Generations of BlueField DPUs DOCA is for DPUs what CUDA is for GPUs 15 数据来源：NVIDIA官网, 赛迪顾问整理 2021,11 12

19 . 2021中国DPU行业发展白皮书 BlueField-3 DPU利用NVIDIA DOCA™1.1 软件开发包的优势，为开发者提供一个完整、开放的软件平台，开发者在BlueField DPU上开发软件定义和硬件加速的网络、存储、安全和管理等应用。DOCA 包含利用BlueField DPU来创建、编译和优化应用的运行时环境，用于配置、升级和监控整个数据中心数千个DPU的编排工具，以及各种库、API和日益增加的各种应用，如深度数据包检测和负载均衡等。每一代BlueField DPU都支持DOCA开发包，随着每代DPU的演进，原先开发的应用程序可以完全向后兼容，且DPU路线图上的后续的产品依然保证完全向前兼容。这意味着在目前BlueField DPU上运行的应用程序和数据中心基础设施，在不久的未来将能不加修改地加速运行在 BlueField-4 DPU等后续产品上。 3、BlueField-3 DPU产业地位分析 BlueField-3 DPU的出现解决了目前产业无法完全确保数据安全的问题。在零信任的大环境下，产业原本是无法完全确保数据安全的。举例来说，数据中心想支持IPSec协议（即通过加密与验证等方式，为IP 数据包提供安全服务），当它在100Gb/s的网络传输数据下，对每一个数据包都进行IPSec加密时，CPU资源会急速耗尽，却依然无法完成在网络高速传输时对每一个数据包都进行IPsec加密的操作。如表4所示， BlueField-3 DPU具备了平台安全、可加密加速、可执行安全策略、深度包检测与隔离安全控制平面的特点，将这个网络层面上确保数据安全的不可能瓶颈打破。表4 BlueField-3 DPU解决网络高速传输数据安全瓶颈图1 特点详情通过使用硬件信任根(Root of Trust)实现安全和可追溯的操作系统启动，保护计平台安全算平台免受硬件级攻击通过硬件加速、在线IPsec、TLS线速数据加密和MACSec线速数据加密来保护数加密加速据中心通信和Web应用程序交付分布式安全策略通过启用NVIDIA的高级交换和数据包处理(ASAP 2)技术在硬件中执行分布式安全执行策略通过使用内置数据格式（build-in pattern）匹配加速对传入流量执行深度数据深度包检测包检查来检测恶意活动在受信任的DPU环境中部署安全应用程序，与主机系统隔离，以防止横向移动并隔离安全控制平面减少攻击面数据来源：NVIDIA官网, 赛迪顾问整理 2021,11 4、BlueField-3 DPU优势分析 1) BlueField-3 DPU拥有更强大的ARM核计算能力和更快的加解密速度，它与CPU、GPU和内存的互连速度也更快。 13

20 .DPU简介及分析表5 BlueField-2和BlueField-3 DPU技术指标对比 Feature 图1 BlueField-2 DPU BlueField-3 DPU Bandwidth 200Gb/s 400Gb/s DPDK Max msg Rate 215Mpps 250Mpps RDMA Max msg Rate 215Mpps 330Mpps Compute SPECint2017: 9 SPECint2017: 42 VirtIO Acceleration 40Mpps (*) 80Mpps (*) IPsec Acceleration 100Gb/s 400Gb/s TLS Acceleration 200Gb/s 400Gb/s MACsec Acceleration X 400Gb/s bi-dir BlueField SNAP 5.4M IOPs @4K 12M-18MIOPS @4K *Total packet rate for the sum of Tx and Rx 数据来源：NVIDIA官网, 赛迪顾问整理 2021,11 2) 通过BlueField-3 DPU执行HPC通信框架，可以实现无阻塞通信，即让计算与通信可并行同时发生。目前的超算网络中大多数是有阻塞通信，有阻塞通信是通信与计算不可同时发生，即有通信时不计算，有计算时不通信。目前BlueField-3 DPU在无阻塞集合通信卸载操作上更为成熟，用户可使用配套的MPI库来加速科学计算应用的执行，特别是针对于大规模的的无阻塞all-to-all通信。如图所示，应用 BlueField DPU后，计算和无阻塞all-to-all集合通信的之间可100%重叠，如使用DPU加速P3DFFT应用程序（3D快速傅里叶变换）后，应用的总体执行时间减少了25%以上，涵盖了各种大小的网格大小。图12 BlueField-3 DPU实现无阻塞通信后的性能表现实例数据来源：NVIDIA官网, 赛迪顾问整理 2021,11 14

21 . 2021中国DPU行业发展白皮书 3) 在兼容性上，通过使用DOCA库，BlueField-3与上一代DPU上开发的应用保持完全的软件兼容性，软件运行方式没有变化，并得到更高的性能和可扩展性。DOCA在底层硬件API上提供一个抽象层给上层的业务，开发者可以使用标准的API更快速、更轻松地进行开发，实现和上层业务的集成，并经优化后提供出色的性能，或者和底层接口合作达到更精细的控制。且DOCA具备基于容器化服务的DPU调配和部署，包含用于简化DPU设置、配置和服务编排的工具。图13 NVIDIA DOCA软件栈 DOCA 软件栈 Applications Networking Security Storage Telco HPC/ML Media DPU DOCA-Libs Management vNET-GW/FW DPI 5T MPI UCX VNF/UPF RiverMax PGAS, SHMEM DOCA Toolkit Orchestration Provisioning DOCA Driver and Runtime SDN Agents Visibility Networking P4-RT/ebpf/ Security Storage, SNAP SHARP Flex IO BSD-Sockets/VMA SFT/RegEx Block storage services Networking Security Storage RDMA SNAPI DPDK/Kernel/P4 DPDK/Kernel SPDK/Kernel Verbs/DevX DPU – BlueField and BlueField-X 17 数据来源：NVIDIA官网, 赛迪顾问整理 2021,11 （四）NVIDIA BlueField-3 DPU技术分析和技术对比 1、BlueField-3 DPU技术分析 BlueField-3 DPU完全承接了BlueField-2 DPU的先进特性，并将其进行了性能加强与扩展，如下图。 15

22 .DPU简介及分析图14 BlueField-3 DPU总体架构数据来源：NVIDIA官网, 赛迪顾问整理 2021,11 BlueField架构本质上将网卡子系统与可编程数据路径、用于加密、压缩等的硬件加速器子系统以及用于控制的ARM处理器子系统融合在一起。在BlueField-3中，数据路径加速分组（DPA）包括16个处理器核，可并行处理256个线程的任务。 BlueField-3的重要技术特性按照网络业务、安全业务、存储业务等方面具体说明： Ⅰ 网络业务在网络业务中，BlueField-3专门对RDMA、连接跟踪（Connection Tracking）、ASAP 2等这些网络通信技术做了进一步加强，特别是对时间精度，可在数据中心和边缘之间做非常及时的时钟同步。重要特性技术分析如下： RDMA技术，可直接在内存之间交换数据，并获得较好的扩展性，提升运行性能，且可卸载CPU算力。RDMA优势如下包括：（1）零拷贝（Zero-copy），应用程序能够直接执行数据传输，在不涉及到网络软件栈的情况下。数据能够被直接发送到应用的缓冲区或者能够直接从缓冲区里接收，而不需要被复制到网络层；（2）内核旁路（Kernel bypass），应用程序可以直接在用户态执行数据传输，不需要在内核态与用户态之间做上下文切换；（3）不需要CPU干预（No CPU involvement），应用程序可以访问远程主机内存而不消耗远程主机中的任何CPU。可以在远程主机不知情的情况下对其进行读写操作；（4）操作基于消息（Message based transactions），数据被处理为离散消息而不是流，消除了应用程序将流切割为不同消息/事务的需求，用户可以用高达2GB的消息进行编程；（5）支持Scatter/gather操作（Scatter/gather entries support），RDMA原生态支持分散/聚合。也就是说，读取多个内存缓冲区然后作为一个消息发出去或者接收一个消息然后写入到多个内存缓冲区里去。 16

23 . 2021中国DPU行业发展白皮书图15 RDMA技术通过远程直接内存访问实现低延迟数据来源：公开资料，赛迪顾问整理 2021,11 GPU-direct RDMA技术，简称GDR技术，该技术可实现计算机1的GPU可以直接访问计算机2的 GPU内存。而在没有这项技术之前，GPU需要先将数据从GPU内存搬移到系统内存，然后再利用RDMA 传输到计算机2，计算机2的GPU还要做一次数据从系统内存到GPU内存的搬移动作。GPU-Direct RDMA 技术使得进一步减少了GPU通信的数据复制次数，通信延迟进一步降低。Mellanox网卡已经提供了GPU- Direct RDMA的支持（既支持InfiniBand传输，也支持RoCE传输），在英伟达收购Mellanox后，英伟达的所有网卡已全面支持GPU-Direct RDMA技术。图16 GPU-direct RDMA技术示意图数据来源：NVIDIA官网, 赛迪顾问整理 2021,11 17

24 .DPU简介及分析 Ⅱ 安全业务安全业务上，BlueField-3可以实现从IP层，传输层以及到MAC层的400Gb/s全线速在线加解密，当使用RegEx和DPI做深度包检测时，速度可以达到50Gb/s。重要特性技术分析如下：支持IPSec协议，在IP层对数据进行加解密，通过与网络线速相同的IPSec速度来达到安全性。IPSec （Internet Protocol Security）是IETF（Internet Engineering Task Force）制定的一组开放的网络安全协议。它并不是一个单独的协议，而是一系列为IP网络提供安全性的协议和服务的集合。IPSec用来解决IP层安全性问题的技术，同时支持IPv4和IPv6网络。IPSec主要包括安全协议AH（Authentication Header）和ESP（Encapsulating Security Payload），密钥管理交换协议IKE（Internet Key Exchange）以及用于网络认证及加密的一些算法等。IPSec主要通过加密与验证等方式，为IP数据包提供安全服务。BlueField-3对IPSec加解密速度可以达到400Gb/s，相比之下，如果在用搭配100Gb/s、 200Gb/s网络的CPU做IPSec，性能也仅达20-40Gb/s级别，并在加解密方面耗费大量CPU资源，而使用 BlueField-3做IPSec可以释放这部分CPU的算力。支持TLS协议，在TCP层对数据进行安全保障。TLS协议是HTTP通信所使用的加密通信，用以降低信息明文传播所具有的三大风险：（1）窃听风险（eavesdropping），第三方可以获知通信内容；（2）篡改风险（tampering），第三方可以修改通信内容；（3）冒充风险（pretending），第三方可以冒充他人身份参与通信。相应TLS协议的设计目标为：（1）所有信息都是加密传播，第三方无法窃听；（2）具有校验机制，一旦被篡改，通信双方会立刻发现；（3）配备身份证书，防止身份被冒充。TLS协议的基本思路是采用公钥加密法，也就是说，客户端先向服务器端索要公钥，然后用公钥加密信息，服务器收到密文后，用自己的私钥解密。BlueField-3对TLS加解密速度也可以达到400Gb/s，使用BlueField-3做TLS同样可以释放大量CPU的算力。 Ⅲ 存储业务在存储业务中，BlueField-3可以实现以往不可能做到的事情，可以做到块存储（Block Storage）、文件存储（File Storage）、对象存储（Object Storage)或者NVMe存储（NVMe Storage）的仿真，还可以在数据落盘时加解密的操作（如AES-XTS）进行硬件卸载，甚至是各种签名操作都可以分流到DPU上。其弹性块存储（EBS）可以达到18M的 IOP/s的读写性能，在虚拟化I/O加速方面可以达到80Mpps的性能。 BlueField SNAP技术，基于软件定义的网络加速处理，该SNAP技术允许用户访问与服务器连接的远程NVMe存储像访问本地存储一样，实现了远程存储的所有效率和管理优点，同时具有本地存储的简单性。NVIDIA BlueField SNAP解决方案消除了对本地存储的依赖性，满足了云计算对于存储解耦以及可组合性存储的日益增长的需求。BlueField SNAP可以无缝集成到采用任何操作系统或虚拟机管理程序的几乎所有服务器中，支持在不同的数据中心环境更快地采用NVMe over Fabrics (NVMe-oF)，从而有效地为任何应用程序立即部署NVMe-oF技术。BlueField SNAP解决方案(作为 BlueField系列 PCIe DPU智能网卡的一部分提供)使网络闪存存储如同本地NVMe存储，以有效地虚拟化物理存储。如今，所有主要的操作系统和虚拟机管理程序均已支持本地NVMe SSD。BlueField SNAP利用这些现有的NVMe接口，并结合本地SSD性能、管理和软件透明度的优势，为客户带来网络闪存存储的可组合性和灵活性。这种BlueField SNAP技术与BlueField强大的多核ARM处理器、虚拟交换机和RDMA卸载引擎相结合，支持广泛的加速存储、软件定义网络和应用解决方案。ARM处理器与SNAP相结合，还可用于加速分布式文件系统、压缩、重复数据消除、大数据、人工智能、负载均衡、安全性等诸多应用。 Ⅳ 开发生态在开发生态上，专为助力BlueField合作生态系统而生的DOCA（集数据中心基础设施于芯片的架构） 18

25 . 2021中国DPU行业发展白皮书软件开发包，可以通过DOCA来实现软件定义网络、存储、安全，开发人员可以通过DOCA直接调用到 BlueField硬件的加速引擎。 NVIDIA DOCA SDK为开发者提供一个完整、开放的软件开发平台，在BlueField系列 DPU上开发软件定义和硬件加速的网络、存储、安全和管理等应用。DOCA功能包含利用BlueField DPU来创建、编译和优化应用的运行时环境，用于配置、升级和监控整个数据中心数千个DPU的编排工具，以及各种库、API 和日益增加的各种应用，如深度数据包检测和负载均衡等。 DOCA是一个由库、内存管理、服务组成的框架，建立在一套成熟的驱动程序之上。部分库与开源项目有关，部分库是NVIDIA独有的。如同CUDA抽象GPU编程一样，DOCA则将DPU编程抽象到了更高的层次。英伟达通过结合面向开发人员的DOCA软件开发工具包和用于开箱即用部署的DOCA管理软件来提供完整的解决方案。例如，ASAP²是基于硬件的对网络数据路径进行处理的协议，以二进制形式提供。它通过Virt I/O以及配置流跟踪和Regex加速器的下层API来实现网络设备仿真。安全驱动程序为TLS提供内嵌的内核卸载。存储业务中，SNAP驱动程序提供了NVMe虚拟化。 DOCA可不断实现向后兼容，NVIDIA的愿景是让DPU成为异构计算的第三条腿，补充CPU和GPU的功能，而DOCA对于在诸多应用中实现这一愿景至关重要。 2、智能网卡及DPU分析智能网卡特点：智能网卡Smart NIC主要解决的问题是网络传输上无法线性传输数据问题，以及卸载更适合在网络上执行的业务，采取的方法是在智能网卡添加相应业务的加速引擎，以释放服务器上昂贵的CPU算力，为计算任务提供更多的CPU算力。最初的智能网卡具有3个重要特征：1）释放CPU开销及可编程，通过FPGA 或协处理器来本地化编程支持数据面和控制面的功能定制，卸载CPU网络负载；2）任务加速，通过专用加速器实现特定功能并保证数据转发的线速；3）流量管理，监测和管理网络流量。 DPU特点： DPU概念的确立是在2020年10月NVIDIA将基于Mellanox的Smart NIC卡命名为“DPU”，可以认为DPU是智能网卡的升级，因此DPU延续了智能网卡“释放CPU开销”、“可编程”、“任务加速”、 “流量管理”等功能，并实现了控制面和数据面的通用可编程加速。如今数据中心中的各项操作主要都在CPU上完成，包括计算任务和各项基础设施任务等，而面对数据处理需求的增长，CPU的算力已经达到瓶颈，摩尔定律逐渐失效，GPU的出现解决了CPU的算力问题，数据中心的瓶颈转向基础设施任务，如数据存储、数据验证、网络安全等。DPU的出现满足了这样的通用的基础设施任务加速的需求。由DPU构建强大的基础设施层，上层的CPU和GPU来完成计算任务。DPU具有的特性为：1）行业标准、高性能、软件可编程的多核CPU，通常基于广泛使用的ARM架构，与其它SoC 组件紧密耦合。2）高性能网络接口，能够以线速或网络其余部分的速度解析、处理和有效地将数据传输到 GPU和CPU。3）丰富的灵活可编程加速引擎，可为AI和机器学习、安全、电信、存储和虚拟化等执行卸载并提高应用程序性能。 DPU最核心的任务是数据的预处理和后处理，如网络类任务（包括ALL2ALL、点对点等各种通信模式加速，IPSec，TCP连接跟踪，RDMA等）、存储类任务（分布式存储，数据落盘加解密，数据压缩，数据冗余算法等）、虚拟化加速（OVS及各种Hypervisor的卸载，控制平面和业务平面分离）、对硬件安全的保障（Root of Trust等）。从云计算业务的角度看，DPU是把整个IaaS的服务完整的卸载到硬件做加速。 19

26 .DPU简介及分析因此一线的云运营商对DPU的需求会更强烈，数据中心规模足够大时任何一个任务的Offload到硬件都意味着非常显著的性能提升和成本降低，带来最直接的利润。随着整个软硬件技术栈的演进，DPU的采用会逐步扩展到所有的云运营商，以及其它各类数据中心。智能网卡和DPU对比分析：表6 智能网卡和DPU对比分析智能网卡 DPU 通过从服务器的CPU上卸载网络定位及其它工作负载，提高云端和私数据中心级计算处理器，可作为数据中心的最小节点存在有数据中心中的服务器性能包含数据平面和控制平面的双平面卸载及加速；涵盖释放CPU开销及可编程；任务加主要特点智能网卡的功能；标准、高性能、软件可编程的多核速；流量管理 CPU；丰富的灵活可编程加速引擎拥有标准生态环境，部分有专用的软件开发平台提供上生态环境复杂，标准不统一，开生态环境层标准开发接口如NVIDIA的DOCA SDK，入门和开发发难度较高，项目可移植性差难度低对专用业务做加速如存储、安数据中心和云计算；网络安全；高性能计算及AI；通信应用场景全、数据压缩等及边缘计算；数据存储；流媒体等可单独成为独立的数据中心单元，拥有丰富的功能并处理专用业务，在数据中心中的可拓展，未来将成为数据中心的标配与三大核心之一价值功能较为单一；被动，对其它设（CPU、GPU、DPU）；主动，可成为计算节点、网备具有依赖性卡、加速引擎等，可独立存在数据来源：赛迪顾问 2021,11 智能网卡中包括FPGA型和ARM核心型，FPGA型难以处理控制平面任务；ARM型则会因处理其它任务而负载过重，DPU包含数据平面和控制平面的双平面卸载及加速，可以解决以上问题。另外DPU与智能网卡的最大区别是可作为数据中心的最小节点存在，拥有计算功能、网卡功能、加速计算引擎、安全引擎等并可拓展，未来将成为数据中心的标配与三大核心之一（CPU、GPU、DPU）。 20

27 . 2021中国DPU行业发展白皮书三、DPU产业分析（一）DPU产业宏观分析 1、DPU产业分析 DPU的典型应用场景包括：数据中心和云计算，网络安全，高性能计算及AI，通信及边缘计算，数据存储，流媒体等。 1）在数据中心和云计算应用中，DPU可广泛应用在物理机、虚拟化、容器化、私有云、公共云、混合云等各个方面。如OVS等Hypervisor、各种容器框架可以运行在DPU上，实现控制平面和业务的分离，保障业务安全性；如DPU为SDN和虚拟化应用提供硬件加速，大规模数据中心中，将本在CPU上运行的通信和虚拟化操作卸载到DPU上，为用户提供应用加速即服务的附加价值。 2）在网络安全中，DPU可应用在分布式安全、下一代防火墙技术（NGFW，Next generation firewall）、微分段技术（Micro-segmentation）等方面。如DPU可以将一些安全相关的业务操作从CPU卸载到网卡，如数据的加密/解密(如IPSec、TLS等)操作、深度包检测（DPI）等，大幅提升应用的性能，降低CPU负载，并且支持灵活的网络可编程性。 3）在高性能计算及AI中，DPU可应用在云原生超级计算，深度学习推荐系统加速等方面。如DPU和配合NIVDIA Merlin处理深度学习推荐系统加速任务，极大的提升产品数据处理与运行效率，帮助用户实现更为快速的产品开发和迭代。 4）在通信及边缘计算中，DPU可应用在电信云、边缘计算等方面。 5）在数据存储中，DPU可应用在超融合架构（HCI，Hyper Converged Infrastructure）、弹性块存储、实例存储等方面。 6）在流媒体中，DPU可应用在视觉高品质，8K视频，内容分发网络（CDN，Content Delivery Network）等方面。 2、DPU竞争格局目前DPU市场仍处于蓝海，呈现百家争鸣的竞争格局。Intel、NVIDIA等企业纷纷布局DPU产业，同时包括AWS、阿里巴巴、华为在内的各大云服务商，都已经在布局自己的云端处理器，行业竞争格局分析如下： 21

28 .DPU产业分析表7 DPU竞争格局发布厂商代表产品核心处理器技术路线应用方向时间 SoC: ARM+ASIC+ BlueField-2 数据安全、网络安全、存储专用加速器(data 基于ARM架构 2020 （DPU系列）卸载等 acceleration processor) NVIDIA BlueField-3 SoC:ARM+ 数据安全、网络安全、存储基于ARM架构 2021 （DPU系列） ASIC+专用加速器卸载等 SoC:ARM+ BlueField-4 数据安全、网络安全、存储 ASIC+GPU专用基于ARM架构 2023 （DPU系列）卸载等加速器 FPGA IPU Intel C5020X FPGA+X86 SoC 基于FPGA 面向交换机、路由器芯片 2020 （IPU系列）面向网络、存储和计算加速 Xilinx Alveo U25 FPGA 基于FPGA 2020 功能面向集成机器学习推理的引擎、内联加密处理器、以及 Marvell OCTEON 10 SoC:ARM+ASIC 基于ARM架构 2021 矢量数据包处理器等的虚拟化 Broadcom Stingray SoC:ARM+ASIC 基于ARM架构面向交换机、路由器芯片 2018 基于软件定义 Pensando Capri SoC 面向P4的SDN —— 网络处理器 Fungible F1 NP-SoC 基于MIPS架构面向网络、存储、虚拟化 2020 为智能网卡数据提供线速加 Amazon Nitro —— —— —— 密和解密 Microsoft Catapult v3 GP-SoC —— 面向深层神经网络加速 2017 阿里 X-Dragon Smart Smart FPGA+ASIC —— 面向虚拟机管理程序 2017 NIC NIC(MOC) 22

29 . 2021中国DPU行业发展白皮书面向网络协议处理、数据库中科基于自研KPU K1 —— 和大数据处理加速、存储运 2019 驭数架构算、安全加密运算等面向连接FC网络的应用，华为基于华为实现高带宽高性能存储组网 Smart IN300 NP-SoC 2018 Hi1822芯片方案FCoE （Fiber NIC Channel of Ethernet）数据来源：赛迪顾问 2021,11 DPU方案类型大致可以概括为三种：一是以通用众核处理器为基础DPU，例如Broadcom的Stingray 架构，以多核ARM为核心，以众取胜，可编程灵活性较好，但是应用针对性不够，对于特殊算法和应用的支持，与通用CPU相比并无太显著优势；二是以专用核为基础的异构核阵列，这种架构的特点是针对性较强、性能较好，但是牺牲了部分灵活性，如IPU；第三种路线是结合了前面二者优势，即将通用处理器的可编程灵活性与专用的加速引擎相结合，正在成为最新的产品趋势，以NVIDIA的BlueField-3系列DPU来看，就包括16个ARM核及多个专用加速引擎，Fungible的DPU则包含6大类的专用核，和52个MIPS小型通用核。随着DPU将数据中心的基础设施操作从CPU上卸载过来，数据中心将形成DPU、GPU、CPU三位一体的状态；NVIDIA通过收购Mellanox积极布局DPU，抢占市场，凭借在GPU的绝对优势以及未来DPU的发力，NVIDIA有望在服务器处理器三大芯片中占据其二。对各厂商及现有产品分别综述如下： 1）NVIDIA DPU 在技术路线上，英伟达DPU基于所收购的Mellanox网络方案及ARM架构实现，侧重于数据安全、网络、存储卸载。本报告已经以英伟达DPU为例详写了产品结构及技术特点等，此部分不再赘述。 2）Intel IPU：技术快速落地，生态迅速成长在2021年6月15日的Six Five峰会上，英特尔推出了全新的基础设施处理器（IPU，全称Infrastructure Processing Unit）。IPU是一个网络设备，可以安全地加速和管理数据中心的基础设施功能与可编程硬件，旨在使云和通信服务提供商减少在中央处理器方面的开销，并充分释放性能价值。利用IPU，客户能够图17 部署安全稳定且可编程的解决方案，从而更好地利用资源，平衡数据处理与存储的工作负载。IPU可将CPU 或xPU连接到网络，加速主机基础设施功能，并适用于现有和新兴基础设施用例，包括安全性、虚拟化、存储、负载平衡，以及虚拟网络功能和微服务的数据路径优化。IPU增强了基础NIC中丰富的以太网网络功能，通过高度优化的硬件加速器和紧密耦合的计算引擎的组合处理任务来实现加速。适应性是通过标准且易于使用的编程框架实现的，该框架结合了硬件和软件功能。IPU扩展了英特尔的智能网卡功能，旨在应对当下复杂的数据中心，并提升效率。英特尔的IPU可以通过专用协议加速器来加速基础设施功能，包括存储虚拟化、网络虚拟化和安全；通过把软件中的存储和网络虚拟化功能从CPU转移到IPU，从而释放CPU核心。还能允许灵活的工作负载分配，提高数据中心利用率。 23

0点赞

2收藏

7下载