中兴通讯分布式存储+ DPU,加速数据中心转型

发布时间:2024-01-25

 

“后摩尔时代”的存储新挑战

 

随着工业互联网、人工智能、大数据、5G等产业快速发展,存储需求呈爆炸式增长。数据中心I/O带宽不断增长,同时多样的应用对数据中心存储性能提出越来越严苛的要求。数据中心存储网络的延时也在不断下降,从原来的毫秒级到如今的微秒级,未来甚至逼近纳秒级,这对CPU处理存储网络数据的时效性提出更高要求。

 

中兴通讯认为,为了适应未来数据中心的存储需求,需要从四个维度来考量:高性能、稳定性、可编程性和安全性。

 

高性能方面,由于主机侧所面临的网络处理压力不断增长,延迟方面则是由毫秒级逐渐走向微秒级别,单个报文留给存储软件来处理的时间越来越短;

 

稳定性方面,即包含对网络故障处理、转发稳定性及本身软硬件的稳定;

 

可编程性方面,各种硬件加速之后,要周全考虑如何让硬件能够很好地去支撑存储业务所需要的不断迭代;

 

安全性方面,全面实现数据加密,客户访问IO流量防护等。

 

从2016年开始,摩尔定律终结的各种声音此起彼落,摩尔定律趋近极限。然而随着人工智能业务的普及,越来越多的云上AI计算又对网络和存储I/O的时延性能提出了更极致的需求,RDMA(Remote Direct Memory Access)和NVMe(NVM Express)等高性能网络和存储协议在传统架构下,60%以上的CPU 资源会被网络处理占用,使得存储应用层可分配的CPU 资源捉襟见肘。

 

为解决后摩尔时代I/O性能瓶颈,保证存储协议处理高效,使用DPU(Data Processing Unit,数据处理器)来释放CPU资源的存储硬件加速卸载方案应运而生。

 

分布式存储加速走向可编程的硬件加速

 

DPU是一种新型可编程处理器,集多个关键要素于一身:

 

(1) 算力卸载能力。将存储协议和安全协议的封装与解封装等耗费大量CPU算力任务卸载到DPU上,节约更多CPU算力支撑更多的应用业务。

 

(2) 数据加速能力。可将存储去重,压缩协议处理提前到DPU上处理,加速数据协议处理速度,减少数据流量。

 

(3) NVMe-of能力。在分散的计算架构中,连接不同资源池的方式将从原来的系统总线承载,转变成总线-网络-总线的方式。

 

(4) 网络侧无损网络传输。网络侧为存储系统提供高效拥塞控制机制和增强的负载均衡能力,降低长尾时延,提供更可靠更高效的存储传输网络。

 

(5) 安全能力。可将数据加密交给DPU来处理,简化软件实现;精细化的流量测量支撑精细化的故障检测能力,让流量数据更透明安全。

 

这些DPU功能对于实现安全的、高速、可靠的存储加速方案至关重要,它的应用场景变得越来越宽。

 

file

图1  分布式存储关键路径算力需求

 

对存储系统数据处理全路径中对应的算力需求进行完整分析,可发现DPU上存储加速主要应用包含以下几个方面。

 

DPU 加速带来性能提升

 

DPU 的 NVMe-of 功能,使得 DPU 在 PCIE 总线上以完整 NVMe 接口设备的形态,工作在主机系统中。操作系统只需要用自身的传统本地 NVMe 驱动,就可以直接访问 NVMe 全闪存储池,所有软件定义功能完全在 DPU 上实现。

 

DPU 助力 “算存分离”

 

DPU 架构和技术,使计算侧运行的业务应用和操作系统内核,可以用简单的本地存储访问 API,就能实现对远端存储系统的高效透明访问。所有的安全加密、数据去重压缩、负载均衡等复杂又必须的功能则可完全由 DPU 透明地加速、卸载。

 

DPU 释放 CPU 的资源,加速提升效率

 

存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。随着集群规模的增大,服务器上存储 IO 负载变得复杂,持续消耗、占用主机 CPU 资源。通过 DPU 加速的存储技术,可以使服务器上的 CPU满负荷投入到容器、虚拟机中运行的计算业务中。

 

中兴通讯分布式存储+ DPU硬件加速方案

 

作为全球领先的综合通信与信息技术解决方案提供商,中兴通讯一直深耕服务器及存储领域,致力于分布式存储产品的自主研发,协同自研DPU软硬一体产品,通过关键技术优化,构建以DPU为中心的分布式存储硬件加速方案,聚焦于RDMA技术应用、NVMe-oF高性能存储网络协议卸载、存储协议卸载、安全功能卸载等方面。

 

中兴通讯分布式存储+ DPU硬件加速方案具有以下特点:

 

RDMA offload:DPU通过RDMA网络直接访问远端存储,低时延,低抖动,低CPU使用率;

 

iSCSI/RBD/virtio fs客户端卸载(应用侧):处理客户端控制面指令和数据,减少Host端CPU的负载;屏蔽业务虚机直接访问存储集群,提升数据访问安全;

 

协议加速器:去重、压缩, 节省CPU资源和软件开发工作,提升存储附加功能;

 

NVMe offload:对主机提供NVMe 硬盘接口, 简化并卸载主机的存储协议栈,降低资源消耗;

 

安全加密:密钥证书管理;静态数据安全;

 

file

图2  分布式存储硬件加速方案

 

中兴通讯通过DPU硬件加速技术,致力于满足未来客户对于边缘计算场景、AI训练高性能存储读写场景、零信任安全等场景多样化,高性能的存储要求。未来,中兴通讯将携手合作伙伴,共同推动DPU存储加速技术发展和产业繁荣。