“AI+”网络云发展趋势及关键技术洞察

发布时间:2025-03-03 作者:中兴通讯 朱堃

        随着ChatGPT横空出世,人工智能(AI)技术在短时间内呈现涌现态势,核心网智能化转型成为必然趋势。作为核心网的算力基础设施平台,网络云的智能化转型是其中的关键环节。

        由于AI训练任务以及推理应用对算力有着高性能、大规模并行、低时延互联的要求,导致网络云从传统的CPU为中心的通用计算演进到DPU/GPU/NPU为中心的异构计算,支持算力池化编排调度、高性能并行存储访问、高通道无损网络以及算力原生等技术,保障资源供应的高效和稳定成为关键。另外,在部署形态方面,“AI+”网络云的智算和通算资源混池部署以及分布式部署也将进一步满足核心网智能化升级的要求。

 

资源池化技术显著提升基础设施资源的利用率

 

        算力池化本质是通过软件定义硬件加速的方式,通过GPU虚拟化、多卡聚合、远程调用、动态释放等多种能力,实现更加高效灵活的聚合、调度以及释放海量AI加速算力,精准保障AI模型开发、训练、部署、测试、发布端到端算力配给,使资源被充分利用,提升智算中心整体效能。

        基于计算总线协议的统一内存池化技术,实现了一致性的内存语义和空间寻址能力,将多个物理内存设备或内存资源整合到一个逻辑内存池中,可以实现对内存资源的统一调度、监控和管理。这种技术能够动态地分配和释放内存资源,根据应用需求进行灵活的调整,从而避免了大模型训练任务时,数据需要在计算、Cache、HBM、DDR内存设备之间频繁移动的问题。该技术不仅提升了系统整体性能,也降低了开发难度和错误率。

 

智算存储满足训推任务高性能、高并发核心挑战

 

        在大模型开发端到端的多个环节中,在多元海量存储、并发高性能等方面都对存储提出了创新需求。因此,作为智算存储需要具备以下特性:

  • 统一存储平台:构建统一的存储平台,满足AI流水线不同阶段的需求,提供多元数据存储能力以及多协议互通能力;
  • 软硬件综合调优提升性能:硬件加速手段包括,通过DPU卸载存储接口协议以及去重/压缩/安全等操作,数据按热度自动分级及分区存储;软件调优手段包括分布式缓存、并行文件访问系统/私有客户端等;
  • 降低数据熵:减少不必要的数据移动和复制,优化存储和访问策略,降低“数据熵税”;通过去重、压缩等技术,减少数据传输和存储开销。

 

开放的高通道无损网络降低并行计算通信开销

 

        AI大模型训练并行计算尽管提升了整体计算效率,也带来了同步开销和通信延迟的问题。在此背景下,探索如何在超大规模智算集群中实现GPU之间的高速互联,从而显著提高GPU的利用率,已成为行业面临的重要课题。

        在Scale-up网络方面,通过基于交换拓扑的GPU高速开放互联技术,GPU之间的通信从传统的点对点互联模式转向交换互联模式。该技术显著提升了单机的扩展性和通信带宽,突破单机8卡的限制,从而大幅提升集群算力。

        超节点服务器之间的Scale-out互联网络,对解决模型训练中的通信带宽和时延等技术瓶颈、提升模型训练的整体效率同样非常重要。虽然RoCEv2是基于标准以太协议的开放解决方案,但各厂家有自己的增强方案,不同厂家都锚定自身的交换设备做了拥塞控制、端网协同等优化,难以与网络设备解耦。因此,基于RoCEv2提供一套开放、完善的RoCE解决方案是业界的目标。

 

算力原生打造异构算力解耦生态

 

        随着国产算力芯片厂家的持续发展,可选择的芯片厂商不再局限于国外品牌。因此,进行基于多种基础架构环境、多种GPU卡类型的异构混池是未来演进的方向。

        算力原生技术,可以保障应用按照统一定义的抽象智能算力度量值申请算力,算力原生层提供相应算力值的GPU资源,同时提供屏蔽厂家差异的资源调用接口,以及与厂家无关的应用编译、运行环境。此时,真正实现了底层GPU异构资源细节的屏蔽,上层AI框架应用和底层GPU类型完全的解耦分离。

 

分布式混池部署满足核心网应用的综合资源需求

 

        核心网网元对通算及智算基础设施资源都有需求,同时训推应用也存在分布式部署的要求,因此通算和智算的混池部署以及分布式部署,成为“AI+”网络云部署的特点(见图1)。

        网络云由通算资源池平滑升级到智算资源池,同时通算智算混池编排管理是网络云的一个重点特征。通常采用集中的云平台统一管理通/智算的算力、存储以及网络等基础设施资源,同时通算和智算资源也由网络云管理平台统一编排。

        基础大模型预训练、行业大模型精调以及客户场景大模型微调,对算力特征及部署位置的要求均不同,结合运营商网络云层次化分布的架构,“AI+”网络云部署也呈现枢纽大模型训练中心、省份训推融合资源池、边缘训推一体机三级部署模式。

 

        网络云在算力、存储、网络、编排以及部署方面的全方位智能化改造,为运营商核心网业务及运维的智能化创新提供了基础设施保障。中兴通讯拥有智算基础设施全系列产品以及丰富的智算中心端到端建设经验,结合对电信领域的深入理解,将助力运营商推进核心网智能化转型的进程。