面向AI大模型训练的高性能网络

发布时间:2024-03-22 作者:中兴通讯 杨茂彬

        ChatGPT的火爆,催生了人工智能从判决式到生成式的跨越式发展,百亿千亿参数规模的AI大模型训练如火如荼的展开,对高性能网络提出了迫切需求。AI大模型训练依赖于分布式并行计算,包括数据、流水和张量并行,为了最大化发挥GPU算力,需要将通信时间开销占比控制在5%以内,这就要求AI大模型训练的网络必须是满足零丢包、低时延、高吞吐大带宽以及大规模组网的高性能网络。

 

当前高性能网络主流解决方案

 

        应用于AI大模型训练场景的两大主流高性能网络技术为IB网络和RoCEv2网络。

        IB网络起源于上世纪九十年代,原旨在替代PCI总线技术。然而,它在高性能计算和AI领域的数据中心中意外受到欢迎并得到广泛应用。IB网络通过信用流控机制实现了无丢包传输,并提供QoS服务质量以优化特定流量。尽管IB网络有诸多优点,但由于其配置、维护和扩展的复杂性,以及需要专门的硬件和子网管理器,导致成本较高,并不像以太网那样普及。

        RoCEv2网络是基于以太网演进的,它允许通过封装RDMA帧在IP/UDP报文中实现远程直接内存访问。当数据包抵达GPU服务器的RDMA网卡时,数据可被直接传输到GPU内存,绕过CPU以降低时延。另外,通过部署DCQCN等拥塞流控方案,降低RoCEv2网络的拥塞和丢包。RoCEv2网络为统一承载网络设计,满足高带宽、高弹性组网,云化服务化和扩展性支持较好,是国产化高性能网络的必选之路。

 

当前RoCEv2网络拥塞及流控机制问题分析

 

        RoCEv2网络中,DCQCN是最常用的拥塞控制算法,它通过交换机的ECN标记来检测并指示网络拥塞。交换机在发现拥塞时,会概率性地在数据包上加上ECN标记,RDMA网卡则根据这些标记来判断网络状况,并通过CNP报文来调整数据传输速率。DCQCN算法公平高效,非常适合高性能计算和AI学习等需要高吞吐、低时延的应用场景。

        但DCQCN也存在如下不足,导致网络吞吐率徘徊在50%~60%:

        - 拥塞指示不够精确:ECN标记只有1bit,无法细致区分不同程度的拥塞;

        - 速率调整反应缓慢,精度不足:仅依赖CNP报文来调整速率,缺乏其他网络信息反馈;

        - 没有结合流量特征调优:没有考虑长短流的不同特性,以及调度间隔周期;

        - 没有考虑多路径均衡调度:多打一流量分布不均,未能充分利用AI网络多路径带宽资源。

 

中兴通讯RoCEv2网络端网协同创新方案

 

        传统DCQCN网络因其拥塞标记信息粗略和端侧与网络侧流控机制的相对独立,难以在高吞吐、满负荷的网络环境下避免拥塞、丢包和时延等问题。为提升高性能网络的传输性能,中兴通讯提出了RoCEv2网络端网协同创新解决方案,通过端网协同联动机制实现精准、快速的拥塞控制和流量调度算法,使网络的吞吐率提升到90%以上(见图1)。该方案在拥塞控制和精准流控两个方向实现端网协同创新。

 

 

端网协同新型拥塞控制技术

        网络设备通过快速CNP和带内遥测技术及时准确的向端侧提供链路拥塞信息,实现新型拥塞控制技术。

        - 快速CNP技术

        传统DCQCN网络,当网络设备出现拥塞时,相关链路的数据报文会打上ECN标记,目的端网卡收到ECN标记报文再向源端网卡发送CNP报文,源端接收到CNP报文后进行调速,该过程周期较长,调整速率响应缓慢。我们提出快速CNP解决方案,中间交换机检测到拥塞时,会迅速向源端网卡发送包含详细拥塞信息的CNP报文,源端网卡能更快地利用这些信息精准调整流量,从而迅速缓解网络拥塞。

        - 基于带内遥测机制的精准拥塞流控技术

        传统DCQCN中的ECN拥塞指示只有1bit,无法精确表达链路拥塞程度,源端也就无法进行精准流量调控。我们提出了基于带内遥测技术携带更多路径负荷信息的解决方案,中间设备在遥测报文中填充可用带宽、队列深度、时间戳、发送字节数等信息,端侧收集齐路径所有网络设备的遥测信息后,根据训练调优后生成的流量调度算法对流量进行实时精准调控,使端到端路径流量达到高吞吐、低时延、无拥塞的最佳状态。

 

端网协同多路径精准流控技术

        网络侧与端网配合,充分利用RoCEv2网络ECMP路径和多种负载均衡技术,提升数据传输效率。

        - ECMP路径端网协同通告

        AI大模型训练数据中心的RoCEv2网络采用胖树CLOS架构,拥有丰富的ECMP路径。RoCEv2网络控制器掌握全网拓扑,并向端侧同步ECMP路径信息,以优化数据传输,提升网络效能。

        - 根据流量特征匹配的负载均衡技术

        端侧根据流量特征(如老鼠流、大象流)选择不同的负载均衡技术,通过报文哈希或源端口散列进行选路,并可根据网络负载实时调整策略,以提升数据传输效率。

 

        随着AI大模型参数从千亿迈向万亿,以及AI芯片算力供给受限,万卡规模的智算集群网络成为必然,大规模组网场景下的精细化端网拥塞控制成为业界亟待解决的共同挑战。中兴通讯提出的RoCEv2网络端网协同创新解决方案,旨在改进网络的吞吐率,强化AI大模型训练网络性能,进一步释放AI算力,提升AI大模型训练效率。