中兴通讯智能无损拥塞控制解决方案

发布时间:2023-08-21 作者:中兴通讯 段威,何力,高磊

        随着AI时代的到来,尤其是ChatGPT的成功应用引起的大模型研究热潮,行业对于数据中心网络低时延、零丢包、高吞吐的需求愈发强烈。然而现有的一些先进的流控技术常常由于过多的参数配置而存在实施壁垒,或是需要增加设备硬件功能而存在实际部署成本过大的问题,同时由于网络环境的复杂多变,一些静态的方案很难适应网络中频繁产生的微突发和incast流量。因此,一种AI ECN的解决方案被提出,该方案在显示拥塞通知ECN(explicit congestion notification)机制的基础上,通过AI算法实时智能地调节ECN水线,以及时响应网络状态的变化。

 

无损关键流控技术发展

        无损流控技术的发展历程可以追溯到网络通信的早期阶段,随着网络的不断发展和应用需求的增加,无损流控技术也在逐步演进和完善。

        - 传统拥塞控制:在早期网络通信中,传统的拥塞控制机制主要基于丢包和延迟等信号来判断网络拥塞,并通过减少发送速率来缓解拥塞。这种机制对于高速、低延迟的网络环境来说表现不佳。

        - 显式拥塞通知(ECN):为了改进传统拥塞控制机制,引入了显式拥塞通知(ECN)技术。ECN技术允许网络设备在遇到拥塞时向发送方发送拥塞通知,而无需丢弃数据包。发送方收到拥塞通知后可以根据情况调整发送速率,从而避免网络拥塞的发生。ECN技术的引入为无损流控技术奠定了基础。

        - 优先级流量控制(PFC):优先级流量控制(PFC)是一种基于优先级的流控技术,旨在确保关键数据的传输优先级高于其他数据。PFC通过设置数据流的优先级,可以确保关键数据在网络拥塞时获得更高的带宽资源,从而提高关键任务的传输效率和可靠性。同时,当网络发生拥塞时,PFC允许单独暂停上游某一优先级的数据传输而不影响其他队列,当拥塞缓解后重启数据传输,以达到不丢包的目的。

        - 基于队列管理的流控技术:随着网络流量的增加,队列管理成为重要的流控技术之一。通过合理管理传输队列,可以优化网络资源的利用,提高数据的传输效率。一些流控技术如DCQCN(data center quality congestion notification)就采用了基于队列管理的方法,通过动态调整队列资源分配,实现对不同类型流量的控制和调度。

 

智能无损解决方案

        为了避免大规模部署产生昂贵的代价,我们以PFC、ECN等机制作为基础功能,研究AI ECN的解决方案。通过对网络状态进行实时监控,预测网络流量变化,并且根据队列长度、传输速率、ECN标记情况等流量特征进行AI训练,利用AI模型学习实时流量状态下的最优决策参数,从而动态智能地调整ECN控制参数(Kmin,Kmax,Pmax),以达到在不丢包情况下网络状态最大吞吐、最小延时的传输目标。如图1所示,整个系统的训练和推理分离,通过不断迭代更新,反复调优模型性能,使模型能更好地适应环境的变化。

        - 训练服务器:设备通过采集装置采集必要的样本数据并定期上传至服务器,服务器通过数据预处理和特征提取等手段将数据处理成模型可以识别的数据形态,模型利用经验数据充分训练后下发至智能代理Agent。最后,智能代理进行推理的同时,服务器继续收集现网流量数据进行进一步增量学习。

        - 智能代理:代理采集实时数据并利用AI模型进行判断生成最优ECN配置,并下发至网络设备,网络设备根据结果调整ECN配置和其他动作处理。

        - 分布式架构:智能代理分布式部署在各个网络节点,每个节点观察本地数据独立进行决策,所有节点共同形成一个多代理系统,各自负责自己所代理节点的拥塞情况,根据模型对ECN进行动态调优。

        采用分布式而非集中式系统主要有如下几个原因:

        - 避免设备间数据通信所带来的额外时延开销。网络流量突发的最佳响应周期需要达到毫秒甚至微秒级别,分布式系统的ECN决策过程全部在本地交换机完成,可以以最快速度响应突发,而无需经过设备通信后进行统一决策。当网络拥塞时,设备间的通信本身就可能存在较长时延,影响决策的及时性。

        - 分布式设计仅采用本地网络状态并做出决策,每次推理需要进行的决策更少,与集中式设计相比,问题的参数空间要小得多。因此,学习过程的收敛速度很快,更容易得到一个可信的模型。

 

 

 

跨数据中心无损技术

        数据中心间网络通常有几十千米的链路长度,固定往返时延往往是毫秒级别,这使得普通PFC和ECN机制在这样的环境下会产生巨大的响应时延,从而导致对于拥塞的控制不够及时,无法应对网络流量的变化。特别是,如果采用普通浅缓存交换机,在PFC触发到生效产生的流量很可能撑爆缓存区空间造成丢包,同时从取消PFC到上游流量再次到达也会因缓存流量不足而造成吞吐损失。

        采用以下几点策略来保证数据中心间流量高吞吐、无丢包的传输需求:

        - 首先采用大缓存交换机代替普通浅缓存交换机。

        - 改善PFC和ECN机制在长距离传输情况下带来的控制上的时延问题。结合本地缓存流量数据与历史信息,通过预测性的估计来预测未来网络流量的拥塞状态,从而对网络流量进行提前控制。

        - 通过快速CNP机制从源端对流量快速进行降速,避免形成PFC风暴。

        - 有针对性地区分数据中心内流量和数据中心间流量的控制逻辑,避免在流量共存期,吞吐敏感的数据中心间流量对时延敏感的数据中心内流量造成影响。

 

        中兴通讯智能无损解决方案可在最小程度改变交换机现有功能基础上,赋予交换机智能决策能力。通过动态ECN功能,设备可以感知网络的拥塞情况,做出动态决策,缓解网络拥塞,打造零丢包、高吞吐、低时延的无损网络。