广域无损关键技术研究

发布时间:2024-06-24 作者:中兴通讯 刘爱华,武利明

        随着生成式人工智能AIGC大模型和智能计算应用的高速发展,以及网络运营商对基础网络高投入产出比的极致要求,面向广域网的高通量传输技术成为近期网络领域的研究热点,如广域无损技术(wide area lossless technology)。广域无损技术通常应用于对数据传输及时性和可靠性要求较高的场景,如数据中心间的远程数据复制、实时视频传输、高性能计算等,为业务提供低延迟、低丢包、高带宽利用率的数据传输服务。

        分析一次网络数据的可靠传输过程,影响传输通量的主要因素包括:

        - 距离:体现为传输RTT( round-trip time)时间,距离越长,应答确认需要的时间越长,等待发送下一批数据的时间越长,通量越低;

        - 封装效率:体现为一个报文中的有效载荷长度,封装效率越高,通量越高;

        - 拥塞控制机制:不同传输层协议以及不同拥塞控制算法,对传输通量产生不同影响;

        - 丢包率:体现为数据需要重传的概率,丢包率越高,重传率越高,通量越低。

        其中因距离产生的光纤传输时间无法克服,封装效率取决于端侧的传输协议类型以及广域网的隧道封装情况,拥塞控制机制与端侧和广域网相关,丢包率和广域网直接相关。

        广域无损技术针对拥塞控制机制和丢包率进行改进,通过减少数据传输过程中的丢包和延迟,在广域网络中实现高通量传输。需要注意,和数据中心无损类似,广域无损不保证绝对零丢包,而是尽量保证少丢包,因此基于广域无损的应用协议需要应对丢包的情况以保障传输数据的完整性。

 

当前技术面临的问题

 

        当前业界的广域无损技术侧重于在端侧进行优化改进,包括如下技术:

        - 前向纠错(forward error correction,FEC):通过在数据包中添加冗余信息,使接收端能够在接收到部分损坏的数据包时进行纠错,从而避免数据丢失。

        - 优化传输协议:如对TCP协议进行改进或采用专用传输协议,以提供更高的性能和可靠性。

        上述在端侧进行优化改进的方式将广域网络看成黑盒,而由于端侧无法及时感知网络的变化,并不能真正实现广域无损的目标。

        另一方面,在数据中心内行之有效的无损技术如PFC(priority-based flow control)、DCQCN(data center quantized congestion notification)等,在广域网上部署会导致如下问题:

        - PFC:由于广域网链路连接复杂,且PFC操作对象是端口优先级队列,粒度较粗,在广域网部署PFC比在数据中心更容易引发PFC风暴、更容易导致PFC不公平(损害无辜流)。

        - DCQCN:广域网中遵从DCQCN算法的流量占比小,部署DCQCN后,即使发送端降速,不代表可以缓解拥塞(其他流量不降速);另外由于广域网中继节点远多于数据中心,因其他流量的竞争将增大触发ECN(显式拥塞通知)的概率,导致遵从DCQCN算法的发送端长期在低速率。

 

中兴通讯广域无损解决方案

 

        基于上述分析可知现有技术机制无法实现广域无损,为此中兴通讯从强化、优化广域网络自身能力出发,提出中兴通讯广域无损解决方案,关键技术包括:确定性网络技术、智能QoS技术、多路径负载分担技术、多路径快切技术。

 

确定性网络技术

        广域无损要求数据传输经过广域网络时提供无损,对广域网络的传输带宽和丢包率提出了更高要求,因此,确定性网络技术可为广域无损提供“强网”解决方案。

        从网络的视角,广域无损“强网”方案是通过网络自身的确定性技术保障传输业务在广域网络传输过程中无拥塞丢包,以及可选的抗网络传输误码。为了支持网络无拥塞丢包,基于中兴通讯EDN(enhanced DetNet,增强确定性网络)架构,从网络的三个维度提供确定性保障,包括资源确定性、路由确定性和SLA(丢包)确定性,如图1所示。

        资源确定性从网络资源维度为广域无损业务提供资源预留,主要是为广域无损业务提供足够的带宽资源,可以采用的技术包括网络切片、控制器时隙编排或资源预留协议等。

        路由确定性为广域无损业务根据业务需求选择优化的路由,选择的路由具备无拥塞丢包的转发机制,可以采用的技术包括层次化管控、广域端到端业务编排和显式路径等。

        SLA(丢包)确定性实现包括广域无损业务特征识别、业务到网络的映射等功能,可以采用的技术包括时隙化队列和调度时隙队列转发TQF(timeslot queueing forwarding)技术、分类分级的路径映射技术等。

        为了抗广域网络误码,可采用DetNet的报文复制与消除与排序功能PREOF(packet replication, elimination, and ordering functions)。

 

智能QoS技术

        基于DiffServ的QoS模型目前在广域网得到广泛部署,静态规划不同业务的优先级,通过队列调度模型(PQ/WFQ)以及拥塞控制策略(TD/WRED)来进行业务转发。但是在实际运行过程中,网络中业务流量场景差异较大,QoS参数众多,配置复杂,通过静态配置QoS参数模板的方式无法响应流量模型的变化并实现流量模型自动化配置,给实际运维带来了困难,也难以保证不同业务的SLA。

        DiffServ虽然对不同业务区分优先级,但是不同优先级之间,以及优先级内部的不同业务流会相互干扰,并不能严格保证业务的时延抖动特性。

        在广域网上,微突发对业务时延抖动影响较大,通常会导致多个数据包从同一流中丢弃,导致流的全局同步减小流,从而降低总体吞吐量,因此需要自动识别微突发流量(通常是大流,如HTTP、视频业务等)并进行流量隔离,保证低时延业务的品质要求。

        为了解决广域网业务的时延、抖动以及丢包确定性问题,中兴通讯基于路由器提出智能QoS整体架构(见图2),结合AI算法模型,实现了流量学习与建模、QoS参数自动寻优,以及QoS调度模型动态调整等技术解决方案。

        - 流量学习与建模:对进出网元的流量进行分析,在转发面实现微秒级的流量检测与测量,通过统计分析与建模,识别微突发的规模、持续时间,并对长短期流量波动进行预测及分析,识别网络流量组成模型,区分大流与小流、无响应UDP流以及响应TCP流。

        - QoS参数自动寻优:基于流量模型,通过启发式算法或者强化学习算法自动寻优最优的队列参数组合,其中包括合理的buffer大小,以及WRED门限和丢弃概率,在优化丢包可靠性与保证吞吐的稳定与最大化前提下,尽量降低平均队列深度,降低时延。

        - QoS调度模型动态调整:基于流量模型,对于同一个队列大流和小流,为了保证小流的时延,动态修改大流的队列PHB映射,重映射到低优先级队列;基于流量模型,动态优化多队列的WFQ/WRR调度模型参数,实现不同业务的动态带宽调整。

        网元基于学习到的流量模型,识别微突发以及业务类型,对QoS参数组合进行动态优化,满足业务时延、抖动以及吞吐等SLA指标的要求。中兴通讯自研芯片目前已经支持向400GE/800GE广域确定性的平滑演进能力。

 

多路径负载分担技术

        在广域网当前负载均衡策略下,一条大象流只能在一条物理路径上传输,容易出现耗时长、链路重载导致丢包等后果,多路径负载分担技术对支持多流的传输层协议报文进行深度识别,将五元组层面的大象流分担到多条路径进行传输,保障其传输的及时性和低丢包。

 

多路径快切技术

        多路径快切技术在SRv6 Policy的每条SegmentList上部署质量检测功能STAMP(simple two-way active measurement protocol),网络设备周期性检查STAMP测量结果,如果发现该路径的网络质量(丢包率、时延、抖动等)低于阈值,由网络设备进行快切动作,将流量引导到其他优质的路径上,确保业务流量不受损。

 

        基于上述网络能力优化技术,中兴通讯广域无损解决方案可以在广域网络上提供低丢包、低时延、弹性大带宽、低抖动的传输质量,为新型智算业务提供跨广域的高品质保障,同时广域无损技术提升了传输总量中有效信息的占比,进而提升了运营商基础网络的利用效率。