L3下沉到边缘是必然趋势
4G时代,虽然EPC pool和X2等业务要求承载网提供三层寻址能力,但4G业务依然还是以南北向为主(基站到核心网),总体呈现为汇聚型业务。此时承载网三层一般高置,主要部署在汇聚骨干节点或核心层之上,在满足业务寻址调度的同时可降低L3网络规模,降低运维复杂度。
5G的网络架构和业务模型相对4G有了很大的变化。首先5G核心网功能云化且逐步下沉,导致除南北向流量外,DC之间东西向流量需求增强。此外5G时代基站密度更高,带来站间深入协同需求,基站之间的横向流量也将远远超过LTE时代的流量,延时要求更是远低于3GPP定义的LTE基站间理想时延(10ms)。可以看到5G承载的业务承载模型已经从汇聚型变成Mesh型,如果仍然维持三层高置,大量的东西向流量回绕将严重影响移动回传网的带宽利用率,同时导致时延增加。L3下沉到边缘将是必然趋势。
本文主要从VPN路由设计、SR(Segment Routing)隧道规划、可靠性等方面介绍5G承载的L3到边缘方案。
L3到边缘整体方案
L3到边缘是指在5G传送网中接入层、汇聚层、核心层均采用SR隧道和L3VPN,端到端部署IGP协议。由于城域回传网络规模较大,通常需要部署层次化L3VPN,根据分层位置的不同,存在骨干汇聚分层和普通汇聚分层两种分域组织方式,具体应根据自身的资源条件(光缆组网规范性、维护能力、设备能力)进行具体方案选择。
L3到边缘的部署方案层次关系为:L3VPN over SR,如图1所示。
VPN路由设计
5G基站都要求采用IPv6地址,而NSA的部署方式要求5G基站与现网IPv4的4G基站交互,因此5G基站都需要支持IPv4/IPv6双栈。对应的承载也要提供双栈VPN的能力,使用一个VPN同时承载IPv4和IPv6。VPN设计需要从简化运维、路由聚合、流量均衡等方面综合考虑。
层次化VPN
虽然5G承载网络有扁平化的趋势,但整体架构依然是经典的分层结构。例如,城域网的典型结构是三层模型:核心层、汇聚层、接入层,从核心层到接入层,对设备的性能要求依次下降,网络规模则依次扩大。而L3VPN是一种平面模型,对网络中所有PE设备的性能要求相同,当网络中某些PE在性能和可扩展性方面存在问题时,整个网络的性能和可扩展性都将受到影响,不利于大规模部署VPN。为解决可扩展性问题,VPN需要从平面模型转变为分层模型。采用层次化VPN可以带来如下好处:
-降低UPE路由条目数。UPE只需维护到SPE以及就近UPE路由,无需维护全网路由。
-降低核心节点的隧道数量,节点部署的隧道规模从数万降低到几十,极大地降低核心设备压力,利于网络稳定。
-通过分层VPN隔离接入侧和核心侧的故障,避免相互影响。
-便于路由聚合,降低路由条目数,提高路由发布效率。
可以看到,不论是对接入设备、核心设备,还是管控系统,层次化VPN都能大大简化路由,降低设备压力。但VPN分层也导致了隧道分段,增加了业务部署和维护的难度,建议部署不超过两层VPN。
VPN路由规划
VPN路由可以通过分布式控制面和集中控制器来发布。BGP是一种比较常用的路由通告协议。另一种方式是由集中管控系统来发放VPN路由,在UPE或者NPE配置一条静态路由后,控制器会自动计算出这条路由需要扩散的节点并对这些节点下发路由配置,实现类似BGP的功能。采用控制器扩散路由的方案简化了设备协议,无需部署BGP。但对于大规模的网络,集中式的路由扩散对控制器性能提出了很高的要求,需要尽量通过聚合路由或者缺省路由的方式降低路由条目数以提高路由发放的效率。
VPN路由规划应遵循简单、可靠、高效的原则,尽量避免维护大量路由条目。
-对于UPE,同一IGP域内的UPE之间互相发布明细路由,确保东西向流量就近可达,其他流量全部通过指向SPE的默认路由进行转发,使得UPE维护的VPN路由条目极简,只有一条默认路由和本域内其他UPE的明细路由。
-为了降低SPE和NPE节点的路由条目,SPE可将下挂的UPE引入的基站路由聚合后向NPE和其他SPE发布,路由聚合要求对基站进行合理的规划。同时SPE不向UPE发布核心网的明细路由,而发布一条默认路由。
负载均衡
为了降低设备转发压力,应该尽量避免将所有流量归属到一个主用节点上,需合理规划VPN FRR的主备路由以实现负载分担。
负载分担遵循同侧就近优先的原则。如对于上行业务,接入环左侧UPE节点均以左侧SPE为主用路由下一跳,而接入环右侧UPE节点以右侧SPE为主用路由下一跳;同样的SPE也以同侧就近的NPE作为主用路由下一跳。对于下行路由,NPE以同侧就近的SPE作为主用路由的下一跳。
隧道设计
5G承载L3到边缘方案采用SR隧道。SR是一种源路由技术,可助力运营商轻松创建和管理百万级别的连接,是针对5G承载时代泛在连接需求的有效解决方案。
SR提供了无连接的SR-BE和面向连接的SR-TE/SR-TP两种类型隧道。SR-BE隧道基于IGP扩展实现,网络中每台设备启用IGP协议,通过IGP协议将设备节点标签扩散到SR域内其他设备。各节点分别计算到宿节点的最优转发路径,及找到宿节点标签的最优下一跳出接口,形成IGP域内fullmesh的SR-BE隧道。其特点是面向无连接、Mesh业务承载,提供任意拓扑业务连接并简化隧道规划和部署,适合东西向业务承载。
SR-TE/SR-TP隧道是由一组segment组成的满足用户流量工程需求(用户指定的显示路径或者根据带宽、时延等约束计算,或者无任何约束)的路径,由控制器根据网络拓扑和带宽信息创建,并在隧道源PE节点生成相应的标签栈。SR-TP在SR-TE的基础上提升了SR通道的管控能力,实现电信级的操作维护管理(OAM)和保护,用于面向连接的、点到点业务承载,提供基于连接的端到端监控运维能力,适合于南北向业务承载。
IGP划域
为了隔离故障、降低设备要求、提高收敛速度,IGP需要层次化部署,使用IGP多进程隔离接入环和汇聚网络,不同进程之间路由完全隔离,互不引入。有两种分域方案:普通汇聚和骨干汇聚,如图2所示。
普通汇聚分域方案以普通汇聚节点作为分域点,每个接入环一个IGP域;核心层、骨干汇聚以及普通汇聚一个IGP域。这种方案的优点是故障隔离度高,实际网络中接入层故障率远高于汇聚层,将不同接入环划到不同IGP域可以隔离不同接入层的故障,避免互相影响,提高网络稳定性。同时接入层IGP域规模较小,对接入层设备要求较低。缺点是接入域IGP域数量多,网络规划、部署复杂,维护成本高;其次对组网规范性要求较高,对于跨环组网情况IGP闭合困难;此外分层点位置较低,私网路由聚合收敛比小,导致L3VPN路由量较大。
骨干汇聚分域方案以骨干汇聚节点作为分域点,同一个骨干汇聚下的一个或多个汇聚环、接入环划分为一个IGP域;骨干汇聚以上网元划分为一个域。与普通汇聚方案对应,此方案的优点是IGP域数量少,IGP域规划、部署、运维难度低;同时对拓扑规范性要求不高,同一汇聚环内的接入环可以灵活接入;利于路由汇聚,大幅降低核心L3VPN域路由量。同样的,缺点是接入层IGP域规模较大,对接入设备能力要求较高。
两种方案各有优缺点,具体应结合现网实际情况择优部署。对于接入设备,需要支持最少500节点的IGP域组网要求,以应对不同的部署模式。
隧道规划
在分层VPN场景下,UPE和SPE以及SPE和NPE分别部署分段的SR-TE/SR-TP隧道用于承载南北向业务。UPE仅部署到其归属SPE的SR隧道;SPE需部署到所有NPE的SR隧道。南北向隧道路径规划要满足以下规则:
-隧道工作路径尽量避免流量走横向链路防止拥塞,如普通汇聚点之间、骨干汇聚点之间;尽量不绕行其他同层次的环;
-部署主备线性保护,要求工作和保护路径分离;
-对超过设备最大栈深能力的路径,按需部署Binding SID。
可靠性设计
网络可靠性包含保护和收敛两种机制,保护提供快速倒换,但难以抵抗多点故障,故障收敛可以在多点故障情况下完成业务恢复,但性能稍差。可靠性设计需同时考虑这两种机制。
网络保护
网络保护是通过一定的冗余机制,提供备份网络节点或链路,在其失效或服务质量下降时,提供业务快速愈合的能力。SPN网络采用分层保护架构,可为隧道层、客户业 务层提供路径、节点和接入链路等提供完善的保护,如图3所示。
-网络层采用主备隧道保护,通过隧道OAM检测链路故障,触发主备倒换;
-PE节点采用VPN FRR保护,通过OAM检测节点状态,当主用路由下一跳节点失效后,触发VPN FRR切换到备用路由;
-接入侧采用IP FRR保护,通过BFD检测链路状态,当接入链路失效后,触发IP FRR切换。
故障收敛
保护方案在转发面提供了单次故障场景下的快速业务切换功能,但对于多处故障,需要依靠控制面收敛恢复业务,分布式控制面和集中控制器均可实现业务收敛。
-逃生路径
逃生路径是一种分布式业务恢复机制,当主用和备用SR隧道都失效时,头节点可将业务收敛到SR-BE隧道,依靠IGP的收敛能力恢复业务。但IGP收敛无法跨域,而且没有带宽保证可能导致拥塞,存在一定的场景限制。其优势是收敛速度较快。
-控制器重路由
控制器重路由是一种基于集中控制面的业务恢复机制。当网络多处故障后,控制器通过BGP-LS实时感知拓扑变化,重新基于全局拓扑计算新的业务路径并通过PCEP下发到转发设备,形成控制闭环。控制器重路由的优点是重新收敛的业务路径依旧可以满足流量工程的要求,而且不受IGP分域的影响,可以跨IGP域恢复业务。但相对分布式控制面,其收敛性能稍差,且影响收敛性能的因素较多,如DCN收敛时间、南向接口效率、控制器计算性能、控制器部署位置等。
可针对两种方案各自的特点结合使用,在故障发生后可先使用逃生路径恢复业务,再将拓扑变化信息上报控制器,由控制器完成路径调优。
结合5G业务东西向流量急剧增长的趋势,L3到边缘方案可以满足业务就近转发的需求,并且相对于传统L3方案,基于SR的L3到边缘方案简化了控制面协议,可以灵活地根据南北向业务和东西向业务的不同承载需求选择面向连接的SR-TE隧道或者无连接的SR-BE隧道,使得隧道层技术归一,降低网络复杂度。