AI技术在网元节能中的应用

2022-07-21 作者:中兴通讯 武利明,段威  
AI技术在网元节能中的应用 - 中兴通讯技术(简讯)
您当前访问的的浏览器版本过低,为了给您带来更好的体验,建议您升级至Edge浏览器或者推荐使用Google浏览器
取消
AI技术在网元节能中的应用
发布时间:2022-07-21  作者:中兴通讯 武利明,段威  阅读量:

碳排放已成为ICT行业面临的严峻挑战。5G时代,海量接入以及大带宽的需求,更对网络能效提出更高要求,承载网设备也要在设计、建设以及运维方面做到能耗优化和绿色节能。目前承载设备主要通过静态方式实现节能,无法根据业务流量负载和外部环境的变化,实时调整设备能耗。通过在节能技术中引入AI人工智能,能够高效准确地采集数据产品和能效相关的不同维度的全部数据,通过算法的训练学习,精确拟合设备运行状态,识别流量变化,提升设备的节能效果,大幅减少电力消耗和能源浪费。

 

承载网AI智能节能总体思路

 

现有的承载网络(PTN/IPRAN等)设计总体原则是注重带宽与性能优化,没有充分考虑能量效率,能效利用上存在以下几个问题:

- 网络通过大量的冗余硬件来进行带宽保证和故障情况下的冗余保护,组网设计上大部分场景需要充分利用负荷分担,当流量较小时,会导致大量的端口带宽利用率较低;

- 网络按照峰值业务时段的服务质量设计,在夜晚或假日的低流量时段或在业务负载暂时变得非常低的某些区域中,设备无法充分利用;

- 网络设备存在不同的开通阶段,网络商用初期,用户规模较小,网络处于轻载或空载状态导致大量的无效功耗。

因此,IP网络设备节能的关键就是以流量为核心,通过AI人工智能技术,对已有流量历史数据进行训练和学习,识别不同设备的流量变化趋势和所处的业务场景,对负荷较低的网络设备实现动态功耗的降低。

通过AI可以识别出各种流量场景,如,当某场景白天、晚间流量很大, 但夜间无流量, 且周末相比工作日流量增大, 模型可能将该场景识别为商场类;当某场景周末、节假日流量大且正常工作日流量较小, 可判别为景区类等。

在具体实现上,根据AI模型训练学习的优化,可以实现更详细的业务场景划分,如地铁、高铁、高速公路、高校、医院等,不同类型的场景对应不同的节能策略。

但IP承载设备和基站设备不同,基站设备是整个网络设备的末端,针对特定的场景区分度比较好,相对来说能够通过流量得到明确的场景分类。而IP承载网设备,网元类型比较多,包括接入、汇聚、核心等,具有典型的流量汇聚特性,即使接入设备也是众多基站的汇聚点,因此从流量上,承载设备已经看不到基于地点特性的场景信息,但是可以根据流量的变化趋势划分抽象的场景信息。

对于承载设备,流量变化趋势可以划分为如下四类场景:

- 场景一,流量长期变化趋势不均衡,部分时间段高负荷,部分时间段低负荷;

- 场景二,流量长期变化趋势处于较低负荷水平;

- 场景三,流量大部分时间处于空载状态;

- 场景四,流量长期变化趋势处于较高负荷水平。

总体上节能的效果是与业务负荷相关,一般荷越低,节能效果越明显,场景四在流量较高负荷的情况下进行任何节能动作都没有太大意义。因此AI智能节能重点是识别场景一、场景二和场景三,即识别流量中长期的变化趋势,确定流量低负载的时间段,动态执行节能动作。

 

AI智能节能动作

 

承载网元产品设备功耗总体分为两大类,静态功耗和动态功耗。

静态功耗在设备开启上电后就一直存在,即使没有流量也有固定的功耗,不随负荷而变化,静态功耗的主体是网元设备的各种硬件单元和芯片。

动态功耗则随着流量负荷增加而上升,因此AI智能节能主要是识别网元设备的流量变化趋势,在低流量负荷时间段执行节能动作。节能动作总体分为两类,硬件关断操作和路由迁移操作。

 

网元硬件关断

硬件关断动作就是关闭部分空闲的硬件资源,从而达到降功耗的作用。对于网元设备,有如下几种可硬件关断操作:

- 关闭线卡Serdes总线

对于分布式网元设备,所有线卡之间的流量转发均通过交换网进行。线卡通过Serdes总线连接到交换网SF(Switch  Fabric)上,当线卡工作在低流量负荷时,可以关闭空闲Serdes达到降功耗的作用。

- 关闭交换板SF(Switch  Fabric)

对分布式网元设备,交换网通常都有较高的冗余度,因此基于网络整体流量趋势预测,当网元整体流量负荷比较低时,可以选择关闭空闲的交换板,实现动态降功耗的作用。

- 物理端口休眠

对于流量长期空载,仅偶尔有低负荷流量的情况下,可以将对应的物理端口休眠。端口休眠并不是彻底关闭物理端口,当有流量时会重新触发端口转发流量。

目前端口休眠技术主要以IEEE制定的802.3az标准为主。这一标准称之为节能以太网标准(EEE),主要原理是在设备利用率低的时段或闲置期断开电源连接,而在数据传输时期,恢复电源连接。

- 关闭线卡

当线卡长期流量负荷较低时,尤其是线卡在SG(Smart Group)中存在冗余保护的场景下,可选择关闭线卡,实现动态降功耗的作用。

硬件关断总体视图如图1所示。

 

     图1   网元硬件关断总体视图

网元流量重路由迁移

在目前运营商网络路由策略中,无论网络中是否有流量经过,或无论流量大小,所有的链路都处在工作状态,即使这些流量很低,通过一条链路就可以完成转发,但实际中与路由相连的所有链路都会处在工作状态。

总体上,在不影响网络性能的情况下关闭部分链路可以节省大量能耗。因此根据网络流量预测值,如果部分链路上的流量在一个较长时间段内是低流量状态,那么可以把这些链路上的流量归并到其他链路,使其空闲,进而休眠。

如图2所示场景,网络中存在SG(Smart Group)或者ECMP(Equal-Cost Multi-Path)负荷分担场景,当流量负荷较低时,将SG/ECMP中部分成员端口关闭或者线卡下电,流量在剩余端口上转发,当预测流量趋势上升时,提前将端口打开。

   图2   负荷分担流量重路由

对于部署了隧道策略的业务场景,则可以采用基于节能策略的TE重优化技术,即通过AI预测流量,对于长期趋势为空载或者低负荷的端口,重优化端口上的TE tunnel,将其路径优化到部分设备和链路上。

路径优化技术不应局限于单个设备,应该从网络整体的流量预测基础上进行分析,在安全的基础上使得尽量多的设备或者链路空闲休眠,达到更好的节能效果,如图3所示。

 

   图3   TE流量重路由

AI智能节能总体架构

 

网元AI智能节能是网元设备的一种AI应用,从架构上是承载网整体AI智能架构的一部分,需要网元设备、管控以及云端协同实现AI智能节能闭环系统,管控和云端实现长期流量趋势的预测与分析,设备侧实现短期流量趋势的AI推理,如图4所示。

节能动作的执行需要充分进行节能风险评估,在节能开启状态下,需在每次动作前,对当前节能策略进行风险评估,根据风险判断节能动作的可执行性,紧急状态下发出告警,控制节能退出。风险评估涉及到的信息有:设备流量异常冲高、设备异常信息、预测模型可用性、当前节能模式、保护预留流量空间。

       图4   网元AI智能节能架构

 

AI流量算法模型

AI智能节能算法模型主要是流量预测,有多种算法模型。

一种是基于序列特征的预测方法,包括Arima、Prophet等时间序列算法。这类算法基于时间序列本身的特点进行建模和预测,是线性模型,适合短期内而且平稳时间序列的预测。

另外一种是回归预测方法,即采用AI等机器学习技术,包括RNN/LSTM神经网络等,基于历史负荷数据建立回归模型来达到预测未来负荷的目的,适合非平稳变化、复杂的非线性网络流量。

AI不同算法有各自适合的场景,因此更好的方法是同时使用不同的算法,从不同角度预测流量,综合不同预测结果制订更合理的节能策略。

从流量波形结构看,一般情况下,流量可以分解为三个主要成分:增长趋势、周期趋势以及节假日。针对智能节能,主要通过AI算法预测流量中的趋势部分和周期部分,找到流量低负荷的时间周期,从而进行相应的节能策略。

 

趋势流量预测

主要使用RNN(Recurrent Neural Networks,循环神经网络)/LSTM(Long Short-Term Memory,长短期记忆神经网络)进行长短期的流量趋势预测,RNN/LSTM模型同时考虑了当前和过去历史数据,通过回归计算能够得到趋势上升或者下降时的边界点。

传统的神经网络模型以及CNN卷积神经网络,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。

相对于CNN,RNN主要是用来处理序列数据,RNN中一个序列当前的输出与前面时刻的输出也有关(结合前面的状态、当前的记忆与当前的输入)。

RNN网络会对前面的信息进行记忆并应用于当前输出的计算中,而LSTM则是对RNN的进一步改进。RNN的信息只能传递给相邻的后继者,当输出与其相关的输入信息间隔很长的时候,RNN 的参数训练就变得非常困难,而LSTM能够解决输入与输出的长期依赖问题。

 

周期流量预测

网络流量中,周期流量始终占有主要成分,比如每天白天和夜晚流量都呈现周期性能的波动,每个工作日和周末流量波动情况也不同。流量的周期性和网络所在地域、时间周期、人流活动特点、社会经济总量等强相关。

趋势流量预测以回归预测为主,主要是预测流量发生变化的边界点,而周期流量预测,应该以分类为主,可以基于不同时间段的流量情况标记为不同的场景。

周期性流量预测可以采用基于树的分类算法(决策树Decision Tree、随机森林bagging、boost等),不同算法分类的效果可以在原型开发阶段进行验证,关注分类的准确度和泛化预测性能。

对于基于树的分类算法属于监督学习,因此首先需要对数据样本进行场景分类,即数据标注,当完成模型的训练和学习后,对于新接入节能策略的网络设备可以根据模型分类确定的场景类型,采用合适的节能策略。

 

总结

 

通过AI算法预测网络流量的变化趋势,实现动态节能,能够取得最优的效能,而且也减轻网络运维的压力,使得运维流程自动化智能化。

同时也应看到,AI算法通过数据算法进行预测,执行关断硬件操作存在一定的风险,因此在架构和业务逻辑设计上,需要充分考虑异常,进行风险评估。在不安全状态下能够及时退出节能状态,避免在大流量突发的情况下造成流量损失。

本期相关文章