网络健康状况自动诊断和恢复

发布时间:2023-12-26 作者:中兴通讯 谷春明

        随着移动通信技术的快速发展,网络基站越来越多,组网和连接也越来越复杂,一个站点可能横跨2G到5G的多个频段,甚至还有拉远小区或超级小区。网络运维依靠传统的人工网络健康巡检和手动排障方式已经越来越困难,业界强烈呼吁自动化和智能化的网络诊断和恢复方案。

        中兴通讯提出优健康方案(见图1)。该方案从基站和网管两个维度协同保障网络始终健康运行,完成网元和OMC闭环,实现网络健康状况自动诊断和恢复,并能和上层运维平台对接,在故障处理场景赋能上层系统提升运维自智能力。

 

 

        在基站侧,基站可以监测自身的告警和性能状态,异常时及时诊断根因,同时上报告警、性能、配置、工参和根因信息给网管。网管对数据智能分析处理后下发故障处理指令给基站,指导基站完成自愈,协同保障基站的健康运行。

        在网管侧,网管进行全网健康状态监测,对发现的故障自动识别根因并处理,同时主动识别网络中的隐患,在故障触发前提前维护,化被动运维为主动运维。

        优健康方案通过深度网络洞察(Multidimensional Network Insight,MNI)对全网34项网络指标实现自动诊断分析,找出异常站点,可以在30分钟内完成全网分析,相比传统的手动操作方法效率提升95%以上。

        优健康方案支持告警智能自动处理功能,它通过告警智动专家(Alarm Automation eXpert,AAX)快速识别根告警,并自动智能诊断定位根因,提高故障处理效率。AAX首先进行告警关联分析,找到根告警。在获取历史告警后,AAX对历史告警数据进行清洗建模,然后用AI规则进行关联分析,自动生成告警关联规则,规则经运维专家确认后,再激活生效,从而对当前告警进行实时关联压减。告警压减后,网管上的“衍生告警”都会被折叠,只呈现“根告警”。AAX同时提供告警关联规则的可视化呈现,随着新规则的激活,模型会自增长,并会统计告警的压缩效率。在找到根告警后,AAX再继续进行告警根因诊断。基站在发生故障时,会自动对监测点逐一遍历,识别异常,精准定位故障根因,降低故障分析的试错次数。AAX基于故障树(森林)进行告警数据的挖掘和深入分析,获取基站的定位结果,并结合专家经验库匹配判断,精准输出最终的故障根因,完成问题的定界定位,并在网管界面上直观地输出告警的根因和处理建议,指导运维人员快速解决故障。网管将只对“根告警”下发处理工单和系统建议,在运维人员处理完“根告警”后,其相关的“衍生告警”也会自动消失,从而大大减少故障排查数量。AAX功能覆盖了95%以上的故障场景,根因定位准确率在90%左右,还可以和运营商的工单系统通过OpenAPI接口对接,将根因信息传递给运维团队,整体提高人工故障处理效率1/3左右,让网络的平均修复时间MTTR(mean time to repair)下降20%以上。

        优健康方案还能识别网络中的睡眠小区并让其自动恢复,找到参数冲突的小区并让其自动调整到正常状态,并对故障/隐患进行智能预测,自动识别光模块、光链路、BBU/RRUI环境温度、RRU输入电压相关的隐患。方案通过设备故障预测EFP(Equipment Failure Prediction)主动识别网络中的设备隐患,从而安排预先维护,将故障解决在萌芽状态。

        为了实现智能故障预测,EFP先收集设备的类型/型号、运行数据、环境数据、供电数据、告警数据等信息,从中提取设备的特征信息。然后进行机器学习,对数据进行清洗分类和模型训练,将事件和设备的特征相映射,学习设备的稳定运行状态(如温度、电压、电流、功率等参数的状态);根据AI算法统计分析设备的性能变化趋势,从而预测设备隐患,推测隐患根因,在网管界面上给出隐患等级、检测结果和运维建议,指导现场进行预防性维护。

        在外场某项目中,我们用EFP功能进行全网排查,识别出了60个风险光模块,并持续监测。有21个光模块在30天内发生了故障,有6个光模块在30~60天内发生了故障,有14个光模块在60~90天内发生了故障,90天内的故障转化率为68%。通过EFP,我们可以主动预防性运维,监测设备劣化趋势,定界定位,推动工程整改,降低外部环境对网络设备的影响;降低派单次数,减少人力成本,为运营商OPEX减负;最终助力运营商实现故障处理的L4能力。

        目前优健康方案已在国内外多个项目展开了应用,获得广泛好评,已和中国移动的运维平台完成了对接。随着AI、大数据等一系列新技术的发展与运用,网络智能化正在逐步成为现实,中兴通讯将继续与合作伙伴紧密合作,使优健康方案运用到更多的商用网络中,助力5G网络发展,加速网络自智L5时代的到来。