人工智能在网络故障根因分析中的应用

发布时间:2018-08-27 作者:杨洋,刘军杰(中兴通讯)

网络运维面临的挑战

自通信网络诞生起,网络故障的根因分析一直是困扰运营商和运维服务提供商的疑难问题。通信网络由不同厂家、不同设备类型构成,现网一旦出现故障,不同网络层级、模块、厂家、设备类型的大量故障告警就会出现,造成大量突发故障的假象。传统采取人工的方式进行处理,消耗了大量的资源,运维成本居高不下。

随着5G时代的来临,ICT产业全面融合,SDN/NFV、云和大数据等新技术的出现和发展,使得运营商面临来自各方面的严峻挑战,运营商对网络的维护要求也越来越高,各种高度集成的设备所产生的大量实时信息需要被分析,现有的网管系统已经无法满足要求。

基于人工智能的网络故障根因分析

中兴通讯以人工智能技术为助力,运维数据为基础,大数据AI平台为支撑,配合相应的通信业务模型和网络拓扑结构,实现故障的精准定位和溯源。基于人工智能的网络故障根因分析方案能够对告警信息进行实时采集、转换和集中监控,并对关键信息进行分析处理,支持对告警信息进行过滤、筛选、匹配、分类等预处理,并通过算法进行告警溯源,建立根源告警和衍生告警之间的关系,从而过滤掉冗余告警,实现对网络故障的快速诊断。

方案集成了其他类型的运维数据,如拓扑资源、性能数据、运维日志等,并辅以侦测命令,使得故障溯源更加全面、立体和精确。下面结合网络的实际业务场景,来说明如何将最新的AI技术运用到电信网络的运维和故障溯源中去。

● 场景一:大量瞬断告警
瞬断告警是指告警的发生时间和清除时间短、小于一定阈值的告警。这类告警的生命周期很短,对于运维人员来说,没有太大的参考价值,大量瞬断告警还会使得真正需要关注的告警淹没其中,造成运维人员识别问题更加困难。

● 场景二:频发告警
如果一定时间内发生的特定告警和特定事件达到一定的数目,可以认为这些告警和事件之间存在一定的相关性。通过设置告警和事件的频次分析规则,确立告警和事件之间的相关性。如:同一网元同一单板的温度过高或过低所产生的告警X分钟出现Y次,则合并生成一条新告警,说明单板温度异常。

● 场景三:同网元内故障影响
同网元内故障是指同一网元内某物理对象(单板、拓扑)上产生告警会导致该网元上其他物理对象和逻辑对象产生关联告警。例如,对于LTE设备,基站内单板之间以及单板和小区(逻辑对象)之间存在关联特性,因此,单板故障往往会导致小区也存在异常。

● 场景四:同专业网上下层业务故障影响
同专业网上下层业务故障影响体现为某一个根因告警导致了大面积的现象告警,需要快速获取导致故障的根因告警。对传输而言,业务的层次是从下到上。典型的场景为,服务层告警会导致客户层告警的发生,比如光纤断纤,光纤所在端口会报LOS告警,导致上面的TMS、隧道、伪线、业务都出现告警,这种情况下,光纤所在端口的LOS告警就是根告警。

● 场景五:跨专业网故障
传输包括光传输和微波传输,光传输节点会下挂很多微波节点,当一个链路中断会影响这条链路所有的后续站点的BTS退服,光传输节点断,所有下游的微波BTS站点都会退服,中间微波某一跳断会导致下游所有BTS退服。

针对上述几个典型场景,中兴通讯提出基于AI的智能故障诊断,基于大数据分析和人工智能,根据系统中的网络、业务上下游关系等,综合所有监控数据(包括告警、性能)和操作日志以及故障解决历史记录,输出故障特征与故障原因的系列规则。在实际网络运维中,根据故障特征自动匹配诊断规则,并进行诊断分析,自动得出故障点及相关处理建议。

 如图1所示,该方案由两个阶段构成:

● 第一阶段:基于历史的运维数据,通过AI引擎进行规则分析模型的智能化自动化识别。
● 第二阶段:基于识别出的根因规则,使用根故障分析引擎进行故障溯源。

 


在第一个阶段中,针对具体的场景,可以提取不同类型的规则。相对而言,通过人工积累的根故障分析模型较少,不足以支撑根故障分析。通过AI引擎可以进行自动化的分析模型识别,作为根故障分析引擎的输入,从而减少对人工经验积累的依赖。

把第一个阶段建立好的根故障分析模型,应用到第二个阶段中。根故障模型定义了满足一定拓扑关系和时间窗口的条件下,具有根因关系的告警码关系。在分析引擎中,基于生产环境中的实时告警,进行实时或准实时的分析,将满足根故障分析模型条件的数据按照规则进行匹配,建立关系,并找出根源故障,实现网络溯源。

相比传统的故障溯源,人工智能的方法有如下几个优势:

● 多数据源
综合运用多种数据源,包括并不限于告警、性能、拓扑资源以及日志,并支持侦测命令。使得故障溯源更加有效和实用,溯源结果更加精确。

● 智能化
AI赋予的智能化能力,能够忽略网络架构、设备、厂家等的差异,快速地抽取故障关联规则。举例来说,在新一代网络架构NFV为中心的网络中,新的ICT架构导致了新的网络故障类型,在某NFV试点项目中,通过人工智能平台识别出46条规则,其中,28条是有效规则,新增规则14条,体现了方案智能化的能力。

人工智能在故障根因分析和定位过程中的应用,是全面自动化运维的第一步,也是关键的一步。可以预见,电信运维领域在不远的将来,全面实现智能化、自动化运维,形成整体的闭环,大大提升运维效率。