管好收益的“源头”——用告警相关性技术实现业务中断管理

发布时间:2023-04-21 作者:张强,杨金彬(中兴通讯)

 业务是电信运营商的收益源泉,业务中断将严重影响用户体验,导致收益下降。运营商要实现更好的业务保障,就需要对业务中断实现智能化管理。运维工作的本质就是及时发现和定位网络故障,快速恢复业务,这些都是业务中断管理的核心内容。业务中断管理既是运营商实现更高层次的SLA管理的前提和基础,也是在面向业务、面向客户的要求下,运维工作最根本、最现实的需求。

    现有的网络管理系统无法从业务的角度去关注网络故障,运维工作往往停留在告警处理层面,故障的准确定位需要大量专家级的人力付出,并且要花费很长的时间。部分高端运营商希望通过告警相关性技术,实现告警间的关联,最终减少需处理的告警数量。面对由多个专业网构成的复杂网络,要建立一个普遍关联的告警系统,并不具备现实的可行性。

    业务中断管理,以解决可能导致电信业务中断或者质量下降的网络故障为目标,实现从故障的预警、发生、发展到排障解决的全流程智能化管理,其核心价值在于帮助运营商实现以下重要的转变。

    ● 从业务的视角来优化网络运维,首先关注对业务有影响的故障;

    ● 从对告警的管理,转变为对网络故障的管理,首要是对引起业务中断的网络故障的管理;

    ● 从被动式的告警处理,到主动式地管理故障预警、产生、解决的全过程。

    实现业务中断管理,需要深刻理解全网业务,透彻把握告警间的关联关系,高度关注客户需求,具备基于客户网络特征实现客户化定制的能力。中兴通讯充分发挥在上述领域的专业优势,基于多年来在告警相关性领域内的深厚积累,以及对运营商需求的深刻理解,提出了NetNumen™ U32 Service Impact业务中断管理解决方案。该解决方案覆盖了电信网络的关键故障域,可以管理业务中断的生命周期,通过告警间的关联,实现故障识别和故障定位,并提供操作维护指导;该方案具备很强的客户化定制和灵活扩展能力,可以帮助运营商实现业务保障,提高业务收益。

梳理故障源,通过关联定位故障

    实现业务中断管理,首先要找到影响网络业务的故障源,并建立起彼此间的关联关系。通过分析客户网络特征和历史运维派单记录等,可以找出网络中存在的主要故障源,并通过分析告警关联关系,建立起故障源之间的关系。

    电信网络的各专业域分别对应着一个故障域,可以分析出不同故障域内故障源的分布情况。以无线网络为例,影响业务的故障可能是无线小区的退服或整个基站的退服,其原因可能是基站电源中断或传输中断,也可能是因为设备维护,基站通过软件复位而重启。找出这些典型的原因作为故障源,并建立起关联关系,就建立起了整个业务中断管理的基础。

    故障源间的关联关系,可以以一种树状结构来组织,也非常类似于人体的‘脉络’。比如,在一个无线GSM网络中,可能的故障源如图1所示。




 图1 无线网络故障源分析示意图

    通过梳理故障源,相当于建立起了网络运行健康状况的一条关键脉络,网络发生故障,最终会反映于“脉”上。建立这条‘脉’的实质,就是把可能导致业务中断和业务影响的网络故障,通过告警相关性技术,形成彼此的关联,当故障发生时,可以顺着关联关系,去找到真正的源头。

    针对不同域的多个网络故障同时发生的情况,需要建立起故障间的识别和定位机制。通过对业务流向以及故障间关联关系的分析,可以制定故障源间的优先级关系和区分规则,从而实现故障源的识别和定位。

全流程管理故障,实现客户价值

    业务中断管理还需建立其对故障的全流程管理。当可能导致业务中断的故障发生后,可以从以下几个维度反映故障的发展过程,并实现告警间的关联。

    ● 业务影响(Service Impact)

    ● 根源故障(Root Cause)

    ● 触发器告警(Anchor Alarm)

    ● 关联告警(Related Alarm)

    ● 处理建议(Handling Procedures)

    对业务中断全流程的管理,就是基于上述关系和发展路径,实现对业务从预警、产生到最终维护解决的整个过程的管理,其基础是告警相关性技术在故障处理逻辑中的运用。

    通过对故障发生原理和过程的深入分析,把上述知识总结形成一个告警关联关系的知识库,以数据库表的方式存在,作为系统实现处理逻辑的基础。该表是一个可以不断丰富和扩展的专家经验库,从而可以逐步实现对业务中断故障更完整的覆盖。

    中兴通讯业务中断管理解决方案还提供了故障信息的丰富机制。通过全面的数据接口,访问几乎所有的数据源,将网络相关的业务、服务、人员、资源等信息关联到事件中,运维人员在一个页面中就可以了解到关于故障点的信息、运维派单的信息、人员调度的信息、拓扑关联信息等,从而可以更加准确地执行解决问题的策略。

    通过对业务中断的全流程管理,运维团队至少可以在以下几个方面,实现更加有效的运维。

    ● 及时判断设备的运行状态,发现故障对业务的影响;

    ● 实现故障定位,找出根原因,并得到操作处理建议;

    ● 实现业务中断前的及时预警,提示立刻行动。

在实践中积累和沉淀

    中兴通讯NetNumen™ U32 Service Impact,可以结合运营商的网络和运维特征来设计,具备良好的系统扩展能力和客户化定制能力。目前,该解决方案已在香港CSL的网络中得到应用。在香港CSL网络中,中兴通讯定制的业务中断管理解决方案共实现了7个故障域、50多个故障源的管理,可以管理2G/3G网络中的电源、微波、数据设备、各关键业务连接点以及基站设备、重要单板等各种主要的故障源。当某一个基站的业务受到影响时,运维人员立刻能在界面中看到所产生的业务影响,以及与之相关联的资源、运维等丰富的信息,并能够根据系统给出的故障源和操作处理建议开展运维工作,从而大大提升对网络故障的管理能力。

    业务中断管理可以进一步扩展成为满足OSS流程的业务影响分析中心,它代表了电信网络管理演进的一个重要方向。面向业务、管理故障、全流程监控、智能化分析,是运营商关注的焦点。中兴通讯提出的基于告警相关性的业务中断管理解决方案,打造了一个智能化、主动式、可预知、业务优先的故障管理平台,可以为运营商业务的发展提供重要保障,帮助运营商从“源头”管好网络,提升运营商的收益能力和市场竞争力。