利用告警相关性技术,可以帮助运营商快速定位网络故障。但要在整个网络的范围内解决告警相关性问题,是件颇具挑战性的工作。全业务时代的来临,使这项工作正变得日益迫切和重要。
复杂多样的设备类型、日益扩大的网络规模、每天都在变化的网络,这些都要求网络故障定位 “精益化”,故障必须更加快速和准确地被发现。从更高的目标来看,网络运维要“面向业务”并转变成为“利润中心”,运营商必须首先考虑建立一个网络故障快速定位和处理的平台,为整个OSS系统建设和有序运行打下坚实的基础。
建立通信网络告警相关性的核心价值在于:对网络的告警状况有全局的分析和把握,并通过告警间的关联,实现对网络典型故障的快速定位,再加以信息的丰富和关联,最终快速解决网络故障,实现高效运维。
传统方式所面临的挑战
一直以来,在告警相关性方面,运营商和设备供应商往往有着不同的理解,网络故障到底是设计和引入的问题,还是维护和应用的问题,双方各有主张。
在传统方式中,设备商提供的告警相关性往往是依据设备内部的包含关系、业务的层次关系等,局限于在某个专业网范围之内,其设计思想是从局部到整体,其目的是保证设备自身上报的告警减少。
设备商提供的告警相关性功能,真正应用在全业务网络中时,往往很难给运维工作带来实际的价值。运营商要想定位网络故障,还必须依靠大量的人力投入和专业分析。其原因是在告警相关性系统设计之初就脱离了网络现状,很少能关注到网络表现出来的“症状”,这些预置的、与网络表现几乎无关的、基本上一成不变的告警相关性,难以解决运营商所面对的复杂网络问题。
实际中,由于缺乏对设备告警内在联系的理解,缺乏成熟平台的支持,尽管运营商在运维方面的经验可以得到发挥且能从最突出的问题着手,但往往难以达成理想的效果。
运营商迫切需要行之有效的告警相关性整体解决方案。
中兴通讯告警相关性解决之道
辨“证”施治之道的提出
中兴通讯作为业界少有的全业务产品供应商,在和运营商合作的基础上,根据多年来积累的经验,认为要帮助运营商实现通信网络的告警相关性,应该遵循辨“证”施治之道。
辨,指辨别与分析;证,是一组症状的综合与归类。辨“证”,在这里是指先建立起对通信网络故障在数量、位置、先后、发展趋势等方面完整的认识,找到不同通信网络表现出来的不同“证候”;施治是指在辨“证”的基础上,根据“证候”采用相应的治疗方法,“潜方用药”,通过一系列有序而规范的方法,来达到解决故障的目的。
通信网络之复杂犹如人体。不同系统的不同功能,系统间彼此的关联,系统与外界环境、运维手段的关系,这些都会影响网络中的故障产生,从而影响告警的数量、分布、先后、趋势等特性。辨“证”的目的就是要先找准网络中故障存在的重点、难点以及有代表性的问题,然后目标明确,采取清晰的方法去解决。正如找对了“证”,药用得恰到好处,自然能做到药到病除。
中兴通讯告警相关性解决方案的灵魂和核心,就是辨“证”和施治方法的应用。先行辨“证”之法,把网络故障问题有效地集中在一个个具体的场景之中;再行施治之道,使每一个场景的问题都能得到有针对性的解决。这样,对全网告警相关性目标的达成,自然有了充分的把握。
辨“证”的方法
辨“证”的方法包括系统数据分析和场景分析,这也是一个逐步深入的分析过程。
● 系统数据分析
系统数据分析是指针对一段时间内的全网告警数据和运维数据,分析告警数量、占比、分布、历史趋势等,从而把握网络中告警的重点、难点、发展趋势等状况。
系统数据分析类似于对全网告警状况的深度扫描,扫描后,告警的数量、分布、先后、趋势等情况就尽收眼底,从而为后续场景的定义打下了基础。数据分析应该是一个有针对性的、渐进的过程,包括全局层面的分析以及更深层次的分析,往往需要多次的分析才能达成目标。
系统数据分析最大的价值就是全方位地了解到网络中告警的表现,实现对“证”的发现。
● 场景分析
场景代表了一个典型的运维过程,场景分析最终关注在这样一个过程中,包含了哪些网络故障,而这些故障最终产生了哪些告警,并进一步梳理这些告警间的关联关系。比如,在无线网络中,由于传输中断所导致的各种站点发生故障的过程,就可以作为一个典型的场景。场景,就是我们想找到的“证”,辨“证”的核心就是找到场景。
场景概念的提出,解决了“治”的目标,从告警症状的表现中提取出场景,从而有效地指引了后续建立告警相关性的方向。一个场景,就代表了在一个运营商网络中属于重点、难点并且具有代表性的问题。场景本身是有范围的、可控的,也是具体的、可分析的,在很大程度上避免了全网的无限性、广泛性所带来的无所适从,或者是毫无针对性的通用方法。这也正是辨“证”施治方法所追求的有的放矢,知其然,并知其所以然。
场景分析需要对通信网络内部的机理有深入了解,并结合数据分析的方法,来定义场景的范围、典型告警、关联范围等。场景分析除了重点考虑本场景内部的实现机制之外,还需要重点考虑场景间的关联。有些告警往往可以在多个场景中存在,场景间的关联关系也使得场景可以进一步合并或被拆分。场景间的关联是场景分析中的重点和难点。
施治的方法
场景明确后,施治的3个关键方法就变得清晰和有序了。施治的方法包括告警关联、告警优化和基于平台的自动化实现3个步骤。
● 告警关联
当场景的范围确定后,就针对场景中的告警逐条进行明确,并进一步建立起这些告警的关联关系。这里依据的,既有设备内部固有的内在设计逻辑,如设备的包含关系、网络协议间的层次关系、通信线路之间的链接关系等,又有通过分析数据的表现后,对这种关系的明确、延展和深化。一些数据表现出来的特性,可以帮助更好地去判断和确定告警间的关联关系。特别是在跨专业网的环境下,很多告警间的关联关系,虽然是由设计特性决定的,但在网络应用中,在数据分析后才得以明确和发现,才被实实在在关联起来。
● 告警优化
告警优化是告警相关性解决方案的进一步深化。在实际的项目中,中兴通讯配合运营商处理整个网络告警相关性,如从设备设计的层面,根据运营商的要求,进行一定的优化设计,从而增强告警内在的关联性,减少告警数量,为运营商创建更好的运维条件。
● 基于平台的自动化实现
在明确了场景内在的业务逻辑和告警关联关系后,通过成熟的告警相关性处理平台,来实现一个个场景的自动化处理,从而为每一个场景形成清晰而有效的结论,帮助运维人员快速地定位故障根源。
中兴通讯提供的告警相关性实施平台,可以把实时的告警按照场景设计的逻辑进行关联,通过一个个处理策略的开发,实现对告警的自动归并处理,并且可以从各种OSS系统中获得必要的业务、运维、派单等信息,把更丰富的信息和根源故障信息呈现给用户。
告警相关性方案在CSL项目中的应用
目前,中兴通讯的告警相关性解决方案,正在香港CSL网络中得到应用。在第一期项目中,中兴通讯为CSL实现了9个场景,基站重启、传输中断等典型的故障,都得以在具体的场景中解决。中兴通讯按照辨“证”施治的方法,对CSL网络中的故障和告警状况,开展了一系列系统性、有针对性的分析工作,并最终用一套告警相关性系统,实现了对网络中告警关联关系的自动化处理。
如图1所示,通过对网络历史告警数据的分析,对“基站复位”这一故障现象的真实原因有了准确的把握。
图1 对基站复位原因的统计分析
在最后实现的系统中,运营商能够从全网的角度来观察故障。例如,一旦出现设备中断服务,用户能立刻了解到网络中出现了业务中断,并且能看到因此产生了哪些告警,能看到导致中断服务的原因,如电源掉电、传输中断等,并能够看到对应的业务信息、运维信息以及派单信息等,从而可以快速进行运维处理,运维工作效率得到了很大的提高。
辨“证”施治,得“长治久安”
实现了通信网络的告警相关性工作之后,网络中关键的、全局性的、代表性的故障,都能够得到准确的定位和及时快捷的处理,这给运营商在保证业务、缩短业务中断时间、减少运维人力投入和降低技术难度方面,带来了不小的价值。
中兴通讯提出的辨“证”施治的方法,从根本上来说是一个先全局、再局部的方法。全网角度大的问题和关系是稳定的,而小的问题和关系是不断变化的,正因为能做到先全局、再局部,所以辨“证”施治的方法,是一个能长期有效、可以逐步延展和深入的方法。中兴通讯的告警相关性解决方案,可以随着运营商网络运维经验的逐步积累,使场景得到进一步的明确和发掘,并在系统中灵活地扩充和实现。
中兴通讯作为一个全业务产品供应商,在告警相关性方面积累了相当多的经验,所提出的辨“证”施治的解决方案,有能力为运营商带来网络运维效率的快速提升,逐步实现网络的“长治久安”。