运维体系向集约化、自动化、智能化转型
随着网络承载的业务越来越多,网络规模不断扩大,对网络运维的需求也越来越高。纵观网络运维的发展趋势,从初期的主要基于人工经验和关注KPI指标逐步发展到现在,更加关注业务体验和用户服务,而大数据和AI(人工智能)技术的应用正契合了这一发展趋势。
要在网络运维体系中成功应用大数据和AI技术,首先得了解当前运营商运维体系的关键挑战:
● 数据分散,分析困难:以有线网络为例,固网和承载的业务系统数据以及工具互相割裂,资源和数据关联性差,无端到端运维能力,难以应用大数据和AI技术;
● 被动运维效率低下:随着网络规模及数据量的不断增大,分析处理速度无法支撑网络故障的快速和准确定位,更无法提前预判网络瓶颈和潜在的问题;
● 人工经验难以为继:当前运维更多的是依靠人工积累的经验,而且人的经验已难以应对超大规模的网络,必须考虑用智能化的手段去运维;
● 无自动化闭环能力:整个网络的体验已无法满足越来越多样化的业务应用,在发生网络故障或瓶颈后,无法快速恢复业务或优化网络资源,无法形成端到端的闭环手段。
所以,运维集约化、自动化、智能化转型是当前各大运营商的共识。传统的多级分层烟囱式运维体系要逐步向扁平化端到端的运维体系转变,人工经验的运维方式要逐步向自动化、智能化的运维方式演进:
● 集中分析能力:网络融合、业务融合带来数据的融合,利用大数据技术统一分析,提升运维智能化水平;
● 主动运维能力:利用大数据和AI技术实现实时数据分析、多来源的内部数据共享与分析挖掘,具备网络异常和瓶颈预测能力,变被动运维为主动运维;
● 智能化认知水平:利用大数据和AI技术的数据洞察和学习能力,不断积累形成完整的网络认知体系,为智能化运维打下坚实的知识基础;
● 自动化运维闭环:利用大数据和AI技术生成网络优化策略,结合管控模块形成闭环自动化的网络运维流程。
智慧运维大脑的工作流程
作为智慧运维的重要组成部分,大数据和AI人工智能技术是网络“智慧运维大脑”,在这个“智慧大脑”中将包含分析中心、预测中心、认知中心和策略中心四大部件。各个中心各司其职,为整体智慧网络运维提供强有力的思想和策略支撑(见图1)。
● 分析中心:对采集到的原始网络数据进行数据清洗、加工、处理,并应用大数据的多维分析手段对处理后的数据进行可视化呈现;
● 预测中心:对分析汇聚后的数据进行分析挖掘,结合机器学习、深度学习等人工智能算法进行建模,对网络中的资源、流量、性能进行可感知的预测,提前发现网络拥塞和异常风险,做到防患于未然;
● 认知中心:作为“智慧大脑”的知识储备仓库,一定是具备认知能力的,它需要对现有网络的运行规则进行知识储备,并且对于未来的网络架构、业务规则具有自学习能力;
● 策略中心:作为“智慧大脑”最重要的思想出口,策略中心需要给客户网络运维带来实际指导意义,比如输出网络优化建议和方案,以提高网络质量和业务体验。
那“智慧大脑”具体又是怎样运行的呢?下面将以“IP骨干网络流量调优”案例作为切入点,为大家阐述“智慧大脑”运行过程。
随着网络速率的提升,相比其他网络,IP骨干网中IDC机房的出口流量巨大,导致出口容易发生负载过高、利用率不均衡等网络状况。当前运营商没有直观的可视化分析手段去汇聚或者展示网络出口的流量特征和趋势情况,很多客户只能通过人工调试的方式进行流导向调整,或者即使具备一定的可视化分析能力,但是无法智能地给出一个客户可以直观接受或者如何调优的方案建议。
基于以上的问题,中兴通讯提供整套的IDC出口流量调优解决方案。
首先,通过统一的数据采集器平台,采集当前网络中物理拓扑、链路接口状态、链路接口流量统计、接口流量采样等信息数据;
采集的原始数据传送至“分析中心”,利用大数据技术将具有相同网络属性的流进行汇聚处理,比如流采样数据进行五元组的汇聚分析、TopN排序等;
分析完成的数据可以供“预测中心”进行AI技术的建模,通过一段时期内历史的流数据进行特征抽取,选择合适的机器学习算法进行基于时间维度的流量预测;
同时,“认知中心”提前“存储”了当前网络的调优原则,包括调优对象的选择(优选TopN)、调整的原则(均衡、步进、允许误差)等;
最后,“策略中心”会结合“分析中心”“认知中心”“预测中心”的分析数据进行综合判断,输出最终的调优策略给网络中的控制单元进行策略的分发执行。
基于以上“智慧大脑”的运行流程,最终达到IDC出口的流量均衡,提高出口资源的利用率。
应用场景
中兴通讯有线网络大数据+人工智能解决方案,将有力提升运营商运维工作的智能化水平,当前主要围绕网络基础运营、服务支撑和大数据能力建设三大核心提供相关的应用和解决方案,以支撑运营商开展流量经营、精准营销和数据服务的需求。
主要应用场景将包括以下四类:
● 综合分析:基于完整的指标体系和网络模型分析,全景展示网络流量、质量、健康状况,对于网络告警和性能集中上报,满足全网日常分析的需要;
● 客户服务:基于业务质量分析、客户感知分析和故障精确定位等应用,为客服中心提供服务技术支撑,满足客户故障快速响应、重点客户服务保障等业务需求;
● 性能管理:基于大数据的综合分析和AI的学习预测能力,从传统的网元性能管理扩展到全网端到端的业务性能、用户体验管理;
● 网规网优:提供针对网络业务流量/流向、业务质量等准确评估分析,为网优活动和网络再规划提供了精准的参考信息,提升网优网规工作的效果。
中兴通讯有线网络大数据+人工智能解决方案已在中国移动、中国联通、中国电信等多个运营商进行试点和商用,将积极推动运营商的网络运维向集中化、自动化和智能化的方向转型。