视频在未来网络发展中的占比越来越重,视频领域服务的形式和内容越来越多样化,提升用户体验始终是视频服务的最终诉求。如何在复杂的视频网络环境和架构中提升营维自动化和智能化能力,是运营商亟需解决的问题。依靠传统专家经验为主的被动式营维模式显然无法应对,主动式、自动化、智能化网络营维能力成为刚需。为进一步提升服务品质和营维效率,视频网络自智解决方案应运而生。
视频网络架构复杂,从视频源头部引入,到业务编排,再到CDN(Content Delivery Network)分发和有线、无线接入,最后到终端播放的整个流程较长,视频自智网络方案的总体设计按照单域自智到跨域协同方式规划,先在业务、CDN、终端、固网等子域自智,再完成跨域协同。视频自智网络总体功能架构和规划路径如图1所示,本文重点介绍CDN及业务子域的自智网络解决方案。
图1 视频自智网络总体功能架构和规划路径
CDN及业务子域自智网络解决方案的价值与目标如下:
- 营维智能化提升:核心场景由L2+(半自动化)提升到L3(自动化)和L4(智能化);
- 集中化营维能力建设:由多个运维系统门户统一到ZXOPS集中运维门户,并统一提供对外原子能力/算力开放;
- 监控处理能力原子化:由区域、节点、设备级监控扩展到频道、内容级、用户级、访问流程级的监控和安全识别;
- 打造运维快速闭环能力:故障预测能力> 80%,故障定界定位时间<30分钟,故障自愈<5分钟。
集中化运维平台,统一运维门户
集中运维平台是自智网络的基础,为解决现网多运维系统、门户和外部接口问题,ZXOPS提供集中运维平台。集中运维平台包含九大系统模块:
- 统一资源管理:实现全网网元集中资源管理,支撑监控、告警、巡检、升级、资源核查等;
- 统一配置管理:实现对不同网元模块的配置下发和配置核查与告警;
- 统一升级管理:实现对全网网元的集中、远程、灰度升级和安装;
- 统一巡检管理:实现全网网元的巡检作业任务配置、执行和巡检报告输出;
统一拨测管理:实现IPTV、OTT网络业务拨测和跨区拨测;
统一监控告警:实现集中场景化监控、告警、故障定界&定位、数据对接;
统一日志分析系统:实现网元日志集中留存、分析、安全检测等功能;
统一安全管理:实现全网网元安全监控和安全上报处理;
统一能力开放:实现外部系统统一对接,提供自身平台的原子能力开放和算力统一开放。
系统监控处理能力,实现原子化监控
现网CDN监控系统大部分是基于设备的业务和硬件,没有深入到内容、用户级别和整体业务流程下串联,定位为较为复杂,原子化监控提供直播和点播内容服务、用户访问、操作系统、进程等原子监控能力支撑。
全直播服务质量监控分析功能:通过内容中心、边缘节点的频道级服务质量监控,实现全量频道流量分布、回源和服务异常分布、影响用户分布的聚焦分析,为直播智能调度和直播自动切换提供数据支撑;
热点内容服务质量监控分析功能:通过内容中心、边缘节点的内容级服务质量监控,实现热点内容服务分布、异常内容分布和影响用户分布的聚焦分析,为热点内容智能调度和异常内容自修复提供数据支撑;
录制频道状态监控分析:提供录制中心频道录制分片的质量状态监控功能,快速识别录制和时移服务内容问题;
用户访问流程检索:提供用户从访问CDN系统RR(用户负载调度)、SLB(内容服务调度)到IAS(服务网元)的全流程瀑布访问tracing检索功能,实现故障定界。
视频V-QoE质量体系,构建评估标准
V-QoE(Video - Quality of Experience)是指用户对视频业务的质量和性能(包括有效性和可用性等方面)的综合主观感受,体现了用户角度业务应用的舒适度。2018年我们建立和规范了视频的度量指标KPI和业务关键指标KQI的指标体系,在运维中起到了很大作用。V-QoE构建在KPI和KQI视频指标体系之上,基于AI大数据分析和经验库,将业务关键指标转化成与用户感知相关联的评分体系。V-QoE评估体系数据来源于服务指标、硬件指标、配置核查、数据备份、安全检测结果等多维、多向量数据组合;输出节点级、设备级、系统级、内容级的4类V-QoE评估值,用于支撑系统健壮性评估、智能调度闭环等多个功能场景。
AI故障建模,网络注智
视频AI故障建模主要由3大功能模块构成,如图1所示,分别是:专家经验库、故障预判功能、故障决策树功能。这3个功能覆盖整个运维流程,从运维的指标监控,到故障治理,实现了运维全生命周期的自动化和网络功能流程的全量自智自处理。
专家经验库通过抽象视频运维的各类故障、涉及的指标项、对应的解决方案,构建知识图谱模型,建立“指标—故障—解决方案”体系,突破了传统人工专家下知识体系混乱、专家间知识不互通、专家人工经验与系统的“人机接口”缺失等局限性,为故障预判中的“指标异常—故障”映射关系和故障决策树中的“故障—故障网元”映射关系提供理论基础。
故障预判功能通过时序信号处理AI算法以及多源指标融合算法,对各类关键指标进行监控,及时发现指标中的数据异常,并通过专家经验库将指标数据异常在业务维度体现为故障预判,建立自动化指标异常监测体系和故障预判体系。
故障决策树功能通过分类树AI算法和时序信号逆处理AI算法,对于故障日志进行AI自然语言识别处理后,通过专家经验库将故障与相应的指标进行关联,通过分类树AI算法和时序信号逆处理AI算法定位故障网元,并自动化执行专家经验库中的解决方案,解决了传统人工故障排查处理缓慢、故障定位困难的问题,实现故障发生后的瞬发定位和自动化处理。
拓扑网络孪生,数据智能可视
根据CDN的节点服务组网模型,一般分为多层网络结构,方案通过自动仿真构建CDN分层网络服务拓扑图,加载实际节点、设备、链路的指标、告警、状态等数据,并支持故障定界。系统默认配置提供的拓扑场景,既支持全量流量监控拓扑场景,也支持业务直播、点播、时移和回看业务拓扑场景;支持区域、节点、设备上展示实时业务和硬件指标、告警、异常日志,上联链路实时展示回源和服务流量;支持对于不同指标值、告警级别的颜色渲染。除默认拓扑场景外,也支持用户自定义拓扑场景。
故障自愈和修复,实现用户零等待
CDN系统故障按照级别来说分为节点级、设备级和内容级,传统告警到手动干预恢复处理流程复杂、影响服务时间长;在冗余能力范围内对于异常节点、设备的动态隔离、逐步恢复,以及异常内容自修复可以快速降低对用户的服务影响,提升系统总体健壮性和运维效率。
故障自愈
通过设备服务响应码、首包延迟、CPU、磁盘吞吐、网卡丢包以及拨测结果等多维数据构建设备、节点的V-QoE评估模型算法,识别质差设备和节点;将节点和设备服务状态标签化,设置为服务节点、恢复节点、隔离节点3种状态,通过与调度系统联动,实现故障自动识别和调度服务全闭环。方案实现质差节点动态隔离和隔离节点逐步恢复服务。
内容自修复
通过节点、设备、频道、内容服务指标和网络数据,建立设备、频道、内容级V-QoE评估模型,识别质差频道和内容,通过与管理系统联动,实现故障自动识别和内容服务全闭环。方案能够自动识别直播频道服务异常状态,支持节点、设备、频道级主备容灾自动、手动切换级优选服务;自动识别内容服务异常状态,支持内容自动隔离和重新下拉缓存服务。
2021年,中兴通讯在中国移动ToB全国31个省份集中营维智能化建设实践上取得了良好的效果,2022年在中国移动互联网电视平面项目中,中兴通讯视频自智网络解决方案陆续在福建、四川、山东、安徽、重庆等省份不断推进合作创新与实践。未来中兴通讯将与运营商和合作伙伴紧密合作,共同推进网络智能化的发展。