大视频智能感知运维方案

发布时间:2024-07-23 作者:中兴通讯 张恩义 阅读量:

        随着宽带网络技术、视频编码技术的迅速发展,大视频IPTV&OTT业务已成为电信运营商的基础宽带业务。伴随着大视频IPTV&OTT业务规模化商用,在业务成倍增长的同时,业务系统运维复杂度也直线上升。传统运维模式以人工分析业务统计报表和告警等方式为主,效率低、耗时长,在监测性能指标、节点失效、故障定界定位等各方面已经不能适应大视频业务发展。因此,需要一种更加智能化的运维方式来提升运维效率,确保大视频系统运行的稳定性、可靠性和服务质量。

        将AI技术引入到大视频运维工作中,极大地提升大视频业务自动化、智能化的运维能力,成为解决目前运维痛点的最佳技术方案。一方面,通过AI技术,各种性能指标、网络指标可以深度融合和统一展现,另一方面,可以利用AI算法分析海量、多维度监测数据,提升快速异常检测和故障定界定位的能力。

        基于快速提升用户视频体验的运维需求,中兴通讯融合AI技术,开发了大视频易监测智能运维平台(见图1),并推出基于CDN(contents distribution network)的指标体系,包括性能指标、频道质量监测、智能调度和日志聚合分析等功能,以满足大视频网络智能运维的要求。中兴通讯大视频易监测智能运维平台基于大数据平台及业界先进的Prometheus、Etcd等架构设计,具有高性能的计算存储能力、专业的数据处理和分析能力,能够准确感知业务质量、实时监测和告警、日志聚合分析、端到端全网诊断,实现智能快速的故障定界定位。

 

性能监测,指标可视

 

        易监测智能运维平台能够实现指标的秒级采集和监测,提供多种业务全网、区域、节点、设备多维度的可视化监测指标。用户可以根据自己的需求快速自定义大屏监测指标和指标展示方式(如趋势图、柱状图、表格等)。该平台通过对告警、性能指标等关联分析,能够快速识别系统告警的发生位置和对业务、用户的影响。

        - 业务指标:按照全网、区域、节点、设备等维度的业务监测模板,提供不同的性能指标,包含并发用户总数、服务成功率、回源成功率、带宽利用率、服务首包延迟、请求命中率、下载速率等关键性能指标。

        - 硬件指标:提供统一的设备硬件监测指标,包括CPU负载、内存使用率、存储使用率、网卡IO速率、硬盘IO速率、网卡丢包率等监测指标。

        - 网络指标:提供交换机设备监测指标,包括接口流量、丢包等网络指标。

        - 健康总览:通过告警、性能指标关联分析,按照全网、区域、节点等维度直观呈现各业务系统服务健康总览。

 

频道监测,服务质量保障

 

        易监测智能运维平台提供的OTT频道监测能力能够实时获取各监测频道的服务质量数据,快速识别异常服务,定位频道故障和影响范围。

        - 业务拓扑监测:实时监测频道服务的数据,以节点和设备维度做数据汇聚,实时展示节点和设备上的频道服务质量。

        - 频道拓扑监测:根据频道实际服务的回源关系,绘制回源链路,直观分析回源链路上节点、设备的服务指标,快速识别异常服务。

        - 频道质量分析:支持区域、节点、设备的频道服务指标分析和影响分析,直观呈现某个时间段服务变化趋势,快速定位频道故障的影响范围。

 

智能调度,节点负载均衡

 

        易监测智能运维平台提供CDN智能调度决策能力,针对对区域内、区域间、直播热点、点播热点等多种场景服务数据,借助AI算法分析出调度策略,通过自动接口下发更新后的调度策略,达到更加准确、及时的智能调度。

        - 区域内负载调度策略:根据区域内各节点的负载情况,通过多维动态算法给出用户分组、节点服务优先级和权重的调度建议,实现区域内多节点的负载均衡调度策略。

        - 区域间负载调度策略:根据各区域实际负载情况、上下行负载能力,通过多维动态算法给出用户分组、节点服务优先级和权重的调度建议,实现跨区域的负载均衡调度策略。

        - 直播热点预测和调度:以区域维度分析预测直播收视热点频道,结合节点的服务能力,给出直播热点频道分布策略,实现频道快速创建和回滚调度;同时支持特殊事件热点频道配置,高优先级直播热点频道调度。

        - 点播热点分析和调度:以区域维度分析点播收视热点内容,结合节点的服务能力,给出点播热点内容分布策略;还可以实现点播快速创建、复制、回滚和跨区域的热点传播,提升命中率。

 

日志聚合分析,提升故障定界定位效率

 

        易监测智能运维平台实现远程采集各设备上的业务和系统日志,统一集中到平台上对日志聚合分析,快速检索端到端业务访问信息。该平台支持IP地址、时间范围等多种查询过滤条件,检索各业务服务模块的流程日志,识别整个业务流程是否存在异常,提升故障定界定位效率。

 

        在土耳其某大视频项目中,日常运维涉及300多台服务器、30多种业务,运维工作量大。按传统的运维方式无法覆盖现网所有的设备和业务,只能被动运维,难以提前识别运行风险。中兴通讯基于以上客户痛点,部署了易监测智能运维系统,通过一个门户实现全网设备业务大屏实时监测,提前发现网络隐患,精准定位故障,实现了主动运维,大幅降低了现场维护人员的工作量,运维效率提升50%以上。易监测智能运维系统丰富的运维功能和便捷的操作,给一线人员带来极简的运维体验,给客户带来网络质量可视,获得了一线人员和客户的一致认可。

        随着大视频业务市场规模的不断增大,运营商面临用户视频体验要求高和运维提效降本的双重挑战,网络智能运维备受关注。中兴通讯大视频易监测智能运维平台方案在提升网络质量和维护效率等方面具有明显优势,在未来的网络建设和优化中会得到更广泛的应用,助力客户实现网络智能运维。