聚焦客户,运维护航——大视频运维分析平台Vinsight

发布时间:2018-03-30 作者:王琦(中兴通讯)

  视频继语音、消息、宽带业务之后,成为运营商第四个用户规模过亿的业务。而构建在承载网络上的端到端业务,在网络层面贯穿了整个有线、无线网络,业务链长,网络复杂,问题定位困难。新形势下如何聚焦用户服务,提供优良的用户视频感知服务体验,给运营商提出了新的挑战:

  如何有效衡量视频业务客户真实服务质量?

  如何形成一套有效的考核评价系统?

  如何提高运维效率,形成快速响应机制和故障处理规范化流程?

  如何对业务端到端系统持续优化?

  Vinsight是中兴通讯推出的大视频运维分析平台,在国内外30多个局点上线推进,面向现场运维的各种场景,分析各种现场问题和典型故障,在长期的实践摸索中建立了一套行之有效的用户感知评判标准、业务端到端指标体系、现场运维标准化流程,并结合现场局点实际情况针对性提供系统优化解决方案和衡量系统。

  用户感知评判

  目前业界有各种针对用户感知的评判衡量计算方式,如mos、uvmos等。这些方法通过各种多维指标综合建模,各种模型算法和使用的指标多少没有统一标准。

  Vinsight从用户体验出发,反推用户指标模型,主要分为三部分:

  ● 用户浏览EPG界面;

  ● 用户起播阶段,主要指标是时延指标,即是用户点击页面视频播放到第一个画面帧出现(在没有广告情况下)的时间;

  ● 持续播放阶段,主要是卡顿指标。

  用户浏览EPG阶段,主要问题集中在EPG模板和EPG服务器性能,这部分和用户播放体验可以分开,单独来评估EPG和页面。

  起播阶段(包含切换)主要指标时延,统一为首缓时延;单播、组播总体时延可以用来全网衡量系统总体的单组网络服务情况,针对性优化整改。

  连续播放阶段过程和EPG等完全没有关系,就是持续视频流文件交互,不管中间是否有丢包、源头是否有损伤等,最终用户体验上都是卡顿现象,所以卡顿作为最主要参数;卡顿次数和卡顿时间我们从终端播放器模块获取,这样就兼容了不同码率、帧率的片源情况。

  综上,中兴通讯用户感知建模是根据用户不同操作阶段分阶段来建立的。上面介绍的是每个小粒度播放记录的用户感知建模思路和方式,而对于运维系统和运营商来说,需要分析用户体验差的用户,这种情况下就需要根据用户来建模,通过长周期的观看体验和忙时观看体验的感知情况来建模,分析出质差用户。Vinsight提供以卡顿时间和播放时间的衡量模型来识别质差用户,提供给运营商针对性的整改。

  以可视化指标来衡量系统质量

  我们将业务按照承载模式、业务类型、服务设备进行综合分析,提取关键指标建立业务端到端的指标体系框架(见图1),并在Vinsight上做功能可视化,以指标质量来衡量整个业务系统的整体服务质量,建立了一套有效的视频评估和考核系统。


  ● 用户感知指标:以播放优良率、卡顿、首缓、质差率、质差用户、忙时质差用户、用户点直播质量等指标衡量用户直观感知指标和系统优化最终提升目标;

  ● 点直播业务指标:以点直播质差率、点直播质差用户、单组播频道播放成功率、单组播频道切换延时达标率、点播播放成功率、点播加载延时达标率等指标衡量整体视频业务系统综合质量;

  ● EPG业务指标:用户并发及峰值并发、EPG请求成功率、EPG页面相应达标率、开机认证成功率、EPG服务器设备性能等指标衡量EPG综合服务质量;

  ● CDN业务指标:节点流量及峰值流量、节点质差率、节点命中率、信令请求成功率及响应延时达标率、视频文件请求成功率及响应延时达标率、回源成功率、增益比、节点设备性能等指标衡量CDN综合服务质量;

  ● 网络设备指标:网络设备质差率、网络设备质差用户、丢包率、抖动、延时、带宽利用率、网络设备性能等指标作为衡量网络设备综合服务质量;

  ● 终端设备指标:CPU和内存利用率、网络接入方式、下载速率等指标衡量终端服务质量。

  是否每个CPU冲高都必须要解决?

  传统的视频业务监控和维护分为EPG、CDN、机顶盒等多套系统,各个系统没有直接对应的故障协作,是一种平行维护的运维流程,如CDN、EPG设备上出现一个CPU冲高告警,运维人员会去服务器检查是否存在问题,往往花了大量的精力定位,但系统是否对最终用户的感知产生影响并不清楚,往往做了很多无用功。鉴于这种情况,需要我们转变传统的运维思路,一切回归到最终用户感知这个终极目标上来,一切以用户感知劣化作为问题的起点,问题定界、定位定位解决也必须以用户感知恢复和优化提升作为终点闭环(见图2)。

  Vinsight根据单用户体验反馈总结了5类投诉场景:

  ● 用户登陆或页面异常;

  ● EPG页面响应慢;

  ● 用户起播或切换响应慢;

  ● 用户播放卡顿;

  ● 用户播放黑屏。

  根据不同的投诉场景,结合实际业务流程、分析各个维度数据、结合业务端到端指标体系,以横向和纵向各维数据综合建模分析,将用户投诉的问题定界和定位到6个方面:节目源、业务平台问题、CDN问题、接入网络问题、家庭网络问题、终端问题。用户只需要输入业务账号、时间段、投诉场景,Vinsight即可做到故障快速定界定位,并支持远程诊断、测速以及终端可视化运维手段。

  我们解决了用户个障投诉场景,还需要解决群障场景。Vinsight提供用户群障分析,建立自下而上和自上而下两套分析模型:自下而上,用户终端到网络设备到CDN、业务系统、节目源;以用户感知数据为触点,数据汇聚于网络设备、EPG、CDN、频道节目等维度,结合对应的系统指标等数据做根因分析;自上而下,以网络设备、EPG、CDN等系统指标劣化做终端用户影响分析。两套分析模型通过故障实践分析和机器学习不断优化指标体系和用户真实体验的关联,从而快速实现故障预警和处理。

  如无线网优一般来优化视频系统

  无线语音业务成熟的优化模式,本质上就是从用户最终的服务质量和系统指标做了标准协议的量化,不断地优化系统指标来提升最终用户服务质量,这种模式同样可以用于视频系统。

  上文中提到Vinsight建立了一套业务指标体系,并建立自下而上和自上而下两套分析模型,通过实践分析和机器学习不断优化指标体系和用户真实体验的关联;在各个局点推动过程中,我们形成一套指标优化解决方案,依然以用户真实体验的几个方面来优化。

  ● EPG指标优化:如何优化EPG页面请求成功率和相应时间?通常在EPG问题中最难以定位就是页面模板问题,Vinsight通过用户对EPG所有页面的访问页面链接响应码和响应时间,分析异常页面链接、慢响应的链接和服务器;并按照用户业务交互流程分析识别异常点,给系统提供优化参考建议。

  ● 频道切换时间优化:频道快速切换频道列表的缓存机制、FCC优化方案、组播复制点下沉、调度策略优化、网络设备延迟优化。

  ● 点播加载时间优化:CDN下沉、内容热点下推策略、优化用户服务调度策略减少EPG、CDN调度,提升命中率,尽可能本地化服务,降低交互响应和网络延迟时间。

  ● 用户感知优化:点直播业务分离、专网用户提升、内容核查、内容可服务性巡检、优化CDN请求成功率和首包延时、高性能机顶盒投放(分策略)、QoS保障(FEC/ARQ)。

  ● 网络设备指标优化:基于CDN、网络流量拓扑数据和端到端网络数据,形成聚因对比分析模型,提升网络指标和质量。
在国内某个商用局点通过6个月的持续全网到CDN、BRAS、OLT的网络设备质量分析,优化网络设备服务带宽、用户服务策略调整、内容调度策略,全网直播质差率从平均0.75%下降至0.3%,点播质差率从平均0.53%下降至0.25%,全网质差用户从4.2%下降至1.2%,用户感知提升明显,卡顿类故障不断下降,实现改造目标(见图3)。


  掌上运维系统

  为推进运维人员在碎片化时间处理运维问题和快速沟通,Vinsight推出了基于手机APP的掌上运维系统。系统精简了PC上Vinsight功能,抽取了重点常用功能:

  ● 监控:用户质差、CDN服务、EPG服务、收视率;

  ● 告警:实时告警和历史告警,支持告警转发派单;

  ● 日报:系统服务指标日报系统;

  ● 诊断:单用户故障诊断、故障定界、定位;方面运维人员快速处理用户投诉和故障。

  Vinsight通过在国内外多个局点的上线实践经验和持续优化,已经成为中兴通讯大视频平台的亮点,为提升用户感知、持续系统优化保驾护航。