洞察数据,智能运维,大视频运维分析平台Vinsight

发布时间:2017-04-01 作者:张远(中兴通讯)

     大视频是构建在承载网络上的端到端业务,在网络层面贯穿了整个有线、无线网络,并且要求网络持续高带宽、低延时抖动、低丢包。大视频运维需要以视频业务感知为入口,将传统网络运维的全流程打通,才能真正有效地提升运维效率, 创造运维价值。


  大视频业务的运维虽然比传统业务复杂,但也要遵循运维的基本要素:场景化、流程化、规范化。运维场景包括系统开通、日常监控、故障处理、客户保障、健康巡检、资源管理、升级割接等。运维流程用于实现各个运维部门的有效协同。运维规范则是根据各种运维实践总结出的保障运维体系高效可靠运行的行为准则。


  大视频业务的运维场景与传统运维基本没有区别,但由于大视频业务贯穿了整个端到端网络,运维体系需要业务运维部门、网络运维中心、地市网络运维、客服中心、社区经理齐心协作,甚至还需要业务运营部门的配合。传统的运维流程和规范无法提供有效支撑。


  如何提供更高效的运维流程和规范?现在我们所缺的是“数据”。只有将跨越各个网络段的各种数据进行综合分析,才能面向运维场景找出运维数据之间的关联关系,建立起新的运维指标体系,从而指导运维部门完善运维流程与规范。


  Vinsight是中兴通讯推出的大视频运维分析平台,面向运维的各种场景,搜集来自各个网络段以及各种运维环节的数据进行大数据分析,从而找出各种运维指标的关联性,并指导运维流程进行优化和改进运维规范。


基于广度的KPI指标分析


  Vinsight的监测数据来源广泛,其中区域分布最广的数据来自于机顶盒探针。通过机顶盒探针指定KPI在地域分布的多维分析,可以对全网视频质量的各个方面进行有效评估和专项优化。系统可提供按地市区域、按业务承载方式、按业务类型、按终端型号、按终端接入方式等维度的指标分析,还能提供质差指标按频道统计、质差指标按节点统计方式。

 

  通过各种维度的综合分析比对,可以清晰地判断出质量下降的原因。基于广度的数据分析可以应用于大多数集中监控的场景中。


基于深度的KPI指标分析


  针对单个用户,Vinsight也能采集到丰富的KPI指标, 这些指标从TCP/IP协议栈的3层往上贯穿到7层,从各个层面反映出网络及业务层面的健康状况。基于这种纵向的数据分析,同样也能为日常运维提供有效的数据支撑。


  ● 设备层面的指标反映了终端自身的健康状况, 包括CPU/内存占用率、WiFi信号强度等;

 

  ● 业务指标直接反映视频业务质量和用户体验情况,包括卡顿次数和时间等;


  ● 视频服务的指标反映视频业务的支撑能力,如分片下载质量和分片间隔时间、TS下载速率、HTTP建链响应、HTTP错误码等;

 

  ● 网络指标反映网络的支撑能力, 如TCP建链时间、TCP重传数、乱序数等等。


  以上不同层面的指标,当发生不同的异常组合时,可以分析出故障根因。例如,同样是视频卡顿造成用户体验下降,有的是TCP响应正常,但HTTP响应缓慢及错误码较多,此时说明CDN服务器的处理能力不足,无法支撑大量用户请求;有的是HTTP响应正常,但TCP的重传和乱序非常多,说明网络丢包严重;有的是TCP重传和乱序少量增多,但TS下载速率不达标,说明网络端到端速率不足,无法支撑高带宽视频业务;还有的是终端CPU占用率过高、TCP低窗口情况出现,说明终端本身的性能出现瓶颈,无法及时处理视频流的解析播放。

 

按专业网构建的端到端指标体系


  我们已经具备了在横向和纵向对各种KPI指标进行数据分析的能力,下面就可以构建一套端到端指标体系,以矩阵的方式对全网KPI指标进行体系化的监控和分析。


  指标体系横向可以分为3大部分:用户体验指标、网络健康度、平台健康度(见图1)。

 



  以上分类还可以继续细分,例如用户体验指标体系可以分为视频客户端指标和家庭网络指标;网络健康度可以按照接入、传输、汇聚、骨干的方式细分;平台健康度可以再细分为CDN网络、业务平台、内容源等。


  每一大部分的指标体系需要反映出该网络段对最终用户体验的主要影响因素。其中用户端指标体系一定是覆盖面最全的,因为它直接反映了用户体验的感受;网络段指标体系主要反映网络对大视频业务的承载能力;业务段指标体系主要反映业务系统对大视频业务的服务能力。


Vinsight对运维流程和规范优化的实践


  Vinsight在数据分析方面提供了丰富的手段,并积累了大量的经验。在此基础上,还提供了一些有助于流程优化的功能。


  ● 故障定界


  运维人员只要输入报障用户账号、发生时间及大致现象,就可以对故障段进行初步定界。


  ● 故障知识树


  通过运维经验和数据分析的积累,对常见故障定义了数据检查点,这些检查点的流程化的组合就形成故障知识树,系统可以自动按照故障知识树对故障根因进行分析。


  通过Vinsight的数据支撑,运维部门可以优化其对大视频业务的流程和规范,比如优化省、市、街道的多级运维分工协作流程,在此基础上还可以优化用户报障的处理流程。


  综上所述,Vinsight作为大视频的运维分析平台,依托于各种视频业务运维场景,综合各种网络位置和运维环节的数据进行大数据分析,提供自动化、智能化的运维手段,为大视频运维流程和规范的优化提供数据基础。