视频业务以广泛的受众、高频次的使用、较高的付费意愿,已经具备成为“杀手应用”的潜质。因此,越来越多的电信运营商将视频业务视为发展的新机遇,并作为与宽带、语音并列的基础业务。因此,视频体验保障成为网络运维的关键。据Conviva用户视频报告的数据,35%的用户把视频观看体验作为选择视频服务的首要条件。运营商视频业务成功的关键因素就是用户视频体验保障。
视频体验保障系统所面临的挑战
视频体验保障系统需要处理大量数据,在数据处理和分析上,面临如下挑战:
● 数据多样性大大增加
视频体验的评估,需要从视频码流和终端播放器日志中获取评估参数。视频体验的故障定界定位,还需要更多的数据,包括:内容源的质量参数,视频业务平台的KPI、业务日志,CDN的KPI和连接日志,网络设备的KPI、拨测结果,以及网络拓扑、配置等数据。这些数据,既有结构化数据,也有半结构化、非结构化数据。传统数据采集方法无法满足视频体验保障系统所需要的数据采集、分析和处理需求。
● 数据实时性要求大大提高
传统网管采集数据的粒度,从5分钟到1小时不等。然而,对于视频业务,较粗的采集粒度,会掩盖网络的问题,造成“网络指标很好,但用户体验很差”的现象。传统的采集粒度难以反应真实情况,对于影响体验的关键指标,需要采集和分析秒级数据,才能准确评估和发现问题。
从5分钟的采集粒度,到10秒的采集粒度,数据量增加了30倍,数据采集吞吐量和计算量也增加了30倍,如果希望更精细的1秒钟监测粒度,则要增加300倍,采用传统技术无法实现秒级的数据采集和分析,只能采用大数据技术。
基于大数据的视频体验保障系统架构
视频体验保障系统,实现视频体验的评估、体验故障的分析定位和体验保障优化3个闭环步骤,保障用户能享受到最佳的视频体验。
视频体验保障系统的架构如图1所示。系统需要采集包括视频业务平台、接入网络、CDN、承载网络的各类日志、性能指标、质量指标、网络拓扑、业务路径等参数。根据业务系统所支持的能力,采用Flume、HTTP+JSON或者FTP方式上传到采集接口设备,并在采集接口设备上进行数据清洗和预处理。对于需要实时处理的数据,系统提供Kafka、Storm和CEP 3种实时流处理机制,以满足不同业务的需求。实时处理的结果,以及采用批处理方式上报的数据,被存入HDFS集群。
对于数据量巨大,且需要实时查询的某些日志数据,采用ElasticSearch组件作为检索系统,查询的实时性和系统的可伸缩性上都有优秀的表现。例如,中国移动某局点,有33亿条记录,150T的日志数据,采用ElasticSearch实现了0.271秒的查询响应。
在HDFS集群上,也提供了Spark、Impala等分布式计算框架,以及Mahout分析算法组件,支撑应用的大数据分析需求。数据接口开放框架,作为数据共享层的对外接口,对应用提供统一的数据管理、查询、分析接口,实现应用与数据的解耦,便于数据在各个应用之间实现共享。
在大数据平台之上,分别是面向IPTV业务系统、有线网络、无线网络的视频体验保障应用。3个应用面向各自的专业系统,提供视频体验的评估、体验故障分析,以及面向视频体验的网络优化功能。基于大数据平台,3个应用可以实现数据共享,相互协作,实现视频体验的端到端的保障。
视频体验评估
视频体验评估是视频体验保障的基础。视频业务发展的当前阶段,影响视频体验的主要因素是用户的观看体验,以及与视频业务系统进行交互的体验。其中,观看体验受到视频内容质量和视频传输质量的影响。视频体验评估框架如图2所示。
视频的内容质量(Q.Content),主要根据视频内容的分辨率和帧率进行评估。视频的传输质量,则通过视频的卡顿(采用TCP传输时)或花屏(采用UDP传输时)的次数和时长进行评估。视频的交互质量,通过直播的频道切换延时,或点播时的起播延时来进行评估。
视频体验评估一般在靠近用户的终端侧实现,在终端侧无法实现或获取不到终端数据时,也会采用网络侧的评估数据。终端侧的视频体验评估,需要采集播放器的解码参数、状态信息和日志信息;在网络侧进行评估,则需要采集TCP、RTP流的分析日志。
故障智能定位
发现视频体验故障后,快速定位故障原因是视频体验保障系统的重要功能。故障智能定位模拟人工排查故障的流程,对可疑的故障检查点进行逐一排查。
如图3所示,故障现象根节点是视频体验故障,如频道切换速度慢、机顶盒报错、点直播卡顿、点直播黑屏等。根据故障定位专家知识库,对故障现象配置对应的检查点及处理建议。
检查点包括3类动作:判断是否存在故障、分析指标是否处于正常范围,或者发起诊断测试进行检查。检查点是故障分析的原子操作,每个故障原因对应一个检查点,而不同的故障原因可以复用同一个检查点。检查点所需要的数据,包括业务模块的告警、性能指标、错误和异常日志等多种来源、多种类型的数据。
所有检查点完成检查后,将检查结果放入故障分析矩阵,就得出最可能的故障原因以及概率,并据此给出故障定位的建议。故障分析矩阵是通过对历史故障分析结果机器学习,并结合故障定位专家库加速学习,得到的针对每个检查点的概率权重矩阵。
中国联通某省公司应用该系统后,IPTV故障预警率由10%提升到80%,平均故障处理时间由原来的48小时下降到6小时,大大提升了运维效率和用户满意度。
以视频体验为中心的无线网络优化
移动视频的流量已经占移动总流量的一半以上,针对视频体验对无线网络进行优化是无线网络优化的重要内容。
以视频体验为中心的无线网络优化,是通过评估和分析每个网格的视频体验,找到影响无线网络视频体验的主要因素,并结合传统无线网络优化手段,针对性地实施无线网络优化。
图4显示了某运营商720P以下(不含720P)低码率视频业务的视频体验QoE,以及视频码率、缓冲时长、网络速率、视频KPI的网格分布图。红色表示视频体验较差,绿色表示视频体验较好。
从视频体验指标与视频码率、视频速率、视频缓冲时长、视频播放起始RSRP(参考信号接收功率)的关联对比分析看出,对于低码率视频,码率对视频视频体验的影响最大,覆盖和速率不是瓶颈,因此可以大力发展营销刺激消费者观看高清晰度视频,以提升用户视频体验。
图5是同一区域720P及以上高码率视频的视频体验指标及KPI的网格分布图。
从图5分析得出,对于高码率视频,视频体验受缓冲时长和速率的影响较大,也部分受RSRP的影响。为了提升视频体验,需要对缓冲时长、下载速率和RSRP较差的网格区域进行优化。
随着视频业务流量占比越来越大,视频业务的体验已经成为影响运营商收入的重要因素。基于大数据存储和分析技术的视频体验保障系统,通过提供视频体验的实时监控、视频故障的智能定界定位、视频体验为中心的网络优化建议等能力,可以提高用户的视频业务满意度,提高运营商的运维效率,并最终转化为运营商的收益。