当前,视频正向超清化、沉浸式和强交互方向发展。传媒行业涌现了众多的高新视频业务,如虚拟现实VR
(Virtual Reality)、多视角MVV(Multi-viewpoint Video)和自由视点FVV(Free-Viewpoint Video)业务。另外,新冠疫情也加速了在线教育业务的普及,成为众多家庭的刚需。然而,电信运营商在开展这些业务时,仍然面临一系列痛点,制约着业务的快速发展。
VR业务开展面临的痛点包括:高质量内容匮乏,平面视频影响用户的沉浸感;内容传输带宽要求高,电信运营商开展业务的成本高;传输时延高,用户易产生晕动症。
多视角和自由视点业务开展面临的痛点包括:不同视角内容的呈现不同步,用户体验差;目前自由视点业务拍摄所需的摄像头数量多,成本高、部署复杂,且现场调试困难、耗时;观众喜爱的选手/偶像不一,直播内容难以满足用户的个性化需求。
在线教育业务开展面临的痛点包括:难以在大屏上开展双向交互在线教育业务;网络时延高、丢包卡顿,严重影响用户体验;公开课和大班课用户规模受限,海量直播课程开展网络分发成本高。
针对上述痛点,中兴通讯提出了一系列关键技术,助力运营商加速视频新业务的发展。
中兴通讯VR关键技术
画质增强和2D转3D技术
针对VR内容匮乏,中兴通讯提出了画质增强和2D转3D技术。
目前4K/8K等超高清视频拍摄和制作复杂,导致成本高、数量少,主流视频一般还是标清或高清,在分辨率、帧率、色域等方面远远无法达到超高清标准,甚至很多经典片源是黑白的。为了迅速扩大高质量内容的供给,业界将目光转向了将低质内容转换为高质内容的画质增强技术。
传统画质增强技术主要是采用各向同性或异性的方向插值算法,而目前的技术趋势是基于稀疏表示的方法和基于神经网络的方法来完成。中兴通讯画质增强套件首先基于内容理解,完成视频场景的切分,然后针对每个场景基于深度神经网络分别实现帧间算法和单帧优化算法,最后再与音频合成生成最终的视频内容。该套件涵盖了视频修复、超分、帧率提升、去噪锐化、色彩增强等方面的重要功能,支持各种格式、各种码率帧率的点直播内容的增强,并在CVPR、CSIG等国内外众多赛项中取得了令人瞩目的优异成绩。
同样,目前3D片源数量严重不足,3D内容从拍摄、剪辑、洗印、发行到上映都有特殊的技术要求,制作成本高、周期长。为了迅速增加超高清3D VR内容数量,增强用户的沉浸感,需要将海量单目平面视频内容转制为具有立体效果的双目视频。
传统2D转3D技术主要对不同区域进行深度赋值,对不同深度进行视差分配,最终合成左右画面。而目前的技术趋势是利用深度卷积网络对单目视频进行深度估计或利用网络直接完成从左视点到右视点的变换。中兴通讯提出了智能深度感知与预测网络,从原始图像和视频中自动快速提取出深度信息,形成深度图,然后采用基于深度图的视点合成DIBR(Depth Image Based Rendering)算法,将原单目视频或图像作为左视点,利用深度信息,将每个像素点反向变换到相机物理坐标系,再映射到虚拟的右相机成像平面上。
中兴通讯业界领先的2D转3D解决方案可实现点播和直播视频的全自动转换,支持新闻、电视剧、综艺、纪录片等各种内容类型,适用于烟雾、流水等各种复杂场景,同时支持左右、上下、交错等各种格式,并支持VR头盔、2D/3D电视、笔记本、手机等各类终端。转换后的整体画面亮度、清晰度、对象边缘锐度等各方面主客观质量指标获得多个运营商的认可,在国内外重要展会上获得众多客户的广泛好评。
四大技术降低传输带宽
针对VR内容传输问题,中兴通讯提出了四大关键技术来降低超高清VR内容对传输带宽的要求。
- FOV+技术
VR视频的数据量非常大,入门级(8K)VR就需要120~150Mbps的传输带宽,对接入和传输网络、服务端和客户端提出了巨大的挑战。当前最新的FOV解决方案为基于分块(Tile)编码的视窗依赖传输方法,向用户传输低质全景背景流,然后叠加一个高质用户视角流,该方法比传输高质全景流在带宽方面可节省50%以上。中兴通讯在此基础上在业界率先提出了FOV+技术,传输比FOV角度略大画面来应对网络和处理时延,如以用户转头速度120度/秒估算,各方向多传6度画面则可补偿50ms的RTT时延,传输带宽比Tile方式可多节省20%左右。
- 区域封装技术
为了避免用户非常快速地进行头部转动时出现内容空白,以及在网络传输带宽受限的情况下保障VR内容的质量,中兴通讯在业界率先实现了基于区域封装的视窗依赖传输方案。全方向原始球面视频内容采用非均匀映射处理,内容采样时,对球面上不同的像素分配不同的权重,保留关键视频内容,不重要的区域进行下采样,仅保留少部分关键信息。这样对用户提供服务时,视窗范围内是高质量的,其他区域是低质量的,从而降低整体码率。
- mABR+VR FOV技术
VR通过现有ABR四大主流协议(苹果HLS协议、微软MSS协议、Adobe HDS协议、国际标准组织MPEG DASH协议)基于HTTP单播传输直播内容,忙时海量用户并发导致运营商网络带宽压力巨大、QoE下降,甚至影响其他业务。中兴通讯在业界率先推出了mABR+VR FOV传输方案,将ABR单播传输的低质背景流,转换为mABR组播传输,再同时单播传输各个用户的高质视角流。该方案显著降低了海量并发VR用户对网络和CDN节点的巨大传输压力。
- 非对称拼接技术
3D VR内容进行传输时,相对于2D VR,需要其大约两倍的传输带宽,这无疑进一步阻碍了VR业务的发展和用户沉浸感的提升。中兴通讯根据人眼观看3D视频时存在的掩模效应,即当两眼看到的图像画质存在差异时,双眼的综合感官更多由质量高的一侧来决定的原理,将左眼内容采用高质内容进行传输,右眼内容采用低质内容传输,进一步降低了3D VR内容对传输带宽、服务端和客户端的性能要求。
基于AI的视角预测技术
为了进一步降低业务端到端时延,减轻用户的晕动症,中兴通讯提出了基于AI的视角预测技术,通过预测用户的视角变化,提前和并行下载相应的视角内容,使得用户在实际MTP时延较高的情况下获得较低的感知MTP时延。目前中兴通讯的智能预测算法的提前量高达80ms,处于业界领先水平,该技术显著降低了VR对网络、平台、终端等的时延要求。
中兴通讯多视角/自由视点关键技术
针对多视角/自由视点业务不同视角内容呈现不同步的问题,中兴通讯根据不同的音视频格式要求、传输协议要求等约束,提出了两种解决方案解决多路视频帧级同步问题,即SRT+RTP方案和AVC SEI扩展方案。通过在编码端和播放端的配合,在中兴通讯大视频4.0现网局点取得了多路码流编码、播放帧级同步的良好效果。
针对多视角/自由视点业务拍摄需要摄像头数量多的问题,中兴通讯在业界创新提出了环绕虚拟视点合成技术。针对自由视点环拍场景,该技术根据倍减后的摄像头图像,基于AI技术,自动快速智能生成环上任意视点位置的视频内容,使用户在旋转观看、时间冻结特效等操控时非常平滑,同时降低了拍摄成本和系统部署复杂度。通过与运营商的合作,该技术已成功应用于第二届全国青年运动会马术比赛、摔跤比赛、第十五届世界武术锦标赛等大型、特大型场馆赛事直播服务中,取得了良好的用户体验,极大缩短了系统部署和调测时间。
针对多视角/自由视点业务个性化问题,中兴通讯提出了个性化视频解决方案,满足了观众观看、社交传播个性化内容的渴求。通过AI人脸识别和比对、自动跟踪、视频分析和自动剪辑等技术,对于参赛/参演的每位选手/演员,分别形成个性化的多媒体内容。
中兴通讯在线教育关键技术
中兴通讯推出了支持大屏的在线教育平台和专门面向教育精心打造的C200 AI教育机顶盒及其便捷套件,实现了更灵活的开课形式、更多的互动功能、更智能的教学和全终端支持,解决了业界目前无法在大屏开展双向互动在线教育的问题,减轻了家长对孩子使用小屏学习对视力的担忧,为电信运营商开启了客厅大屏教育新时代。
针对传统MCU支持大规模并发比较困难、ABR传输时延比较高、传输质量低和易卡顿等广为诟病的互联网在线教育问题,中兴通讯基于现有会话式的RTC协议进行了大量的技术创新,推出了基于RTC的互动和分发解决方案,响应时延比业界RTC平均时延降低30%、支持海量用户并发、观看和连麦可无缝切换。该系统已在中国移动省分公司成功落地商用。
针对海量直播课程的网络分发问题,中兴通讯在业界首次提出了CDN over BIER解决方案,高效解决了电信运营商在开展在线教育、会议直播、视频监控、社交直播、电商直播等热门业务时面临的直播组播数量严重不足的难题,助力运营商自有视频业务和公有云视频业务的腾飞。
后续随着AI、编码、传输等关键技术的进一步发展,一定会给用户带来更加美好的视频体验、更多的商业模式和应用。