俗话说,“百闻不如一见”,说明身临其境是其他方式都不可替代的认知体验。身临其境,其实就是一种真正完美的沉浸式体验(Immersive Experience)。以旅游为例,轻风拂面,花香扑鼻,阳光温暖,享受美景美食,体察风土人情,参与当地活动,感受悲欢离合,这些都是看文字介绍、看攻略照片、看宣传视频所望尘莫及的。
由于主客观种种局限性,身临其境不是常常可以做到的。但科学技术的发展,让我们越来越能模拟这种沉浸式体验,就体验深度来说,虚拟现实>视频互动>图片分享>语音交互>文字描述。
我们在此简要回顾和展望沉浸式体验的几个关键技术方向:虚拟现实和增强现实,让人脑看到的视频画面插上电脑信息的翅膀;UHD超高清显示技术,显著提高画面的细腻程度和流畅程度;HDR(High Dynamic Range)高动态色域显示技术,让屏幕显示的色泽范围更大,暗部更暗,亮部更亮,越发逼近现实中肉眼看到的色域。
虚拟现实(VR)与增强现实(AR)
虚拟现实(Virtual Reality),需要遮住观看者的双眼,让人完全沉浸在某一个虚拟的环境中,与现实的周边环境基本无关。增强现实(Augmented Reality)则是需要在显示设备(眼镜或屏幕)看到或显示的周边实景的基础上叠加/减去/替换某些信息或物体。AR比VR需要更高的复杂度和运算量。
从某种程度上来说,虚拟现实比身临其境更有魅力。例如处在地球上不同地域的两个人或者多个人,原本无法见面,通过虚拟现实技术却可以在同一个时刻同一个空间内栩栩如生地展现、互动、协作,超越了现实世界的局限性。
基于成本和技术差异,目前市面上常见的虚拟现实设备,大体可以分为高中低三挡:
● 以Oculus Rift Touch为代表的高档VR设备——图像清晰,互动自然,方向感敏锐,有强烈的沉浸存在感。需要高端的PC来支持复杂的计算,以专用头盔作为显示设备,以定制的手套和手柄作为比较自然的输入。例如,可以在VR场景中伸开手掌抓取物品,感觉非常自然,而不是只能简单点击按键。
● 以Samsung Gear VR为代表的中档VR设备——主要以手机为计算和显示设备,显示还算清楚,空间感明确,但是不如高端VR设备那样清晰流畅自然。
● 以Google Cardboard为代表的低端VR设备——勉强有虚拟现实的感觉,大部分时候显示效果不可忍受,让人头晕疲劳。但是,这些低端VR让普通用户有机会得以体验最基本的VR内容,例如YouTube360中的全景视频。
影响虚拟现实用户体验的关键因素,除了分辨率,还有显示刷新率和传感延迟等因素。
● 理想的分辨率是双眼都是1920×1080或更强。目前一般是单眼960×1080,双眼像素合起来达到1920×1080。
● 虚拟现实比较理想的刷新率在120fps,最好达到240fps,目前的VR头盔最好可以做到90fps。也有原型机例如PlayStation VR达到120fps。当显示分辨率不够时,人会感到头晕目眩、不真实。
● 传感延迟应该低于20ms,也就是说,从用户的头部转动或者手部开始动作,被感知、传输给控制设备,计算合成,再在VR场景中显示出来,这一整套多个环节的延迟总和,应该尽量降低,否则会有晕眩感。Oculus做得最好,大约在25ms,其他VR大约在40ms或更差。
VR和AR的应用场景广泛,举不胜举。例如,车行让用户带上VR眼镜,挑选和体验任意一款车型,而不仅仅是展厅里摆出来的那几款;例如,AR虚拟试衣间,让用户在大屏幕电视(镜子)上看到本人试穿每一款每一色衣服的实际效果,可以前后左右转身观看。
就家庭视频娱乐来说,VR和AR让用户不只是单向接受视频,而且可以进入视频的场景,选择任意角度观看,用自然的手势和声音来进行互动,最大限度地模拟足不出户却身临其境的真实存在感。
4K/UHD超高清的标准与现状
天下武功,唯快不破。在视频领域,提升分辨率就是颠扑不破的王道。
作为最新一代视频娱乐的标准,超高清视频(Ultra High Definition,UHD),是否等同于众口所言的4K分辨率呢?其实不尽然。
定义上一代视频标准也就是全高清视频(Full High Definition,FHD,1920×1080分辨率)的标准规范是ITU-R Recommendations BT.709。而定义最新一代超高清视频(UHD)的标准规范是ITU-R Recommendation BT.2020。完整地说明UHD至少需要三个参数:分辨率、帧频、颜色深度。
● 分辨率(resolution):超高清视频UHD包括4K和8K两种分辨率。4K分辨率是3840×2160,像素数目等于上一代全高清FHD 1920×1080的4倍。8K分辨率更高,7680×4320,是FHD的16倍。8K分辨率,距离经济适用的大众市场尚远;支持4K分辨率,是当前高端电视机、机顶盒、媒体播放器和媒体制作的重点。
● 帧频(frames per second):上一代全高清FHD支持的帧频包括视觉效果较差的分行扫描(interlaced scan)模式和效果更好的逐行扫描(progressive scan)模式,包括p24、p25/p50、p30/p60、p24/1.001=23.976、p30/1.001=29.97、p60/1.001= 59.94等。而超高清视频UHD则完全去掉了低端的分行扫描模式,而在逐行扫描模式增加了更高端的p100、p120、p120/1.001=119.88帧频。这些更高的帧频可以更细腻地表达快速变换的运动场景。
● 颜色深度(Color Depth):上一代全高清FHD支持8bits和10bits颜色深度,也就是说表达红绿蓝(RGB)三原色的每一种可以使用多少个比特。3×8=24bits,可以表达16.78M种颜色,3×10=30bits,可以表达1.073B种颜色。超高清视频UHD允许10bits颜色深度和12bits颜色深度(可以表示68.71B种颜色)。
在图1所示的颜色空间图中,最外圈的曲线表达了人眼能够识别的色彩空间,最内的三角形是FHD所能表达的颜色空间,较大的那个三角形是UHD所能表达的颜色空间。也就是说,UHD能比FHD表达更丰富的颜色范围。
综合上述3个指标,举例来说,4K p30/8bits是最入门级的超高清UHD 4K配置,一般用在带宽比较紧张的广播或网络传输信道;4K p60/10bits是相对主流的超高清标配,会在带宽比较富裕的信道或存储介质中使用;4K p120/12bits是最高端的超高清配置,会在体育节目或内容制作室采用。
UHD视频信息量巨大,所以必须采用最先进的、压缩比更大的编码技术,例如多个国际标准化组织联合制定的H.265(Highly Efficient Video Codec,HEVC),或者Google自己推出的VP9。这些编码技术要比上一代的H.264或VP8节省一半带宽,当然也需要数倍的运算复杂度来提升编码效率和灵活解码。一般来说,编码复杂度增大5~10倍,解码复杂度增大3~5倍。这也意味着现有的支持高清FHD的终端设备,例如机顶盒,运算能力都不足以支持超高清UHD,无法采用简单软件升级,而必须替换硬件。
大致上,用H.264编码的全高清1920×1080p30/8bits视频需要6~8Mbps带宽,而采用H.265编码的超高清3840×2160p30/8bits视频需要12~15Mbps带宽,也就是说,相当于用了两倍的码流带宽来表达四倍的像素。比较常见的配置,有HEVC Main Profile,采用8bits颜色深度;或者Main 10 Profile,采用10bits颜色深度。
在视频终端设备(如机顶盒)与电视机之间,传输的是无压缩的视频数据,信息量超级庞大,常见的标准接口是HDMI。目前电视机上常见的HDMI 1.4版本可以支持4Kp24/8bits,而最新版本的HDMI 2.0标准可以支持4Kp60/12bits。
同时,因为在视频终端设备与电视机之间传输的是无压缩的视频数据,所以需要额外的版权保护机制来防止非法拷贝。与HDMI配套使用的版权保护协议是HDCP(High-bandwidth Digital Content Protection)。对于超高清UHD内容,内容商强制要求终端设备采用最新版本的HDCP2.2保护协议。令人遗憾的是,HDCP 2.2版本不是前向兼容的。也就是说,用户先期购买的4K电视机,以后没法播放采用HDCP 2.2或其后版本加密的4K内容。
超高清视频UHD可以搭配多种带宽的音频编码。当然了,好马配好鞍,超高清的视频,当然要配置最高级的音频享受,例如Dolby Digital Plus,又叫做Enhanced AC-3、EC-3、DD+等,是DVD/BlueRay所采用的音频标准Dolby Digital(AC-3)的增强版。AC-3支持5.1声道,EC-3支持7.1声道,也就是7个方向的声音加上一个低音炮,如图2所示。
说实在的,超高清UHD带给观众的最大享受,不只是可以看更大屏幕的电视机而不损失图像细腻度,而且因着更高分辨率的缘故可以坐得更近,从而拥有了更大的观赏视角,达到了沉浸式的音视频体验,类似于IMAX电影的真实直观享受。
比4K视频更威猛的HDR技术
对于下一代视频娱乐享受比较重要的新技术,除了H.265/HEVC以及4K/UHD以外,就要数HDR(High-Dynamic Range,高动态色域范围)了。
HDR,简要来说,是针对对比度(即亮度范围)的一种广域表达,可以把特别亮的像素和特别暗的像素揉合统一到同一个画面中,同时也提升了每种颜色的饱和度,也就是让RGB三原色更红/更绿/更蓝,达到一种格外鲜亮、生动非凡的显示效果。HDR技术克服了照相机和摄像机单次成像时只能选择一个曝光度导致要么亮部失真要么暗部失真的缺点,而且能模拟“人眼前期拍摄+人脑后期处理”的真实、动态、智能显示效果。
在提升用户体验方面,公认HDR比4K/UHD更威猛有效。4K/UHD是让同一幅画面包含更多像素,表现更细腻,而HDR是让画面中的每一个像素更真实、更赏心悦目。打个比方,虽然手机拍照的像素数目动辄可达上千万,甚至高于数码单反相机的像素数目,但是单反相机镜头大/进光量多,感光片大/采样精确,因此拍出来的每个像素都更逼真,整幅画面的景深变化大,整体效果更真实,观看效果更深刻。
还有一个收益是否随着距离衰减的因素。随着观看距离的增大,观看视角逐渐缩小,人眼对于像素大小的敏感度也在降低,到了一定阈值以后,图像分辨率的提升,不再被人眼识别。也就是说,以主流家用电视尺寸,对于4K/UHD电视屏幕的超高清分辨率来说,用户在近处(1米以内)感受深刻,而在中远处(3米以外)观看感受却不那么深刻。但是,人眼对于亮度和色彩的感知能力,却没有随着距离的变化而明显衰减,在1米处和3米处的感知是差不多的,同样印象深刻。
事实上,HDR已有近20年历史,并非全新技术,只是最近才有支持HDR格式的电视机被制造出来,HDR以后可能会成为电视机必备功能。当前主流的LCD/LED电视机/笔记本电脑的显示亮度一般是300~500Nits。“Nits”是描述单位面积上的发光亮度的一个计量单位,相当于一只蜡烛照射在一平方米上的亮度。为HDR特制示范的Dolby Vision电视机可以达到4000Nits的亮度,简直像阳光一样光芒四射。当然,这个亮度有些极端。实际上HDR电视机的亮度,会在700~1000Nits。另一方面,最低亮度值(也就是最黑的程度),也是HDR的一个重要指标。
HDR照片的工作原理比较容易理解,对于同一个场景,连拍3张或更多,采用不同的曝光度:有过度曝光的(亮部细节完备),有正常曝光的,也有曝光不足的(暗部细节完备)。然后软件自动比较测算,再把亮部细节和暗部细节合成到同一张照片中。
HDR视频的制作原理与HDR照片类似,但是计算复杂度和存储容量高出几个数量级,因此HDR视频是最近几年才开始成熟实用的。例如,对于每秒30/60/120帧的视频,每帧都要采用20种或更多的不同曝光程度来拍摄,然后在后期制作时再计算选择和合成,以达到每一帧的最佳对比度效果。
HDR视频当前的内容很少,而且标准不统一,有Dolby、NHK、Philips、BBC、Technicolor等多个提议。当务之急,是在内容商和硬件厂家之间尽快达成协议,提升互通能力,避免产业界分裂。好莱坞的电影公司倾向于美国的Dolby Vision标准。Dolby Vision这个标准需要端到端的每个环节都采用统一的元数据来精确表达和传输亮度数值;日本的NHK HDR和英国的BBC HDR标准中的元数据是伽马曲线;Philips标准则把亮度定义为一个常数。
最起码,业界已有一个共识,那就是为电影院播放内容制定的HDR标准,与为电视播放内容制定的HDR标准,会是不同的,因为两者的观看场景和播放设备完全不同。
业界倾向于结合HDR和ITU-T Rec-2020标准所定义的更广域的颜色空间,也就是10位或者12位的色彩深度。
HDR可以适用于当前主流的1080p视频(1920×1080分辨率),也可以适用于新兴的4K视频(3840×2160分辨率)。业界普遍认为,1080p+HDR的显示效果,优于4K+non-HDR。当然,最理想的效果,还是4K+HDR+REC-2020广谱颜色空间这样的完美组合。
按照Netflix的估算,采用HEVC编码的1080p视频需要3Mbps码流带宽,采用HDR版本的视频需要增加2.5Mbps的带宽(即5.5 Mbps)。作为对比,4K视频需要增加12Mbps的带宽(即15Mbps)。因此,当网络无法流畅传输4K视频时,Netflix会尽量传输1080p+HDR版本的视频,以保证和优化观看效果。
理论上来说,从当前的8bits颜色深度,升级到HDR需要的10bits颜色深度,需要增加25%信息(带宽),升级到更完美的12bits颜色深度,则需要增加50%信息(带宽)。因为编码器的参数是可调的,所以实际码流带宽会设定在增加20%左右。例如,业界建议用HEVC编码的4Kp30/8bits颜色深度的4K视频的最低带宽设置在15Mbps,所以4K+HDR会是4Kp30/10bits颜色深度,大约会占用18Mbps带宽。当然,画质无上限,带宽也亦然。如果颜色深度提高到12bits,帧频提高到60/120,那么码流带宽肯定更高。
除了在线流媒体以外,线下发行的4K蓝光盘,也会支持HDR版本的内容。
HDR在显示效果增强方面优势明显。
人类对于视觉享受的追求是永无止境的。沉浸式体验,是其中的一个核心维度。无论是VR、AR、UHD,还是HDR,都在日新月异地发展,配合其他维度的先进技术,例如AI(人工智能)、SNS(社交网络)、Big Data(大数据),会让视频娱乐领域逼近甚至超过身临其境的自然体验。让我们一起来创造和享受这美好的未来。