XR 视听内容形态从平面超高清视频向三维沉浸影音升级,内容来源由手机、电视等传统终端的存量迁移向XR 原生视听拓展。自上世纪 50 年代至今,音视频产业经过模拟信号到数字信号、标清到高清/超高清的两轮重大技术变革,带来了4K/HDR 以及立体声/环绕声的大众化,当前这一从平面到沉浸的发展有望成为音视频技术的第三次革新,3D 和多自由度交互成为主要技术特征。
在这一阶段,视听内容将不再局限于一个矩形屏幕,而是延展到用户周围的三维空间,声音也从传统立体声进化为真正空间音频,能够根据用户位置和朝向实时变化,使听觉匹配视觉的沉浸感。
业界将 XR 沉浸视听原生内容的发展归纳为近中期两大技术路径。
一是以空间视频为代表,用户可以通过VR 头显等设备自由转动视角来环顾拍摄的三维广阔场景。目前已经出现了8K甚至更高分辨率的 3DoF 空间视频内容,以及相应的MV-HEVC 等视频编码标准来支持高效压缩和传输。空间视频技术相对成熟,成为近期虚拟现实原生视听内容的主导技术方向,越来越多的媒体平台和内容制作公司开始提供全景纪录片、体育赛事等VR 空间视频。
二是以体积视频为代表,作为进阶的 3D 沉浸视听内容形式,用户不仅可以环顾,还可以自由移动位置来观察场景的变化。实现6DoF 的体积视频需要对场景进行三维重建,可通过多机位摄影测量、深度摄像机阵列或者光场采集等技术获取,然后通过点云、体素或者神经辐射场(NeRF)等形式来渲染,生成的内容本质上是动态的3D模型。
在实时传输方面,这类数据量庞大,仍处于研究和初步应用阶段。随着计算机视觉和图形渲染技术的进步,体积视频的制作门槛正逐步降低,在文博、教育、医疗培训等领域已出现试点应用。近期的技术进展表明了一些可行路径,例如通过3D 高斯渲染(3D GaussianSplatting, 3DGS)等方法,可将多张普通摄像照片快速重建出较为真实的 3D 场景。
3D 沉浸视听技术需要采集摄录、压缩编码、渲染播放等技术栈协同突破。实现 3D 沉浸视听内容,涉及一系列技术协同突破。内容采集方面,需要高分辨率 VR 全景相机、光场相机等新的摄录设备以及 AI 辅助的内容生成(如从普通视频推断景深信息,或者纯算法生成虚拟环境)。
内容压缩与传输方面,大文件量要求制定高效的编码标准,如 MPEG 推出的沉浸式视频(MIV)标准,专门针对多视角体积视频进行压缩编码。播放渲染方面,XR 终端需要足够的计算能力来实时解码并渲染出用户视角对应的画面,这也推动了芯片和算法改进。此外,沉浸内容往往还伴随交互性——用户可以与虚拟环境或角色交互,这又引入了对交互设计和实时反馈的技术要求。