为了在混合现实 (XR) 和虚拟现实 (VR) 中增强沉浸感和创造逼真体验,Meta 正在构建一个 AI 模型,以提供与真实环境相匹配的逼真音质。
来自 Meta 的实验室和德克萨斯大学奥斯汀分校的研究人员开发了三种新的人工智能模型,用于视听理解人类语音和视频将如何根据空间的物理环境发出声音。
第一种模型,Visual-Acoustic Matching,在视觉声学匹配模型的情况下,可以将录制的音频剪辑放入目标环境的图像中并转换剪辑,使其听起来像是在该环境中录制的。
第二种模型,Visually-Informed Dereverberation ,利用空间中观察到的声音和视觉线索,根据记录的环境消除声音产生的回声。该模型可以在举办小提琴音乐会的火车站提取小提琴的声音,而不会产生在火车站周围回响的回响。
第三种模型 VisualVoice, 使用视觉和听觉提示将声音与其他背景声音区分开来。以便更好制作字幕或在 VR 中提供适合聚会的音乐。
研究表明,观看音频与场景不匹配的视频会导致不适,例如头晕。Meta 开发的 AViTAR 模型可以降低这个问题。视觉和听觉匹配模型使音频适应目标图像的空间。使用跨模态转换器模型,其输入由图像和音频组成,允许转换器执行跨模态推理并输出与视觉输入相匹配的逼真音频。