华盛顿大学新研究：让用户选择想听的声音

小鲤鱼

管理员

877
文章

1
粉丝

华盛顿大学研究团队开发了深度学习算法，让用户可以实时选择耳机过滤哪些声音。该团队将该系统称为“语义听觉”。耳机将捕获的音频流式传输到连接的智能手机，从而消除所有环境声音。

通过语音命令或智能手机应用程序，耳机佩戴者可以从 20 个类别中选择他们想要包含的声音，例如警报器、婴儿哭声、语音、吸尘器和鸟鸣声。只有选定的声音才会通过耳机播放。

作者威斯康星大学教授Shyam Gollakota表示，耳机佩戴者听到的声音需要与他们的视觉感官同步。不能在某人和你说话两秒钟后听到他们的声音。这意味着神经算法必须在百分之一秒内处理声音。

由于时间紧迫，语义听觉系统必须在连接的智能手机等设备上处理声音，而不是在更强大的云服务器上处理声音。此外，由于来自不同方向的声音在不同的时间到达人们的耳朵，因此系统必须保留这些延迟和其他空间线索，以便人们仍然可以有意义地感知环境中的声音。

在办公室、街道和公园等环境中进行测试，该系统能够提取警报器、鸟鸣声、警报声和其他目标声音，同时消除所有其他现实世界的噪音。当 22 名参与者对系统针对目标声音的音频输出进行评分时，发现与原始录音相比，平均质量有所提高。

在某些情况下，该系统难以区分具有许多属性的声音，例如声乐和人类语音。研究人员指出，在更真实世界的数据上训练模型可能会改善这些结果。

该团队于11月1日在旧金山举行的UIST '23上展示了该算法。

文章来源：电声英才计划，原文链接 https://dl.acm.org/doi/10.1145/3586183.3606779