华盛顿大学研究团队开发了深度学习算法,让用户可以实时选择耳机过滤哪些声音。该团队将该系统称为“语义听觉”。耳机将捕获的音频流式传输到连接的智能手机,从而消除所有环境声音。
通过语音命令或智能手机应用程序,耳机佩戴者可以从 20 个类别中选择他们想要包含的声音,例如警报器、婴儿哭声、语音、吸尘器和鸟鸣声。只有选定的声音才会通过耳机播放。
作者威斯康星大学教授Shyam Gollakota表示,耳机佩戴者听到的声音需要与他们的视觉感官同步。不能在某人和你说话两秒钟后听到他们的声音。这意味着神经算法必须在百分之一秒内处理声音。
由于时间紧迫,语义听觉系统必须在连接的智能手机等设备上处理声音,而不是在更强大的云服务器上处理声音。此外,由于来自不同方向的声音在不同的时间到达人们的耳朵,因此系统必须保留这些延迟和其他空间线索,以便人们仍然可以有意义地感知环境中的声音。
在办公室、街道和公园等环境中进行测试,该系统能够提取警报器、鸟鸣声、警报声和其他目标声音,同时消除所有其他现实世界的噪音。当 22 名参与者对系统针对目标声音的音频输出进行评分时,发现与原始录音相比,平均质量有所提高。
在某些情况下,该系统难以区分具有许多属性的声音,例如声乐和人类语音。研究人员指出,在更真实世界的数据上训练模型可能会改善这些结果。
该团队于11月1日在旧金山举行的UIST '23上展示了该算法。
文章来源:电声英才计划,原文链接 https://dl.acm.org/doi/10.1145/3586183.3606779