华盛顿大学新研究:让用户选择想听的声音

  • 33

华盛顿大学研究团队开发了深度学习算法,让用户可以实时选择耳机过滤哪些声音。该团队将该系统称为“语义听觉”。耳机将捕获的音频流式传输到连接的智能手机,从而消除所有环境声音

华盛顿大学新研究:让用户选择想听的声音

通过语音命令或智能手机应用程序,耳机佩戴者可以从 20 个类别中选择他们想要包含的声音,例如警报器、婴儿哭声、语音、吸尘器和鸟鸣声。只有选定的声音才会通过耳机播放。

作者威斯康星大学教授Shyam Gollakota表示,耳机佩戴者听到的声音需要与他们的视觉感官同步。不能在某人和你说话两秒钟后听到他们的声音。这意味着神经算法必须在百分之一秒内处理声音。

由于时间紧迫,语义听觉系统必须在连接的智能手机等设备上处理声音,而不是在更强大的云服务器上处理声音。此外,由于来自不同方向的声音在不同的时间到达人们的耳朵,因此系统必须保留这些延迟和其他空间线索,以便人们仍然可以有意义地感知环境中的声音。

在办公室、街道和公园等环境中进行测试,该系统能够提取警报器、鸟鸣声、警报声和其他目标声音,同时消除所有其他现实世界的噪音。当 22 名参与者对系统针对目标声音的音频输出进行评分时,发现与原始录音相比,平均质量有所提高。

在某些情况下,该系统难以区分具有许多属性的声音,例如声乐和人类语音。研究人员指出,在更真实世界的数据上训练模型可能会改善这些结果。

该团队于11月1日在旧金山举行的UIST '23上展示了该算法。

文章来源:电声英才计划,原文链接 https://dl.acm.org/doi/10.1145/3586183.3606779

  • 本文由 发表于 2023年12月6日
评论  0  访客  0

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: