近日,小米公司发布消息,小米自研声音识别算法在音频标记(Audio Tagging)任务中取得重要进展。
小米声学语音团队
推动数据集 AudioSet 音频标记
mAP 指标首次进入 50+ 时代
AudioSet 是音频标记任务影响力最大的数据集,被誉为声音领域的 mageNet。小米的这项研究成果标志着小米声音识别算法性能在国际上排名第一*。
*2023年9月12日结果
Google将AudioSet数据集分为三个子集,前两个子集用于训练,被合并称为 “AudioSet-2M”。正是在这个合并后的训练集中,小米的声音识别算法模型首次在业界突破了50 mAP,刷新了音频标记技术指标,成为截至目前性能最好的模型,此项突破标志着小米声音识别算法已在国际上性能排名第一。
此外,小米还发布了一个Mini版模型,适合资源受限的场景。该模型的参数量被压缩到了原模型的约九分之一,远小于其他机构的模型,但性能却优于其他所有机构。
小米的众多智能硬件设备应用此项技术后,可以更敏锐地捕捉和识别环境声音,大幅提升硬件的智能化程度,从而为用户创造更加便捷的智能生活体验。
小米公司表示:“未来我们将不断探索科技新高度,在手机、音箱、手环CyberDog等丰富的设备使用场景中,给用户带来更高效更准确的声音识别体验。”
小米目前在 AI 大模型方面也有发力,并结合小爱同学进一步拓展用户覆盖范围。结合声音识别算法的进步,小爱同学有望迎来更好的体验。
雷军在此前的年度演讲中透露称,在AI方面,小米从2016年7月起就开始布局,今年4月成立大模型团队,相关团队超过3000人。小米AI大模型最新一个13亿参数大模型已经成功在手机本地跑通,部分场景可以媲美60亿参数模型在云端运行结果。