音箱行业有着悠久的历史,但是在过去十多年里,传统的音箱行业面临着极大的市场困境,例如蓝牙音箱刚出现各个厂商便直接杀成了一片红海。而2015年随着智能音箱的涌现,特别是亚马逊的Echo、京东的叮咚、阿里的天猫精灵,不仅对外展现出了智能音箱行业百花齐放的局面,也使沉闷的音箱市场看到了突破性发展的希望。但是,随着这些巨头们的集体涌入,这也让在智能音箱行业摸爬滚打的创业者倍感艰难。
音箱特别是中高端音箱,本来就是强调品牌且技术门槛较高的领域。而智能音箱将声学设计、无线技术、语音识别、远场拾音、语义分析等众多技术融合在一起,不仅技术更为复杂,而且更加依赖音乐内容平台的支持,这些诸多因素都是创业者需要直面解决的难题。当然,技术还是其中的根本,本文希望从市面上现有的流行产品分析其中的几项关键技术,以及一些不可规避的用户体验问题,也给正在这个行业或者准备进入这个领域的技术人员一些参考。
(1)小型便携与低音增强技术
音箱行业早在数年前就开始流行小型便携化,最具代表性的就是蓝牙音箱的持续热销。随后的WiFi音箱并没有复制蓝牙音箱的奇迹,主要还是受制于内容平台和技术的缺陷,并没有带来比蓝牙音箱更好的用户体验。智能音箱实际上还是在WiFi音箱的基础上发展的,除了继承其小型便携和无线连接的特点,其本质毕竟还是音箱,其音质设计还应该是第一位的。但是现在看来,市面上的智能音箱基本都忽略了这个问题,在笔者看来,目前还没有音质上乘的智能音箱出现。反而销量并不理想的WiFi音箱更加专注于音质设计,这其中不乏有传统的消费级音箱巨头Bose、JBL和Sony等品牌,也逐渐形成了两大风格派系。以Bose为代表的欧美系更加注重低音的增强体验,而以Sony为代表的日系则尤为看重中高频的细节呈现。我们知道小型箱体设计中很难同时兼具中高频和低频的双重音质保证,而对于大部分消费用户来说,感受最为明显的则是低音的提升,这也是小型箱体设计中的技术难点。
小型箱体的低音增强主要有两类方法:其一是箱体的结构设计,例如结构上可采用密封式、倒相式、迷宫式、声波管式和多腔谐振式等等,这些结构需要专业计算确定,适当的设计可以有效提升音箱的音质和低音效果。
另外,音箱结构设计中还包括了被动振膜技术。通常来说小型箱体比如智能音箱一般常用3寸以下的喇叭,这种喇叭本身低频下潜就不是太好,至少也要在100Hz以上。但是小型音箱受制于体积也无法采用更大的喇叭,而被动振膜的出现就是为了更好的弥补这个缺陷。实际上,被动振膜的结构与喇叭有几分相似之处,都有推动空气的振膜和让振膜恢复正常位置所需要的折环。但不同的是,被动振膜没有喇叭那类驱动机构,也就是说,它自身并不能发出声音。那么,被动振膜是如何工作的?由于被动振膜和喇叭单元是安装在密封的箱体内,这样,当喇叭工作发出声音时,喇叭振膜的运动,会导致箱体内的空气被压缩和扩展,在气压变化的作用下,被动振膜也伴随产生振动,推动箱体外的空气,这样就可以发出声音来。被动振膜可以根据需求设计在音箱的不同位置,其振动面积往往可以做得比较大。这样,推动空气的体积也随之增加,这就大大提升了低音的量感,获得更好的低音下潜深度。
其二是算法方面的低音增强,比如常用的虚拟低音增强技术。虚拟低音增强的原理是采用了人耳的生理学特点来虚拟低音效果,人耳能够把低音基频中高频段谐波的差频声音听成原来低音基频的音调,这就给我们实现虚拟低音提供了理论基础。通过低音信号基频的谐波序列在人耳中再现普通扬声器无法达到的低频音调,从而在听感上就会让人觉得低音分量更足了,有效弥补了小口径扬声器重放低频不足的问题。这种虚拟低音增强方法也是耳机中常用的低音增强方法,特点是只需要嵌入特定算法,在播放前对音频处理即可。
(2)无线技术及声音对码技术
前面提到,智能音箱是由WiFi音箱发展而来,因此无线技术特别是WiFi的连接尤为重要,但是我们也知道,WiFi连接的过程比较复杂,连接成功后也会经常出现掉线、堵塞、延迟较大、切换太慢等问题,而这些都是导致WiFi音箱体验较差的重要因素。另外智能音箱一般还是黑盒子产品,通常不安装触摸操作屏,而WiFi初始连接则要求用户选择网络、输入用户和密码等操作,这显然不是智能音箱的特长。可是若无法联网,那么智能音箱的语音识别也无法发挥作用,这反而成了一个场景悖论。那么有什么技术可以解决上述的这些问题呢?
首先我们看WiFi的初始连接问题,这如同当初的路由器配置一样麻烦,何况大部分用户根本没有配置过路由器的经验,因此让用户按照配置路由器的逻辑去配置智能音箱显然不现实,但是目前很多产品其实就是这种模态,就连智能音箱中的翘楚——亚马逊Echo,也是如此。配置路由器,一个熟知技术的人员尚且还要折腾一段时间,把如此复杂的产品甩给用户简直就是一种折磨!
声学总是这么奇妙,对此,聪明的声学研究人员早就找到了应对方法:声波通讯对码技术。这种技术是利用声波调制技术,将WiFi连接需要的信息通过手机的喇叭发送到智能音箱上,利用智能音箱本身配置的麦克风接收声音信号进行解调获取信息,从而完成配置联网,用户仅仅需要在手机屏幕上输入信息即可,这成功解决了智能音箱缺乏屏幕显示和操控的问题。声音对码技术难度实际不是太大,但是要做的稳定可靠也需要长时间积累,这个领域目前市场上几乎没有成熟的方案,据说小声科技公司正在准备这项技术的开源工作,相信不久这项技术也将很快普及。
下面接着再说WiFi的切换及延迟问题,除了在硬件和协议上做些优化,也可以通过声学方法进一步优化。我们知道大部分WiFi音频传递的都是解码后的音频流,这很容易造成丢帧现象,其实传输过程中少量丢帧对语音甚至音乐播放来说影响并不大,因此这可以采用一定的算法进行适配。另外,随着智能音箱浮点运算能力的加强,我们也可以考虑传递编码的音频文件流,当编码的时候就将WiFi的问题考虑进去提前做出冗余,自然会大幅提高WiFi方面的性能。
(3)远场语音唤醒和识别技术
“Alexa”,这是激活Echo音箱的默认唤醒词,而“叮咚”这是激活京东叮咚音箱的唤醒词。那么为什么音箱需要这种专用词语唤醒呢?实际上这也是语音识别中的技术难题,有时候也称为语音识别启动特定词。我们知道如果要想识别用户说出的命令,麦克风必须一直在录音状态,并且语音识别算法也要一直在工作,这就是连续语音识别的基本前提。那么总要告知一下对方,什么时候才算开始。当然机器是非常愚笨的,一个眼神或者一个动作显然不可能引起“她”的注意,自然就需要定义一个特别适合切换进入语音识别状态的词语,我们称这种技术为语音唤醒,也就是把音箱从其他状态切换到了语音识别工作状态。
显然上面提到的唤醒问题在Siri上是使用触摸按键来解决的,但是智能音箱就不行了,因为我们不可能总在音箱旁边,而一般都会距离音箱一段距离欣赏音乐。这就产生了一个更加困难的问题:远场语音识别。远场实际是声学领域常用的一个概念,一般在智能音箱领域来说是指混响起主要作用的声场。这个概念怎么解释呢?这么说吧,我们听到的声音简单分为两种,一种是直接到达耳朵的,称为直达声。另外一种是墙壁反射后到达耳朵的,称为反射声,乱七八糟混在一起的声场就理解为混响声吧。显然当距离声源较近的时候,直达声将起主要作用,而当距离声源较远以后,混响的影响就会增大。不要轻视这种混响,当混响严重到一定程度的时候,我们是很难听清对方说话的。事实上,混响对于语音识别的影响是非常严重的,直接导致了识别率的下降。
那怎么解决这个问题呢?当然我们也有主动和被动两种方法。主动的方法我们这里先暂且卖个官司,请您关注声学在线的后续文章,我们会详细介绍。下面我们来说被动的方法,就是我们常常说到的麦克风阵列技术,麦克风阵列的具体技术我们这里也不再赘述,声学在线已经发布了很多相关文章,您可以重温回忆一下。这里我们只说下麦克风阵列的技术难点。当然很多同学会首先想到算法的问题,多个麦克风协同工作确实是一个技术难点。另外,结构设计和器件方面也是一直制约麦克风阵列应用普及的重要因素,之所以这项技术到现在才能实用,也是因为MEMS技术很好的解决了目前麦克风器件的一致性问题。当然多声道的采集技术也是非常重要的基础技术。
这部分笔者觉得对于智能音箱来说极其重要,因此我们也拆解了市场上两款流行的智能音箱做些麦克风阵列方面的比较。