猕猴和狒狒这两种远亲的灵长类动物可以发出的声音范围接近,同时也与人类的声音范围一致。
事实上,许多动物用声音传达基本信息,但它们并不能像人类一样表现出全部的发声能力,这些能力使得我们的声音能够被广泛地应用于交流和娱乐。
这表明,人类声音的独特性,小部分取决于身体结构上产生声音的能力,更多则在于能够精确地协调肢体运动,并把声音处理成有意义的语言。
人类的声音如何多样呢?
要想了解我们声音的多样性,可以思考一下在一种语言中,我们能使用多少种可以理解的声音。
由于英语的拼写是一团糟,把普通话拼音罗马化可以更清楚地说明这个问题。
使用拼音,普通话中的汉字可以由下列24个音节之一开头。
b, p, m, f, d, t, n, l, g, k, h, j, q, x, zh, ch, sh, r, z, c, s, w, y or nothing
这些可以与下列35个韵母组合使用。
a, ai, an, ang, ao
e, ei, en, eng, er
i, ia, iao, ian, iang, ie, in, ing, iong, iu
o, ong, ou
u, ua, uai, uan, uang, ui, un, uo
ü, üan, üe, ün
这可以提供24×35 = 840个可区分的声音,而每一个组合有多达5个声调(音高模式),这就提供了840×5 =4200个独特的汉字。
事实上,在语言中实际只用到不到一半的汉字。
但是现代汉语中大多数词都是由其中的两个汉字组成的,所以可能有2000×2000 =4百万个独特的词使用该发音系统,然后再把词串成句子。
然而这只是一种语言。每种语言都有一套自己的音节,可能(或不可能)与其他语言重叠。
那么,人类是如何产生这些各种各样的语言的呢?
声音是如何产生的?
声音的产生可以看作是一个声源-滤波器模型。声音由振动源和声学滤波器组成,其中振动源控制了声音的振幅和音高(如上例中提到的五声调),声学滤波器控制其如何发声,这和在音响系统中利用均衡器调整声音非常相似。
振动源是喉部声带的振动。滤波器是从声带到嘴唇或鼻孔的气道,我们称之为声道。
声音的解剖学特征。(摄影:Noel Hanna,插图:Olivia Cox,作者提供)
如上图所示,喉咙(喉头)包括会厌到环状软骨的部分。男人的甲状软骨从颈部突出,叫做喉结。
声源:控制声音的振幅和音高
声带由两瓣肉组成,说话的时候,其振动频率约为100-300次每秒(Hz)。
广泛使用的名称“声带”来源于法国解剖学家Antoine Ferrein的比喻,空气像弓一样拨弄古大提琴的琴弦(在法语中叫cordes),也像羽毛拔动大键琴的琴弦。
然而这些比喻并不十分准确,声带振动的物理学研究仍然是一个热门的研究领域,因为实验是非常困难的。观察声带是可行的,但并不总是实用的。我们只能在上方观察他们——即使这很不舒服。
在这个例子中,由于摄像机帧率的限制不能显示出声带的振动,但是高速摄像机可以显示出振动。
声带的振动不是由连续抽搐的肌肉形成的,它是由来自肺部的空气经过声带时引起的。振动的频率和幅值由以下三个因素决定:肺部提供的气压、褶皱之间间隙的形状(即声门)以及喉头肌肉的张力。
询问任何一个青少年男孩可以知道学习使用所有的这些控制声音的方法并不容易。即使歌手也需要几年时间才能熟练掌握独立控制音高和音量的方法,实际中考察的方法名为“弱强弱”。
滤波器:控制发音
语音,如元音和辅音,由声道决定,通过发音器官(如舌头、嘴唇、软腭等)的运动改变声道的形状来过滤声带产生的声音。
核磁共振技术可以让我们看到声道移动范围更加详细的图片(如上面视频所示),但是要获得三维信息仍然很困难,并且它仍不能帮助我们观察声带是如何运动的。
对于一个物理学家来说,这显然是更加难懂的,声道就像是一个圆柱体一样。这是一个共振系统,在声带处关闭(或者说几乎是关闭的),在嘴巴处敞开。
呼吸道简化模型可以帮助我们理解其共振特性。(图片来源:Noel Hanna)
共振系统可以形成驻波。当声带处气压高、嘴巴处气压低的时候,在声道中就会形成驻波或共振。
当声带产生的声音的频率接近这些共振频率的时候,声音会更加显著。这些显著的频率叫做共振峰,它们能区别出不同的元音。
对于一个17厘米长的圆柱(大约是人声道的长度),前两个共振峰在500Hz和1500Hz附近,接近单词“heard”中所能分辨出的元音。
如果把声道的形状从圆柱变为更切合实际的几何形状(模仿发音器官运动的效果),就会改变共振峰的位置,因此元音也会随之改变。
把声道当作一个圆柱体似乎是一个粗略的简化,但在声学方面,这个简单的模型能使我们确定声道中的能量损失。
这也提供了有关声道壁硬度的信息,正如我和同事在一篇论文中写道的那样,这对于产生像“p”和“b”这样的爆破音是非常重要的。
学习
如果所有人类(以及一些灵长类动物)可以产生这种大范围的声音,那么为什么我们在学习外语的时候还会有口音呢?
当然,如果我要学习普通话,我只需训练自己发出前文提到的2000种声音。这几乎就像是一种体育锻炼。问题是,我们的大脑倾向于把相似的声音进行分类。这会阻碍我们发出和感知不属于这些类别的声音。
例如,对于一个未经训练的以英语为母语的人,法语单词“above” 和“below” (法语中为“dessus” 和 “dessous”)发音相同。当我们学习法语的时候,我们的大脑必须学会把“u” 和 “ou”分开为两个新的类别,但是以前只有一个。
因此,如果我们的大脑不能区分不同声音之间的细微差别,我们能不能用我们对发声的理解来提高语言学习能力呢?观察声道中的发音器官如何运动没准可以帮到我们。
这个示例视频展示了一种通过对舌头和嘴巴的运动提供视觉反馈来训练发音的系统。也许理解声音的产生可以帮助我们在学习语言时发出那些巧妙的新声音,并进一步提高我们声音的多样性。
关于作者:Noel Hanna是澳大利亚新南威尔士大学物理学院,助理研究员。
翻译:么宇辉;审校:杨玉洁
文章来源:[The Conversation]:
https://theconversation.com/explainer-why-the-human-voice-is-so-versatile-69800#userconsent#