第四章:合成

13。语音合成和通道声码器

Mini-lesson演讲生理学

演讲生理学,主题涉及语音学、语言学、解剖学和更多的学科是一个庞大的主题,但为了一个共同的理解的电子和计算机语音合成和相关术语在下面的部分中,将在这里讨论一个非常小的子集。如果你想更深入这潜水,是一个很好的起点国际音标(异丙醇)。此外,电脑音乐查尔斯·道奇和托马斯·Jerse对计算机合成语音有优秀的章(7.1),辅助准备以下材料。然而,对于这一部分,下面有点过于简单化的讨论提供了一个很好的起点语音合成的概念。

标签声道
人类声道

人类声道由喉(包括一个三角形打开喉咙叫声门以及声带),咽,口腔、舌头、牛皮纸(软托盘),鼻和鼻窦蛀牙,牙齿和嘴唇。

双方的声门三角形,图左或低于由声带(声带),由凝胶状韧带链分离组织折叠。声门可以把那些所谓折叠在一起产生振动表达了听起来,折叠被驱逐的空气从肺部兴奋。它还可以提前关闭某些停止的声音。场上的振动是由肌肉控制的声门和声带的张力。会厌关闭对外开放气管路食物和液体食道(除非你窒息)。

声门

美国英语被认为是大约44个不同的声音,这被称为音素。音素分类大致分为四类:元音,双元音,semi-vowels和辅音。辅音另外可以进一步细化分类表达了无声的,尽管他们可能共享相同的口位置。例如,尝试说/ s /嘶嘶声,紧随其后的是/ z /饮料。注意/ s /不让声带,但/ z /的确,尽管他们共享相同的嘴和舌头的位置。

表示声音包括元音共振峰),我们的口腔的特定形状(包括舌头的位置)对那些元音音色仍然固定在生产过程中,决定了共振峰频率和他们的相对优势,多频带滤波器将。当我们在学校里学到的,e, i, o, u和y是书面的元音,大约有11个元音音素。例如/ IY /甜菜或/ E /在打赌,或者/ AE /在帽子或/ /伴侣,例证了相同的书面信件产生不同的音素。从前面元音光谱产生的嘴和嘴唇的塑造和伸长。

这些简单的元音之后,最下面的其他声音需要一些行动产生的动态复杂性和组合。产生一个双元音,比如/ oi /玩具,这是一个省略元音到另一个,我们积极重塑我们的口腔中音素的生产。也有一些半元音:(一种滑翔)如在潮湿和/ y / / w /是的,省略迅速进入他们之前和不包含动荡的元音。而不是元音,他们是non-syllabic。

英语也有声音,都表达了(因此声带振动)和有一个声道的部分阻塞。这些包括表示摩擦音在范如/ v /, / z /在动物园,等等。摩擦音的特点是额外的湍流引起收缩在声道。也有无声的摩擦音没有声带vibration-examples傻瓜/ F /, / TH /想,和一个字根,如/ S /如嘶嘶声。

停止辅音也可以有声的或无声的笑,涉及一个爆炸性的释放压力,建立了一个狭隘的声道(为什么我们需要流行过滤我们的中等收入国家)。因此他们被形象爆破音。表示停止包括/ b /男孩,狗/ d /, / g /。在发音,注意不同的地方你的声道关闭生产。无声的停止包括猪和/ / p / t /玩具。有时候所谓的声门关闭完全声门的停止。试着说“哦”,但中途停止,觉得你的声门关闭突然停止气流(现在释放和呼吸…)。

鼻音,这样一个/ n /噪音,是由降低菌膜(软托盘)路由一些振动空气通过鼻腔共鸣。/ M /在见面或/ n /下一个例子。鼻音延长声道,多频带滤波器分析覆盖之后,他们的一些声音,0,或者aresonance,两极之间。Affricatives(如/ tsh /在教堂,开始作为一个停止摩擦音和释放。最后,一个非常特殊的声音低语,既没有表达或动荡的唯一例子在英语/ h /帽子。

最后,为了经济在语音合成方式,而不是把音素存储串在一起,许多语音系统和语音合成器芯片存储diphones,常出现双音素。这不仅节省存储空间或处理器能力,但它也导致了一个更自然的输出。

Baidu
map