早期机器人说话的声音为什么都是一声?

图片:Pixabay / CC0

这事得从机器语音合成说起。

先想一想:怎么才能让机器把一篇文章读出来呢?

如果不仔细想的话,很可能是这么个思路:比如汉语吧,不同的发音数量也就是汉语辅音 – 元音的不同组合而已,而且由于汉语的特点,这些组合的数量并不太多;哪怕加上四个声调,一个个读一遍也做得到……

那么,只要把一篇文章的每个字都和它的读音关联起来、然后把一个个字音播放出来,问题是不是就解决了呢?

嗯,没错,这样的确能让机器把文章读出来。

但是,这样就使得每个字发声时间等长(或虽然不等长但每个音播放时间固定)——这就造成一种“一个字一个字往外嘣”的效果,完全不像正常人说话。

事实上,我们人类说话,相互关联的词会较为紧凑的说出来;部分字存在“儿化音”问题;因为疑问、愤怒等诸多不同,字句间存在变调问题……

这就使得这种通过“机械播放录好的语料”的方式生成的语音效果怪异——语速固定,毫无抑扬顿挫。

此外,虽然普通话不同的读音并不多,但也实在不少了;尤其如英语之类语言,它的词汇数目动辄几十上百万,再加上连读、重读之类问题……

因此,机械的录制然后回放其实是行不通的。

怎么办呢?

容易想到,汉字读音多,但声母韵母也就那么几十个啊;英语词汇多,音标也就 48 个……

拼音嘛,只要把基本音素录下来,然后“拼”起来放,问题不就解决了?

没错。计算机语音合成就是这么做的。

第一步,程序先把文字序列转换成音韵序列;第二步,把音韵序列转换成语音波形——于是我们就听到了声音。

这个系统效果怎么样呢?

嗯……这么说吧,的确能用。语言学家关于拼音 / 音素的研究的确没有白吃干饭……

但它就是不自然。

为什么呢?

因为人类并不是机械的、按照固定长度发出每个音素的。

想要自然,我们就不得不先启动语义理解,合理规划出不同韵律,合理安排音段特征,处理好诸如音高、音长、音强等等信息,这才能使得合成语音正确、自然的把一句话朗诵出来。

不过,语音合成是否仅仅把每个音素的波形“拼”起来或者“揉”起来就行了呢?

并不是。这种强行捏合音素序列的语音合成方法虽然足够“逼真”,但总是带着一股子浓重的“机器味”。

人们想了很多很多办法。比如共振峰合成器、波形拼接合成器(比如基音同步叠加 PSOLA 方法)等等。这些努力使得机器合成语音的可懂度、清晰度达到了很高的水平,但仍然带有极为浓重的机器味。


这种无法摆脱的“机器味”映射到了影视作品里,就变成了那种极具特色的、一字一顿、毫无起伏的机器声。

当然,这种声音并不是真正的机器合成声。

隔行如隔山,影视行业怎么知道“语音合成”究竟遇到了什么问题呢?他们连为什么会出现机器味、机器味究竟是什么都不是很明白。

他们需要的,是一种比较有特色、能够让观众认同的、“机器人的声音”——这种声音当然只能由配音演员说出来、通过一定的处理把它和正常的人声区分开来。

没错,你印象中的、全部都是一声的机器人合成声仅存于影视作品——说不定就是用@曹力科 的答案类似的方法合成出来的——但真正语音合成搞出来的声音是一种“有自己特色的机器味”,并不是简单的“全都是一声”。

嗯,总之吧,过去语音合成的声音……它就是怪。而且怎么捏怎么改,它都还是怪——只不过不同的技术怪的地方还不太一样。

再后来,虽然基于 HMM(隐马尔科夫模型)的语音合成已经做的极为自然了,所有人——包括 IT 业界自己——都还觉得机器合成声也就那样:如果你需要发个声、给用户提个醒,那么随便搞一搞、差不多能听懂就行;如果你需要更自然一些的声音……嗯……其实请小一些的地方电台播音员配个音也不花多少钱。

至于什么大规模的、海量内容的人声生成……那时候的人压根就不会觉得这是个需求——注意是压根就不会考虑,并不是资金技术方面存在障碍。


那么,这种情况是怎么结束的呢?

这就不得不说一说宅男们的老婆了——有请初音(此处应有热烈的掌声!)

这个甩着大葱唱歌的小姑娘开启了一个时代。

初音未来是基于雅马哈 VOCALOID 系列语音合成软件开发而成的虚拟偶像;而 VOCALOID 又是把 HMM 做到极致的产物——YAMAHA 的变态之处在于,它几乎把人类发声的每个细节都做了详细的建模、给予尽可能自然的处理。

这套软件真正解决了“自然的人声合成”问题,它甚至允许合成语音跟着乐谱唱歌。

VOCALOID 虽然很强,但之前销量惨淡——事实上,HMM 模型很早就提出来了,VOCALOID 也早就上市了。只是因为太过专业以至于没人敢碰,因此一直默默无闻。

后来,CRYPTON FUTURE MEDIA 公司基于 VOCALOID 系列语音合成软件,于 2007 年 8 月 31 日,把穿着短裙、拖着两条葱绿色马尾辫的二次元软萌小萝莉初音未来带到了这个世界——并且一直火到了现在。

当然,并不能说其他语音合成软件 / 研究者借鉴 / 抄袭了 VOCALOID 系列软件(虽然想要合成逼真的人声,它们就脱不开 HMM 模型);但是,自初音未来之后,人声合成领域才得到了全世界的广泛关注。

其中,初音 VOCALOID 一周的销量已经和 VOCALOID 系列过去一年甚至多年的销量相当;不仅如此,她还带动了一个超过 100 亿日元的庞大市场……

很快,丰田、google 等巨头也对初音产生了兴趣;甚至 LV 等一贯保守的奢侈品品牌都主动上门、和初音攀上了关系。

在大量资金、人才的轰炸下,语音合成这个领域自此一飞冲天。

如今,基于深度学习的语音合成能力更强,数据利用率更高,效果优势更为明显;语音合成应用也真正走进了千家万户——以至于生活在初音时代的我们,已经很难理解当年那些机器味浓厚的合成声了。

评论

此博客中的热门博文

艾滋病可以通过蚊子传染吗?