向外行解释为什么文本转语音 (TTS) 进展甚微?

数据挖掘 机器学习
2021-09-18 02:35:06

我是一个外行,多年来一直在徒劳地寻找一个听起来像人类的 TTS 程序,但多年来似乎几乎没有取得任何进展(仅使用我的耳朵和许多其他人的耳朵进行的纯粹不科学的评估) . 这听起来仍然像我认为几十年前已经完成的机器人逐字朗读。

这令人费解(对于像我这样对数据科学、语言学、机器学习等一无所知的外行)。尤其是与语音转文本或无人驾驶汽车相比,这些年来已经有了显着改善。

您能否向一个外行(比如我自己)解释一下,为什么在 2017 年初,大多数文本转语音 (TTS) 程序听起来仍然如此机器人和非人类?为什么进展如此缓慢(尤其是与其他一些成就相比)?

可能只是对 TTS 的需求不大(与语音转文本或无人驾驶汽车相比),而且投入的资源很少?

(如果这不是问题的正确 StackExchange,我提前道歉。请将其迁移到更合适的 StackExchange 站点,谢谢!)

1个回答

在查看人形机器人的面部和面部的计算机渲染时,文本到语音的问题类似于“恐怖谷”效应的驱动因素。我们区分含义深度、情感内容和其他微妙线索的能力使人类对包含口语的音频中的小细节非常敏感。请注意,这与声称文本转语音实际上有一个“恐怖谷”并不完全相同。无论哪种方式,似乎都没有对这种说法进行太多分析。

现有的文本到语音系统有两个基本的生成过程:连接模型本质上是系统串在一起的音素样本数据库。这些都缺乏灵活性。参数模型试图在较低级别表示声音生成以改进这一点,但是创建一个包含我们注意到的所有精细细节的模型是一个相当大的挑战。例如,我们注意到许多非语言暗示,包括诸如嘴巴噪音、呼吸等缺陷。

研究人员最近在这一领域取得了进展,他们运行了一个非常详细的生成模型——在消耗大量训练数据后,该模型逐个样本地生成声音。

DeepMind 团队关于 WaveNet 的这份报告解释了迄今为止使用的不同合成技术,并展示了新方法的能力。

该过程创造了最先进的结果,并且很容易从网站上的示例中听到改进。然而,它的计算量太大而无法在实时系统中使用。给它几年的时间来完善它,它可能成为更好的文本到语音系统的基础。


以上写于 2017 年 1 月。在此期间(现在是 2017 年 10 月),DeepMind 团队一直致力于提高模型的效率,现在速度更快,听起来更好这接近成为一个已解决的问题,尽管有一些专有所有权。不过,再给它一点时间,这一突破将允许在许多应用中使用实时和自然的参数语音模型。