我是一个外行,多年来一直在徒劳地寻找一个听起来像人类的 TTS 程序,但多年来似乎几乎没有取得任何进展(仅使用我的耳朵和许多其他人的耳朵进行的纯粹不科学的评估) . 这听起来仍然像我认为几十年前已经完成的机器人逐字朗读。
这令人费解(对于像我这样对数据科学、语言学、机器学习等一无所知的外行)。尤其是与语音转文本或无人驾驶汽车相比,这些年来已经有了显着改善。
您能否向一个外行(比如我自己)解释一下,为什么在 2017 年初,大多数文本转语音 (TTS) 程序听起来仍然如此机器人和非人类?为什么进展如此缓慢(尤其是与其他一些成就相比)?
可能只是对 TTS 的需求不大(与语音转文本或无人驾驶汽车相比),而且投入的资源很少?
(如果这不是问题的正确 StackExchange,我提前道歉。请将其迁移到更合适的 StackExchange 站点,谢谢!)