我想创建一个解决方案,它可以克隆我的声音。我尝试了我的商业解决方案或 Tacotron 的实施。不幸的是,结果听起来不自然,生成的声音听起来像机器人。有人可以推荐好的替代品吗?
AI自然语音生成器
人工智能
深度学习
语音识别
2021-10-21 07:36:17
1个回答
之所以出现类似机器人的语音,可能是因为 tacotron 使用 griffin lim 进行声码器,无法完美再现声音,经常引入类似机器人的声音神器。
声码器是将频谱图图像转换回语音波形的网络。Tacotron 和许多其他语音生成神经网络使用 CNN 生成频谱图而不是原始波形作为输出。频谱图是原始音频波形的有损表示,因此不可能完美地重建音频波形。Griffin-Lim 是一种声码器,它使用算法方法将频谱图转换为音频波形,但通常会在生成的波形中引入类似机器人的质量。基于神经网络的声码器可以解决这个问题。Wavenet 声码器通常用于语音生成,因为它可以将频谱图转换为几乎没有伪影的音频。许多新的语音生成模型使用小波网声码器作为生成模型的默认声码器。对于公共实现,这是一个很好的 github 存储库:https://github.com/r9y9/wavenet_vocoder
您还可以使用较新的 tacotron 2,它使用 wavenet 声码器作为默认声码器。你可以在这里查看:https ://github.com/Rayhane-mamah/Tacotron-2
其它你可能感兴趣的问题