如何为文本到语音的任务训练神经网络?

数据挖掘 机器学习 Python 神经网络
2022-02-18 07:07:29

我有 12000 个长度约为 2 秒的音频文件和 12000 个带有音频文件音素和时间戳的文本文件。我的任务是训练 NN 只为训练数据集合成音频。我已经尝试过前馈神经网络,它只适用于 20 个音频文件。我应该选择哪种架构?我应该如何处理数据(预处理等)?

0个回答
没有发现任何回复~