我有 12000 个长度约为 2 秒的音频文件和 12000 个带有音频文件音素和时间戳的文本文件。我的任务是训练 NN 只为训练数据集合成音频。我已经尝试过前馈神经网络,它只适用于 20 个音频文件。我应该选择哪种架构?我应该如何处理数据(预处理等)?
如何为文本到语音的任务训练神经网络?
数据挖掘
机器学习
Python
神经网络
2022-02-18 07:07:29
0个回答
没有发现任何回复~
其它你可能感兴趣的问题