我一直在执行一个开源的文本转语音系统Ossian。它使用前馈 DNN 进行声学建模。运行声学模型后我得到的错误图如下所示:
以下是一些相关信息:
- 数据大小:7小时语音数据(4000句)
- 一些超参数:
- 批量大小:128
- 训练时期:15
- L2_正则化:0.003
- 批量大小:128
谁能指出改进这个模型的方向?我假设它遇到了过度拟合的问题?我应该怎么做才能避免这种情况?增加数据?或者改变批量大小/时期/正则化参数?提前致谢。
我一直在执行一个开源的文本转语音系统Ossian。它使用前馈 DNN 进行声学建模。运行声学模型后我得到的错误图如下所示:
以下是一些相关信息:
谁能指出改进这个模型的方向?我假设它遇到了过度拟合的问题?我应该怎么做才能避免这种情况?增加数据?或者改变批量大小/时期/正则化参数?提前致谢。
由于学习是一团糟,更多信息将有助于提出有用的建议。模型的大小(就可训练参数而言)是多少?另外,你有多少训练数据?但是,您可以尝试以下方法:Dropouts - 这是一种正则化方法,它是一种集成学习的代理。不确定你是否正在使用这个。湾。Smaller Batches: 8/16/32 - 经验表明,在测试/验证集的泛化意义上,较小的批次会找到更好的最小值。见https://arxiv.org/pdf/1609.04836.pdf。C。保持参数数量相同,已发现更深的模型(更多层)具有更好的泛化能力。见https://arxiv.org/abs/1706.10239。