我正在使用前馈神经网络进行分类任务。我的数据是 9 个类的 100 万个示例(不平衡)。由于 Keras 中的内存限制,我使用函数生成器自动生成批处理大小为 200 的批处理。我训练了一个具有 3 个隐藏层和 ReLU 激活函数的简单模型。输入层是 39 维 MFCC,输出是 9 个类。当我使用这个庞大数据的一个子集(当然!)时,这个模型工作得很好,但是现在,在使用函数生成器(即 model.fit_generator)时,我发现训练准确度只是四处游荡,而验证准确度太低了。看起来模型根本没有学习。这种行为的可能原因是什么?
关于数据
数据:语音
提到的大量数据的子集是完全干净的,但我使用均衡、时间拉伸、时间压缩、噪声、混响等数据增强技术从 1300 个示例中生成了 100 万个示例