我正在训练一个用于音频分类的神经网络。
我在 UrbanSound8K 数据集(Model1)上对其进行了训练,然后我想评估输入中添加的不同级别的噪声如何影响预测准确性。基线准确度 Model1 = 65%
正如预期的那样,较高的噪声水平会导致较低的准确性。
然后,我决定使用噪声(Model2)执行数据增强。因此,我获取了数据集,并使用相同的文件复制了它,但向它们添加了粉红噪声 (+0 dB SNR)。
正如我所预料的那样,整体准确度提高了(虽然很小,0.5%),并且网络对输入的噪声损坏变得更加健壮。
然而!我没想到的一件事是,现在网络在仅预测未损坏的噪声输入(验证输入)时降低了其准确性。不知何故,它过度拟合了干净的输入,从而降低了这些音频的预测准确性。
因此,在数字上,Model2 对噪声输入的预测准确率为 69%(不一定与训练的噪声相同),对干净输入的预测准确率为47%。
这个结果有什么解释或直觉吗?
我期待网络现在拥有越来越多的不同训练数据,能够学习更多有意义的特征。我想过度拟合嘈杂的输入更困难,但我仍然不明白为什么它主要过度拟合到干净的输入。
- - - - - - - - - - - - - - - - - - - - - - - - - 编辑1 ------------------------------------------------- ---------------
另一条可能有用的信息:
即使在噪声很小的噪声输入上评估 Model2 时,网络仍然比仅在干净的输入上表现得更好(这与我们耳朵的噪声很小的输入非常相似)