数据挖掘 - 为什么添加数据增强会稍微降低训练精度？ - 吾爱随笔录

数据挖掘喀拉斯美国有线电视新闻网图像分类准确性数据增强

2022-01-25 18:09:23

在数据增强之前，我的模型明显过拟合并达到了 100% 的训练准确率和 52% 的验证准确率。当仅使用 Keras 添加数据增强时，作为一种正则化技术，它实现了 95% 的训练准确度，但收敛速度较慢，验证准确度为 80%（这是一个更好的结果）。但是为什么训练准确率会降低 5% 左右呢？

如果有人可以提供研究论文的链接或解释其背后的原因，将不胜感激！

1个回答

数据增强可能会降低训练准确性的明显原因是 -

如您所知，深度学习模型需要大量数据。如果模型没有获得足够的数据来识别模式，那么它将尝试记忆数据集。更大的模型倾向于记住数据而不是寻找模式，因为它们足够大。当模型记住训练数据时，它肯定会在训练集上表现非常好，而在验证集上表现不佳。

正如你所说，数据增强是一种正则化技术。在正则化中，您的模型权重会受到更多惩罚，以确保它们不会过度拟合。结果，您的模型在训练集上表现不佳（取决于使用了多少正则化），但作为一个优势模型将尝试在数据集中找到通用模式，这在验证时也将有所帮助。

我可以找到一篇关于数据增强和正则化的详尽实验的研究论文。

其它你可能感兴趣的问题