在线数据增强有意义吗?

机器算法验证 神经网络 梯度下降 数据增强
2022-04-21 09:44:02

数据增强通常在网上完成,因为这是在 Keras 和 TensorFlow 等神经网络框架中通常实现和建议的方式。我还在AlexNet 论文中看到了它的描述。

在线数据增强意味着网络在每个时期都会看到完全不同的数据集。从表面上看,这似乎是一个很酷的想法(特别是因为如果你在 CPU 上增加下一批并在 GPU 上训练前一批,它在计算上是免费的)有人说它提高了泛化能力,但除此之外我没有找到质量支持和解释这一想法的文献。

我对在线数据增强的问题是,我认为基于梯度的学习算法基本上是基于重复(即每个时期都看到相同的数据集),这在直觉上是有意义的。这是真的还是我编造的?有没有关于这方面的文献?

1个回答

从优化的角度来看,重复是好的(我们想要优化相同的功能)。从建模的角度来看,重复可能会冒着记住训练数据的风险,而无需学习任何可概括的东西。对于图像数据,在线增强的动机是观察我们可以翻译或添加噪声或以其他方式扭曲图像但保留其关键语义内容(因此人类仍然可以识别它)。在线增强的假设是模型可能不会两次看到完全相同的图像,因此记忆不太可能,因此模型会很好地泛化。