旋转图像并添加新的“旋转类”如何防止过度拟合?

人工智能 神经网络 机器学习 过拟合 元学习 数据增强
2021-10-22 03:51:40

来自第 4.1 节中使用记忆增强神经网络的元学习:

为了降低过度拟合的风险,我们通过随机平移和旋转字符图像来执行数据增强。我们还通过现有数据的 90°、180° 和 270° 旋转创建了新类。

我也许可以看到旋转如何通过允许模型更好地泛化来减少过度拟合。但是,如果通过旋转来增加训练图像可以防止过度拟合,那么添加新类以匹配这些旋转的目的是什么?那不是取消了增强吗?

2个回答

数据增强如何减少过拟合?

您写道,您可能已经可以看到数据增强通常如何帮助防止过度拟合,但这听起来有点不确定,并且仍然在问题的标题中提出,所以我将首先解决这个问题:

通常,当我们将机器学习用于分类问题时,理想情况下,我们会学习一个可以在总体上表现良好的分类器。人口的一个例子是:全世界所有手写字符的集合通常,我们没有可用于训练的完整人口,我们只有一个(小得多的)训练数据集如果训练集足够大,它可能是我们感兴趣的真实人口的一个很好的近似值(我们感兴趣的空间的“密集抽样”),但它仍然只是这样;一个近似值。

如果学习算法在训练集上的表现明显好于在总体上的表现(我们通常使用单独的测试集再次近似),我们就说它是过拟合的。

现在,数据增强(例如将训练集中图像的旋转/平移添加到训练集中)可以帮助对抗过度拟合,因为它弥合了训练集和总体之间的差距人口(整个世界中的所有手写字符)可能会包括从中间偏移(例如平移)和旋转的字符。因此,数据增强只是添加更多示例(并且可能更多示例)到我们的训练集,重要的是,它们被认为是我们感兴趣的人群的一部分。例如,如果我们感兴趣的人群只是图像中特定位置的所有手写字符的集合(例如,居中),然后通过添加各种翻译来扩充数据集将无济于事;我们将添加我们想要了解的人群之外的实例。


为什么不为旋转添加额外的类来抵消增强?

我能想出两种可能的解释:

  1. 也许“超类”旋转不同于“数据增强”旋转。

这是与论文相关的确切报价:

“为了降低过度拟合的风险,我们通过随机平移和旋转字符图像来执行数据增强。我们还通过现有数据的 90°、180° 和 270° 旋转创建了新类。”

在我看来,第一句话并不是 100% 清楚的。我想他们用于数据增强的平移相对较小(例如几个像素的偏移),所以他们用于数据增强的旋转也可能只是“小”旋转(例如,-10° 和 +10° 之间) . 第二句中描述的“更大”旋转(90°的倍数)可能不再是第一句中“数据增强以降低过度拟合风险”的一部分;它们只是为增加数据集中的类数量而执行的不同操作的一部分(而且,我想,对于这些较大的旋转中的每一个,它们可能会再次执行“较小的旋转”以进行数据增强)。

不过,这种解释是一种假设,但在我看来,论文中的确切含义并不是 100% 清楚。

  1. 在一次性学习的情况下,“过度拟合”的解释可能与传统学习略有不同。

请注意,本文是关于“单次学习”的,其目标是在只呈现一个从未见过的类的单个示例(“单次”)后能够准确分类。在这样的一次性问题中,您可以在某种意义上说,如果算法只能在特定的一组相似类上很好地执行一次性学习,而不能在其他类上执行,那么它可能会“过度拟合”到“类的分布”。

例如,如果您只在一组“直立”(接近 0 旋转)的手写字符上训练 one-shot 学习,那么当出现新类时,您的算法可能能够在 one-shot 学习方面表现良好(新的手写字符)同样是直立的,但在呈现倒置的新类别(新手写字符)时可能无法进行正确的一次性学习。

在神经网络收敛的情况下过度拟合可能有很多原因。当网络设计中隐含的模型不能很好地适应任务时,网络可能仍会在允许的时间范围内和所提供的示例集内收敛,但这将花费更多的时间和更多的示例而不是必要的,并且训练电路的可靠性和准确性可能远低于可靠设计所能达到的水平。

严重过度拟合可能是可靠性降低的原因之一。较轻微的过拟合将显示出比训练结束时发现的准确度有所降低的准确度。

这就是为什么出现了各种设计,在更通用的多层感知器网络之间进行功能特定的电路仿真。

  • 卷积核
  • 旋转
  • 其他基本翻译
  • 哈希查找
  • 其他消除一般收敛负担的图案化电路

在旋转的情况下,在一个专门的层或纵向堆叠元素中以最佳角度收敛可以消除相当大的负担,并允许使用更少的通用激活层、使用更少的示例进行整体收敛,并获得明显更加可靠和准确的结果。

考虑感知器必须做什么才能任意旋转图像。他们必须将本质上是旋转三角学的东西连接到网络中与方向相关的所有事物的参数中,从而创建本质上是柔韧的螺旋线,可能在经过训练的网络中的许多位置。创建柔韧的螺旋功能,在训练之前进行参数化并仔细处理反向传播以适应其存在,大大降低了收敛的复杂性。

如果做得好,过度拟合将不是问题。如果做得不好,可能会出现更严重的过度拟合或其他问题,例如不收敛。

总而言之,最佳实践是将本质上必须复杂但具有特定功能的东西留给一般的网络训练,这些功能已经很好理解并且已经存在数学和算法方法。