CNN 中的滤波器大小以及它们与过拟合/欠拟合的关系

数据挖掘 机器学习 深度学习 美国有线电视新闻网
2022-03-11 01:04:44

在 CNN 中,较小的过滤器尺寸(例如 3x3)是否可能比较大的过滤器尺寸(例如 10x10)更容易过度拟合。

我知道这完全取决于手头的特定数据集,但我只是想根据偏差方差权衡来理解这一点。

在我的解释中,具有较小的过滤器尺寸将训练 CNN 识别每个输入图像中的更多局部模式,可能导致更大的方差(和过度拟合问题),而较大的过滤器尺寸将导致更好地识别更多的全局趋势每个图像,可能导致更大的偏差(随后欠拟合)。

这种解释在理论上正确吗?

谢谢

1个回答

是的,你的理论是正确的。

较小的过滤器大小将捕获局部模式,并且随着过滤器大小的减小,将累积更多的局部模式。

另一方面,较大的过滤器尺寸在计算上是昂贵的,而且看起来更大。

在实践中,两个 3×3 conv 的堆栈。层(中间没有空间池)具有 5×5 的有效感受野;三个这样的层具有 7 × 7 的有效感受野。此外,使用 3x3 层更便宜(在 5x5 过滤器的情况下,18 个参数对 25 个参数,在 7x7 过滤器的情况下使用 27 个参数对 49 个参数)。来源