在 CNN 中,较小的过滤器尺寸(例如 3x3)是否可能比较大的过滤器尺寸(例如 10x10)更容易过度拟合。
我知道这完全取决于手头的特定数据集,但我只是想根据偏差方差权衡来理解这一点。
在我的解释中,具有较小的过滤器尺寸将训练 CNN 识别每个输入图像中的更多局部模式,可能导致更大的方差(和过度拟合问题),而较大的过滤器尺寸将导致更好地识别更多的全局趋势每个图像,可能导致更大的偏差(随后欠拟合)。
这种解释在理论上正确吗?
谢谢
在 CNN 中,较小的过滤器尺寸(例如 3x3)是否可能比较大的过滤器尺寸(例如 10x10)更容易过度拟合。
我知道这完全取决于手头的特定数据集,但我只是想根据偏差方差权衡来理解这一点。
在我的解释中,具有较小的过滤器尺寸将训练 CNN 识别每个输入图像中的更多局部模式,可能导致更大的方差(和过度拟合问题),而较大的过滤器尺寸将导致更好地识别更多的全局趋势每个图像,可能导致更大的偏差(随后欠拟合)。
这种解释在理论上正确吗?
谢谢
是的,你的理论是正确的。
较小的过滤器大小将捕获局部模式,并且随着过滤器大小的减小,将累积更多的局部模式。
另一方面,较大的过滤器尺寸在计算上是昂贵的,而且看起来更大。
在实践中,两个 3×3 conv 的堆栈。层(中间没有空间池)具有 5×5 的有效感受野;三个这样的层具有 7 × 7 的有效感受野。此外,使用 3x3 层更便宜(在 5x5 过滤器的情况下,18 个参数对 25 个参数,在 7x7 过滤器的情况下使用 27 个参数对 49 个参数)。来源