应用过滤器来做诸如识别边缘之类的事情的想法是一个非常酷的想法。
例如,您可以拍摄 7 的图像。使用一些过滤器,您最终可以得到强调原始图像不同特征的转换图像。原版7:
网络可以体验为:
注意每个图像如何提取原始 7 的不同边缘。
这一切都很好,但是,假设网络中的下一层是 Max Pooling 层。
我的问题是,一般来说,这看起来是不是有点矫枉过正?我们只是非常小心谨慎地使用过滤器识别边缘——现在,我们不再关心这些,因为我们已经把像素值炸飞了!如果我错了,请纠正我,但我们从 25 X 25 变成了 2 X 2!那么为什么不直接使用 Max Pooling,我们最终不会得到基本相同的东西吗?
作为我的问题的扩展,我不禁想知道如果巧合的是,4 个正方形中的每一个恰好都有一个具有相同最大值的像素,会发生什么。这肯定不是罕见的情况,对吧?突然间,你所有的训练图像看起来都一模一样。