我正在研究卷积神经网络 (CNN),因为它们在计算机视觉中的应用。我已经熟悉标准的前馈神经网络,所以我希望这里的一些人可以帮助我在理解 CNN 方面迈出额外的一步。以下是我对 CNN 的看法:
- 在传统的前馈 NN 中,我们有训练数据,其中每个元素都包含一个特征向量,我们在“输入层”中输入到 NN,因此对于图像识别,我们可以让每个像素成为一个输入。这些是我们的特征向量。或者,我们可以手动创建其他(可能更小)特征向量。
- CNN 的优势在于它可以生成更强的特征向量,这些特征向量对图像失真和位置更加不变。如下图所示(来自本教程),CNN 生成特征图,然后将其馈送到标准神经网络(因此实际上这是一个巨大的预处理步骤)。
- 我们获得那些“更好”特征的方法是交替卷积和子采样。我了解子采样的工作原理。对于每个特征图,只取像素的一个子集,或者我们可以平均出像素的值。
但我主要困惑的是卷积步骤是如何工作的。我熟悉概率论中的卷积(两个随机变量之和的密度),但它们在 CNN 中是如何工作的,为什么它们有效?
我的问题与此类似,但特别是,我不确定为什么第一个卷积步骤有效。