卷积神经网络背后的直觉是什么?
傅里叶基函数是“全局的”,延伸到整个信号/图像域。更典型地,图像处理/计算机视觉中使用的卷积滤波器将是局部的。例如移动平均或衍生风格的过滤器。
我对ConvNets的理解是过滤器通常是本地的。但不是使用预定义的一组滤波器,而是学习滤波器系数(仅预先指定窗口大小)。
为了扩展全局与局部的区别,对于 FFT,一个基函数为给定图像提供单个(复值)输出,因为基函数是全局的。对于局部滤波器,如在 CNN 中,一个基函数(滤波器)在输入图像上给出局部滤波器响应的图像输出。(可能输出图像更小,取决于padding 和 stride。)
在每种情况下,总输出将是一组滤波器响应,一个用于滤波器组中的每个基函数。对于 FFT,“滤波器”将对应于 FFT 的不同频率。对于 CNN,过滤器更加灵活,例如,在训练之后,它们最终可以有效地成为“定向边缘检测器”。
除此之外,在高层次上,成功的 CNN 的一个关键组成部分是深度,它通过诸如最大池和ReLU激活等非线性来启用*。(*因为线性函数的组合只会给出一个线性函数。)我不能从经验中真正说出这是如何发挥作用的细节。
但推测一下,这两种经典的 CNN 非线性都可以通过消除非显着滤波器响应来实现“注意力聚焦”。因此,在较低层次上,CNN 可以隐式地完成特征检测和描述,而在较高层次上,特征排列可以用于对象检测然后进行区分。因此,单个深度架构可以在更经典的端到端管道(例如SIFT)中完成多项任务。
在这篇博文(Deep Learning in a Nutshell: Core Concepts)中,作者对卷积背后的直觉有很好的解释。
卷积在物理和数学中很重要,因为它定义了空间和时间域(位置 (0,30) 处强度为 147 的像素)和频域(幅度为 0.3,在 30Hz,相位为 60 度)之间的桥梁。卷积定理。这个桥是通过使用傅里叶变换来定义的:当你在内核和特征图上都使用傅里叶变换时,卷积操作会大大简化(积分变成了乘法)。
...
卷积可以描述信息的扩散,例如,如果您将牛奶放入咖啡中并且不搅拌时发生的扩散可以通过卷积操作(像素向图像中的轮廓扩散)精确建模。在量子力学中,它描述了当您测量粒子的位置时量子粒子处于某个位置的概率(像素位置的平均概率在轮廓处最高)。在概率论中,它描述了互相关,即两个重叠序列的相似程度(如果特征(例如鼻子)的像素在图像(例如面部)中重叠,则相似度高)。在统计学中,它描述了标准化输入序列上的加权移动平均值(轮廓权重大,其他一切权重小)。存在许多其他解释。