一个关于体积卷积的简单问题。
假设我们有一个尺寸为的过滤器,这将输出一个尺寸为的矩阵。
在这种情况下,我们为什么要跨渠道求和。我们不会因为混合不同的渠道而丢失信息。在图像的情况下,这意味着在R, G, B通道中混合信息?例如。当试图检测交通信号灯时,这种混合可能是致命的。
一个关于体积卷积的简单问题。
假设我们有一个尺寸为的过滤器,这将输出一个尺寸为的矩阵。
在这种情况下,我们为什么要跨渠道求和。我们不会因为混合不同的渠道而丢失信息。在图像的情况下,这意味着在R, G, B通道中混合信息?例如。当试图检测交通信号灯时,这种混合可能是致命的。
我试图解释多点。
首先,用于图像的卷积网络的每个过滤器都是一个 3d 体积。因此,每当我们说我们有过滤器时,就意味着我们有个这些 3d 过滤器的体积。
其次,您可以将每个卷积层视为应用于输入的小区域的 MLP。这些应用于输入的不同区域,以调查典型模式是否在该区域中。这些模式将通过成本函数来学习。您可以轻松地认为,对于每个作为体积的过滤器,您实际上是在对加权输入进行求和,就像 MLP 一样。
第三,结果是,您训练的过滤器将根据使用成本函数的任务决定选择哪些通道的信息。它们可能在一个平面中,也可能在多个平面中。
CNN 过滤器仅用于边缘检测。这些边缘基本上是通过数学函数检测的,因此在更深层(级联函数)中变得越来越复杂,使其能够检测复杂的特征。
在您的问题中,需要注意 2 点:
R,G,B通道对特定颜色有贡献。直觉上,交通信号灯不仅仅是一个灯。它由一个 3 灯装置组成。考虑到这一点,向您显示交通灯的黑白图像,其中特定颜色处于打开状态并且颜色标签是已知的。即使您不知道颜色,您也会将颜色标签与灯泡的位置相关联。在 CNN 中也会发生同样的情况,如果通道对于每种颜色具有相同的值,CNN 将学习从灯泡的位置进行识别。