我在看一篇关于卷积神经网络的文章,发现了一些我不明白的地方,那就是:
过滤器必须具有与输入图像相同数量的通道,以便可以进行元素乘法。
现在,我不明白的是:卷积神经网络中的通道是什么?我试图寻找答案,但还不明白它是什么。
有人可以向我解释吗?
提前致谢。
我在看一篇关于卷积神经网络的文章,发现了一些我不明白的地方,那就是:
过滤器必须具有与输入图像相同数量的通道,以便可以进行元素乘法。
现在,我不明白的是:卷积神经网络中的通道是什么?我试图寻找答案,但还不明白它是什么。
有人可以向我解释吗?
提前致谢。
假设我们正在讨论应用于图像的 2D 卷积。
在灰度图像中,数据是维度矩阵, 在哪里是图像的宽度和是它的高度。在彩色图像中,我们通常有 3个通道:红色、绿色和蓝色;这样,彩色图像可以表示为维度矩阵, 在哪里是通道数,即3。
卷积层接收图像() 作为输入,并生成一个维度的激活图作为输出. 卷积中的输入通道数为,而输出通道数为. 这种卷积的过滤器是一个维度的张量, 在哪里是过滤器大小(通常为 3 或 5)。
这样,通道数就是卷积中涉及的矩阵的深度。此外,卷积运算通过指定输入和输出通道来定义这种深度的变化。
这些解释可直接外推到 1D 信号或 3D 信号,但与图像通道的类比使得在示例中使用 2D 信号更合适。
这是一个经常被问到的问题,因为它的性质令人困惑。所以让我试着解释一下。
渠道来自“媒体”。查看电视背后的广播技术,您可以通过多个频道接收不同的信息,这些信息会被广播到您的电视上。例如,图像可能仅包含三个通道,其中包含有关图像中每个像素有多少红色、绿色或蓝色的信息。将其映射到 CNN,您将获得具有三个通道的 RGB 图像。然而,图像也可以被解释为不同的事物。例如,您可以从图像中获取青色、品红色、黄色或黑色的信息。这意味着您的 CMYK 图像将通过四个通道(每种颜色为一个通道)进行分析。
在 CNN 中,这意味着您的每个过滤器都会应用于您的每个频道。为什么?因为您的过滤器可能从每个渠道获得不同的信息。也许它们在每个学习步骤之后也会收敛到不同的过滤器。
渠道一词指的是传播科学。它不是数据科学或人工智能的特定术语。
一般来说,信道是使用信号传输信息(信道具有一定的信息传输能力)
对于图像,这些通常是由像素排列的颜色(rgb 代码),它们将实际信息传输到接收器。以最简单的方式(数字)颜色是使用 3 个信息(或所谓的通道 --> 红色、绿色和蓝色的混合)创建的。但是,图像可能涉及不透明度(rgba - 这里的“a”代表 alpha,是不透明度的对应通道)或 3D 分层(beta 通道)。图像的通道数量可能会有所不同。
但是,对于大多数图像,使用 3 通道 (rgb)。
所以当本书的作者写道:
过滤器必须具有与输入图像相同数量的通道,以便可以进行元素乘法。
她的意思是,如果您将 3 通道传递给 CNN,则可能无法应用数学运算(内核过滤器),而您可以处理使用更高通道的图像。