什么是 CNN 中的频道?

数据挖掘 机器学习 神经网络 美国有线电视新闻网
2021-09-25 06:08:47

我在看一篇关于卷积神经网络的文章,发现了一些我不明白的地方,那就是:

过滤器必须具有与输入图像相同数量的通道,以便可以进行元素乘法。

现在,我不明白的是:卷积神经网络中的通道是什么?我试图寻找答案,但还不明白它是什么。

有人可以向我解释吗?

提前致谢。

3个回答

假设我们正在讨论应用于图像的 2D 卷积。

在灰度图像中,数据是维度矩阵w×H, 在哪里w是图像的宽度和H是它的高度。在彩色图像中,我们通常有 3个通道:红色、绿色和蓝色;这样,彩色图像可以表示为维度矩阵w×H×C, 在哪里C是通道数,即3。

卷积层接收图像(w×H×C) 作为输入,并生成一个维度的激活图作为输出w'×H'×C'. 卷积中的输入通道数为C,而输出通道数为C'. 这种卷积的过滤器是一个维度的张量F×F×C×C', 在哪里F是过滤器大小(通常为 3 或 5)。

这样,通道数就是卷积中涉及的矩阵的深度。此外,卷积运算通过指定输入和输出通道来定义这种深度的变化。

这些解释可直接外推到 1D 信号或 3D 信号,但与图像通道的类比使得在示例中使用 2D 信号更合适。

这是一个经常被问到的问题,因为它的性质令人困惑。所以让我试着解释一下。

渠道来自“媒体”。查看电视背后的广播技术,您可以通过多个频道接收不同的信息,这些信息会被广播到您的电视上。例如,图像可能仅包含三个通道,其中包含有关图像中每个像素有多少红色、绿色或蓝色的信息。将其映射到 CNN,您将获得具有三个通道的 RGB 图像。然而,图像也可以被解释为不同的事物。例如,您可以从图像中获取青色、品红色、黄色或黑色的信息。这意味着您的 CMYK 图像将通过四个通道(每种颜色为一个通道)进行分析。

在 CNN 中,这意味着您的每个过滤器都会应用于您的每个频道。为什么?因为您的过滤器可能从每个渠道获得不同的信息。也许它们在每个学习步骤之后也会收敛到不同的过滤器。

渠道一词指的是传播科学它不是数据科学或人工智能的特定术语。

一般来说,信道是使用信号传输信息(信道具有一定的信息传输能力)

对于图像,这些通常是由像素排列的颜色(rgb 代码),它们将实际信息传输到接收器。以最简单的方式(数字)颜色是使用 3 个信息(或所谓的通道 --> 红色、绿色和蓝色的混合)创建的。但是,图像可能涉及不透明度(rgba - 这里的“a”代表 alpha,是不透明度的对应通道)或 3D 分层(beta 通道)。图像的通道数量可能会有所不同。

但是,对于大多数图像,使用 3 通道 (rgb)。

所以当本书的作者写道:

过滤器必须具有与输入图像相同数量的通道,以便可以进行元素乘法。

她的意思是,如果您将 3 通道传递给 CNN,则可能无法应用数学运算(内核过滤器),而您可以处理使用更高通道的图像。