数据挖掘 - 什么是 CNN 中的频道？ - 吾爱随笔录

什么是 CNN 中的频道？

数据挖掘机器学习神经网络美国有线电视新闻网

2021-09-25 06:08:47

我在看一篇关于卷积神经网络的文章，发现了一些我不明白的地方，那就是：

过滤器必须具有与输入图像相同数量的通道，以便可以进行元素乘法。

现在，我不明白的是：卷积神经网络中的通道是什么？我试图寻找答案，但还不明白它是什么。

有人可以向我解释吗？

提前致谢。

3个回答

假设我们正在讨论应用于图像的 2D 卷积。

在灰度图像中，数据是维度矩阵 $w \times h$ ，在哪里 $w$ 是图像的宽度和 $h$ 是它的高度。在彩色图像中，我们通常有 3个通道：红色、绿色和蓝色；这样，彩色图像可以表示为维度矩阵 $w \times h \times c$ ，在哪里 $c$ 是通道数，即3。

卷积层接收图像（ $w \times h \times c$ ) 作为输入，并生成一个维度的激活图作为输出 $w' \times h' \times c'$ . 卷积中的输入通道数为 $c$ ，而输出通道数为 $c'$ . 这种卷积的过滤器是一个维度的张量 $f \times f \times c \times c'$ ，在哪里 $f$ 是过滤器大小（通常为 3 或 5）。

这样，通道数就是卷积中涉及的矩阵的深度。此外，卷积运算通过指定输入和输出通道来定义这种深度的变化。

这些解释可直接外推到 1D 信号或 3D 信号，但与图像通道的类比使得在示例中使用 2D 信号更合适。

这是一个经常被问到的问题，因为它的性质令人困惑。所以让我试着解释一下。

渠道来自“媒体”。查看电视背后的广播技术，您可以通过多个频道接收不同的信息，这些信息会被广播到您的电视上。例如，图像可能仅包含三个通道，其中包含有关图像中每个像素有多少红色、绿色或蓝色的信息。将其映射到 CNN，您将获得具有三个通道的 RGB 图像。然而，图像也可以被解释为不同的事物。例如，您可以从图像中获取青色、品红色、黄色或黑色的信息。这意味着您的 CMYK 图像将通过四个通道（每种颜色为一个通道）进行分析。

在 CNN 中，这意味着您的每个过滤器都会应用于您的每个频道。为什么？因为您的过滤器可能从每个渠道获得不同的信息。也许它们在每个学习步骤之后也会收敛到不同的过滤器。

渠道一词指的是传播科学。它不是数据科学或人工智能的特定术语。

一般来说，信道是使用信号传输信息（信道具有一定的信息传输能力）

对于图像，这些通常是由像素排列的颜色（rgb 代码），它们将实际信息传输到接收器。以最简单的方式（数字）颜色是使用 3 个信息（或所谓的通道 --> 红色、绿色和蓝色的混合）创建的。但是，图像可能涉及不透明度（rgba - 这里的“a”代表 alpha，是不透明度的对应通道）或 3D 分层（beta 通道）。图像的通道数量可能会有所不同。

但是，对于大多数图像，使用 3 通道 (rgb)。

所以当本书的作者写道：

过滤器必须具有与输入图像相同数量的通道，以便可以进行元素乘法。

她的意思是，如果您将 3 通道传递给 CNN，则可能无法应用数学运算（内核过滤器），而您可以处理使用更高通道的图像。

其它你可能感兴趣的问题

上一篇对多列执行 k-means 聚类下一篇如何设置/获取 Spark 的堆大小（通过 Python 笔记本）