卷积神经网络广泛用于人工智能中的图像相关任务。
传统神经网络的输入通常是图像。卷积神经网络的输出也可以是图像。但是卷积神经网络的隐藏/中间层的输出通常是输入图像的特征图。
通常,图像的通道代表使用的颜色。如果卷积神经网络的输入和输出是 RGB 图像。那么输入和输出图像的三个通道确实是红色绿色和蓝色的表示。特征图也是如此吗?特征图中的通道是否也是颜色的表示?
我之所以有这个疑问,是因为我记得通道是因为颜色和特征图可能包含任意数量的通道。如果他们也有代表,那么我很难理解。
卷积神经网络广泛用于人工智能中的图像相关任务。
传统神经网络的输入通常是图像。卷积神经网络的输出也可以是图像。但是卷积神经网络的隐藏/中间层的输出通常是输入图像的特征图。
通常,图像的通道代表使用的颜色。如果卷积神经网络的输入和输出是 RGB 图像。那么输入和输出图像的三个通道确实是红色绿色和蓝色的表示。特征图也是如此吗?特征图中的通道是否也是颜色的表示?
我之所以有这个疑问,是因为我记得通道是因为颜色和特征图可能包含任意数量的通道。如果他们也有代表,那么我很难理解。
不,通道不必只代表颜色。即使不考虑特征图,它们也经常表示其他事物。例如 RGBD 图像,其中 D 是深度测量值或与传感器的距离。或者当 CNN 应用于基于网格的游戏时,例如国际象棋或使用 AlphaZero,其中输入通道是有关棋盘上游戏棋子的信息。
从数学上讲,通道或特征图几乎没有区别。两者都是存储在某个多维数组中的数值,通常具有以下假设:
单个通道或单个特征图中的所有值都表示对同一概念的测量。这可能是在空间中某个点的传感器上检测到了多少蓝光,或者可能是靠近该点的像素与某种猫鼻子中心相关的模式匹配的程度。
这些值被认为与同一系统中的其他特征图或通道位于同一位置,因此索引处的值(要不就一维或对于 3D 等)在一个通道中被认为与相关通道或特征图中的值位于相同的位置,至少在同一层内。
您将倾向于找到用于描述可以直接可视化的输入和输出的通道,而特征图倾向于用于描述在 CNN 隐藏卷积层的输出中出现的更抽象的模式匹配。但是,这两个术语可以松散地使用,有时可以互换使用。
CNN 中的特征图通常不带有单独的颜色通道。尽管可以设计将颜色信息分开的架构,但这很少使用 - 普通的 CNN 架构允许将所有层通道/特征与每个新层混合,通过将每个输入通道/特征连接到每个输入通道/特征的权重机制层之间的输出通道/特征。
您有时会看到从第一个卷积层的神经网络权重中提取的颜色通道信息,以便可视化该层匹配的内容。这是因为第一层的权重(并且只有第一层的权重)可以解释为与每个输出特征图的输入通道匹配的模板。这与可视化输出特征图不同 - 虽然这些图受输入颜色通道的影响,因此在一般意义上携带颜色信息,它们不会像用于输入的图像通道一样测量颜色强度.
更一般地说,因为人类感知与 RGB 颜色通道密切相关,并且因为计算机显示和图像格式是围绕这一点设计的,所以每当你看到 CNN 层正在做什么的任何表示时,你都会看到以下之一:
特征图值的灰度表示。这是最接近“真实”的表示,但有时它的信息量不是很大。
特征图值的热图。使用颜色可能有助于可视化,但它是假颜色,因为相同的颜色实际上不在特征图中。
将导致特征图激活的代表性输入。这可以提供有关特征图的信息,但它没有直接显示特征图在做什么,并且输入中定义的通道用于颜色。