计算机视觉有哪些特点?

数据挖掘 深度学习 计算机视觉 卷积 图像分割
2022-03-02 15:52:46

我正在学习 U-NET 网络如何进行语义分割。

我想我已经了解了除功能之外的所有内容。这些图像特征是什么?

我读到卷积层使用它们的过滤器从图像中提取特征,但它们是什么?他们是角落吗?边缘?颜色?

我已经阅读了这篇文章“寻找特征”,但我想我需要更多关于它们的信息。

2个回答

像 U-Net 这样的 CNN 提取较低级别的特征,例如较低层(即第一个卷积层)上的边缘和较高层(即更接近最终线性层的卷积层)上的高级特征。这一原则的灵感来自于人类(和其他动物)的视觉皮层是如何实现视觉感知的。

例如,在 CNN 中,特征图可能如下所示:

CNN 特征图

如您所见,较低级别的特征图检测边缘等简单结构,而较高级别的特征图识别眼睛或面部等更复杂的结构。

然而,CNN 对颜色的处理与空间特征的处理方式不同,因为彩色图像通常使用三个输入通道(一个用于RGB 格式的每种颜色)馈送到 CNN。所以颜色的检测方式与空间特征不同,而是第一个卷积层接收一个 3 维输入图像,每个颜色分量都有一个维度(一个用于红色,一个用于绿色,一个用于蓝色)。

文章CNN 到底看到了什么?和论文Visualizing and Understanding Convolutional Networks(也是上述图像的来源)提供了更详细的解释。

除了前面的答案,我还要补充一点,许多卷积神经网络架构(不仅是卷积神经网络!)是数据点从输入空间到目标空间的有效收缩映射(例如,MNIST 中的 10 个,ImageNet 中的 1000 个)。

这个想法是将图像的空间信息(很难使用线性层进行分类)转换为通道(即特征),以使后一种表示是“好”的。太好了,即使是几个简单的密集层也足以解决下游任务。