是否有已知的卷积网络架构来计算图像的对象掩码?

数据挖掘 深度学习 卷积神经网络
2021-10-10 18:26:40

我想训练一个卷积网络来执行以下操作:

  1. 输入是一组具有给定对象的单通道(从黑色到灰色到白色)图片,比如汽车。
  2. 对于集合中的每张图片,目标是相同的图片,但是像素不是黑色就是白色。与汽车对象对应的像素为白色(即强度 255),与背景对应的像素为黑色(即强度 0)。

训练后,我想向网络提供汽车图片,并且我希望预测(至少是理想的预测)是具有黑色或白色像素的图片,其中白色对应于对象,黑色对应于背景。

我假设输入层是一个二维卷积层,输出层也是一个二维卷积层,每个卷积层的神经元数量与图片中的像素一样多。

谁能解释一下什么样的网络架构可以做到这一点?

它可以是架构(理论上)或以代码实现。

我希望对其进行调整,但最好不要从头开始。

2个回答

我很惊讶没有人提到用于语义分割的完全卷积神经网络 (FCN)

它们的灵感来自于以一两个密集连接层和 softmax 分类器结尾的原始 AlexNet 风格的卷积网络。但是 FCN 省去了密集层,并一直保持完全卷积

来自链接文章 https://arxiv.org/abs/1411.4038

这是基本原理。以 AlexNet、VGG 或类似的东西为例。但不是使用分类器中的参数来计算每个类别的标量,而是使用它们来使用 1x1xNUM_CATEGORIES卷积计算整个数组(即图像)。输出将是NUM_CATEGORIES特征图,每个表示该类别的粗粒度“热图”。狗的地图,猫的地图。可以通过“跳过连接”包含来自早期层的信息来增强它。

编辑:还有一点好消息:该论文的作者在Caffe 的 Model Zoo中提供了他们的网络的实现。调整!

这是一个典型的图像分割问题。您需要在图像中找到一个连续的斑点,这是您正在寻找的片段。这个问题的一个著名架构是 U-net 架构,这是论文的链接:http: //arxiv.org/abs/1505.04597

该架构被称为 u-net,因为它具有收缩路径(输入矩阵的大小减小)和扩展路径(大小再次放大,以便输出与输入的大小或多或少相似) .

收缩路径最接近典型的卷积网络架构,它重复以下模式:a)卷积层(在本例中使用 3x3 内核),b)卷积层输出上的整流线性单元(RELU),c)一个池化层,其中图像在每个维度上都减半。当你沿着收缩路径前进时,每次输入通过卷积层时特征通道的数量都会增加一倍,但每次通过池化层时尺寸都会减小。

扩展路径或多或少是对称的,上采样层会增加(加倍)输入的大小,然后是典型的卷积层和整流线性单元(RELU)。当您沿着扩展路径前进时,卷积层中的特征通道数量会减少,直到您最终得到与输出图像相对应的单个矩阵(数组)。

我期待在接下来的几天里实现这个架构,我相信我的理解会因此而增加。如果我发现任何其他值得发布的内容,我会继续发布。