无法理解图像分割研究论文中以下几行的含义

数据挖掘 神经网络 深度学习 计算机视觉 卷积
2021-09-22 18:59:35

我正在实施一篇关于图像分割的论文。它基于对 u-net 架构的轻微修改。
该论文基于编码器和解码器步骤以下是我无法理解的论文行。

In the decoder path, features from the encoder path at the same 
resolution are fused through concatenation.

然后给出网络的架构——

Layer .  Output size .  Filter Size    Stride Dropout
Inputs .  _ .              _ .           _ .    _
Conv1
Conv2
Max Pool1
Conv3
Conv4
Max Pool2
Conv5
Conv6
Max Pool3
Conv7
Conv8
Max Pool4
Conv9
Conv10
Upsampling1
Conv11
Conv12
Upsampling2
Conv11
Conv12
Upsampling3
Conv11
Conv12
Upsampling4
Conv11
Conv12
Output

为了简洁起见,我没有添加其他列值。任何想阅读整篇论文的人,就是这个所需行见表 1。

1个回答

通常,如果您查看图像分割模型,它们有两个主要路径,即您论文的作者所说的编码器解码器路径。

编码器的作用是在提取有意义信息的同时收缩图像的大小,而解码器将收缩后的图像恢复到其原始尺寸。但是,在收缩过程中会丢失很多信息。为了克服这个问题,解码器通过跳过连接直接从收缩路径中获取一些特征

某个解码器层的输入实际上是两件事的串联:

  • 其前一层的输出
  • 编码器相应层(具有相同维度的层)的输出

如果您查看以下图像,这将变得更加清晰:

网络的左侧是编码器,右侧是解码器。跳过连接是直接从编码器到解码器的灰色水平线。

这些不能以您描绘模型的方式出现,因为您仅显示层而不是有关它们如何连接的任何信息。我认为您假设网络应该是连续的,但分割模型通常不是。