为什么类 UNET 架构比滑动窗口方法执行得更好?

数据挖掘 美国有线电视新闻网 图片
2022-02-19 22:01:20

我正在写一篇重点关注生物医学图像语义分割的论文。

我正在审查不同的分割方法,确定两个主要方法分支:

  • 类似滑动窗口的方法:在原始图像的不同块上使用分类网络来重建概率图的逐像素估计。
  • 图像方法:与 FCNN 和 UNET 方法一样,依赖于完全卷积架构,并且使用转置卷积将升级阶段合并到网络本身中。 https://arxiv.org/abs/1505.04597

第二种方法在任何情况下都明显优于第一种方法。我对为什么会发生这种情况有一个模糊的预感:我的假设是转置卷积操作作为其核心局部操作,强制局部标准对紧密像素的分割,因此在完全卷积的情况下强烈鼓励像素连续性。

由于两个原因,我觉得这种解释并不令人满意:

  1. 我没有论文或真实数据来支持这一点:我似乎找不到任何关于这个主题的论文。
  2. 滑动窗口方法也具有内置的局部一致性形式:如果重叠窗口共享大部分像素,则可以合理地认为 - 鉴于网络并非完全混乱并显示出足够的线性 - 输出将是相似的。

有没有人对此有一点见解或资料?所有贡献将在很大程度上受到赞赏。

0个回答
没有发现任何回复~