处理非全卷积深度学习网络的信箱图像的最佳实践?

人工智能 深度学习 卷积神经网络 数据预处理 数据标签 全卷积网络
2021-11-04 05:48:45

我正在研究深度估计网络。它有两个输出:

  1. 相对深度图
  2. 用于将相对深度图缩放为绝对深度图的标量。第二个输出使用密集层,因此我们不能使用可变大小的输入。

我们正在尝试处理两个不同的尺寸(192x256 和 256x192)。当前的方法是对图像进行信箱处理,这意味着在图像上应用黑色,使其输出为 256x256。我们决定采用这种方法,而不是将图像中心裁剪为 192x192,因为我们相信裁剪可能会丢失有价值的数据。

使用信箱时,我看到两条路径:

  1. 在我的损失函数中忽略图像的信箱部分。损失函数只会对图像的原始部分进行计算。
  2. 为信箱部分设置一个静态值,并将其作为损失的一部分。

#1 是正确的方法吗?然后,网络将能够预测黑色信箱部分的任何深度值,而不会受到惩罚。我担心 #2 会混淆信箱部分和图像的实际暗部分之间的网络。

1个回答

填充确实是最简单的解决方案。如果没有使用偏差,那么在损失计算期间也不需要屏蔽额外的值,因为使用零作为填充值就足够了。

您可能对检查Spatial Pyramid Pooling感兴趣。这种池化方法允许结合完全卷积模块和密集层,即它可以被初始化以产生特定的固定输出大小,同时允许不同的输入大小,用于训练和推理。