为什么我们在将图像用于对象检测之前调整它们的大小?

人工智能 分类 计算机视觉 物体检测 图像处理 数据预处理
2021-11-12 04:23:44

在目标检测中,我们可以通过保持与原始图像相同的比例来调整图像大小,这通常被称为“信箱”调整大小。

我的问题是

  1. 为什么我们需要调整图像大小?如果我们调整图像的大小以具有所有相同的尺寸,考虑到一些原始图像在垂直或水平方向上太长,我们将失去这些图像中的很多特征。

  2. 如果“信箱”方法优于“正常调整大小”(即不保持纵横比,例如参数设置为的OpenCVresize函数interpolationcv2.INTER_AREA应用的结果),为什么人们不在分类任务中应用它呢?

1个回答

这里有不同的问题,甚至有不同的思路。让我们通过它们

关于调整大小

  • 为什么我们需要调整大小?拟合网络不是完全卷积网络 (FCN) 时固定的网络输入
  • 如果我的网络是 FCN 怎么办?调整大小以限制要检测的输入特征的尺寸仍然有意义(小图像上的人 VS 大图像上的人)。考虑到内核大小不会变化,尽管图像大小会发生变化。

关于保持纵横比(或某些人喜欢说的信箱)

  • 为什么要保持纵横比?这更像是一个哲学问题。人们认为,保持纵横比有助于网络学习物体大小的自然变化(比如人的边界框不能超高和超薄,因为那将是路灯)。

  • 为什么不保持纵横比?如果你在不保持纵横比的情况下调整大小并且纵横比失真不是超级非常大,网络仍然会学习。换句话说,如果您的输入图像没有疯狂的纵横比,那么添加或不添加一点失真没有区别。事实上,有时它甚至会起到正则化或增强的作用。

结论

只要您的应用程序不是太具体并且您的输入图像纵横比是有限的(也就是说,如果您使用来自任何常规相机的图像进行训练),您就不必太担心这一点。

什么时候担心这个?当您使用巨大的垂直或水平图像进行训练时,或者使用从一些非常特定的设备(如地理、无线电或光学传感器)拍摄的图像进行训练时。在这些情况下,您应该特别注意如何调整图像大小或分割图像。例如,对于无线电传感器的记录,如果您使用纵横比变形调整大小,由于正弦波扭曲,来自特定频率的波会转换为另一个波)