为什么我们在将图像输入网络之前缩小图像?

数据挖掘 机器学习 神经网络 深度学习 数据集 美国有线电视新闻网
2022-02-26 22:35:42

我已经看到很多图像通常缩小到64×64,32×32或其他较低的分辨率。有人可以帮我解决这个问题并回答几个问题:

  1. 我们这样做不会丢失图像细节吗?
  2. 如果我们将图像缩小到其他更高的分辨率,例如512×512或者1024×1024或者其他的东西?
  3. 我们可以在没有的情况下为网络提供服务吗1:1方形图像?
3个回答

我们这样做不会丢失图像细节吗?

我们确实会通过调整图像大小来丢失信息。你必须考虑一个关于缩小图像的重要事实。如果要在输入图像中找到对象的确切位置,通常需要真实大小的图像,具有真实的纵横比。在像 YOLO 这样试图找到精确位置的论文中,它使用了一个接近的缩小值4我猜。这是可以接受的,因为它至少会引入±2像素错误。在分类任务中,通常可以看到带有224×224方面。这是一个可接受的维度,可以保持图像的主要结构。您应该知道它不会保持纵横比,但由于在测试时调整图像大小,这不是一个大问题。

如果我们将图像缩小到其他更高的分辨率,例如 512*512 或 1024*1024 或其他一些,会产生什么后果。

与前一种情况类似的事情已经在YOLO其他精确的对象定位和注释任务中完成。其结果是计算和训练参数的数量显着增加。增加训练参数的数量有一个突出的副作用。如果你有大量的参数,你必须增加训练样本的数量,否则即使你使用了正则化技术,过拟合的机会也会很高。

我们可以在没有 1:1 方形图像的情况下为网络提供数据吗?

是的你可以。正如我已经提到的,根据您的任务,您可以保留或不保留纵横比。在这种情况下,如果将卷积操作设置为VALID操作,则必须注意它们因为条目数较少的维度会更快完成。因此,您必须明智地选择窗口大小和卷积类型。

因为它节省了大量的计算时间。是的,我们会做松散的图像细节,但细节是否真的重要取决于您的任务。假设您的任务是检测和计算图像中圆圈的总数,因此您只关心形状圆,而不关心它的尺寸。因此,稍微降低图像分辨率会在计算上更有效。

我们在将图像输入网络之前缩小图像以减少参数数量。当参数数量较多时,我们倾向于增加对计算能力的要求。

缩小图像确实会减少细节,并且比例大小完全取决于我们模型的目标。剩余的细节和特征在卷积期间由内核操作自动提取。

我们可以为网络提供任何尺寸的图像,尽管它更喜欢正方形,因为它使矩阵操作变得容易。