数据挖掘 - 为什么我们在将图像输入网络之前缩小图像？ - 吾爱随笔录

为什么我们在将图像输入网络之前缩小图像？

数据挖掘机器学习神经网络深度学习数据集美国有线电视新闻网

2022-02-26 22:35:42

我已经看到很多图像通常缩小到 $64\times64$ , $32\times32$ 或其他较低的分辨率。有人可以帮我解决这个问题并回答几个问题：

我们这样做不会丢失图像细节吗？
如果我们将图像缩小到其他更高的分辨率，例如 $512\times512$ 或者 $1024\times1024$ 或者其他的东西？
我们可以在没有的情况下为网络提供服务吗 $1:1$ 方形图像？

3个回答

我们这样做不会丢失图像细节吗？

我们确实会通过调整图像大小来丢失信息。你必须考虑一个关于缩小图像的重要事实。如果要在输入图像中找到对象的确切位置，通常需要真实大小的图像，具有真实的纵横比。在像 YOLO 这样试图找到精确位置的论文中，它使用了一个接近的缩小值 $4$ 我猜。这是可以接受的，因为它至少会引入 $\pm2$ 像素错误。在分类任务中，通常可以看到带有 $224\times224$ 方面。这是一个可接受的维度，可以保持图像的主要结构。您应该知道它不会保持纵横比，但由于在测试时调整图像大小，这不是一个大问题。

如果我们将图像缩小到其他更高的分辨率，例如 512*512 或 1024*1024 或其他一些，会产生什么后果。

与前一种情况类似的事情已经在YOLO其他精确的对象定位和注释任务中完成。其结果是计算和训练参数的数量显着增加。增加训练参数的数量有一个突出的副作用。如果你有大量的参数，你必须增加训练样本的数量，否则即使你使用了正则化技术，过拟合的机会也会很高。

我们可以在没有 1:1 方形图像的情况下为网络提供数据吗？

是的你可以。正如我已经提到的，根据您的任务，您可以保留或不保留纵横比。在这种情况下，如果将卷积操作设置为VALID操作，则必须注意它们。因为条目数较少的维度会更快完成。因此，您必须明智地选择窗口大小和卷积类型。

因为它节省了大量的计算时间。是的，我们会做松散的图像细节，但细节是否真的重要取决于您的任务。假设您的任务是检测和计算图像中圆圈的总数，因此您只关心形状圆，而不关心它的尺寸。因此，稍微降低图像分辨率会在计算上更有效。

我们在将图像输入网络之前缩小图像以减少参数数量。当参数数量较多时，我们倾向于增加对计算能力的要求。

缩小图像确实会减少细节，并且比例大小完全取决于我们模型的目标。剩余的细节和特征在卷积期间由内核操作自动提取。

我们可以为网络提供任何尺寸的图像，尽管它更喜欢正方形，因为它使矩阵操作变得容易。

其它你可能感兴趣的问题