深度学习中出现方形图像的原因

数据挖掘 深度学习 图像分类 图像识别
2021-09-28 04:24:19

大多数高级深度学习模型,如 VGG、ResNet 等,都需要方形图像作为输入,通常像素大小为224x224.

输入必须具有相同的形状是否有原因,或者我可以用say构建一个convnet模型吗100x200以及(例如,如果我想做面部识别并且我有肖像图像)?

例如,更大的像素尺寸是否会增加好处512x512?

1个回答

卷积神经网络无需特定像素尺寸即可正常运行。选择这些值可能是出于务实的原因 - 例如使用图像细节与参数数量和所需的训练集大小之间的折衷。

此外,如果源数据具有一系列不同的纵横比,一些肖像,一些风景,目标对象通常位于中心,那么从中间进行方形裁剪可能是一个合理的折衷方案。

当您增加输入图像大小时,您还将增加网络需要处理的噪声和方差量以处理该输入。这可能意味着更多的层——卷积和池化。这也可能意味着您需要更多的训练示例,当然每个训练示例都会更大。这些共同增加了完成训练所需的计算资源。然而,如果你能克服这个要求,你最终可能会得到一个更准确的模型,用于任何额外像素可能会产生影响的任务。

对于您是否想要更高的分辨率,一个可能的经验法则是,为了您的网络目标,人类专家是否可以利用额外的分辨率并在任务中表现更好。这可能是回归系统中的情况,其中网络从图像中导出一些数值 - 例如,用于提取生物特征的面部识别,例如面部特征之间的距离。对于诸如自动遮罩之类的图像处理任务,它也可能是可取的——这些任务的最新结果可能仍然低于我们希望在实践中应用它们的商业图像的分辨率。