卷积神经网络可以将不同大小的输入图像作为输入吗?

机器算法验证 神经网络 卷积神经网络 计算机视觉
2022-03-18 10:38:21

我正在研究用于图像识别的卷积网络,我想知道是否可以输入不同大小的图像(尽管差别不大)。

在这个项目上:https ://github.com/harvardnlp/im2markup

他们说:

and group images of similar sizes to facilitate batching

因此,即使经过预处理,图像仍然具有不同的大小,这是有道理的,因为它们不会删除公式的某些部分。

使用不同尺寸有什么问题吗?如果有,我应该如何解决这个问题(因为公式不适合相同的图像大小)?

任何输入将不胜感激

2个回答

使用不同尺寸有什么问题吗?如果有,我应该如何解决这个问题(因为公式不适合相同的图像大小)?

这取决于神经网络的架构。一些架构假设所有图像都具有相同的维度,而其他架构(例如 im2markup)则不做这样的假设。我相信 im2markup 允许不同宽度的图像这一事实不会带来任何问题,因为它们使用 RNN 扫描卷积层的输出。

在此处输入图像描述

将相似大小的图像分组以方便批处理

这通常是为了通过避免添加太多填充来加快速度。

您是否考虑过在预处理阶段简单地缩放图像?直观地说,面对缩放图像的人仍然能够识别相同的特征和对象,并且没有明显的原因为什么 CNN 不能在缩放图像上做同样的事情。

我认为将图像缩放为相同大小可能比尝试让卷积网络处理不同大小的图像更容易,我认为这将在“原始研究”领域出现。您当然可以使卷积网络的卷积层处理任何大小的图像,而无需重新训练。但是,卷积网络的输出通常是某种分类器,如果您输入不同大小的输入,我想这可能效果不佳。

另一种方法是用零填充图像。但是直观地想象一下,您正在查看一张带有黑色边框的小照片,或者您可以放大,因此它在您的视野中形成了一个合理的弧线。你会做什么?哪个更容易看到?