包含不同尺寸和方向的图像的数据集

人工智能 深度学习 深度神经网络 数据集
2021-10-31 14:16:02

我是深度学习的新手。

我有一个特定对象不同尺寸的图像数据集。该物体的一些图像也处于不同的方向。目标是学习对象的特征(使用自动编码器)。

是否可以创建一个包含不同尺寸和输入图像方向的层的网络,或者我应该严格考虑包含统一尺寸图像的数据集?一般而言,用于训练深度网络的合格数据集的必要标准是什么。

这个想法是,我想通过缩放、重新定向操作等对其进行标准化来避免预处理我的数据集。我希望我的网络能够考虑尺寸和方向的可变性。请为我指出相同的资源。

1个回答

人们几乎总是会在将所有图像发送到 CNN 之前将其调整为相同大小。除非你准备好迎接真正的挑战,否则这可能是你应该做的。

也就是说,有可能构建一个将图像输入作为不同维度的单一 CNN。您可以尝试多种方法来做到这一点,我不知道有任何已发表的科学分析这些不同的选择。关键是学习参数集需要在不同的输入大小之间共享。虽然卷积可以应用于不同的图像大小,但最终它们总是被转换为单个向量以进行预测,并且该向量的大小将取决于输入、卷积和池化层的几何形状。您可能希望根据输入几何图形动态更改池化层并使卷积保持不变,因为卷积层具有参数而池化通常没有。所以在更大的图像上,你会更积极地汇集。

实际上,您希望将类似(相同)大小的图像组合成小批量以进行有效处理。这对于 LSTM 类型的模型很常见。这种技术通常称为“分桶”。有关如何有效执行此操作的说明,请参见例如http://mxnet.io/how_to/bucketing.html 。