CNN识别旋转图像的策略

数据挖掘 美国有线电视新闻网 图像识别 核心
2022-03-06 11:29:55

我用一些卷积核从头开始编写了我的 CNN 代码。但是当只有几个卷积核 (3*3) 时,我的 CNN 无法正确识别翻转/旋转的图像。我的卷积核在训练过程中变化很小。为什么?

当有超过 10 个卷积核时,我的 CNN 开始识别经过处理的图像。所以更多的内核会有所帮助。然而,它也开始做出错误的识别。

与卷积核大小相比,图像的分辨率将如何影响结果?分辨率越高,这个拟合问题的维度就越高

2个回答

CNN 的学习取决于网络的宽度和深度。更广泛和更深入的网络可以学习更复杂的数据结构,包括数据增强图像。增加网络的宽度和深度会增加模型学习特征的能力。

宽度通常与特征的数量相关。网络越广泛,它能够学习的特征就越多。想象一个非常薄的网络。它只会学习与任务的高性能相关的单个特征。

深度将增加模型的容量,更好地权衡较低级别的特征。每个连续的层都是前一层的组合。较低层学习简单的特征,这些特征组合起来在较高层中创建复杂的特征。在人脸的情况下,较低层学习不同方向的线。更高层学习将这些线条组合起来形成眼睛和鼻子。

增加内核的数量是增加网络宽度的一种方法。

增加层数(即深度)通常更有用。

您的 CNN 是否包含池化层?它们用于处理不变性,如https://stats.stackexchange.com/a/239079中所述