在 CNN 中使用不同宽度和高度的内核是个好主意吗?

人工智能 卷积神经网络 图像处理 卷积 超参数 过滤器
2021-11-16 06:21:22

我总是看到内核的宽度和高度是相同的。但是使用不同的数字是个好主意吗?

最近我尝试在我的图像(500x150)上使用 GoogLeNet(它期望图像为 224x224),但出现错误:

'average_pooling2d_5/AvgPool' 从 5 中减去 7 导致的负尺寸大小...

我知道这个错误是因为我的图像的高度太小了。如果我使用大约 200 的高度,那么一切正常。所以,也许,在这种情况下,我可以在内核中使用较小的高度和较大的宽度。例如 (5, 3)。

在这种情况下这是个好主意吗?还是一般?它如何影响网络的准确性和提取不同特征的能力?

1个回答

这取决于您的应用程序。在文本识别的情况下,使用非均匀内核,因为关于文本的信息在水平轴上较少,而在垂直轴上较多。

如果在您的情况下适用,那将是个好主意。但是,如果不是,最好使用更小的统一内核(也许是 2x2)。您还可以在通过卷积之前对图像进行零填充以使其均匀。此外,请检查您是否在卷积中进行“有效”或“相同”填充,因为“有效”卷积会削弱您的图像尺寸。