Alex net 的输入大小是多少

数据挖掘 机器学习 深度学习 神经网络 美国有线电视新闻网 卷积神经网络
2021-09-30 17:26:42

在论文 ImageNet Classification with Deep Convolutional Neural Networks 中,输入图像的大小为 224x224。下图显示了输入大小。 在此处输入图像描述

在 caffe 中,bvlc_alexnet 目录中的 deploy.prototxt 文件显示输入大小为 227x227。 在此处输入图像描述

为什么输入大小不同?

2个回答

我想这是一个错误。看看这里

另一位作者是 Ilya Sutskever 和 Geoffrey Hinton。因此,AlexNet 输入从 227 x 227 x 3 图像开始。如果您阅读论文,论文指的是 224 x 224 x 3 图像。但如果你看一下这些数字,我认为这些数字实际上只有 227 乘 227 才有意义。

为了详细说明@Media 的答案“我认为这些数字只有在它们实际上是 227 乘 227 时才有意义”的含义如下:

在附加的快照中,第一个卷积层的大小是 55X55. 现在假设输入图像的尺寸是224X224,然后通过应用11X11内核与sr一世de=4如本文所述,将导致:

s一世ze=(一世ns一世ze+2*p一个dd一世nG-ķernel)sr一世de+1

s一世ze=(224+2*0-11)4+1=54.25

而如果尺寸是 227X227,那么这将导致:

s一世ze=(227+2*0-11)4+1=55

这符合论文中描述的第一个卷积层的大小。


* 我从这个 YouTube 教程中得到了计算输出大小的公式。