这个问题归结为“卷积层究竟是如何工作的。
假设我有一个 灰度图像。所以图像只有一个通道。在第一层,我应用了一个 卷积 过滤器和填充。然后我有另一个卷积层 卷积和 过滤器。我有多少特征图?
类型 1 卷积
第一层被执行。在那之后,我有特征图(每个过滤器一个)。每个都有大小. 每一个像素都是通过取来自填充输入图像的像素。
然后应用第二层。每个过滤器都分别应用于每个特征图。这导致每个特征图特征图。所以有第二层之后的特征图。每个新特征图的每个像素都是通过以下方式创建的之前填充的特征图的“像素”。
系统必须学习参数。
类型 2.1 卷积
像以前一样:第一层被执行。在那之后,我有特征图(每个过滤器一个)。每个都有大小. 每一个像素都是通过取来自填充输入图像的像素。
与以前不同:然后应用第二层。每个过滤器都应用于同一区域,但所有特征图都来自之前。这导致第二层执行后的总特征图。每个新特征图的每个像素都是通过以下方式创建的 之前填充的特征图的“像素”。
系统必须学习参数。
类型 2.2 卷积
像上面一样,但不是有 每个过滤器的参数必须学习并简单地复制到其他输入特征图,你有 必须学习的参数。
问题
- 通常使用类型 1 还是类型 2?
- Alexnet中使用哪种类型?
- GoogLeNet使用哪种类型?
- 如果你说类型 1:为什么 卷积有意义吗?他们不只是将数据与常数相乘吗?
- 如果您说类型 2:请解释二次成本(“例如,在深度视觉网络中,如果两个卷积层被链接,则它们的过滤器数量的任何均匀增加都会导致计算量二次增加”)
对于所有答案,请提供一些证据(论文、教科书、框架文档)来证明您的答案是正确的。
奖金问题 1
池化是始终仅针对每个特征图应用,还是也针对多个特征图进行?
奖金问题 2
我比较确定类型 1 是正确的,我对 GoogLe 论文有误。但是也有 3D 卷积。假设你有 1337 个大小的特征图 你申请一个 筛选。你如何在特征图上滑动过滤器?(从左到右,从上到下,从第一个特征图到最后一个特征图?)只要你始终如一地做这件事有关系吗?
我的研究
- 我已经阅读了上面的两篇论文,但我仍然不确定使用的是什么。
- 我已经阅读了千层面文档
- 我已阅读theano 文档
- 我已经阅读了关于理解卷积神经网络的答案(没有关注所有链接)
- 我读过卷积神经网络(LeNet)。特别是图 1 让我相对确定 Type 2.1 是正确的。这也符合 GoogLe Net 中的“二次成本”评论以及我在 Caffee 方面的一些实践经验。