据我了解,CNN 由两部分组成。第一部分(conv/pool 层)进行特征提取,第二部分(fc 层)从特征中进行分类。
由于完全连接的神经网络不是最好的分类器(即它们在大多数情况下都被 SVM 和 RFs 超越),为什么 CNNs 以 FC 层结束,而不是 SVM 或 RF?
据我了解,CNN 由两部分组成。第一部分(conv/pool 层)进行特征提取,第二部分(fc 层)从特征中进行分类。
由于完全连接的神经网络不是最好的分类器(即它们在大多数情况下都被 SVM 和 RFs 超越),为什么 CNNs 以 FC 层结束,而不是 SVM 或 RF?
这不是那么简单。首先,在某种程度上,SVM 是一种神经网络(您可以通过反向传播学习 SVM 解决方案)。请参阅什么*是*人工神经网络?. 其次,您无法事先知道哪个模型会更好,但问题是使用完全神经形态的架构,您可以端到端学习权重,同时将 SVM 或 RF 附加到 CNN 的最后一个隐藏层激活是只是一个临时程序。它可能会表现得更好,也可能不会,没有测试我们无法知道。
重要的部分是完全卷积架构能够进行表示学习,这有很多原因。这一次,它可能会在您的问题中完全减少或消除特征工程。
关于 FC 层,它们在数学上相当于 1x1 卷积层。请参阅Yann Lecun 的帖子,我抄录如下:
在卷积网络中,没有“全连接层”之类的东西。只有具有 1x1 卷积核和全连接表的卷积层。
ConvNets 不需要固定大小的输入,这是一个很少被理解的事实。您可以在碰巧产生单个输出向量(没有空间范围)的输入上训练它们,然后将它们应用于更大的图像。然后,您将获得输出向量的空间图,而不是单个输出向量。每个向量在输入的不同位置看到输入窗口。
在这种情况下,“全连接层”实际上充当 1x1 卷积。
如果您知道无免费午餐定理(Wolpert & Macready),您就不会如此沉迷于一个分类器并问为什么它不是最好的。NFL 定理本质上说“在所有成本函数的宇宙中,没有一个最好的分类器”。其次,分类器的性能总是“取决于数据”。
丑小鸭定理(Watanabe)从本质上说:“在所有特征集的宇宙中,没有一个最好的特征集。”
Cover定理指出,如果,即数据的维数大于样本大小,那么二元分类问题总是线性可分的。
鉴于上述情况以及奥卡姆剃刀法则,没有任何东西比其他任何东西都更好,独立于数据和成本函数。
我一直认为 CNN 本身并不是可以评估多样性(kappa vs error)的分类器的集合。