为什么卷积神经网络属于深度学习?

机器算法验证 神经网络 卷积神经网络
2022-04-10 01:42:21

在我看来,深度学习是一个特征提取的过程。

就像多层神经网络(NN)一样:Input1 => L1 => L2 => ... => Ln => Output1. 深度学习的特殊之处在于让Output1等于Input1结果,我们可以得到 的错误Output1然后,我们可以尝试使用反向传播(BP)来训练我们的模型以最小化错误。完成后,所有层的输出都是从边缘到部分对象到完整对象的内部特征表示。这让深度学习变得如此美妙。这张图片说明了这个概念:

在此处输入图像描述

现在,回到卷积神经网络 (CNN)。CNN 使用卷积提取特征并尝试通过 BP 学习所有过滤器。我没有看到 CNN 生成类似于输入图片的输出。它只是卷积和池化等成为非常小的像素分数,称为基础。

CNN 如何在其实现中使用深度学习概念?为什么 BP 可以将 CNN 模型训练到所有层的正确内部特征?

4个回答

首先,请注意深度学习是一个流行术语。研究界甚至没有就 正式定义达成共识。真的,对该术语的讨论不会导致任何结果。这只是一个词。

话虽如此,正如您所说,卷积网络很深,因为它们依赖于多层特征提取。他们从输入中提取特征来预测结果。

您指的是“生成”方法,即使用特征来创建观察结果(图片,而不是类标签)。这就是深度学习流行的原因,但绝不仅限于此。

深度学习是一个通用术语,指的是深度神经网络至少有一个隐藏层。

深度学习是一种有很多相对简单的层的方法。您可以通过增加层数来增加学习能力,而不是增加层的复杂性。例如,您可以提出非常奇特的输出函数,可能是输入的非线性函数或复杂的连接。相反,您坚持使用 ReLU 和 liner 组合以及 softmax 等简单的东西,但是将很多层一层一层地堆叠起来。这就是为什么 CNN 完全符合深度学习这个非常通用且相当模糊的定义。看看 CNN 的组件,它们通常是非常简单的 MAX、卷积等。

很晚了,但我认为真正的答案更具历史意义。从历史上看,深度学习是指使用反向传播的网络,与许多其他类型的神经网络(Kohonen、单层感知器、振荡网络、混沌网络等)相比,它们是很多研究分支。当深度学习出现时,在成为今天使用的众所周知的炒作术语之前,它只是其他分支中的一个,它的特殊性是使用反向传播(实际上,它是它的唯一特殊性)。当 CNN 出现时,由于它也使用反向传播,它被视为深度学习的扩展。从这两种方法融合的共同点也可以看出,它们属于同一个家族。