我试图找到这个问题的答案,但没有找到满意的答案。我知道神经网络 (NNs) 提供了构建复杂非线性模型的潜力。我不明白的是 NN 提供了传统统计非线性模型不提供的功能。换句话说,为什么至少在某些情况下我会选择 NN 模型而不是统计模型(例如非线性回归)?
神经网络提供了哪些传统非线性统计模型不提供的功能?
将结构和算法先验嵌入模型的能力。
最简单的例子是应用于图像数据的卷积神经网络。结构先验是与远处区域相比,图像的附近区域彼此更密切相关/相关。
图卷积网络在任意图/网络结构之前扩展了这个“局部性”。1D 和 3D 卷积网络分别在声音/1D 信号数据和 3D 扫描之前对此进行了扩展。
已经开发了强大的二次规划求解器。可以将这样的 QP 求解器嵌入到神经网络中,从而引入算法先验,即“找到利用 QP 的解决方案”。价值迭代网络强制执行一个先验,即“利用这个众所周知的 RL 算法来解决这个 RL 问题”。
计算机视觉科学家可以将 3D 几何构建到神经网络中,将之前的“我们生活在 3D 欧几里得空间中,这是我们的相机模型”引入到网络架构中。
我的理解是,在这个时间点上,没有真正可靠的数学理由来解释为什么 NN 取得了如此多的成功。也许这就是为什么你现在找不到任何令人信服的东西,尽管有很多启发式的论点。
这带来了很多(有充分理由)的一个证据是“通用逼近定理”;也就是说,只要有足够多的神经元,任何平滑函数都可以通过足够大的神经网络任意逼近。这表明,如果我们的 NN 中有足够的参数和足够的数据,我们应该能够任意接近我们试图逼近的真实函数。
然而,仅通用近似定理并不能解释 NN 的成功,因为 NN 绝对不是唯一具有这种属性的机器学习/统计模型!对于一个非常简单的替代方案,您可以采用线性模型并简单地扩展协变量以包括非线性项和交互作用。给定足够的扩展,这也可以逼近任何函数。
现在,在线性模型的情况下,虽然通用逼近定理是正确的,但我们可以立即进行数学运算,看看这变得太需要数据了,以至于无法实际使用。例如,假设我们有一个具有个协变量的模型。没有参数扩展的简单线性模型需要拟合系数。如果我们只想包括一阶交互效应,我们现在最多系数。虽然这是一组比简单的线性效应更丰富的模型,但它仍然没有那么复杂。如果我们想包含三阶效应,这需要系数。请注意,我们甚至还没有解决添加非线性参数扩展的问题。如果很明显,对于协变量具有复杂交互作用的近似函数,这不会很好地发挥作用。
所以对我来说,真正的问题是哪种模型可以很好地从有限的数据集中近似复杂关系。我认为上面的段落相当有说服力,即具有简单参数扩展的线性模型不是要走的路。我的理解是,NN 的论点是(a)没有令人信服的论点表明它们不会起作用,并且(b)从经验上看,当一个人拥有大量数据和复杂的问题时,它们似乎在广泛的问题中运行良好特征的相互作用。