机器算法验证 - （理论上）可以用比权重更少的训练样本来训练神经网络吗？ - 吾爱随笔录

（理论上）可以用比权重更少的训练样本来训练神经网络吗？

机器算法验证神经网络过拟合下定决心

2022-01-23 17:13:53

首先：我知道，训练神经网络不需要一般的样本量。这取决于太多的因素，比如任务的复杂性、数据中的噪音等等。我拥有的训练样本越多，我的网络就越好。

但我想知道：如果我假设我的任务足够“简单”，那么理论上是否可以用比权重更少的训练样本来训练神经网络？有谁知道这个成功的例子吗？或者这个网络几乎肯定会表现不佳？

例如，如果我考虑多项式回归，我不能仅在 4 个数据点上拟合 4 次多项式（即具有 5 个自由参数）。考虑到我的权重数量作为自由参数的数量，神经网络是否有类似的规则？

2个回答

人们一直在使用大型网络这样做。例如，著名的 AlexNet 网络有大约 6000 万个参数，而最初训练它的 ImageNet ILSVRC 只有 120 万个图像。

您不将 5 参数多项式拟合到 4 个数据点的原因是它总能找到一个完全适合您的数据点的函数，但在其他地方做无意义的事情。好吧，正如最近所指出的，AlexNet 和类似的网络可以拟合应用于 ImageNet 的任意随机标签并简单地记住它们，大概是因为它们的参数比训练点多得多。但是网络的先验与随机梯度下降优化过程相结合意味着，在实践中，当你给它们真正的标签时，这些模型仍然可以很好地泛化到新的数据点。我们仍然不明白为什么会发生这种情况。

仅当您除了数据之外没有施加其他约束时，欠定系统才是欠定系统。坚持您的示例，将 4 度多项式拟合到 4 个数据点意味着您有一个不受数据约束的自由度，这为您留下了一条同样好的解决方案（在系数空间中）。但是，您可以使用各种正则化技术来使问题易于处理。例如，通过对系数的 L2 范数（即平方和）施加惩罚，您可以确保始终存在一个具有最高适应度的唯一解。

神经网络也存在正则化技术，因此您的问题的简短回答是“是的，您可以”。特别感兴趣的是一种称为“dropout”的技术，在该技术中，对于权重的每次更新，您都会从网络中随机“删除”某个节点子集。也就是说，对于学习算法的特定迭代，您假装这些节点不存在。在没有 dropout 的情况下，网络可以学习非常复杂的输入表示，这取决于所有节点恰到好处地协同工作。这样的表示可能会“记住”训练数据，而不是找到泛化的模式。Dropout 确保网络不能一次使用所有节点来拟合训练数据；即使缺少某些节点，它也必须能够很好地表示数据，

另请注意，当使用 dropout 时，训练期间任何给定点的自由度实际上可能小于训练样本的数量，即使总体而言您学习的权重比训练样本多。

其它你可能感兴趣的问题

上一篇如果神经网络中的每个神经元基本上都是逻辑回归函数，为什么多层更好呢？下一篇Palantir 的亚洲歧视案例：概率是如何计算的？