首先:我知道,训练神经网络不需要一般的样本量。这取决于太多的因素,比如任务的复杂性、数据中的噪音等等。我拥有的训练样本越多,我的网络就越好。
但我想知道:如果我假设我的任务足够“简单”,那么理论上是否可以用比权重更少的训练样本来训练神经网络?有谁知道这个成功的例子吗?或者这个网络几乎肯定会表现不佳?
例如,如果我考虑多项式回归,我不能仅在 4 个数据点上拟合 4 次多项式(即具有 5 个自由参数)。考虑到我的权重数量作为自由参数的数量,神经网络是否有类似的规则?
首先:我知道,训练神经网络不需要一般的样本量。这取决于太多的因素,比如任务的复杂性、数据中的噪音等等。我拥有的训练样本越多,我的网络就越好。
但我想知道:如果我假设我的任务足够“简单”,那么理论上是否可以用比权重更少的训练样本来训练神经网络?有谁知道这个成功的例子吗?或者这个网络几乎肯定会表现不佳?
例如,如果我考虑多项式回归,我不能仅在 4 个数据点上拟合 4 次多项式(即具有 5 个自由参数)。考虑到我的权重数量作为自由参数的数量,神经网络是否有类似的规则?
人们一直在使用大型网络这样做。例如,著名的 AlexNet 网络有大约 6000 万个参数,而最初训练它的 ImageNet ILSVRC 只有 120 万个图像。
您不将 5 参数多项式拟合到 4 个数据点的原因是它总能找到一个完全适合您的数据点的函数,但在其他地方做无意义的事情。好吧,正如最近所指出的,AlexNet 和类似的网络可以拟合应用于 ImageNet 的任意随机标签并简单地记住它们,大概是因为它们的参数比训练点多得多。但是网络的先验与随机梯度下降优化过程相结合意味着,在实践中,当你给它们真正的标签时,这些模型仍然可以很好地泛化到新的数据点。我们仍然不明白为什么会发生这种情况。
仅当您除了数据之外没有施加其他约束时,欠定系统才是欠定系统。坚持您的示例,将 4 度多项式拟合到 4 个数据点意味着您有一个不受数据约束的自由度,这为您留下了一条同样好的解决方案(在系数空间中)。但是,您可以使用各种正则化技术来使问题易于处理。例如,通过对系数的 L2 范数(即平方和)施加惩罚,您可以确保始终存在一个具有最高适应度的唯一解。
神经网络也存在正则化技术,因此您的问题的简短回答是“是的,您可以”。特别感兴趣的是一种称为“dropout”的技术,在该技术中,对于权重的每次更新,您都会从网络中随机“删除”某个节点子集。也就是说,对于学习算法的特定迭代,您假装这些节点不存在。在没有 dropout 的情况下,网络可以学习非常复杂的输入表示,这取决于所有节点恰到好处地协同工作。这样的表示可能会“记住”训练数据,而不是找到泛化的模式。Dropout 确保网络不能一次使用所有节点来拟合训练数据;即使缺少某些节点,它也必须能够很好地表示数据,
另请注意,当使用 dropout 时,训练期间任何给定点的自由度实际上可能小于训练样本的数量,即使总体而言您学习的权重比训练样本多。