在阅读有关深度学习的文章时,我经常遇到这样的规则:深度学习只有在您拥有大量数据可供使用时才有效。这些陈述通常伴随着这样的数字:
该示例(取自https://hackernoon.com/%EF%B8%8F-big-challenge-in-deep-learning-training-data-31a88b97b282)归因于“Andrew Ng 的著名幻灯片”。有谁知道这个数字实际上是基于什么?是否有任何研究支持这一说法?
在阅读有关深度学习的文章时,我经常遇到这样的规则:深度学习只有在您拥有大量数据可供使用时才有效。这些陈述通常伴随着这样的数字:
该示例(取自https://hackernoon.com/%EF%B8%8F-big-challenge-in-deep-learning-training-data-31a88b97b282)归因于“Andrew Ng 的著名幻灯片”。有谁知道这个数字实际上是基于什么?是否有任何研究支持这一说法?
您目前可以在https://cs230.stanford.edu/files/C1M1.pdf(第 13 页)找到有问题的原始幻灯片“规模驱动深度学习进展”。它可以粗略地解释为“低偏差学习者[在该图中,更大的神经网络]倾向于从更多的训练示例中受益”。
主要原因是在深度学习中,训练参数的数量非常多,而且每个参数至少需要到数据才能进行良好的预测。原因解释起来有点复杂,但如果你坚持要知道原因,我可以告诉你,在测试数据的误差项中,你有一个过拟合项,它会随着样本数量的增加而增长,如果你训练模型是一种随着数据数量的增加而增加的假设。在增长的假设中,不可能使泛化误差与训练误差相同,例如1NN相反,增长为pack learning仅限于多项式的过拟合可以通过增加训练数据的大小来减少。因此,如果您增加数据的大小,您可以获得更好的泛化错误。深度学习模型遵循二次增长方式。你拥有的数据越多,你拥有的泛化能力就越好。