有人可以用可能的例子为我总结一下,在什么情况下增加训练数据可以改善整个系统?我们什么时候发现添加更多的训练数据可能会过度拟合数据并且不能在测试数据上提供良好的准确性?
这是一个非常不具体的问题,但是如果您想针对特定情况回答它,请这样做。
有人可以用可能的例子为我总结一下,在什么情况下增加训练数据可以改善整个系统?我们什么时候发现添加更多的训练数据可能会过度拟合数据并且不能在测试数据上提供良好的准确性?
这是一个非常不具体的问题,但是如果您想针对特定情况回答它,请这样做。
在大多数情况下,数据越多越好。过度拟合本质上是学习训练数据中出现的虚假相关性,而不是现实世界中的相关性。例如,如果您只考虑我的同事,您可能会学会将“名叫马特”与“有胡子”联系起来。当只考虑在地板上工作的一小群人时,它是 100% 有效的(!),但总的来说这显然不是真的。增加数据集的大小(例如,到整个建筑物或城市)应该会减少这些虚假的相关性并提高学习者的表现。
也就是说,更多数据无济于事(甚至可能会造成伤害)的一种情况是,如果您的额外训练数据嘈杂或与您尝试预测的任何内容不匹配。我曾经做过一个实验,我将不同的语言模型 [*] 插入到声控餐厅预订系统中。我改变了训练数据的数量及其相关性:在一个极端情况下,我有一个经过精心策划的小型预订表集合,与我的应用程序完美匹配。另一方面,我有一个从大量经典文献中估计出来的模型,一个更准确的语言模型,但与应用程序的匹配度要差得多。令我惊讶的是,小但相关的模型大大优于大但不相关的模型。
增加训练数据总是会增加信息,应该会提高拟合度。如果您随后仅在用于拟合的训练数据上评估分类器的性能,就会出现困难。这会产生乐观偏见的评估,这也是使用留一法交叉验证或引导程序的原因。
理想情况下,一旦你有更多的训练样本,你就会有更低的测试错误(模型的方差减少,这意味着我们更少过度拟合),但理论上,更多的数据并不总是意味着你会有更准确的模型,因为高偏差模型不会从更多的训练示例中受益。
请参阅此处:在机器学习中,更好的是:更多数据或更好的算法
高方差——一个模型可以很好地表示训练集,但有过度拟合嘈杂或不具代表性的训练数据的风险。
高偏差- 一个更简单的模型,不会过度拟合,但可能会欠拟合训练数据,无法捕捉重要的规律。