具有足够好的测试精度的过拟合

数据挖掘 过拟合
2021-09-25 11:37:43

让我们把事情简单化。想象一个欠定线性系统ñ 样品和 p 特征 (ñ<p). 假设我找到了此类系统的可能(在许多)解决方案之一并计算了测试准确性。在此设置中,我的火车的误差为零,但不是测试的准确性。因此,过拟合。尽管如此,假设从现场专家的角度来看,测试错误率被认为是好的。我们还假设一些检查保证了这种相当好的错误率也不是由于测试/训练分离造成的。

  1. 说这里没有进行有效的学习是真的吗?
  2. 如果是这样,是否可以由此得出结论,存在一种不会过度拟合且测试精度更高的更好模型?
2个回答

这个问题可能涉及一些解释,这是我的看法。

为了清楚起见,让我从我对这个概念的定义开始:过度拟合是指模型考虑到训练数据中偶然出现的模式,即模型假设这些模式是分布的特征,即使它们不是。

说这里没有进行有效的学习是真的吗?

不,这样说是错误的:模型过度拟合的事实并不意味着根本没有发生有效的学习。事实上,通常情况下,模型成功地获取了它应该捕获的模式(我们称之为有效学习),但也获取了它不应该捕获的模式(过度拟合)。对于任何复杂的数据,根本不会发生过度拟合的情况甚至是非常罕见的,事实上,通常很难准确地说出有效学习和过度拟合之间的界限在哪里。

然而,人们通常会在实际上过度拟合时谈论过度拟合,即模型对“机会模式”的概括过多,而对实际表征分布的模式却不够概括。测试集上的表现明显低于训练集是这种“过度过拟合”的典型标志。因此,从这个意义上说(过度)过度拟合是“机会模式”导致模型次优的时候。但即使是次优模型也可能已经学习了一些相关模式。

如果是这样,是否可以由此得出结论,存在一种不会过度拟合且测试精度更高的更好模型?

并非如此:如上所述,过拟合会使模型表现不佳,因此自然情况下,非过拟合模型的性能通常优于过拟合模型。然而,并不能保证仅仅通过消除过拟合就能达到更好的性能:举个极端的例子,如果特征大多是随机的和/或与响应变量不相关,那么模型很可能会过拟合,但是无论如何,如果没有过度拟合,性能会很糟糕。

在 OP 描述的情况下,我想说避免(过度)过度拟合总是值得的:首先当然是因为它只能提高性能,但也因为在更一般的层面上这意味着模型不是很可靠。如果稍后将该模型“在生产中”应用于大量实例,而这些实例恰好没有训练数据中的这种特定“机会模式”,那么模型将会出错,并且检测到为时已晚它。

说这里没有进行有效的学习是真的吗?

相反,如果测试和训练错误对于现场专家来说足够低,则可以肯定地说该模型能够在一定程度上从数据中学习。

如果是这样,是否可以由此得出结论,存在一种不会过度拟合且测试精度更高的更好模型?

鉴于您对问题的陈述,我认为没有足够的信息可以就此得出结论。

如果您考虑使用验证集或更好的交叉验证,您的观点可能会更好地理解。

您的验证错误将使您了解发生了多少过度拟合,以及模型是否有效地从训练集和测试集之间不同分布的数据中学习。