数据挖掘 - 训练损失和验证损失之间有很大的差距是不是很糟糕？ - 吾爱随笔录

数据挖掘过拟合

2022-02-21 11:54:55

假设我的训练损失为 0.5，验证损失为 2.5（两者都停止下降，验证损失从未增加）。我显然过度拟合。如果我添加正则化，我的训练损失变为 1，验证损失为 3.5。

第一个模型显然具有更好的验证损失，而第二个模型过拟合更少。

应该选择哪种型号？是否有可能过度拟合的模型在看不见的数据上表现更好，或者这是否意味着存在某种数据泄漏？

这里的问题是我没有做像图像分类这样简单的事情，而是尝试更复杂的事情，而且我没有找到很多关于过度拟合尚未解决的问题的资源。主要是对二值图像分类的讨论，在其中可以找到获得非常好的验证错误的模型，因此这些解释不适用于我的问题。

2个回答

如果存在另一个模型或假设在训练集上具有更高的误差但总体上的误差较小，则该模型被称为过度拟合。过度拟合的模型无法对样本外的示例进行泛化。

在您的情况下，测试集上的错误损失要高得多，这不是一个好兆头。如果您要在两种模型之间进行选择，我认为您应该选择第二种，因为第一种可能无法概括。

确保您的训练和测试数据是随机挑选的，并尽可能准确地表示相同的分布和真实分布。

如果想减少过度拟合，除了正则化之外，您可以做更多的事情，您可以尝试交叉验证，或者如果可能的话，可能会降低模型的复杂性（这取决于您训练的模型和您拥有的数据）

我不确定关于选择第二个模型的建议是否正确。第二个模型比第一个模型具有更差的训练和验证损失，因此，我认为第二个模型不会比第一个模型更好地泛化，恰恰相反。

两个模型都从同一个训练集学习，当暴露于新数据（验证集）时，第二个模型的表现比第一个模型差，所以我认为你可能会遇到拟合不足的问题。

你应用什么样的正则化？如果您正在应用 Lasso (L1)，则可能会丢失功能，因此您可以尝试使用 Ridge (L2) 并查看是否有更好的结果。

其它你可能感兴趣的问题