为什么交叉验证分数之间存在很大差异?

数据挖掘 机器学习 回归 数据 交叉验证 分数
2022-02-17 06:19:30

我有一个非常简单的回归模型,我正在做交叉验证。当 cv=10 时,我得到的最高分数是 60.3,最低分数是 -9.7,这是没用的。平均为 30。

行数据集数= 658

在此处输入图像描述

1个回答

您的R2分数表明线性模型不能很好地描述您的数据。最重要的是,数据似乎存在很大的可变性。您可以尝试以下方法:

  • 如果线性模型应该描述数据,请检查异常值。它们可能是造成 CV 折叠的巨大变化的原因。
  • 如果有很多功能,请尝试减少功能的数量。该模型可能适合噪声。
  • 引入正则化(套索或岭回归)可能会使模型更加健壮。这应该会降低 CV 误差的可变性,但R2成绩会越来越差。