数据挖掘 - 为什么交叉验证分数之间存在很大差异？ - 吾爱随笔录 - 问答

为什么交叉验证分数之间存在很大差异？

数据挖掘机器学习回归数据交叉验证分数

2022-02-17 06:19:30

我有一个非常简单的回归模型，我正在做交叉验证。当 cv=10 时，我得到的最高分数是 60.3，最低分数是 -9.7，这是没用的。平均为 30。

行数据集数= 658

1个回答

您的 $R^2$ 分数表明线性模型不能很好地描述您的数据。最重要的是，数据似乎存在很大的可变性。您可以尝试以下方法：

如果线性模型应该描述数据，请检查异常值。它们可能是造成 CV 折叠的巨大变化的原因。
如果有很多功能，请尝试减少功能的数量。该模型可能适合噪声。
引入正则化（套索或岭回归）可能会使模型更加健壮。这应该会降低 CV 误差的可变性，但 $R^2$ 成绩会越来越差。

其它你可能感兴趣的问题

上一篇为什么两个模型的 ROC 值曲线下面积不同而准确率、精度、召回率、f1-score 和混淆矩阵相同下一篇张量流中的神经结构学习是什么？