为什么交叉验证分数之间存在很大差异?
数据挖掘
机器学习
回归
数据
交叉验证
分数
2022-02-17 06:19:30
1个回答
您的分数表明线性模型不能很好地描述您的数据。最重要的是,数据似乎存在很大的可变性。您可以尝试以下方法:
- 如果线性模型应该描述数据,请检查异常值。它们可能是造成 CV 折叠的巨大变化的原因。
- 如果有很多功能,请尝试减少功能的数量。该模型可能适合噪声。
- 引入正则化(套索或岭回归)可能会使模型更加健壮。这应该会降低 CV 误差的可变性,但成绩会越来越差。
