数据挖掘 - 使用标准差作为模型选择的指标 - 吾爱随笔录

数据挖掘交叉验证准确性过拟合

2022-02-13 19:40:02

我真的被过度拟合困住了，我正在尽我所能减少它。

我不想编写一个指标来帮助在 cv 循环中对模型进行评分。我正在使用 10x5 倍，但样本准确度分数仍然超出了我的 CV 分数平均值的 +/- 5-8%。（即当我上传到 kaggle 时）

验证分数的标准偏差是否与过度拟合/错误相关，这可以用于我的评分吗？目前标准差约为 5%，这似乎很多。

我建议，如果我降低每个 k 倍的验证分数的标准偏差，那么这应该会减少样本外预测的方差吗？

有人对这个有经验么？

欢迎任何帮助。

1个回答

验证分数的标准差是否与过拟合/错误相关

肯定是的：高方差表明模型在不同的训练集中不稳定，这表明过度拟合的风险很高。

这可以用于我的评分吗？

直接在评分本身中使用标准开发，我不确定。我认为这更像是一种定性指示。但是，如果两个不同的模型具有相似的性能，但一个比另一个具有更高的方差，那么选择后者通常是一个好主意。

目前标准差约为 5%，这似乎很多。

它总是取决于数据的具体情况，但是我会说 5% 相当高。

我建议，如果我降低每个 k 倍的验证分数的标准偏差，那么这应该会减少样本外预测的方差吗？

我不明白你在这里的意思。

一般来说，减少过拟合的标准方法是增加实例数量与特征数量/复杂度之间的比率：

其它你可能感兴趣的问题