我真的被过度拟合困住了,我正在尽我所能减少它。
我不想编写一个指标来帮助在 cv 循环中对模型进行评分。我正在使用 10x5 倍,但样本准确度分数仍然超出了我的 CV 分数平均值的 +/- 5-8%。(即当我上传到 kaggle 时)
验证分数的标准偏差是否与过度拟合/错误相关,这可以用于我的评分吗?目前标准差约为 5%,这似乎很多。
我建议,如果我降低每个 k 倍的验证分数的标准偏差,那么这应该会减少样本外预测的方差吗?
有人对这个有经验么?
欢迎任何帮助。
我真的被过度拟合困住了,我正在尽我所能减少它。
我不想编写一个指标来帮助在 cv 循环中对模型进行评分。我正在使用 10x5 倍,但样本准确度分数仍然超出了我的 CV 分数平均值的 +/- 5-8%。(即当我上传到 kaggle 时)
验证分数的标准偏差是否与过度拟合/错误相关,这可以用于我的评分吗?目前标准差约为 5%,这似乎很多。
我建议,如果我降低每个 k 倍的验证分数的标准偏差,那么这应该会减少样本外预测的方差吗?
有人对这个有经验么?
欢迎任何帮助。
验证分数的标准差是否与过拟合/错误相关
肯定是的:高方差表明模型在不同的训练集中不稳定,这表明过度拟合的风险很高。
这可以用于我的评分吗?
直接在评分本身中使用标准开发,我不确定。我认为这更像是一种定性指示。但是,如果两个不同的模型具有相似的性能,但一个比另一个具有更高的方差,那么选择后者通常是一个好主意。
目前标准差约为 5%,这似乎很多。
它总是取决于数据的具体情况,但是我会说 5% 相当高。
我建议,如果我降低每个 k 倍的验证分数的标准偏差,那么这应该会减少样本外预测的方差吗?
我不明白你在这里的意思。
一般来说,减少过拟合的标准方法是增加实例数量与特征数量/复杂度之间的比率: