如果测试数据集的方差低于训练数据集的方差,是否值得拆分数据?既然我们知道我们的数据集总是有限的,那么在上述条件下选择模型是否公平?谢谢
训练和测试数据集应该有相似的方差吗?
机器算法验证
预测模型
模型选择
2022-03-31 11:46:40
2个回答
不必要。更重要的是条件分布在两个数据集中保持一致。换句话说,如果测试数据集的方差较大,可能是方差也更高,拟合系数将解释方差同样好。
在两个数据集上绘制 Y ~ X 并在每个图上拟合回归线。你看到了什么?
您必须首先弄清楚为什么要拆分数据。立即想到的唯一原因是拟合模型非常费力,以至于您只能进行一次。否则,重采样方法要好得多,从 Efron-Gong 乐观引导程序(参见例如 Rrms包)或重复 100 次的 10 倍交叉验证开始。