缺失数据的交叉验证和多重插补

机器算法验证 交叉验证 预测模型 缺失数据 模型评估 多重插补
2022-03-22 10:05:57

使用 10 倍 CV 对逻辑回归模型进行性能估计,在假设机制随机缺失的情况下,将多重插补纳入预测变量和结果的缺失的适当方法是什么?此外,我们是否将结果包括在插补模型中,以便预测变量可用于插补结果,反之亦然,还是我们不应该在插补模型中考虑结果?

这就是我的想法:仅使用训练数据(90%),执行 10 次多重插补,然后将逻辑回归模型拟合到每个插补数据集,然后平均 10 个插补数据集的模型系数以获得单个逻辑回归模型具有平均系数。仅使用测试数据 (10%),执行 10 次多重插补,然后将从多重插补训练数据获得的“平均”逻辑回归模型拟合到 10 个插补测试数据集中的每一个,然后在 10 个插补测试中平均误差数据集以获得对应于平均模型的平均误差。重复此过程 10 次(即 10 倍 CV),因此在每一倍中,有一个从多重插补训练数据派生的平均模型,以及从将该模型应用于多重插补测试数据而得出的该模型的单个平均误差。然后平均 10 个平均错误(每个折叠 1 个)以获得最终的性能估计。

1个回答

我相信你的想法是对的。

另一种方法是在拆分为训练/测试分区之前对整个数据集执行多重插补。这样做意味着来自训练集中的一些信息用于在测试集中创建/估算值。换句话说,训练集会泄漏到测试集中,从而使交叉验证的结果产生偏差。