机器算法验证 - 缺失数据的交叉验证和多重插补 - 吾爱随笔录

使用 10 倍 CV 对逻辑回归模型进行性能估计，在假设机制随机缺失的情况下，将多重插补纳入预测变量和结果的缺失的适当方法是什么？此外，我们是否将结果包括在插补模型中，以便预测变量可用于插补结果，反之亦然，还是我们不应该在插补模型中考虑结果？

这就是我的想法：仅使用训练数据（90%），执行 10 次多重插补，然后将逻辑回归模型拟合到每个插补数据集，然后平均 10 个插补数据集的模型系数以获得单个逻辑回归模型具有平均系数。仅使用测试数据 (10%)，执行 10 次多重插补，然后将从多重插补训练数据获得的“平均”逻辑回归模型拟合到 10 个插补测试数据集中的每一个，然后在 10 个插补测试中平均误差数据集以获得对应于平均模型的平均误差。重复此过程 10 次（即 10 倍 CV），因此在每一倍中，有一个从多重插补训练数据派生的平均模型，以及从将该模型应用于多重插补测试数据而得出的该模型的单个平均误差。然后平均 10 个平均错误（每个折叠 1 个）以获得最终的性能估计。