机器算法验证 - 与在回归中建立多个模型相比，插补有什么优势？ - 吾爱随笔录

与在回归中建立多个模型相比，插补有什么优势？

机器算法验证回归缺失数据数据插补

2022-03-28 20:12:51

我想知道是否有人可以提供一些见解，以了解为什么缺失数据的插补是否比简单地为缺失数据的案例构建不同的模型更好。特别是在[广义]线性模型的情况下（我可能会看到在非线性情况下情况有所不同）

假设我们有基本的线性模型：

$Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon$

但是我们的数据集包含一些记录 $X_3$ 失踪。在将使用模型的预测数据集中，也会有缺失的情况 $X_3$ . 似乎有两种方法可以继续：

多种型号

我们可以将数据拆分为 $X_3$ 和非 $X_3$ 并为每个案例建立一个单独的模型。如果我们假设 $X_3$ 密切相关 $X_2$ 那么缺失的数据模型可能会超重 $X_2$ 以获得最佳的二元预测。此外，如果丢失数据的情况略有不同（由于丢失数据机制），那么它可以合并该差异。不利的一面是，这两个模型仅适用于每个数据的一部分，并没有相互“帮助”，因此在有限的数据集上的拟合可能很差。

插补

回归多重插补将首先填写 $X_3$ 通过建立一个基于 $X_1$ 和 $X_2$ 然后随机采样以保持估算数据中的噪声。既然这又是两个模型，这不就和上面的多模型方法一样了吗？如果它能够跑赢大盘——收益从何而来？是否只是适合 $X_1$ 是在整个集合上完成的吗？

编辑：

虽然到目前为止，Steffan 的回答解释说，在估算数据上拟合完整案例模型将优于对完整数据的拟合，而且显然相反是正确的，但对缺失数据的预测仍然存在一些误解。

如果我有上述模型，即使完美拟合，如果我在预测时只输入零，它通常会是一个糟糕的预测模型。例如，想象一下， $X_2 = X_3+\eta$ 然后 $X_2$ 完全没用（ $\beta_2 = 0$ ）什么时候 $X_3$ 存在，但在没有 $X_3$ .

我不明白的关键问题是：构建两个模型是否更好，一个使用 $(X_1, X_2)$ 和一个使用 $(X_1, X_2, X_3)$ ，还是建立一个（完整的）模型并在预测数据集上使用插补更好 - 还是这些是同一回事？

引入 Steffan 的答案，似乎最好在估算的训练集上构建完整的案例模型，相反，最好在完整数据集上构建缺失数据模型 $X_3$ 丢弃。第二步与在预测数据中使用插补模型有什么不同吗？

3个回答

我认为这里的关键是理解缺失数据的机制；或者至少排除一些。构建单独的模型类似于将缺失组和非缺失组视为随机样本。如果 X3 上的缺失与 X1 或 X2 或其他一些未观察到的变量有关，那么您的估计可能在每个模型中都有偏差。为什么不在开发数据集上使用多重插补，而在多重插补预测集上使用组合系数？预测的平均值，你应该很好。

我假设您有兴趣获得回归系数的无偏估计。如果 X3 缺失的概率不取决于 Y，则对完整案例的分析会产生回归系数的无偏估计。即使缺失概率取决于 X1 或 X2，并且对于任何类型的回归分析，这仍然成立。

当然，如果完整案例的比例很小，估计可能效率低下。在这种情况下，您可以在给定 X2、X1和Y 的情况下使用 X3 的多重插补来提高精度。有关详细信息，请参见White 和 Carlin (2010) Stat Med。

哈佛大学的一项研究建议对缺失数据的五项预测进行多重插补（这里是参考，http://m.circoutcomes.ahajournals.org/content/3/1/98.full ）。即便如此，我确实记得有评论说，插补模型可能仍然不会为不包括真实基础值的模型参数生成覆盖区间！

考虑到这一点，似乎最好对缺失值使用五个简单的朴素模型（假设在当前讨论中没有随机缺失），这会产生良好的值分布，以便覆盖区间至少可以包含真实参数.

我在抽样理论方面的经验是，经常花费大量资源对未答复人口进行二次抽样，而这些人口有时似乎与答复人口大不相同。因此，我建议在特定应用领域至少进行一次类似的缺失值回归练习。在对缺失数据的这种探索中未恢复的关系对于为未来构建更好的缺失数据预测模型具有历史价值。

其它你可能感兴趣的问题

上一篇具有均匀与非均匀 Bins 的直方图下一篇如何计算随机森林预测的预测区间？