我想知道是否有人可以提供一些见解,以了解为什么缺失数据的插补是否比简单地为缺失数据的案例构建不同的模型更好。特别是在[广义]线性模型的情况下(我可能会看到在非线性情况下情况有所不同)
假设我们有基本的线性模型:
但是我们的数据集包含一些记录失踪。在将使用模型的预测数据集中,也会有缺失的情况. 似乎有两种方法可以继续:
多种型号
我们可以将数据拆分为和非并为每个案例建立一个单独的模型。如果我们假设密切相关那么缺失的数据模型可能会超重以获得最佳的二元预测。此外,如果丢失数据的情况略有不同(由于丢失数据机制),那么它可以合并该差异。不利的一面是,这两个模型仅适用于每个数据的一部分,并没有相互“帮助”,因此在有限的数据集上的拟合可能很差。
插补
回归多重插补将首先填写通过建立一个基于和然后随机采样以保持估算数据中的噪声。既然这又是两个模型,这不就和上面的多模型方法一样了吗?如果它能够跑赢大盘——收益从何而来?是否只是适合是在整个集合上完成的吗?
编辑:
虽然到目前为止,Steffan 的回答解释说,在估算数据上拟合完整案例模型将优于对完整数据的拟合,而且显然相反是正确的,但对缺失数据的预测仍然存在一些误解。
如果我有上述模型,即使完美拟合,如果我在预测时只输入零,它通常会是一个糟糕的预测模型。例如,想象一下,然后完全没用() 什么时候存在,但在没有.
我不明白的关键问题是:构建两个模型是否更好,一个使用和一个使用,还是建立一个(完整的)模型并在预测数据集上使用插补更好 - 还是这些是同一回事?
引入 Steffan 的答案,似乎最好在估算的训练集上构建完整的案例模型,相反,最好在完整数据集上构建缺失数据模型丢弃。第二步与在预测数据中使用插补模型有什么不同吗?