因此,我很快了解到,处理您的某些观察中的特征缺失值是数据日常生活的一部分。我了解了估算的要点,何时/如何合适,何时不合适,我将在不久的将来阅读它。但是,这个呢:
假设你有预测器,并且您想对二进制响应进行建模例如,通过逻辑回归。您不能为每个可能的预测变量子集建立一个单独的模型,并在这些预测变量碰巧存在时应用该模型进行预测,而不是仅仅将值归因于缺失的预测变量值吗?这些模型中的每一个都会自然地仅在这些预测变量(以及其他变量)存在的数据上进行训练。在我看来,这似乎是一种比仅仅弥补价值更合理的方法,但我对此没有理论依据。
我确实意识到这涉及构建不同的型号,有不同的模型矩阵等,但对于中等和这可能是可行的,特别是如果您的一些功能往往比其他功能更容易丢失。
这是曾经做过吗?如果是这样,是否有在 R 中实现此功能的标准方法?在逻辑回归的情况下,您可以向 R 的 glm 函数指定您希望它如何处理 NA 值,但您唯一的选择似乎是完全抛弃观察结果,或者某种插补方案。
想法?