我在做 GLM 时遇到了丢失数据的问题。我正在使用 GLM 在 R 中进行预测。我的因变量是连续的,我的自变量是因素。问题出现了,如何处理因子变量中的 NA 值。
我过去一直在做的是为 NA 制作一个单独的因子水平,然后将它与另一个具有相似 GLM 系数的因子相结合。但正如我所读到的,这可能会导致有偏见的结果。另外让我担心的是,如果某个变量中具有 NA 值的数据实际上应该都处于最低或最高级别怎么办?然后我丢弃额外的信息,做出过高或过低的预测,对吗?
一位同事建议的一种可能性是丢弃所有具有 NA 值的数据。但那样我可能会丢失太多数据。
在这种情况下处理丢失数据的推荐方法是什么?我读过有关插补的文章,但在我看来,这似乎会导致我在某些变量不重要时使它们变得重要(我已经手动将相似的变量组合在一起)。