我有一个数据集,我想对其执行多元线性回归。数据集的维度为 832085 行和 11 列。数据非常混乱,考虑到规模和我缺乏经验,我对如何清理它们感到困惑。
首先,11 列中有 6 列的 NA 值超过 277000。在那种情况下,我知道我不能删除它们,因为它们是数据集的很大一部分,所以我必须对它们进行估算。通常我的意思是替换,但我读过这种方法可能会在数据中产生偏差,我不希望这样。我在 R 中尝试了 Amelia 和 mouse 包,鼠标无法正常运行,过了一段时间它给了我一个错误,Amelia 非常快并完成了 5 次插补,但它在数据集中引入了许多负值。
有这方面类似经验的人吗?