我现在正在处理一个包含大约 30 个不同变量的大数据集。几乎我的所有行在至少其中一行中都有缺失值。我想对几个变量进行回归。根据我对 R(或任何其他统计程序)的理解,它将丢弃任何变量中至少有一个 NA 的观察结果。有没有办法阻止 R 这样做?我的意思是可以让 R 忽略缺失的值,但仍然对剩余的值进行回归吗?
我的一位教授曾经告诉我,可以使用“数据标志”来创建当值为 NA 时等于 1 否则为零的虚拟变量。我会为每个带有 NA 的变量创建这些标志。然后我将 NA 设置为零,之后我可以在回归中包含标志。如果我没记错的话,就是这么告诉我的。我现在想用谷歌搜索这个过程,但我找不到任何东西。我这是一种合法的方法吗?是否有任何风险或其他问题?
如果是这样,还有其他解决方案吗?我知道插补和插值,我可以将其用于我的一些变量,但不是全部。
为了清楚起见,我的因变量中没有任何 NA。