@Tim 给出了很好的回应。除此之外,关于处理缺失值 (MV) 的最佳思考始于 Donald Rubin 和 Roderick Little 在他们的《缺失数据的统计分析》一书中,现已出版第 9 版。他们将分类分为 MAR、MCAR 等。在他们的几本书中,我会添加 Paul Allison 的可读性很强的 Sage 书籍Missing Data,它仍然是文献中关于这个主题的最好、最容易理解的方法之一。
一些常用的,坏的多年来出现了用于处理缺失数据的启发式方法,其中许多方法在今天仍然可以使用,因为它们很容易实现“解决方案”。其中包括已经提到的那些,例如离散变量并创建一个标记为“缺失”或“NA”(不可用,未知)的垃圾类别,该变量的所有缺失值都被扔进其中,以及对于连续变量,插入带有常数的缺失值——例如算术平均值。其次,对于回归模型,一些人建议使用虚拟变量 (0,1) 来指示 MV 的存在(不存在)。假人旨在“捕捉” MV 对模型的整体影响,同时适当调整参数。这些都是坏主意,因为在第一种情况下,
所有插补选项中偏差最小的是回归模型。在美国统计学家的一篇论文中(我不再有参考文献,抱歉),已证明回归中 MV 的虚拟变量不仅不能捕捉缺失值的影响,而且还会产生有偏差的参数。AmStat论文的这些结论基于对各种 MV 选项的情景与完整信息数据的比较。作者的建议是,假设缺失信息的量级或数量不是太多或太多大,使用偏差最小的解决方案——基于删除包含 MV 的观察后可用数据的完整信息建模插补。当然,这种回应需要回答“什么是太多?” 在这里,没有坚定的基准,只有经验的、主观的启发式和经验法则,没有任何坚定的理论动机。这意味着由分析师决定。就这样,@Discipulus 的经验法则是使用包含 50% 或更少 MV 的变量,这当然是一种合理的启发式方法。在 OP 的情况下,这将排除包含超过 50% MV 的两个变量,这些变量被描述为对分析“重要”。也就是说,可以安全地假设 95% 的 MV 符合“太多”的条件。
如果认为没有太多的MV,那么使用多重插补的一些变体来填补它们。在这里,也有许多不好的方法可供选择,例如,“排序的热甲板”多重插补,其中观察结果在一串完全观察到的变量中进行排序,并且完全观察到的值最接近观察值,但该类中缺少信息字符串用作插头。一般来说,所有这些堵塞 MV 的“机械”解决方案都将被拒绝,以尊重基于模型的多重插补。
在 Rubin 教授的 ASA 研讨会上,讨论了几种“最佳”实践,用于处理数据集中包含 MV 的多个变量。首先,按变量的频率或缺失信息的百分比从高到低对变量进行排序,然后开始对包含最轻或最少 MV 的变量进行插补,一次一个变量。然后,在模型构建过程中为每个后续变量保留并使用这些新插入的变量。在构建插补模型时使用您可用的每个变量,包括目标或因变量,并排除具有 MV 的排名较低的变量。
构建和评估基于模型的插补的关键指标是将预插补均值和标准偏差(基于删除 MV 后的完整信息)与插补后或插入值均值和标准偏差进行比较。如果插补成功,那么在这些边际中应该观察到很少或没有(显着)差异。在这一点上需要注意一个重要的注意事项:这个度量和多重插补通常旨在评估整体的保存情况。或无条件的边际。这意味着,如果与完整但不可用的信息相比,使用和分配给每个 MV 字段的实际值对于该观察很可能是“错误的”。例如,在基于具有自我报告的调查信息(实际值)与地理人口信息领先供应商所做的估算(估算值)的样本的实际值与估算值的头对头比较中,户主年龄和收入等估算字段在个人观察水平上的错误率接近 80%。即使在根据中位数将这些字段划分为高组和低组之后,插补仍然有超过 50% 的时间是错误的。然而,边缘或多或少地被准确地恢复了。
最后一点,插补可能适用于特征、预测变量或自变量,但不建议用于目标或因变量。