我应该使用插补或列表或成对删除方法使用缺失值吗?

机器算法验证 缺失数据 数据插补
2022-04-01 17:46:32

我有 60,000 个数据,其中大约 45% 丢失了,并且丢失的值是随机的。我可以简单地使用列表或成对删除还是必须使用插补?如果建议进行插补,哪种插补是最好的?

2个回答

这取决于

  1. 缺失数据量(缺失数据的百分比)
  2. 缺失数据的类型(MAR、MCAR、NMAR)

根据这篇不错的文章(Tsikriktsis: A review of techniques for treatment missing data in OM survey research, 2005),如果超过 10% 的数据丢失,最好的解决方案是

  1. 如果数据是 NMAR(随机非缺失),则进行最大似然插补
  2. 如果数据为 MAR(随机缺失),则为最大似然和 hot-deck
  3. 如果数据是 MCAR(完全随机缺失),则成对删除、hot-deck 或回归

简而言之:如果您的数据完全随机缺失(MCAR),即缺失值的真实值与观察到的变量具有相同的分布,并且无法从任何其他变量中预测缺失,那么您的结果将是无偏的,但使用效率低下逐个或成对删除。

链式方程的多重插补被许多研究者认为是最好的插补方法。