我有 60,000 个数据,其中大约 45% 丢失了,并且丢失的值是随机的。我可以简单地使用列表或成对删除还是必须使用插补?如果建议进行插补,哪种插补是最好的?
我应该使用插补或列表或成对删除方法使用缺失值吗?
机器算法验证
缺失数据
数据插补
2022-04-01 17:46:32
2个回答
这取决于
- 缺失数据量(缺失数据的百分比)
- 缺失数据的类型(MAR、MCAR、NMAR)
根据这篇不错的文章(Tsikriktsis: A review of techniques for treatment missing data in OM survey research, 2005),如果超过 10% 的数据丢失,最好的解决方案是
- 如果数据是 NMAR(随机非缺失),则进行最大似然插补
- 如果数据为 MAR(随机缺失),则为最大似然和 hot-deck
- 如果数据是 MCAR(完全随机缺失),则成对删除、hot-deck 或回归
简而言之:如果您的数据完全随机缺失(MCAR),即缺失值的真实值与观察到的变量具有相同的分布,并且无法从任何其他变量中预测缺失,那么您的结果将是无偏的,但使用效率低下逐个或成对删除。
链式方程的多重插补被许多研究者认为是最好的插补方法。
其它你可能感兴趣的问题