随机丢失数据

机器算法验证 缺失数据 数据插补
2022-03-19 05:06:06

如何判断数据集是否随机丢失数据?我一直在阅读有关如何估算缺失值的信息,并且想知道可以使用哪些技术来判断数据是否真的随机或系统地缺失。

1个回答

你不能说,绝对,至少,不是从统计数据。

您可以将缺失的案例与两者中都存在的任何变量上没有缺失的案例进行比较,但仍然可能存在数据集中不存在的其他事物。举个简单的例子,假设您的数据集仅包含两个变量“种族/民族”和“收入”。您可以看到失踪的不同种族的比例是否都相似,但人们可能(而且很可能)因为其他原因而跳过收入问题。

确定数据完全随机丢失或随机丢失的唯一方法是您是否知道它们丢失的原因。根据我的经验,这有时会让你断定它们是 MCAR - 例如,当它是一些记录在案的计算机故障时,有时会让你知道它们不是随机丢失的,但不会让你断定它们是 MAR。