丢弃丢失的观察结果是否可以?

机器算法验证 缺失数据
2022-03-20 19:25:01

我有一个数据集,用于查看移民申请和签证接受(授予签证)。费率是根据签证申请的“接受”和“拒绝”计算的。

但是,数据集也包含已关闭案例的值。通常这是移民停止赴约、移居其他地方或死亡的时间。因为在计算费率时不使用这些数字,所以费率经常显示为缺失(因为案例既没有被接受也没有被拒绝)。

话虽如此,如果那一年的唯一案例“否则关闭”,是否可以放弃这些观察?我遇到的部分问题是数据集中的随机年份将被删除,因为那一年的唯一决定已关闭。

否则关闭的案例非常武断,正如我所提到的,很可能是移民迁移到其他地方的案例,并且可能只是将第一个国家用作临时过境地。数据并没有具体说明移民离开的原因,他们被关闭的原因等。我不太确定如何处理这些缺失值。由于费率计算,我不相信标准的插补方法在这里会起作用(但我可能是错的)。

2个回答

在您的情况下,重要的区别不是 MCAR、MAR 和 NMAR 之间的区别,而是实际缺失值和机械缺失值之间的区别。真正的缺失值是存在的值,但由于某种原因未记录。机械缺失值不存在,但数据集的矩形结构迫使我们给它一个值,例如,如果您的数据集还包括男性,则为怀孕状态。插补技术是为真实的缺失值而设计的。您的示例是机械缺失值的情况;尚未做出决定,因此其价值不存在。如果很大一部分移民继续前进,那么这就是移民过程的一个重要特征,而对这些价值观的估算隐藏了这一特征。

很明显,至少有 2 个不同的缺失过程混合在一起。

  1. 死于程序无关原因/放弃/等的人。由于程序的可能结果以外的原因。在这里,MAR 下的一些插补是有道理的(如果您能清楚地识别这些案例)。
  2. 由于不遵守某些规则和/或认为他们不太可能成功或太麻烦而放弃/退出/退出的人。在这里,这取决于您是否可以从您拥有的数据中评估他们继续下去的机会。如果可以,MAR 假设很好,否则您将遇到困难的 MNAR 情况。

如何处理 MNAR 很困难。假设这样的案例没有成功可能有点极端(或者非常合适,毕竟他们没有成功)。或者在 MAR 下进行估算,并着眼于使这些案例不太成功,直到您达到 0% 并考虑该值范围。