区分随机缺失 (MAR) 和完全随机缺失 (MCAR)

机器算法验证 缺失数据
2022-02-07 16:45:52

这两个我已经解释过很多次了。他们继续煮我的大脑。Missing Not at Random 是有道理的,而 Missing Complete at Random 是有道理的……它是 Missing at Random 没有那么多。

是什么产生了 MAR 而不是 MCAR 的数据?

3个回答

随机缺失 (MAR) 意味着缺失可以通过您拥有完整信息的变量来解释。这不是一个可检验的假设,但在某些情况下它是合理的还是不合理的。

例如,进行政治民意调查。许多人拒绝回答。如果您假设人们拒绝回答的原因完全基于人口统计数据,并且如果您对每个人都有这些人口统计数据,那么数据就是 MAR。众所周知,人们拒绝回答的一些原因可能是基于人口统计数据(例如,低收入和高收入的人回答的可能性低于中等收入的人),但真的没有办法知道这是否是完整的解释。

所以,问题变成了“它够满吗?”。通常,只要数据不是随机丢失,多重插补等方法比其他方法效果更好

我不确定这是否正确,但我试图理解它的方式好像有一个 2x2 的可能性矩阵,它不是很对称。就像是:

Pattern  /   Data Explains Pattern

            Yes         No

Yes         MAR        MNAR

No          --         MCAR

也就是说,如果一个变量的缺失存在某种模式并且我们拥有的数据无法解释它,我们就有了 MNAR,但是如果我们拥有的数据(即我们数据集中的其他变量)可以解释它,我们就有了 MAR。如果缺失没有模式,那就是 MCAR。

我可能离这里很远。此外,这使“模式”和“数据解释”的定义保持开放。我认为“数据解释”是指数据集中的其他变量解释它,但我相信你的程序也可以解释它(例如,另一个线程中的一个很好的例子是,如果你有三个测量变量来测量相同的东西,而你的程序是,如果前两次测量结果不一致,则进行第三次测量)。

这对直觉来说足够准确吗,CV?

我也在努力掌握其中的区别,所以也许一些例子会有所帮助。

MCAR完全随机丢失,这很棒。这意味着不响应是完全随机的。所以你的调查没有偏见。

MAR随机失踪,情况更糟。想象一下,你要求智商,而女性参与者比男性多得多。幸运的是,智商与性别无关,因此您可以控制性别(应用权重)以减少偏见。

MNAR不是随机丢失,不好。考虑对收入水平进行调查。再说一次,女性参与者多于男性参与者。在这种情况下,这是一个问题,因为收入水平与性别有关。因此,您的结果将有偏差。不容易摆脱。

你看,目标变量(Y,比如收入)、辅助变量(X,比如年龄)和反应行为(R,反应群体)之间是一个“三角”关系。如果 X 仅与 R 相关,则良好 (MAR)。如果 X 和 R 以及 X 和 Y 之间存在关系,则它是坏的(MNAR)。