这两个我已经解释过很多次了。他们继续煮我的大脑。Missing Not at Random 是有道理的,而 Missing Complete at Random 是有道理的……它是 Missing at Random 没有那么多。
是什么产生了 MAR 而不是 MCAR 的数据?
这两个我已经解释过很多次了。他们继续煮我的大脑。Missing Not at Random 是有道理的,而 Missing Complete at Random 是有道理的……它是 Missing at Random 没有那么多。
是什么产生了 MAR 而不是 MCAR 的数据?
随机缺失 (MAR) 意味着缺失可以通过您拥有完整信息的变量来解释。这不是一个可检验的假设,但在某些情况下它是合理的还是不合理的。
例如,进行政治民意调查。许多人拒绝回答。如果您假设人们拒绝回答的原因完全基于人口统计数据,并且如果您对每个人都有这些人口统计数据,那么数据就是 MAR。众所周知,人们拒绝回答的一些原因可能是基于人口统计数据(例如,低收入和高收入的人回答的可能性低于中等收入的人),但真的没有办法知道这是否是完整的解释。
所以,问题变成了“它够满吗?”。通常,只要数据不是随机丢失,多重插补等方法比其他方法效果更好。
我不确定这是否正确,但我试图理解它的方式好像有一个 2x2 的可能性矩阵,它不是很对称。就像是:
Pattern / Data Explains Pattern
Yes No
Yes MAR MNAR
No -- MCAR
也就是说,如果一个变量的缺失存在某种模式并且我们拥有的数据无法解释它,我们就有了 MNAR,但是如果我们拥有的数据(即我们数据集中的其他变量)可以解释它,我们就有了 MAR。如果缺失没有模式,那就是 MCAR。
我可能离这里很远。此外,这使“模式”和“数据解释”的定义保持开放。我认为“数据解释”是指数据集中的其他变量解释它,但我相信你的程序也可以解释它(例如,另一个线程中的一个很好的例子是,如果你有三个测量变量来测量相同的东西,而你的程序是,如果前两次测量结果不一致,则进行第三次测量)。
这对直觉来说足够准确吗,CV?
我也在努力掌握其中的区别,所以也许一些例子会有所帮助。
MCAR:完全随机丢失,这很棒。这意味着不响应是完全随机的。所以你的调查没有偏见。
MAR:随机失踪,情况更糟。想象一下,你要求智商,而女性参与者比男性多得多。幸运的是,智商与性别无关,因此您可以控制性别(应用权重)以减少偏见。
MNAR:不是随机丢失,不好。考虑对收入水平进行调查。再说一次,女性参与者多于男性参与者。在这种情况下,这是一个问题,因为收入水平与性别有关。因此,您的结果将有偏差。不容易摆脱。
你看,目标变量(Y,比如收入)、辅助变量(X,比如年龄)和反应行为(R,反应群体)之间是一个“三角”关系。如果 X 仅与 R 相关,则良好 (MAR)。如果 X 和 R 以及 X 和 Y 之间存在关系,则它是坏的(MNAR)。