在对我的问题的答案的评论中,我说“许多行只有 1 个缺失变量,因此排除该行认为会导致偏见(它们不是 MCAR)”,在回复中我被告知“你错了,请参阅 Rubin 的缺少数据的统计分析第 2 版。CC 对 MAR 数据没有偏见,”
我没有 Rubin 和 Little 的书,但几个月前我可以借到它,我确信我知道完整的案例分析是有偏差的,除非数据完全随机丢失。
现在我非常困惑。
谁能解释/澄清我的误解?
在对我的问题的答案的评论中,我说“许多行只有 1 个缺失变量,因此排除该行认为会导致偏见(它们不是 MCAR)”,在回复中我被告知“你错了,请参阅 Rubin 的缺少数据的统计分析第 2 版。CC 对 MAR 数据没有偏见,”
我没有 Rubin 和 Little 的书,但几个月前我可以借到它,我确信我知道完整的案例分析是有偏差的,除非数据完全随机丢失。
现在我非常困惑。
谁能解释/澄清我的误解?
你没有错。
来自:缺失数据的统计分析,第二版,Roderick JA Little 和 Donald B Rubin,John Wiley and Sons,2002 年。第 41 页:
完整案例分析将注意力集中在所有变量都存在的案例上。这种方法的优点是...... 缺点源于丢弃不完整案例时可能丢失信息。这种信息丢失有两个方面:精度损失,以及缺失数据机制不是 MCAR 时的偏差,并且完整案例不是所有案例的随机样本”。
来自:多重插补的偏差和效率与缺失协变量值的完整案例分析相比。伊恩 R.怀特和约翰 B. 卡林。医学统计学,第 29 卷,第 28 期,2010
特别是,虽然 MI 的偏差可以忽略不计,CC 在 MAR 机制下有偏差,但在其他机制下,CC 的偏差可以忽略不计,而 MI 有偏差。这一点被广泛误解,但它具有重要意义。 http://onlinelibrary.wiley.com/doi/10.1002/sim.3944/pdf
一般来说,当数据不是 MCAR 时,完整的案例分析是有偏差的。然而,当分析包括拟合回归模型时,完整案例分析在较弱的条件下是无偏的,即缺失独立于结果变量,以协变量为条件。根据哪些变量包含缺失值,这种情况有时对应于 MAR 机制,有时对应于 MNAR 机制。
例如,假设结果 Y 是具有缺失值的变量。然后,缺失独立于以协变量为条件的结果对应于 MAR 假设,即缺失概率独立于以完全观察变量为条件的部分观察变量。或者,假设协变量 X 中的缺失取决于该协变量的值,因此数据是 MNAR。如果 X 中的缺失与 Y 无关,以 X 和分析模型中的其他协变量为条件,则完整的案例分析是无偏的。
有关这方面的更多信息,请参阅:
1) White 和 Carlin 在之前的回答中引用的论文:与缺失协变量值的完整案例分析相比,多重插补的偏差和效率。伊恩 R.怀特和约翰 B. 卡林。医学统计学,第 29 卷,第 28 期,2010
2)我和同事在Biostatistics发表的一篇论文:http: //doi.org/10.1093/biostatistics/kxu023
3)我之前在这里写过的一篇博文:http: //thestatsgeek.com/2013/07/06/when-is-complete-case-analysis-unbiased/