您应该如何处理列联表中的单元格值在统计计算中等于零?(请注意,这样的值可以是结构性的,即根据定义它必须为零,也可以是随机的,即它可能是其他值,但观察到零。)
您应该如何处理列联表中等于零的单元格值?
表中的零有时被归类为结构性的,即设计或定义的零,或随机的,即观察到的可能值。在一项尽管可能但没有观察到实例的研究中,经常会出现一个问题:高于零的单边 95% 置信区间是多少?这可以明智地回答。例如,它在 “如果没有任何问题,一切都好吗?解释零分子”Hanley 和 Lippman-Hand 中得到解决。贾马。1983;249(13):1743-45。他们的底线是观察值为零的置信区间的上限是 3/n,其中 n 是观察次数。这个“3 规则”在后来的分析中得到了进一步的解决,令我惊讶的是,我发现它甚至有一个维基百科页面. 我发现的最好的讨论是Jovanovic 和 Levy 在 American Statistician 中的。这似乎在搜索中没有全文可用,但可以在第二次查看后报告他们在合理的贝叶斯考虑后将公式修改为 3/(n+1),这收紧了 CI a少量。在International Statistical Review (2009), 77, 2, 266–275中有更新的评论。
附录:在仔细查看最后一个引文之后,我还记得在 Agresti & Coull “美国统计学家”,卷。52,第 2 期(1998 年 5 月),第 119-126 页信息。“Agresti-Coull”区间被合并到各种 SAS 和 R 函数中。Sundar Dorai-Raj 的一个 R 函数是 binom.confint {package:binom}。
有几种方法可以处理“零”观察的累积扭曲了成本或医疗保健使用模式的其他良好、易处理的分布的情况。其中包括 Zeileis 在“R 中计数数据的回归模型”中描述的零膨胀模型和障碍模型。搜索 Google 还表明 Stata 和 SAS 具有处理此类模型的设施。
在看到对 Browne 的引用(并更正了 Jovanovic 和 Levy 的修改)之后,我将这个片段从更有趣的对 Browne 的反驳中添加:
“但随着样本量变小,先验信息变得更加重要,因为可以“为自己说话”的数据点太少了。事实上,小样本量不仅提供了最令人信服的机会来认真思考先验,而且有义务这样做。“更一般地说,我们想借此机会公开反对盲目地、不加批判地使用简单的公式或规则。”
West, L. 和 Hankin, R. (2008), “Exact Tests for Two-Way Contingency Tables with Structural Zeros,”Journal of Statistical Software, 28(11) 对列联表中的结构零点进行了很好的讨论。 1-19。网址http://www.jstatsoft.org/v28/i11
正如标题所暗示的那样,在某些表条目被限制为零的情况下,他们对双向列联表实施了 Fisher 精确检验。
Thomas Wickens 在他的优秀著作《社会科学的多向列联表分析》中提出了与已经提出的建议不同的建议。他将随机零点与结构空洞或零点区分开来,“它们是抽样事故,其处理主要包括对自由度的调整(第 5 章,第 120 页,“空单元格”),“它们缺乏完整的析因结构,其分析需要修改独立性概念”(第 10 章,第 246 页)。
第 10 章的标题是“结构不完整的表”,并考虑了对某些单元格先验排除在考虑之外的数据的处理。“这方面的例子包括按性别入院:虽然孕妇可能在列联表中有一个单元格,但没有观察到,”(第 247 页)。
最重要的是,“如果将不可能的单元格(结构零点)视为零频率,它们就会在独立性测试中断言自己是依赖项(第 246 页)。”
人们想要做的是在任何独立性或关联性测试中忽略不可能的细胞。这样做的方法是在完整的列联表(包括结构零点)上估计适当的模型,然后从总卡方检验中减去与零单元格相关的卡方值之和。这仅针对简化的列联表生成简化的卡方独立性检验。