列联表:什么时候做哪些测试?

机器算法验证 r 卡方检验 列联表
2022-01-31 17:31:06

我希望看到这个关于古老的 chi-sq 与 Fisher 的精确测试辩论的讨论的扩展,稍微扩大范围。列联表中有许多交互测试,足以让我头晕目眩。我希望能够解释我应该使用什么测试以及何时使用,当然还有解释为什么一个测试应该优于另一个测试。

我目前的问题是经典n×m情况,但欢迎有关更高维度的答案,以及在 R 中实施各种解决方案的提示,至少在不明显如何进行的情况下。

下面我列出了我知道的所有测试;我希望通过揭露我的错误,他们可以得到纠正。

  • χ2. 旧待机。这里有三个主要选项:

    • 对于 2x2 表格,R 内置的更正:“从所有表格中减去一半|OE|差异。”我应该一直这样做吗?
    • "N1"χ2测试,不确定如何在 R 中执行此操作。
    • 蒙特卡罗模拟。这总是最好的吗?为什么当我这样做时 R 不给我 df ?
  • 费雪精确检验

    • 传统上建议当任何单元格预计小于 4 时,但显然有些人对这个建议提出异议。
    • 边缘是固定的(通常是错误的)假设真的是这个测试的最大问题吗?
  • 巴纳德精确检验

    • 另一个确切的测试,除了我从未听说过。
  • 泊松回归

    • 总是让我对 glms 感到困惑的一件事是如何进行此重要性测试,因此将不胜感激。是否最好进行嵌套模型比较?特定预测变量的 Wald 检验怎么样?
    • 我真的应该一直做泊松回归吗?这和a之间有什么实际区别χ2测试?
2个回答

这是一个很好的问题,但也是一个很大的问题。我不认为我可以提供一个完整的答案,但我会抛出一些值得深思的东西。

首先,在您的首要要点下,您所指的修正被称为耶茨对连续性的修正问题是我们计算了一个离散的推理统计:

χ2=(OE)2E

(它是离散的,因为在列联表中仅表示有限数量的实例,该统计可以采用的可能实现值的数量有限。)尽管如此,它还是与连续参考分布(即. , 的χ2 自由度分布(r1)(c1))。这必然导致某种程度的不匹配。对于特别小的数据集,并且如果某些单元格的预期值小于 5,则 p 值可能太小。耶茨的修正对此进行了调整。

具有讽刺意味的是,相同的潜在问题(离散连续不匹配)可能导致 p 值太高具体来说,p 值通常被定义为获得极端或更多数据的概率比观察到的数据。对于连续数据,可以理解得到任何精确值的概率非常小,因此我们确实有数据更极端的概率。但是,对于离散数据,获得与您一样的数据的可能性是有限的。仅计算获得比您的数据更极端的数据的概率会产生太低的名义 p 值(导致 I 型错误增加),但包括获得与您相同的数据的概率会导致名义 p 值太高(这会导致 II 型错误增加)。这些事实提示了中间 p 值的想法。在这种方法下,p 值是数据比你的更极端的概率加上一半数据的概率与您的相同。

正如您所指出的,测试列联表数据有很多可能性。各种方法的优缺点最全面的处理就在这里该论文专门针对 2x2 表,但您仍然可以通过阅读它来了解有关列联表数据选项的很多信息。

我也确实认为值得认真考虑模型。卡方等较旧的测试快速、简单且被许多人理解,但不会像构建适当的模型那样让您对数据有全面的了解。如果将列联表的行 [列] 视为响应变量并将列 [行] 视为解释/预测变量是合理的,那么建模方法很容易遵循。例如,如果你只有两行,你可以建立一个逻辑回归模型;如果有多个列,您可以使用参考单元编码(虚拟编码)来构建 ANOVA 类型的模型。另一方面,如果您有超过两行,多项逻辑回归可以以相同的方式使用。如果您的行具有内在顺序,则序数逻辑回归将产生优于多项式的性能。在我看来,除非您有超过二维的列联表,否则对数线性模型(泊松回归)可能不太相关。

对于此类主题的综合处理,最好的来源是 Agresti 的书籍:他的全面处理(更严格),他的介绍书(更简单但仍然全面且非常好),或者可能还有他的序数书

更新: 只是为了可能测试列表的完整性,我想到我们可以添加似然比测试(通常称为'G2-test')。这是:

G2=Oln(OE)

这也以卡方分布,并且几乎总是会产生相同的决定。这两个统计数据的实际值通常相似,但略有不同。在特定情况下哪个会更强大的问题是相当微妙的。我认为这是某些领域传统的默认选择。我不一定主张将其用于传统测试;正如我所说,我只是为了完整性而列出它。

我会尽量从我的角度来解决你的一些问题。首先,Fisher-Irwin 检验只是 Fisher 精确检验的另一个名称。除了有时计算量很大之外,我通常更喜欢使用 Fisher 测试。如果此测试有任何问题,则以边际总数为条件。该检验的美妙之处在于,在原假设下,与观察到的表具有相同边际总数的列联表集具有超几何分布。有些人争辩说,他们没有看到将考虑限制在具有相同边际总数的表格的理由。

Pearson 的卡方检验非常常用于检验列联表中的关联。与许多其他测试一样,它是近似的,因此显着性水平并不总是准确的。Cochran 表明,在小样本中,当某些细胞非常稀疏(例如,某些细胞中包含少于 5 个病例)时,近似值会很差。

还有许多其他近似测试。通常,当使用 SAS 应用 Fisher 测试时,我会从所有这些测试中得到结果,它们通常给出几乎相同的结果。但费舍尔检验始终以边际总数为条件。

关于泊松回归,这是一个将分类变量与单元格总数相关联的模型。像任何模型一样,它依赖于一组假设。最重要的是细胞计数遵循泊松分布,这意味着计数的平均数等于其方差。这通常不适用于细胞计数分布。在过度离散(方差大于平均值)的情况下,负二项式模型可能更合适。