为什么不总是使用二项式精确检验来比较两个比例而不是卡方?

机器算法验证 r 假设检验 卡方检验 二项分布 部分
2022-03-26 12:01:47

我试图弄清楚在以下情况下我应该使用什么测试:我知道在工作中的特定领域有很大的改进空间 - 非常关键,假设抽样观察,个可以改进。在制定了六个月的改进/质量保证计划后,让我假设在个案例的样本中,只有有残留缺陷。这两个样本是独立的。因此,我们比较了两个比例:52315511p initial=3152p final=1155

虽然数字被夸大了,但我仍然想看看这两个比例是否在统计上显着不同,我想我有两个选择:我可以运行一个精确的二项式检验来计算新的有缺陷观察比例的概率,,如果实际的潜在概率保持为 ,则会发生。或者,我可以运行卡方检验。11553152

卡方是一个近似值,我读到的是当观察总数太高时应用它。示例中显然不是这种情况;但是,在使用 R 中的数字时,即使在使用数字之后,我也看不到任何延迟或结果问题。并且没有迹象表明正在使用任何正态近似值。>10,000

那么,如果这一切都是真的,为什么我们不应该总是选择精确的二项式检验,而不是卡方呢?

这两个测试在 R 中的代码是:

    # Exact Binomial Test:
binom.test(c(11, 55 - 11), p = 31/52, alternative ="less")

    #Chi-square Test:
prop.test(c(31, 11), c(52, 55), correct = FALSE, alternative = 'greater')
2个回答

您声明您已阅读卡方检验应该在“观察总数太高”时使用。我从来没有听说过这个。我不相信这是真的,虽然很难说,因为“太高”是相当模糊的。当有任何预期计数小于 5 的单元格时,有一个标准建议不要使用卡方检验。现在已知这种传统警告过于保守。单元格中的预期计数小于 5 并不是真正的问题。尽管如此,也许您所听到的与该警告有某种关系。

正如@whuber 所指出的,您询问的两个不同测试对您的数据做出了不同的假设。精确测试假设概率 (31/52) 是先验已知的并且没有错误。卡方检验估计前后的比例。值得注意的是,由于抽样误差,这两个比例都被视为具有不确定性。

因此,卡方检验的功效较小,但可能更诚实。有缺陷的观测值的真实比例很可能远低于 31/52,但它看起来如此糟糕只是偶然。您当然可以测试后比例是否小于 31/52,就像您可以根据任何值测试后比例一样。但是一个显着的结果并不一定意味着该过程在质量保证计划之后得到了改进;您应该只得出该比例小于任意数字的结论。

我认为 OP 观察到的是,在这个快速计算的时代,使用 Clopper-Pearson 方法计算精确的二项式概率可以做得非常大,而在过去,当样本量变大时,使用正态分布更容易无论有没有连续性校正,这个近似值都会非常准确。卡方近似可能是另一种方式。根据我的经验,对于非常大的样本量(1000 或更多),可以准确且相对快速地计算二项式检验。

对离散分布使用精确方法的唯一缺点是,对于任何给定的样本大小 n,存在无法准确获得的显着水平的某些值。因此,如果您尝试进行样本量计算以搜索达到一定水平的功效,并且您搜索最小样本量以实现该功效,您可能会惊讶地发现从 n 到 n+1 会导致功效降低. 这个问题我称之为锯齿幂函数。

您可以在我与 Christine Liu 的论文中看到这方面的示例,标题为:功率与样本大小和软件解决方案的锯齿行为:使用精确方法的单一二项式比例。美国统计学家 2002 年 5 月。您可以通过谷歌搜索锯齿幂函数快速找到它。同样的问题也适用于置信区间。

Agresti 和 Coulli 的早期论文于 1998 年在 American Statistician 上发表,这是一种流行的生成二项式置信区间的方法。获取二项式置信区间的这种方法和其他方法可以在维基百科的标题为二项式比例置信区间的文章中找到。