二项式检验中 p 值和置信区间之间的不一致

机器算法验证 r 统计学意义 置信区间 p 值 二项分布
2022-03-31 18:26:43

这是关于 R 中的二项式检验的问题。

如果我得到 p 值 < 0.05 会发生什么,这通常会导致我拒绝总体值等于某个比例(在本例中为 0.75)的原假设,但要测试的假设比例(即原假设)仍然在 95% 的置信区间内?

我仍然拒绝相等比例的假设吗?

这是一个示例 R 代码:

x <- 31 
n <- 50
binom.test(x, n, p=0.75)

# p-value = 0.04812
# 95 percent confidence interval:
# 0.4717492 0.7534989
4个回答

虽然由 提供的检验和置信区间binom.test()都是精确的,但不幸的是置信区间不是基于反转检验,因此可能会导致结果不一致。见论文

费伊,国会议员(2010 年)。离散数据的双边精确检验和匹配置信区间R 杂志,第 2 卷,第 2 期。1,第 53-58 页。

了解更多信息。幸运的是,上述论文的作者提供了一个 R 包,它确实提供了(三对不同的)一致的测试和置信区间。应用于您的数据,结果是[轻微编辑输出以仅显示相关信息]:

> library(exactci)
> binom.exact(31, 50, p=0.75, tsmethod="central")
Exact two-sided binomial test (central method)

p-value = 0.05747
95 percent confidence interval:
0.4717492 0.7534989

> binom.exact(31, 50, p=0.75, tsmethod="minlike")
Exact two-sided binomial test (sum of minimum likelihood method)

p-value = 0.04812
95 percent confidence interval:
0.4799 0.7463

> binom.exact(31, 50, p=0.75, tsmethod="blaker")
Exact two-sided binomial test (Blaker's method)

p-value = 0.04812
95 percent confidence interval:
0.4797 0.7463

有关三组不同测试和置信区间的优缺点的信息,请参阅上述论文。

二项式比例检验的问题在于所使用的检验通常是近似的(因为确切的“Clopper-Pearson”检验非常保守)。因此,尚不清楚用于获取 CI 的过程是否与用于检验假设的过程相同。从理论上讲,如果您只使用一个 CI 和一个测试,则任何一种方法都应该得出相同的结论。

你有一个边境案件。任一统计数据都在告诉您,在零假设下,您的观察结果并不那么普遍。请记住: 5% 的重要性并没有什么特别之处……它是 1930 年代 Ronald Fisher 的文化产物。它是一个指导方针。

对于它的价值,我得出的结论是,真正的成功概率不太可能高达 0.75。

每@John

在严格的假设检验情况下,您会被困在 0.05 中,因此您会在该标准下拒绝零假设。但是,我还不会跑到媒体面前;-)...假设检验真的可以破坏推理中的任何细微差别。

这显然是一个边界情况,CI 和测试结果的导出方式并不完全相同(CI 不是测试的倒置)。您可能需要查找二项式 CI,并注意有很多方法可以计算它们的优缺点。但是这些都没有解决您是否应该在这里拒绝 0.75 假设的核心问题。

此外,您将 p 值和 CI 都视为测试,因为您这样做了,所以您不能拒绝 0.75,因为现在您有两个测试,您应该对它们进行 alpha 校正。CI 应该被视为其他东西,但您在问题中清楚地传达了您将其视为测试。鉴于您现在可以选择您喜欢的任何测试,alpha 不是 0.05。

暂时退出测试。

你需要考虑你的数字。出于某种原因,您准确选择了 0.75 作为拒绝的数量。如果你有一个巨大的 N 并得到 0.74 并且可以在 CI 和测试中拒绝它怎么办?你会得出与现在的 0.62 相同的结论吗?是否存在接近 0.75 的某个范围,几乎相当于您工作中的 0.75 或者恰好 0.75 非常关键?如果有一个范围,您的 CI 捕获了多少?那么你的测试拒绝有多可信?那么你所拥有的 CI 的范围呢?它大约是 0.25,这是相当多的可能比例范围。你认为你认为你可以说很多关于真实比例的真实情况吗?它可能是非常接近 0.75 的某个值,也可能接近 0.50。你想用你拥有的数据做出多强的声明?此外,高于 0.75 的值是否与以下值一样重要?0.75 是您测试的下限吗?在这种情况下,结论可能会有所不同。

所以这是很多问题,但我把它们放在那里是为了说明一点。对于这些数据,简单地拒绝 null 将是一项毫无意义的尝试。假设您可以提出理由拒绝它,您还能说什么?告诉人们真实值不是 0.75 而可能是 0.74 真的有用吗?

收集更多数据。

这是我第一次回答问题,所以我希望我实际上提供了一个有用的答案。

当你在 R 中运行它时:

x <- 31
n <- 50
p <- 0.75
binom.test(x, n, p = p)

...它返回以下结果:

    Exact binomial test

data:  x and n
number of successes = 31, number of trials = 50, p-value = 0.04812
alternative hypothesis: true probability of success is not equal to 0.75
95 percent confidence interval: 
 0.4717492 0.7534989
sample estimates: 
probability of success 
                  0.62 

0.4812 的 p 值告诉您的是,在 50 次二进制事件 (0, 1) 尝试中测试 31 个“成功”结果的成功概率为 0.75 (75%) - 即:翻转50 次硬币和 31 次正面朝上 - 刚好在 95% 的置信区间内,这是成功概率的范围。

因此,您可以谨慎地接受成功概率等于 75% 的原假设。(另一种假设是成功的概率不等于 75%。)

计算出的成功概率包含在输出的底部:0.62,或 62% 的成功机会。这不过是 31 / 50。