置信区间/ p 值对偶:他们不使用不同的分布吗?

机器算法验证 可能性 置信区间 p 值 测度论
2022-03-12 12:53:40

主意:

  • 当且仅当相应的 CI 不包含空值时,p 值小于显着性水平;反之亦然,
  • 当且仅当相应的 CI 确实包含空值时,p 值才大于显着性水平。

这个想法总是正确的吗?它是否只对某些采样分布正确,如正态分布,但一般不正确?

如果这个想法总体上是正确的,那为什么?p 值是使用以 H0 为条件的统计量分布计算的,而 CI 是使用统计量的无条件分布计算的。这是两种不同的分布——这如何或为什么会导致二元性?

如果这个想法总体上不正确,你能提供反例吗?人们是否通常认为这些反例是一个问题,并试图以某种方式纠正它们,以使这个想法仍然正确?

3个回答

基本上对偶成立,另请参阅关于对偶的这个问题:我们可以拒绝一个零假设,其置信区间是通过抽样而不是零假设产生的吗?

我可以想到两个理由说它不成立(见下文),但这不是因为二元性是错误的,而是更多关于细节和语义(每个孩子都有父母,但这并不意味着每个孩子和每个父母都是一对)。

不,不正确 1

没有单一p 值和单一置信区间。相反,有多种方法来定义 p 值和多种方法来定义置信区间。

因此,特定的置信区间和 p 值的特定构造不需要相互对应。

是的,正确 1

但是,存在对应关系,因此每个置信区间都可以用作假设检验,并且置信分布可以用于计算特定参数/假设的 p 值。

原因是置信区间包含参数 p% 的时间,无论真实参数是什么。

所以假设一个假设是真的,它在 ap% 置信区间之外的概率是 p%。如果使用置信区间,错误拒绝概率为 p%。

唯一不起作用的情况是置信区间不准确。例如,有时置信区间是近似值或估计值。但是,您应该允许 p 值具有相同的自由度,p 值也可以是近似值或估计值。

不,不正确 2

反过来不一定正确。对于每个 p 值(或更一般的 p 值的构造方法),您并不总是可以构造一个置信区间相反,有时您会得到一个置信区域(一组不相交的区间)。

这通常是不正确的。我将提供一个简单的例子。

对二项式比例的流行检验源自中心极限定理。如果是结果的真实风险,那么渐近地,π

pdN[π,π(1π)/n]

其中是我们的估计风险,是我们的样本量。然后通过使用方差中的估计风险(Wald 检验)或空值下的风险(Score 检验)对该分布进行标准化,从而找到该检验。检验统计量为pnp

Z=pπ0p(1p)n

和相关的置信区间是

(π^L,π^U)=p±Z1α/2p(1p)/n

您在项目符号中的点对于此测试和相关的置信区间是正确的,因为后者是从前者派生的。但是,它们通常会失败,因为二项式存在许多不同的置信区间,所有这些区间都接近标称覆盖范围且宽度略有不同。可能是这样的情况,如上所示的比例检验产生的 p 值小到足以拒绝空值,但我发布的置信区间以外的置信区间覆盖了空值。1.

我们可以用一些 R 代码来证明这一点。我将使用 Wilson 得分区间和渐近区间计算范围和结果的置信区间。您会看到它们并没有完全对齐,这意味着一些间隔覆盖了一些值,而另一些则没有,即使考虑到使用相同的数据来创建两者。因此,可以说使用一些间隔我们会拒绝 null,而使用其他间隔会导致拒绝 null 失败。

library(binom)


n = 20
x  = seq(0, n, 2)

a = binom.wilson(x, n)
b = binom.asymp(x, n)


plot(a$upper, b$upper, xlab = "Wilson Upper Limit", ylab='Asymptotic Upper Limit', type = 'l', col='red')
abline(0, 1)

在此处输入图像描述

参考


  1. Brown、Lawrence D.、T. Tony Cai 和 Anirban DasGupta。二项式比例和渐近展开的置信区间统计年鉴30.1 (2002): 160-201。

是的,这两个公式是相同的,因为这只是置信区间的定义。形式上,如果您已经测量了参数置信区间 这个定义把错误概率平均分布在两边,所以它只相当于一个双边测试。与假设检验场景相比,概率中的条件为原假设,即θ0θ1α[θ1,θ2]

P(θ^θ0|θ=θ1)=α/2andP(θ^θ0|θ=θ2)=α/2
[θ1,θ2]只是拒绝区域的边界。

备注:有趣的是,大多数统计教科书对置信区间给出了不同的定义:这个定义取决于未知参数值并且只允许在非常特殊的情况下求解:二项式比例的渐近正态近似(“Wald 区间”)(这是有问题的,正如所指出的)在其他答案中)和统计平均值的置信区间。我在中找到了一般定义P(θ[θ1,θ2])=1αθθ1/2

DiCiccio,Efron:“引导置信区间。” 统计科学,第 189-228 页,1996