为什么在原假设下 p 值均匀分布?

机器算法验证 p 值 均匀分布
2022-02-08 12:45:40

最近,我在Klammer 等人的一篇论文中发现。p值应该均匀分布的声明。我相信作者,但不明白为什么会这样。

Klammer, AA, Park, CY 和 Stafford Noble, W. (2009) SEQUEST XCorr 函数的统计校准蛋白质组研究杂志8(4):2106-2113。

4个回答

澄清一点。当原假设为真且满足所有其他假设时,p 值是均匀分布的。其原因实际上是将 alpha 定义为 I 类错误的概率。我们希望拒绝一个真正的零假设的概率是 alpha,当观察到的时我们拒绝,对于任何 alpha 值发生这种情况的唯一方法是当 p 值来自统一分配。使用正确分布(正态、t、f、chisq 等)的重点是从检验统计量转换为统一的 p 值。如果原假设为假,那么 p 值的分布将(希望)更偏向于 0。p-value<α

R 的TeachingDemos包中Pvalue.norm.simPvalue.binom.sim函数将模拟几个数据集,计算 p 值并绘制它们以展示这个想法。

另见:

Murdoch, D、Tsai, Y 和 Adcock, J (2008)。P 值是随机变量。美国统计学家62,242-245

了解更多详情。

编辑:

由于人们仍在阅读此答案并发表评论,因此我想我会解决@whuber 的评论。

确实,当使用像这样的复合零假设时,只有当 2 个均值完全相等时,p 值才会均匀分布,如果是小于的任何值,则使用该函数可以很容易地看到这一点,并将其设置为进行单面测试,并使用模拟进行模拟,并且假设的手段不同(但在使 null 为真的方向上)。μ1μ2μ1μ2Pvalue.norm.sim

就统计理论而言,这无关紧要。考虑一下,如果我声称我比您家中的每个成员都高,那么检验这种说法的一种方法是将我的身高与您家中每个成员的身高进行比较。另一种选择是找到最高的家庭成员,并将他们的身高与我的身高进行比较。如果我比那个人高,那么我也比其他人高,我的主张是正确的,如果我不比那个人高,那么我的主张是错误的。测试复合空值可以看作是一个类似的过程,而不是测试所有可能的组合,其中我们可以只测试相等部分,因为如果我们可以拒绝支持μ1μ2μ1=μ2μ1>μ2那么我们知道我们也可以拒绝的所有可能性。如果我们查看的情况下 p 值的分布,那么分布将不是完全均匀的,但会有更多接近 1 的值而不是接近 0 的值,这意味着 I 类错误的概率将小于选定的值使其成为保守测试。越来越接近μ1<μ2μ1<μ2αμ1μ2(在统计理论术语上比较新的人可能会更好地用分布至上或类似的东西来说明这一点)。因此,即使在 null 是复合的情况下,通过假设 null 的相等部分来构造我们的测试,那么我们正在设计我们的测试,以在 null 为真的任何条件下具有α

在原假设下,您的检验统计量具有分布(例如,标准正态)。我们证明 p 值具有概率分布 换句话说,是均匀分布的。只要是可逆的,这一点就成立,其必要条件是不是离散随机变量。TF(t)P=F(T)

Pr(P<p)=Pr(F1(P)<F1(p))=Pr(T<t)p;
PF()T

这个结果是普遍的:随机变量的可逆 CDF 的分布在上是均匀的。[0,1]

表示对所有的随机变量假设是可逆的,我们可以推导出随机 p 值的分布,如下所示:TF(t)Pr(T<t)tFP=F(T)

Pr(P<p)=Pr(F(T)<p)=Pr(T<F1(p))=F(F1(p))=p,

从中我们可以得出结论,上的分布是均匀的P[0,1]

这个答案类似于查理的,但避免了必须定义t=F1(p)

我认为“为什么在原假设下 p 值是均匀分布的? ”的答案已经从数学的角度进行了充分讨论。我认为缺少的是对此的视觉解释以及将p 值视为给定连续分布(概率密度函数)下一组分位数左侧区域的想法。分位数是指沿分布(在此示例中为标准正态分布)的截止点,它将分布分成相等的部分,包含曲线下完全相同的区域。

对于这个例子,我从标准正态分布中生成了 100 个随机数据点,平均值为 0,标准差为 1,然后我将这些点绘制在直方图中,我们可以看到钟形分布正在形成(图 1A)。然后我计算了这些点的 p 值,即在给定标准正态分布的情况下这些点左侧的区域,将这些 p 值绘制在直方图(图 1B)中,并且出现了一个均匀(ish)分布,将那些以 0.1 为间隔的 p 值。N(μ=0,σ=1)

这一步,即从图 1A 到图 1B 的步骤对许多人来说是令人费解的,并且对我来说也有一段时间了——直到我开始将 p 值视为曲线下的区域我的想法是,如果我将标准正态分布分成包含相同区域的相等块(在本例中为 0.1 以匹配图 1B 中的直方图),我将在尾部有更大的间隔(图 1C)。现在,如果我回到图 1A,我将能够将范围从 -4 到 -1.28(图 1C 中的区间)的所有点拟合到图 1B 的第一个 bin 中,因为它们都会导致区域(或 p 值)小于或等于 0.1。随着点的密度向平均值增加,覆盖面积为 0.1 的区间变得越来越小(图 1C),但这些区间中的点数保持大致相等,在这种情况下与图 1B 中的计数相匹配。

在此处输入图像描述

一旦我理解了这一点,我也很容易解释为什么从平均值为 0、标准差为 3 的正态分布中随机抽取 100 个点,导致 p 值在 0 和 1 附近或尾部的频率更高(图 2B)。原因是 p 值是根据标准正态分布计算的,但样本来自均值为 0 且标准差为 3 的正态分布。这将导致尾部点数多于来自标准正态分布的样本。N(μ=0,σ=3)

在此处输入图像描述

我希望这不会过于混乱,并为这个线程增加了一些价值。