零假设下“类 p 值”量的分布

机器算法验证 假设检验 分布 p 值 均匀分布
2022-03-27 14:28:07

众所周知,当原假设为真时,p 值是均匀分布的。这是从 p 值的定义得出的

当这些值取自已知的固定分布(即空值为真)时,观察到一个值(或更极端的值)的概率。

在此处输入图像描述

在查看 pvalue 的分布时,这一事实允许进行一系列后续分析。

http://varianceexplained.org/statistics/interpreting-pvalue-histogram/ 查看 p 值直方图的示例

但是,我担心不同的概率。而不是“更极端”的观察比例。我想知道“更罕见”的观察比例。

确实,“更极端”意味着“更罕见”,但是“更罕见”并不意味着“更极端”——特别是对于如下图 2 所示的零值下的多峰分布。观测值可能接近平均值,但仍然是来自零分布的低密度部分的罕见观测值。

常规 p 值

缺乏更好术语的 d 值描述

单侧 p 值

P(X>x|H)

对于我的“d 值”:

P(θ(X)θ(x)|H)

对于密度函数 theta(在我的例子中来自一个简单的单变量 KDE)

问题:

  • 1)这些“d值”叫什么?我不能是第一个有这个问题的人吗?

  • 2) 这些“d 值”在 Ho 下是如何分布的?

    (最高模式的密度)0βmaxx(θ(x))

    P(θ(x)0)=0

    P(θ(x)maxx(θ(x)))=1

    P(θ(x)β)= ??

    这有点像密度值的垂直整合,但忽略了任何密度 > 阈值。

  • 3) 2 的分布是否无论在 Ho 下的观测分布是什么形式都成立?(它适用于 p 值 -> 统一)。

2个回答

简短的回答:您所指的统计数据可能只是 p 值(取决于 null 与替代的证据顺序。不要假设 p 值适用于“极端”意义上的区域具有最高幅度值(即尾部区域)。

更长的答案:每个假设检验都包含按顺序对可能结果进行隐式排序,从更有利于原假设的结果到更有利于替代假设的结果。这种隐含的排序被捕获在测试统计中,并将其排序作为证据的度量。p 值被定义为观察证据至少与实际观察到的一样有利于备择假设的概率,假设原假设实际上是正确的。

当然,在高幅度(即分布的尾部)的意义上“更极端”的观察不一定比您在上面强调的那些值更有利于替代假设。事实上,用于检验统计量的最常用度量是比较零假设和备择假设的似然比统计量。该检验统计量对可能的结果进行排序,以便原假设的相对可能性较低的结果(与替代假设相比)构成更大的反对原假设的证据。在此测试中,p 值是有利于备选方案的“最极端”的值,备选方案是具有低似然比的值集:

p(x)P(LR(X)LR(x)|H0)LR(x)=L0(x)LA(x),

其中是零模型和替代模型下的可能性。现在,如果您要在函数中显示似然比而不是零分布,那么您称为“d 值”的区域实际上就是检验的 p 值。测试的关键区域将是水平轴上一组不连贯的间隔。L0supθΘ0Lx(θ)LAsupθΘALx(θ)

您在图表中突出显示的值仅基于查看空分布,这意味着我们无法真正看到测试中证据的正确顺序是什么。但是您不应该假设排序是这样的,即更高的幅度值是替代方案的更多证据(特别是对于多模态零分布。一旦您指定了替代方案的可能性,您将能够确定证据的顺序隐含使用似然比统计数据,这将告诉您什么构成测试中的“更极端”值。

的密度。的分布中绘制,您担心 ''d-values'' 的分布。fX

d=P(f(X)<f(xobs))
xobsX

来构造另一个随机变量,并让那么实际上, 的分布中绘制的分布。XY=f(X)yobs=f(xobs)

P(Y<yobs)
yobsY

然后是均匀分布。

一个快速的数值实验

考虑方差为 1 且均值为 0 和 4 的两个高斯的混合。它的密度看起来像 在此处输入图像描述

现在进行数值实验:

# a reference sample to compute d values
X_ref <- c( rnorm(1e4), rnorm(1e4, mean = 4) )

# a set of observations
x_obs <- c( rnorm(1e4), rnorm(1e4, mean = 4) )

# the d-values
d <- sapply(x_obs, function(x) mean(f(x) < f(X_ref)) )

plot(ppoints(2e4), sort(d), pch = ".")

在此处输入图像描述