如果 p 值是随机的,为什么不决定使用检验统计量呢?

机器算法验证 假设检验 p 值
2022-03-15 00:05:58

我目前正在阅读论文

Duncan J Murdoch, Yu-Ling Tsai & James Adcock (2008) P-Values are Random Variables , 美国统计学家, 62:3, 242-245, DOI: 10.1198/000313008X332421

在本文中,作者认为 p 值本身就是一个随机检验统计量。此外,给定一些接受 iid 样本 , p 值是的概率积分变换。也就是说,如果具有累积分布函数,则对应的 p 值为然后我们可以根据这个 p 值决定是否拒绝原假设。例如,如果相应的 p 值小于 0.05,则决策规则可以是拒绝原假设。TXT(X)T(X)FτFτ(T(X))

然而,因为是单调递增的,我不确定为什么我们首先需要计算 p 值来决定是否拒绝零假设。不能用检验统计量的值来决定吗?例如,如果决策规则是在 p 值小于 0.05 时拒绝原假设,那么,如果的逆存在,我们可以获得超过原假设被拒绝。此外,我们应该能够仅使用的阈值来计算 I 类和 II 类错误率。FτT(X)FτT(X)T(X)

4个回答

我认为您几乎是在问题中构建 p 值。

设置一个阈值,但正如你所指出的,你想计算与该 t 值相关的错误率。为此,您需要知道测试统计量的零分布,即因此,为了找到在 null 下具有 5% 误报的 t 值,您需要找到使得,即t=T(X)FtF(t)=0.05t=F1(0.05)

在许多(大多数?)情况下,反转 cdf 比评估它更难,因此计算然后检查比检查p=F(T)p<0.05t<F1(0.05)

p -value 是一个随机变量,就像测试统计量是一个随机变量一样,所以我不清楚它与你的问题的其余部分有什么关系。两者都是随机变量的函数,因此是随机变量本身。

是的,您可以将阈值用于检验统计量,但您会如何选择呢?你如何说阈值应该是 1.96、5 或 100?使用值,您有一个熟悉且易于解释的概率尺度,而测试统计不一定是这种情况。p

我不确定为什么我们首先需要计算 p 值来决定是否拒绝零假设。

我们不需要为假设检验计算 p 值。我们确实可以按照您的建议进行操作并计算阈值。一个例子是 Neyman 和 Pearson 描述的似然比检验。以下来自维基百科的示例使用阈值作为似然比η

将 Neyman–Pearson (NP) 检验的原假设的拒绝域定义为其中被选择为使得

RNP={x:L(θ0|x)L(θ1|x)η}
ηP(RNP|θ0)=α


为什么还要计算 p 值?

因为这不仅仅是关于假设检验。

例如,您通常希望提供比“通过”或“未通过”更详细的值。

你是绝对正确的。要执行固定大小的测试,我们根本不需要 p 值。我们可以只根据检验统计量定义一个该大小的拒绝区域。

然而,报告 p 的可能优势包括:

  • 读者可以(如果他们愿意)将 p 解释为费舍尔的证据量度
  • 读者可能会带上自己的错误率来与您的 p 进行比较α
  • 计算 p 并将其与所需的错误率进行比较可能在计算上更容易,而不是反转所需的错误率以找到测试统计量的临界区域的边界
  • 读者可以使用 p 执行进一步的计算,例如调整 p 以进行多重比较或将其转换为贝叶斯因子的界限等