健全性检查:p 值可以降到多低?

机器算法验证 假设检验 p 值 样本量 统计能力
2022-02-08 13:38:05

我正在使用秩和检验来比较两个样本的中位数(),并发现它们与:. 我应该怀疑如此小的值还是应该将其归因于与拥有非常大的样本相关的高统计能力?是否存在可疑的低值之类的东西?n=120000p = 1.12E-207pp

3个回答

标准计算机上的 P 值(使用 IEEE 双精度浮点数)可以低至大约当效应量很大和/或标准误差很低时,这些可以是合法正确的计算。如果使用 T 或正态分布计算您的值,则对应于大约 31 个标准误的效应大小。的倒数平方根成比例,这反映了小于 0.09 标准差的差异(假设所有样本都是独立的)。在大多数应用程序中,这种差异不会有任何可疑或不寻常的地方。10303n

解释这样的 p 值是另一回事。考虑到现实可能会偏离支持该 p- 的概率模型的所有方式,将小至甚至的数字视为概率是超出了理性范围的。价值计算。一个不错的选择是将 p 值报告为小于您认为模型可以合理支持的最小阈值:通常在之间。1020710100.010.0001

没有什么可疑的——当样本量很大时,像你这样的极低 p 值很常见(因为你的 p 值用于比较中位数)。正如 whuber 所提到的,通常这些 p 值报告为小于某个阈值(例如 <0.001)。

需要注意的一件事是 p 值仅告诉您中位数的差异是否具有统计显着性。差异是否足够显着是您必须决定的事情:例如,对于大样本集,均值/中位数的极小差异可能具有统计显着性,但可能意义不大。

p 值可以达到 0 的值。

假设我正在检验关于统一 0 范围值的复合假设,θ随机变量。如果我设置H0:θ=1并采样一个值X=1.1,您会发现在原假设下不可能观察到这样的值或更高的值。p 值为 0。