如果检验统计量的分布是双峰的,那么 p 值是否意味着什么?

机器算法验证 假设检验 统计学意义 p 值 描述性统计 双峰
2022-03-15 10:30:18

P 值定义为获得至少与观察到的一样极端的检验统计量的概率,假设零假设为真。换句话说,

P(Xt|H0)
但是如果检验统计量是双峰分布的呢?p 值在这种情况下意味着什么?例如,我将在 R 中模拟一些双峰数据:

set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) 
hist(bimodal, breaks=100)

在此处输入图像描述

假设我们观察到一个测试统计值 60。在这里我们从图片中知道这个值是非常不可能的。所以理想情况下,我想要一个我使用的统计程序(比如 p 值)来揭示这一点。但是如果我们按照定义计算 p 值,我们会得到一个相当高的 p 值

observed <- 60

# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993

如果我不知道分布,我会得出结论,我观察到的只是随机机会。但我们知道这不是真的。

我想我的问题是:为什么在计算 p 值时,我们要计算“至少与观察值一样极端”的值的概率?如果我遇到类似于我上面模拟的情况,替代解决方案是什么?

1个回答

使测试统计量“极端”的原因取决于您的替代方案,该替代方案对样本空间施加了排序(或至少是部分顺序) - 您试图拒绝那些最一致的案例(在通过测试统计量测量的意义上)替代方案。

当你真的没有其他选择来给你一个最一致的东西时,你基本上就剩下了给出排序的可能性,这在 Fisher 的精确检验中最常见。在那里,空值下的结果概率(2x2 表)对测试统计量进行排序(因此“极端”是“低概率”)。

如果您处于双峰零分布的最左侧(或最右侧,或两者)与您感兴趣的替代类型相关联的情况下,您不会试图拒绝 60 的检验统计量。但如果您处于没有类似选择的情况下,那么 60不寻常的 - 它的可能性很小;值 60与您的模型不一致,会导致您拒绝。

[这会被一些人视为费舍尔假设检验和内曼-皮尔逊假设检验之间的主要区别之一。通过引入一个明确的替代方案和一个似然,零下的低可能性不一定会导致您拒绝 Neyman-Pearson 框架(只要它与替代方案相比也表现相对较好),而对于 Fisher,你真的没有其他选择,而 null 下的可能性是你感兴趣的东西。]

我并不是说这两种方法是对还是错——你自己去弄清楚你寻求权力反对什么样的选择,无论是特定的选择,还是任何在 null 下不太可能的选择。一旦你知道你想要什么,其余的(包括“至少是极端的”意味着什么)几乎都随之而来。