P 值定义为获得至少与观察到的一样极端的检验统计量的概率,假设零假设为真。换句话说,
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5))
hist(bimodal, breaks=100)
假设我们观察到一个测试统计值 60。在这里我们从图片中知道这个值是非常不可能的。所以理想情况下,我想要一个我使用的统计程序(比如 p 值)来揭示这一点。但是如果我们按照定义计算 p 值,我们会得到一个相当高的 p 值
observed <- 60
# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993
如果我不知道分布,我会得出结论,我观察到的只是随机机会。但我们知道这不是真的。
我想我的问题是:为什么在计算 p 值时,我们要计算“至少与观察值一样极端”的值的概率?如果我遇到类似于我上面模拟的情况,替代解决方案是什么?