p 值是一个随机变量。
在下(至少对于连续分布的统计量),p 值应该具有均匀分布H0
对于一致的测试,在下,随着样本量向无穷大增加,p 值应在极限内变为 0。同样,随着效应大小的增加,p 值的分布也应该趋向于 0,但它总是会“散开”。H1
“真实”p 值的概念对我来说听起来像是胡说八道。或下是什么意思?例如,您可能会说您的意思是“在某个给定效应大小和样本大小下 p 值分布的平均值”,但是在什么意义上,您在什么意义上收敛了应该缩小的分布?这不像您可以在保持样本量不变的情况下增加样本量。H0H1
这是一个示例,其中一个样本 t 检验和下的效应量较小。当样本量较小时,p 值几乎是均匀的,并且随着样本量的增加,分布缓慢地向 0 集中。H1
这正是 p 值应该表现的方式 - 对于假空值,随着样本量的增加,p 值应该在低值处变得更加集中,但是没有任何迹象表明当你犯第二类错误——当 p 值高于你的显着性水平时——应该以某种方式最终“接近”那个显着性水平。
那么,p 值会是 的估计值吗?这不像是收敛到某个东西(除了 0)。完全不清楚为什么人们会期望 p 值在任何地方都有低方差,但是当它接近 0 时,即使功率非常好(例如对于,在 n=1000 情况下的功率接近57%,但仍然完全有可能获得接近 1 的 p 值)α=0.05
考虑在替代方案下使用的任何测试统计量的分布以及在 null 下应用 cdf 作为对分布的转换(这将给出 p 值的分布),这通常是有帮助的具体的替代方案)。当您以这些术语思考时,通常不难看出行为为何如此。
在我看来,问题并不在于 p 值或假设检验存在任何固有问题,而更多的是假设检验是否是解决您的特定问题的好工具,或者其他东西是否更合适在任何特定情况下 - 这不是粗略的争论的情况,而是仔细考虑假设检验所解决的问题类型以及您的情况的特殊需求。不幸的是,很少仔细考虑这些问题——人们经常看到“我对这些数据使用什么测试?”形式的问题。没有考虑感兴趣的问题可能是什么,更不用说某些假设检验是否是解决问题的好方法。
一个困难是假设检验既被广泛误解又被广泛滥用。人们常常认为他们告诉了我们他们没有告诉我们的事情。p 值可能是关于假设检验的最容易被误解的事情。