可能有帮助的论文是
Murdock, D, Tsai, Y 和 Adcock, J (2008) P 值是随机变量。美国统计学家。(62) 242-245。
想象一下,您有一枚硬币,您想测试它是否公平(可能是弯曲或扭曲),并计划将硬币翻转 10 次作为测试。显然,如果你看到 5 个正面和 5 个反面,那么你不能拒绝它是公平的,如果你看到 10 个正面(或 10 个反面),大多数人会高度怀疑硬币,但为了公平起见,我们应该设置在测试规则或拒绝区域之前确定我们是否应该拒绝原假设(公平硬币)。
决定拒绝区域的一种方法是对第一类错误率设置一个限制,并选择拒绝区域,使得累积概率小于该限制的最极值将构成拒绝区域。因此,如果我们使用传统的 0.05 作为我们的分界点,那么我们可以从极值开始,看看如果硬币是公平的(null 为真),那么看到 0、1、9 或 10 个正面的概率小于 5 %,但是如果我们添加 2 或 8 个正面,则组合概率会超过 5%,因此如果我们看到 0、1、9 或 10 个正面,我们将拒绝空值,否则将拒绝拒绝。
附带说明一下,如果看到 8 个正面,我们可以创建一个拒绝区域,否则不要拒绝,这将使当 null 为真时拒绝的概率低于 5%,但说我们会这样做似乎有点愚蠢如果我们看到 8 个正面,则拒绝公平,但如果我们看到 9 或 10 个正面,则不会拒绝公平。这就是为什么 p 值的通常定义包括“或更多极值”这样的短语。
所以对于我们的测试,我们有我们的 alpha (α) 水平设置为 5%,但 I 类错误的实际概率(定义中为 null 为真)略高于 2%(公平硬币在 10 次中出现 0、1、9 或 10 个正面的概率)翻转)。
我们可以代替将实际正面数量与我们的拒绝区域进行比较,而是计算我们观察到(或更多极端)的概率,假设空值为真,并将该概率与α=0.05. 这个概率就是 p 值。所以 0 或 10 个正面将导致 p 值为21024(一个代表 0,一个代表 10)。1 或 9 个正面将给出 p 值221024(一种看 0 的方法,一种看 10 的方法,10 种看 1 的方法和 10 种看 9 的方法)。如果我们看到 2 或 8 个正面,则 p 值大于 10%。
总结一下:I 类错误的概率是所选截止值的一个属性α和测试的性质(在所有假设都成立的 t 检验等情况下,I 类错误的概率将完全等于α)。p 值是根据实际观察到的数据计算得出的随机变量,可与α作为执行测试的一种方式)。