假设一个样本 t 检验,其中原假设是。然后统计量是使用样本标准偏差。在估计时,将观察结果与样本均值进行比较:
。
但是,如果我们假设给定的为真,则还可以使用而不是样本均值:
。
对我来说,这种方法看起来更自然,因为我们因此也使用原假设来估计 SD。有谁知道结果统计数据是否用于测试或知道,为什么不呢?
假设一个样本 t 检验,其中原假设是。然后统计量是使用样本标准偏差。在估计时,将观察结果与样本均值进行比较:
。
但是,如果我们假设给定的为真,则还可以使用而不是样本均值:
。
对我来说,这种方法看起来更自然,因为我们因此也使用原假设来估计 SD。有谁知道结果统计数据是否用于测试或知道,为什么不呢?
当原假设为真时,您的统计量应该类似于常规 t 检验统计量(尽管在计算标准差时,您可能应该除以代替因为你没有花费一定的自由度来估计平均值)。当零假设为真(总体平均值为.
但是现在考虑当原假设不正确时会发生什么。这意味着在计算标准误差时,您减去的值不是真实平均值或真实平均值的估计值,实际上您可能减去的值甚至不在 x 值的范围内。这将使您的标准偏差更大(保证最小化标准偏差)为远离真正的平均值。因此,当 null 为 false 时,您将同时增加统计中的分子和分母,这将减少您拒绝无效假设的机会(并且它不会作为 t 分布分布)。
因此,当 null 为 true 时,任何一种方式都可能有效,但当 null 为 false 时,使用将提供更好的功率(可能还有其他属性),因此它是首选。
这篇文章中的原始模拟存在问题,希望现在已修复。
,样本标准差的估计值往往会随着分子一起增长,但事实证明这对“典型”显着性水平的功效没有那么大的影响,因为在中到大样本中,仍然倾向于大到足以拒绝。但是,在较小的样本中,它可能会产生一些影响,并且在非常小的显着性水平上,这可能变得非常重要,因为它将为小于 1 的功率设置一个上限。
第二个问题,在“共同”显着性水平上可能更重要,似乎是检验统计量的分子和分母在零点处不再独立(的平方与方差估计相关) .
这意味着测试在零值下不再具有 t 分布。这不是一个致命的缺陷,但它意味着你不能只使用表格来获得你想要的显着性水平(正如我们将在一分钟内看到的那样)。也就是说,测试变得保守,这会影响功率。
随着 n 变大,这种依赖性就不再是一个问题(尤其是因为您可以为分子调用 CLT 并使用斯卢茨基定理来表示修改后的统计量存在渐近正态分布)。
这是普通的两个样本 t(紫色曲线,两个尾检验)和在计算(蓝点,通过模拟获得,使用 t 表)中使用,总体平均值远离假设值:
您可以看到功效曲线较低(在较小的样本量下会变得更糟),但其中大部分似乎是因为分子和分母之间的相关性降低了显着性水平。如果您适当地调整临界值,即使在 n=10 时它们之间也几乎没有。
这是功率曲线,但现在
这表明,在非小样本量下,它们之间的差异并不大,只要您不需要使用非常小的显着性水平。