在置换检验中使用 t 值作为检验统计量的优点?

机器算法验证 t检验 蒙特卡洛 置换检验
2022-03-25 15:28:01

我正在使用一些排列测试,我的主要目的是评估治疗效果,并且我对测试统计的选择有疑问。

我看到有些人使用 β 作为感兴趣的变量作为检验统计量,而另一些人则使用 t 值 (β/SE β) 作为检验统计量。

我没有看到关于选择一个优于另一个的好处的很好的解释,并且想知道是否有人可以提示我相关参考资料或提供快速解释。

到目前为止我见过的最好的是这里(第 6 页):

假设我们真的对均值之间的标准化差值感兴趣,但我们不愿意使用参数 t 检验,因为它假设 t 值的抽样分布基于潜在的正态分布。通过重采样,我们可以使用计算出的 t 值作为组差异的度量,但我们可以根据 t 值的经验采样分布对其进行测试……我们可以将数据随机重新排列成两组,每组 N=20并重新计算 t 值。如果我们对数据进行多次重组(例如,10,000),我们可以生成 t 值的经验分布。该分布不一定按照参数 t 分布进行分布

据我所知,主要的一点是,通过使用 t 值作为检验统计量,可以放宽对潜在正态分布的假设。如果是这样,是否还有其他支持或反对使用 t 值的论据?

我看到 t 值也用于 Efron & Hastie (2017) Computer Age Statistical Inference中的置换检验,p。49-50。

1个回答

在置换检验中使用 t 值(实际上,任何近似关键检验统计量)的主要原因是在方差不等的情况下为检验提供渐近有效性。鉴于您总是想要这个属性,您应该始终将置换测试基于 β/(SE β) 而不仅仅是 β。

该属性在Janssen, 1997中首次描述。正如许多教科书和论文所指出的那样,普通置换测试仅对相同分布的测试是“精确的”。然而,通常我们想要测试感兴趣的参数是否相等,而不是测试分布是否相同。更重要的是,我们一般也希望对测试的结果做出有方向性的结论。Janssen(以及后来的Chung 和 Romano)指出,为了做到这一点,您必须使用一个关键的测试统计量(这与为什么 bootstrap-t 比普通的 bootstrap 功能更好有关)。

为了做出近似关键的测试统计,您可以将感兴趣的比较与其标准误差的估计值相除(称为学生化)。t 值是此过程的经典示例。鉴于“等分布”的零假设很少有趣,您应该始终使用近似关键的检验统计量。但是请注意,有时很难估计比较的标准误差(尽管您始终可以在置换测试中嵌套引导程序)。