Wilcoxon 符号秩在小样本中的相对效率

机器算法验证 非参数 统计能力 威尔克森符号秩 配对比较 效率
2022-03-13 12:37:04

我在已发表的文献(并在此处发布)中看到,与 t 检验相比,Wilcoxon 符号秩检验的渐近相对效率至少为 0.864。我还听说这仅适用于大样本,尽管有些书没有提到这一点(那是什么?)。

无论如何,我的问题是,在上述段落不再适用之前,事情需要变得多小?

就我而言,我有 4 对数据。如果所有假设都成立,我知道如果我使用 0.1 的 alpha 并且有适度相关的数据,我有至少 90% 的能力来检测配对 t 检验下的 2SD 效应大小。但是,由于样本量小且无法检查假设,我想使用 Wilcoxon 符号秩检验,但我担心如果我这样做,该检验的功效会太小。谢谢!

1个回答

与一个样本相比, Klotz研究了带符号秩检验的小样本功效t在正常情况下。

[Klotz, J. (1963) “单样本 Wilcoxon 和正态分数测试的小样本功效和效率”数理统计年鉴,卷。34,第 2 期,第 624-632 页]

n=10α靠近0.1(精确的αs 当然是无法实现的,除非你走随机化路线,大多数人在使用时避免使用,我认为是有道理的)相对效率t在正常情况下往往非常接近那里的 ARE(0.955),尽管接近程度取决于(它随平均偏移而变化,并且在较小的α,效率会更低)。在样本量小于 10 的情况下,效率通常(略)高一些。

n=5n=6(两者都与α接近 0.05),效率在 0.97 左右或更高。

所以,从广义上讲......正常情况下的 ARE 低估了小样本情况下的相对效率,只要α不小。我相信对于双尾测试n=4你能做到的最小的α为 0.125。在那个确切的显着性水平和样本量下,我认为相对效率t在功率感兴趣的区域,将同样高(可能仍在 0.97-0.98 或更高)。

我可能应该回来谈谈如何进行模拟,这相对简单。

编辑:

我刚刚做了一个 0.125 级别的模拟(因为在这个样本量下可以实现);看起来 - 在平均值的一系列差异中,典型的效率有点低,因为n=4, 更多在 0.95-0.97 左右 - 类似于渐近值。


更新

这是正常样本中 t 检验(由 计算)的功效(2 边)图power.t.test,以及 Wilcoxon 符号秩检验的模拟功效 - 每点 40000 次模拟,以 t 检验作为控制变量。点位置的不确定性小于一个像素:

t 的功率曲线和 Wilcoxon 的功率曲线


为了使这个答案更完整,我实际上应该看看 ARE 实际上是 0.864(beta(2,2))的情况下的行为。