与一个样本相比, Klotz研究了带符号秩检验的小样本功效t在正常情况下。
[Klotz, J. (1963) “单样本 Wilcoxon 和正态分数测试的小样本功效和效率”数理统计年鉴,卷。34,第 2 期,第 624-632 页]
在n=10和α靠近0.1(精确的αs 当然是无法实现的,除非你走随机化路线,大多数人在使用时避免使用,我认为是有道理的)相对效率t在正常情况下往往非常接近那里的 ARE(0.955),尽管接近程度取决于(它随平均偏移而变化,并且在较小的α,效率会更低)。在样本量小于 10 的情况下,效率通常(略)高一些。
在n=5和n=6(两者都与α接近 0.05),效率在 0.97 左右或更高。
所以,从广义上讲......正常情况下的 ARE 低估了小样本情况下的相对效率,只要α不小。我相信对于双尾测试n=4你能做到的最小的α为 0.125。在那个确切的显着性水平和样本量下,我认为相对效率t在功率感兴趣的区域,将同样高(可能仍在 0.97-0.98 或更高)。
我可能应该回来谈谈如何进行模拟,这相对简单。
编辑:
我刚刚做了一个 0.125 级别的模拟(因为在这个样本量下可以实现);看起来 - 在平均值的一系列差异中,典型的效率有点低,因为n=4, 更多在 0.95-0.97 左右 - 类似于渐近值。
更新
这是正常样本中 t 检验(由 计算)的功效(2 边)图power.t.test
,以及 Wilcoxon 符号秩检验的模拟功效 - 每点 40000 次模拟,以 t 检验作为控制变量。点位置的不确定性小于一个像素:

为了使这个答案更完整,我实际上应该看看 ARE 实际上是 0.864(beta(2,2))的情况下的行为。