研究功率属性的常用方法是通过功率曲线(或者有时是功率表面,如果我们想研究同时改变两件事的响应)。
在这些曲线上,y 变量是拒绝率,x 值具有我们正在改变的事物的特定值。
最常见的功效曲线类型是我们在改变作为检验对象的参数时产生的曲线(例如,在均值检验中,真实均值从假设值发生变化)。以下是一组特定条件下双样本 t 检验的功效曲线示例:

(那个不是凭经验生成的,而是通过调用函数生成的)
这是 4 对正常观察值的配对 t 检验(曲线)和符号秩检验(点)的功效比较(实际上是双面的,但左半部分未显示,因为它是右半部分的镜像) :

t 检验是在有符号秩检验的确切显着性水平上进行的(因为它只能取几个显着性水平)。
这是正态性检验中用于功率比较的一对(单边)功率曲线,其中备选方案是伽马分布的(在适当的标准化下,包括作为极限情况的正态):

(这个基本上是按照你描述的方式凭经验生成的)
正如您所建议的那样,在替代方案的某个指定值下,您可以计算功率,然后随着您的变化,您获得一个随您更改的参数而变化的函数,给出功率曲线(或更严格地说是拒绝率曲线,因为在 null 处不是功率,而是显着性水平)。
在我的各种答案中,我已经生成了很多这样的曲线。请参阅此处查看另一个比较“代数”计算(/函数调用)和经验计算(即模拟)的功率的示例。
关于经验力量的一些一般性建议:
1) 由于这些是经验拒绝率(即二项式比例),我们可以计算标准误、置信区间等。所以你知道它们有多准确。如果我可以抽出时间,我通常会模拟足够多的样本,因此标准误差大约是图像中的一个像素(甚至更少),至少如果它不是一个大图像(如果你正在做矢量图形,想想可能是情节高度尺寸的半个百分点左右)。
2) 功率曲线通常是平滑的。非常顺利。因此,我们可以通过一些聪明的做法来避免计算大量值的功率(实际上我们可以利用这一事实来减少每个点所需的模拟次数)。我要做的一件事是对将“拉直”功率曲线的功率进行变换,至少当我们远离 0 时(逆法线 cdf 通常是一个不错的选择),进行三次样条平滑,然后变换回来(请注意在您的拒绝率恰好为 0 或 1 的任何地方这样做;您可能希望不理会这些)。如果你做得好,你应该能够以10-20分左右的成绩逃脱。
如果您已经进行了如此多的模拟,那么您的点对像素是精确的,在转换为近似局部线性之后,线性插值通常就足够了,并且在您转换回来后会产生平滑、高度准确的曲线。如果有疑问,请产生更多的点并查看曲线是否通常在这些模拟值的几个标准误差内(因为如果这些标准误差仅在一个像素的数量级上,您实际上看不到差异。 ..所以这可能引入的微小偏见真的无关紧要)。
您还可以利用明显的对称性等。(在上面的 t 检验与有符号秩检验功效曲线中,我们利用了对内相关性之间的关系(ρ) 和差的标准误差,以给出不同的 x 轴(图上方和下方),然后具有相同的功率曲线)。
有时需要稍微摆弄一下才能做到这一点,但是您应该通过这种平滑获得非常平滑、更准确的功率估计。(另一方面,有时只是为了做更多的点而更快 - 但无论如何我很少会做超过 30 点,因为眼睛很高兴地填满了其余的点。)
3)由于我们在做蒙特卡洛模拟,我们可以利用各种方差减少技术(尽管记住对计算标准误差的影响;最坏的情况是,如果你不能再计算它,未减少的方差将是一个上限边界)。例如,我们可以使用控制变量——我在比较非参数检验与 t 检验的功效时所做的一件事是计算两个检验的经验率,然后使用 t 检验的功效误差来帮助减少另一个测试中的错误(再次,稍微平滑结果)......但如果你在正确的规模上做它会更好。也可以使用许多其他的方差减少技术。(如果我没记错的话,我可能在上面的单样本 t 与有符号秩检验比较中使用了转换尺度上的控制变量。)
但通常简单的蛮力就足够了,而且只需要很少的脑力劳动。如果在完整模拟运行时只需要喝杯咖啡,不妨放手。(花半小时进行一些巧妙的计算来节省 15 分钟的半小时运行时间是没有意义的。)