机器算法验证 - 错误零假设的经验拒绝率 - 它是“检验的力量”吗？ - 吾爱随笔录

错误零假设的经验拒绝率 - 它是“检验的力量”吗？

机器算法验证假设检验 t检验统计能力

2022-03-20 16:36:57

我想这是基本的，但它构成了我统计教育中漏洞的一部分。
我所知道的是，假设检验的力量不是固定的大小，而是各种因素的函数（显着性水平，备择假设与原假设的距离......）。假设这是正确的：

我们进行蒙特卡罗研究，并考虑对未知参数进行统计显着性的双尾 t 检验 - 所以零假设是该参数为零，替代方案是它不为零。

使用非零参数生成数据。所以我们的零是一个错误的假设。对于给定的显着性水平，我们观察到测试在 XX% 的执行次数中拒绝了假空值。这看起来像是一个经验测量的“测试的力量”——但它只是一个数字，而不是一个函数。当然，给出了样本大小，给出了生成的样本数，给出了显着性水平。我想，改变其中任何一个都会给我们不同的经验拒绝率（以及这些因素的经验确定的幂函数范围）——但是替代假设在哪里以及如何出现？它不应该也共同决定“测试的力量”吗？

一般来说，如何解释统计显着性双尾检验对错误零假设的经验拒绝率？

2个回答

研究功率属性的常用方法是通过功率曲线（或者有时是功率表面，如果我们想研究同时改变两件事的响应）。

在这些曲线上，y 变量是拒绝率，x 值具有我们正在改变的事物的特定值。

最常见的功效曲线类型是我们在改变作为检验对象的参数时产生的曲线（例如，在均值检验中，真实均值从假设值发生变化）。以下是一组特定条件下双样本 t 检验的功效曲线示例：

$\hspace{1cm}$ 在此处输入图像描述

（那个不是凭经验生成的，而是通过调用函数生成的）

这是 4 对正常观察值的配对 t 检验（曲线）和符号秩检验（点）的功效比较（实际上是双面的，但左半部分未显示，因为它是右半部分的镜像）：
在此处输入图像描述

t 检验是在有符号秩检验的确切显着性水平上进行的（因为它只能取几个显着性水平）。

这是正态性检验中用于功率比较的一对（单边）功率曲线，其中备选方案是伽马分布的（在适当的标准化下，包括作为极限情况的正态）：

在此处输入图像描述

（这个基本上是按照你描述的方式凭经验生成的）

正如您所建议的那样，在替代方案的某个指定值下，您可以计算功率，然后随着您的变化，您获得一个随您更改的参数而变化的函数，给出功率曲线（或更严格地说是拒绝率曲线，因为在 null 处不是功率，而是显着性水平）。

在我的各种答案中，我已经生成了很多这样的曲线。请参阅此处查看另一个比较“代数”计算（/函数调用）和经验计算（即模拟）的功率的示例。

关于经验力量的一些一般性建议：

1) 由于这些是经验拒绝率（即二项式比例），我们可以计算标准误、置信区间等。所以你知道它们有多准确。如果我可以抽出时间，我通常会模拟足够多的样本，因此标准误差大约是图像中的一个像素（甚至更少），至少如果它不是一个大图像（如果你正在做矢量图形，想想可能是情节高度尺寸的半个百分点左右）。

2) 功率曲线通常是平滑的。非常顺利。因此，我们可以通过一些聪明的做法来避免计算大量值的功率（实际上我们可以利用这一事实来减少每个点所需的模拟次数）。我要做的一件事是对将“拉直”功率曲线的功率进行变换，至少当我们远离 0 时（逆法线 cdf 通常是一个不错的选择），进行三次样条平滑，然后变换回来（请注意在您的拒绝率恰好为 0 或 1 的任何地方这样做；您可能希望不理会这些）。如果你做得好，你应该能够以10-20分左右的成绩逃脱。

如果您已经进行了如此多的模拟，那么您的点对像素是精确的，在转换为近似局部线性之后，线性插值通常就足够了，并且在您转换回来后会产生平滑、高度准确的曲线。如果有疑问，请产生更多的点并查看曲线是否通常在这些模拟值的几个标准误差内（因为如果这些标准误差仅在一个像素的数量级上，您实际上看不到差异。 ..所以这可能引入的微小偏见真的无关紧要）。

您还可以利用明显的对称性等。（在上面的 t 检验与有符号秩检验功效曲线中，我们利用了对内相关性之间的关系（ $\rho$ ) 和差的标准误差，以给出不同的 x 轴（图上方和下方），然后具有相同的功率曲线）。

有时需要稍微摆弄一下才能做到这一点，但是您应该通过这种平滑获得非常平滑、更准确的功率估计。（另一方面，有时只是为了做更多的点而更快 - 但无论如何我很少会做超过 30 点，因为眼睛很高兴地填满了其余的点。）

3）由于我们在做蒙特卡洛模拟，我们可以利用各种方差减少技术（尽管记住对计算标准误差的影响；最坏的情况是，如果你不能再计算它，未减少的方差将是一个上限边界）。例如，我们可以使用控制变量——我在比较非参数检验与 t 检验的功效时所做的一件事是计算两个检验的经验率，然后使用 t 检验的功效误差来帮助减少另一个测试中的错误（再次，稍微平滑结果）......但如果你在正确的规模上做它会更好。也可以使用许多其他的方差减少技术。（如果我没记错的话，我可能在上面的单样本 t 与有符号秩检验比较中使用了转换尺度上的控制变量。）

但通常简单的蛮力就足够了，而且只需要很少的脑力劳动。如果在完整模拟运行时只需要喝杯咖啡，不妨放手。（花半小时进行一些巧妙的计算来节省 15 分钟的半小时运行时间是没有意义的。）

首先，您的描述中缺少功率计算的关键部分：您从中模拟数据的“非零参数”。功率也取决于此参数。

功效/样本量计算有 4 个部分。样本量 $n$ ，动力 $\beta$ , 显着性水平 $\alpha$ , 真正的基础参数 $\mu_a$ . 通常，您将修复 4 个参数中的 3 个并计算另一个。

在功率计算中，您计算 $\beta$ 从给定的一组 $n,\alpha,\mu_a$ . 在样本量计算中，您计算 $n$ 从给定的一组 $\alpha,\mu_a,\beta$ . 在您的统计分析计划中，您需要生成一个表格来报告 $\beta$ 或者 $n$ 对于一系列其他参数。

通常，您的 $\alpha$ 根据文献，固定为 0.05 或 0.1。 $\mu_a$ 当然是未知的，需要由非统计学家指定。例如，假设您想测试一种药物是否可以有效降低患癌症的机会。医学调查员应该能够大致告诉您这种药物的效果如何，例如如果不超过 15%，可以减少 5% 到 10% 的癌症。这就是你拿起的方式 $\mu_a$ 以及替代假设如何发挥作用。

最后，将替代假设的经验拒绝率报告为功效是有效的。当没有封闭式公式来计算估计值和置信区间时，就会发生这种情况。例如，在非随机研究中，您希望使用回归估计药物效果，但必须针对 5 个协变量进行调整。在这种情况下，进行模拟研究比计算数学更容易。

彼得

其它你可能感兴趣的问题

上一篇集群稳健标准误差小于具有集群固定效应的 fgls 中的非集群标准误差下一篇使用结构方程建模方法的配对样本 t 检验