如果我有许多积极的、微不足道的结果,我是否可以测试“至少nn这些结果是积极的”?

机器算法验证 假设检验 多重比较
2022-03-07 11:08:43

假设我分别对 100 个不同的人进行了相同的回归。我感兴趣的系数是正的(并且彼此完全不同),但在所有 100 个结果中都没有统计学意义(假设每个 p 值 = 0.11)。

有没有办法将这些 p 值结合起来,以得出比 p=0.11 更重要的“这些结果中至少有 80 个是阳性”的结论?我的在线搜索仅向我展示了如何通过 Fisher 或类似测试说“这些结果中至少有 1 个是阳性的”,但我无法概括该结果。我想测试“H0 = 所有 100 个效果在 0 时都相同”与“HA = 至少 80 个效果为正”。

我的目标不是说平均有一个正系数,也不是专门衡量这个系数。我的目标是显着地证明,无论是哪 80 个人,以及每个人感受到的影响程度如何,至少有 80 个人都面临着一些积极的影响。

4个回答

您应该将所有 100 个分析作为单个混合效应模型执行,并使用您感兴趣的随机变量本身的系数。这样你就可以估计这些系数的分布,包括它们的整体平均值,这会给你我认为你正在寻找的那种解释。

请注意,如果我怀疑是这种情况,您对每个人都有一个时间序列,您还需要校正残差的自相关。

简单的事情可能是符号测试。零假设是每个结果具有相同的正面或负面概率(如掷硬币)。您的目标是确定在此零假设下观察到的结果是否不太可能足以拒绝它。

一枚公平的硬币在 100 次翻转中出现 80 个或更多正面的概率是多少?您可以使用二项分布来计算它。R中,调用了相关函数pbinom,您可以使用以下代码行获得(单面)p 值:

pbinom(80, size = 100, prob = 0.5, lower.tail = FALSE)

根据这个测试,您的直觉是正确的,如果治疗无效,您将极不可能偶然得到 80 个阳性结果。

一个密切相关的选项是使用类似Wilcoxon 符号秩检验的方法。


如果您真的想估计效果的大小(而不是仅仅确定它是否趋向于大于零),更好的方法可能是分层(“混合”)模型

在这里,模型说您的 100 个人的结果来自一个分布,您的目标是查看该分布的均值在哪里(以及置信区间)。

混合模型可以让您更多地说明您的效果大小:在拟合模型后,您可以说“我们估计我们的治疗倾向于将结果平均提高三个单位,尽管数据与真实平均值一致效果大小在 1.5 到 4.5 单位之间。此外,个体之间存在一些差异,因此给定的人可能会看到从 -0.5 到 +6.5 单位的效果”。

这是一组非常精确和有用的陈述——比“平均而言,效果可能是积极的”要好得多,这就是为什么这种方法往往受到统计学家的青睐。但是,如果您不需要所有这些细节,那么我提到的第一种方法也可以。

也许我完全错了,但在我看来,您正在尝试进行重复测量方差分析。只需将此“虚拟”定义为主体内因素,其余的由模型完成。意义本身的信息量不是很大;它是必需的,但还不够;如果有足够多的观察,任何模型都会变得很重要。您可能想要获得效果大小,例如(部分)Eta-Squared,以了解您的效果有多大。我的 2 美分。

It might be as simple as an ordinary ANCOVA calculation, but the appropriate way to analyze your data would depend on the physical situation and you haven't supplied those details.