为什么 Stouffer 的方法有效?

机器算法验证 p 值 荟萃分析 组合 p 值 z 统计量
2022-03-27 18:27:14

这似乎是一个相当简单的问题,但当我真正考虑它时,Stouffer 的方法对我来说没有意义。这就是为什么:

假设一个双尾假设。你先计算zip-价值观。所以让我们举一个相当简单的例子。我们来两张p-值0.05. 这意味着z1z2都是1.96. 根据斯托弗的方法,z1z2组合成这样:

Z=i=1kZik=1.96+1.962=2.77

z-score 然后被转换为p-value 再次,导致p-的价值0.005,而p- 来自每个的值zi分别是关于0.05.

从这个意义上说,似乎 Stouffer 的检验人为地改变了结果p-值与不相似的值p-每个值zi,这对我来说没有意义。

我误解了这个测试还是有人可以帮助我理解它是如何/为什么起作用的?

4个回答

更高的总体样本量会导致更高的功效,从而导致更小的 p 值(至少在工作假设得到数据支持的情况下)。

这通常是任何元分析的要点:支持一个假设的多个弱证据被结合到支持它的有力证据中。

为简单起见,请考虑对手段的测试。假设在 H0 下治疗效果为零,因此每个 z 值都是治疗效果 θi 的加权估计。Stouffer 方法给出了这些处理效果的未加权平均值,因此将给出比每个单独的 z 值更精确的估计(因此 p 值更小)。这种治疗效果的未加权估计是有偏的,但加权 Stouffer 方法是可能的,并且如果权重与 1/标准误差 (θi) 成比例,则治疗效果估计是无偏的。但是,这仅在单独的 z 值是相同数量的度量时才有意义。Stouffer 和 Fisher 方法的一个优点是它们也可以应用于选择了不同响应变量的荟萃分析——因此它们可以

从荟萃分析的角度考虑:如果没有效果(H0),p值将平均分布在 0 和 1 之间。所以如果你得到p<0.1在超过 10% 的所有单一分析(可能很多)中,这可以得出以下结论:H0可能应该被拒绝。

我什至没有看到双尾测试的问题:在这种情况下,结果应解释为:真实均值不太可能为 0(在 0 附近的高斯示例中),但我无法判断(从前一个或组合p值),如果真正的平均值高于或低于它。

我认为结合 2 尾结果会很好,因为这意味着结果将为零(如果有证据表明治疗会增强 [右尾] 患者的疾病,但也有证据表明它会恶化 [左-tail],最终结果不是针对特定假设的证据,因为它们相互抵消并且需要更多的观察。