t 检验 p 值与随机推断 p 值:我们可以从比较中学到什么?

机器算法验证 假设检验 统计学意义 p 值 置换检验
2022-04-11 10:58:35

我们如何解释t检验p值和随机推断p值之间的差异?

假设我们有一个二元处理的随机实验,如果单元分配给处理,Zi=1iYi

我们要测试治疗效果。

我们检验了没有效果的尖锐零假设和没有平均效果的零假设。

定义 : 无效果的尖锐零假设H0,sharp 所有受试者的治疗效果为零。形式上,对于所有Yi(1)=Yi(0)i

定义:没有平均效应的零假设(有时称为弱零假设H0,weak 平均治疗效应为零。形式上,μY(1)=μY(0)

我们使用随机推理 (RI) ,并使用tH0,sharpH0,weak

如果我们运行这两个测试并得到不同的答案,那么解释t检验p值和 RI p值之间差异的有用方法是什么?

严格来说,这两个程序测试不同的假设,并且无法进行有意义的比较,但这不是很有用,并且不会满足想要了解您的结果为何看起来的非专家(对您的研究有实质性而非技术兴趣的人)使用 RI 或t检验时有所不同。此外,这两个测试是回答相同实质性问题的替代方法,“有治疗效果吗?” 我们应该有一个指导方针来思考对同一个实质性问题的不同答案。

一个好的答案应该对差异进行足够广泛的讨论,以涵盖 p 值的差异,这将导致我们得出不同的统计结论(例如,一个测试 p<0.05 和另一个 p>0.05)以及那些会导致得出相同结论的结论来自两个测试(例如,两个测试 p<0.05 或两个测试 p>0.05)。


RI注意事项

对于那些不熟悉 RI 的人:RI p 值的计算方法是,首先,计算所有(或许多)治疗分配中的检验统计量分布,称为零分布或随机分布。RI p 值表示大于我们观察到的检验统计量的随机分布的比例。这里有更多讨论,特别是第 5 页。

我们可以通过计算所有可能的置换治疗分配向量的检验统计量(计算精确的 RI p值)或使用大量置换治疗分配向量的样本(计算渐近的 RI p值)来进行 RI。正如Gerber 和 Green (2012)所写,“无论是使用所有可能的随机化还是其中的大样本,基于可能随机化清单的p值计算称为随机化推断

2个回答

我认为您对随机化推理零假设的陈述是不正确的。或者至少,您混淆了两种检验假设的方法与两种不同的假设。随机化测试又名排列测试考虑在治疗/对照受试者之间随机交换“标签”时获得的测试统计数据的精确或近似分布。这可用于通过计算每个置换数据集的 t 检验统计量并评估这些超过未置换数据集中获得的比例的比例来测试没有平均治疗效果的弱零假设。

在这篇工作文章中,他们构建了治疗效果变化的假设作为平均治疗效果被认为是令人讨厌的参数的同质性之一:基本上“我不在乎这种药物是否有效,我只是想知道它在某些人中的作用是否与在其他人中的作用不同。” 第一个假设的效果,通常使用平行设计分析进行测试,称为平均治疗效果(ATE),第二个假设在这里被称为治疗效果变异(TEV)。在没有已知效果修饰符的情况下,TEV 的测试类似于效果修饰测试,并且类似于亚组分析。对 TEV 使用随机化测试是一种新颖且有趣的方法,值得深入阅读这篇文章,以了解他们如何准确地制定这样的测试。

总结一下这两个假设在表中是如何一致或不一致的:2×2

案例 1:ATE 没有 TEV:该药物有效,并且无论如何它对每个人都有相同的潜在结果。解决方案:如果有害不推荐,建议批准/使用前考虑效果大小。

案例 2:没有 ATE 没有 TEV:该药物对任何人都不起作用。解决方案:得出结论药物相对于护理标准是徒劳的。

案例 3:没有 ATE,TEV:药物在个体中的作用是人为的,使得某些人的危害和其他人的益处完全平衡。解决方案:确定危害/益处亚组的指标/禁忌症,如果预测的益处具有临床意义,则进行后续研究。

案例 4:ATE、TEV:药物显示出一些平均效果,但这种效果在每个人中并不相同。解决方案:如果有危害组,则确定禁忌症,预测剩余组的益处,如果有临床意义,则进行后续研究。

我发现这个关于 t 检验 p 值和 RI p 值之间差异的讨论很有帮助,它说明了我在上面提出的问题。

作者:Don Green 来源:https ://egap.org/resource/10-things-to-know-about-randomization-inference/

当观察数较少且结果分布非正态时,随机化推断可能会给出与传统测试不同的 p 值

传统的 p 值通常依赖于假设结果是正态分布的近似值,或者主题池足够大以使检验统计量遵循假定的抽样分布。当结果高度偏差时,例如捐赠(少数人捐赠大笔款项,但绝大多数人什么都不捐赠),传统方法可能会产生不准确的 p 值。Gerber 和 Green,Field Experiments,(2012 年,第 65 页)给出了以下示例,其中随机化推断和常规测试统计产生不同的结果:

Gerber 和 Green,现场实验,第 65 页