当我们比较控制变量的组时,我们应该使用等价检验吗?

机器算法验证 等价 控制变量
2022-03-02 07:43:20

在许多考虑治疗和结果的论文中,我看到了可能被称为有害变量(通常是人口统计,有时是医疗状况)的表格(通常是“表 1”),其中包含显着性检验和文本,例如“各组大致相似,有XXXXX 无显着差异,见表”。因此,明确的目标是表明分配到不同治疗方法的组是相似的。

然而,在我看来,这可能是“接受空值”,我们应该做(或要求做)是对等价的测试。

这可能适用于随机试验或观察性研究。我在这里错过了什么吗?

1个回答

这是一个复杂的问题,它引入了许多相关问题:1) 明确指定假设,2) 了解什么因果机制(可能)构成假设效应的基础,以及 3) 呈现的选择/风格。

你是对的,如果我们应用合理的统计实践,声称“组相似的”,就必须进行等效性检验。但是,等效性检验与 NHST 对应物存在相同的问题:功效只是样本量和比较次数的反映:我们预计会存在差异,但它们对主要分析的程度和影响要重要得多。

当遇到这些情况时,基线比较几乎总是红鲱鱼。可以应用更好的方法(科学和统计)。在回答此类问题时,我会考虑一些股票概念/回复。

“总计”列比按处理拆分的列更重要;有必要对这些价值观进行讨论。

在临床试验中,通常分析安全样本。这是首先接触、然后同意、然后随机化并最终暴露于至少一次控制或治疗迭代的那些人的子集。在这个过程中,我们面临不同程度的参与偏见。

这些研究中最重要和最被忽略的方面可能是汇总表 1 的结果这实现了表 1 的最重要目的:向其他研究人员展示研究样本对结果适用的更广泛人群的推广程度。

当完全无视纳入/排除标准和样本的普遍性时,我发现令人惊讶的是,研究人员、读者和审稿人如何专注于患者特征内的切线趋势。

我很惭愧地说我是一名分析师,在一项忽视了这个问题的试验中。我们招募了患者,然后,由于后勤问题,我们等了将近一年才实施干预。结合图不仅显示了这些时期之间的巨大下降,而且样本发生了变化。结果很大程度上是失业/就业不足,比我们打算接触的人更老、更健康。我对这项研究的普遍性深表担忧,但很难游说让人们知道这些担忧。

用于检测基线特征不平衡的测试的功效和 I 类错误取决于特征的实际数量

如前所述,提供如此详细的基线变量列表的目的是提供样本的完整快照;他们的病史、实验室、药物和人口统计数据。这些都是临床医生用来向患者推荐治疗的所有方面。他们都被认为可以预测结果。但这些因素的数量是惊人的。可以比较多达 30 个不同的变量。I 类错误的粗略风险是 1-(1-0.05)^30 = 0.79。如果必须进行测试,建议使用 Bonferroni 或置换校正。

最纯粹形式的统计测试意味着是公正的,并且应该是预先指定的。然而,基线特征的选择和呈现通常是相对的。我觉得后一种方法是合适的:如果我们发现,就像在我的试验中一样,有一些有趣的特征可以有效地描述样本,我们应该可以自由选择临时呈现这些值。如果它具有任何价值,则可以进行测试,但通常需要注意:它们不是感兴趣的假设,对于显着和非显着结果意味着什么存在混淆的高风险,并且结果更多地反映了样本量和演示文稿的考虑比任何事实。

可以进行再随机化,但只能在患者接受治疗之前进行

正如我所提到的,分析的样本通常是安全样本。然而,对于尚未接受研究治疗的患者,重新随机化是一种大力提倡且理论上一致的方法。这仅适用于执行批量注册的设置。在这里,招募并随机分配了 100 名参与者。例如,如果概率将高比例的老年人分配到一组,那么可以重新随机化样本以平衡年龄。这不能通过顺序或交错登记来完成,这是进行大多数试验的环境。这是因为登记时间倾向于通过普遍的病例“偏见”(混淆事件和普遍的资格标准)来预测患者状态。

平衡设计不是有效推理的必要条件

随机化假设表明,理论上,所有参与者的协变量平均分布均等。但是,如前所述,在比较 30 个或更多级别时,不平衡的累积概率是不可忽略的。事实上,在考虑整体时,协变量的不平衡可能是无关紧要的。

如果随机化是公平的,我们可能会看到治疗组的年龄有所增加,但对照组的吸烟量有所增加:这两者都单独增加了结果的风险。有效和有效的推理所需要的是倾向得分在组之间是平衡的。这是一个弱得多的条件。不幸的是,如果没有风险模型,就无法检查倾向是否平衡。然而,很容易看出这种倾向取决于协变量的组合,尽管无法准确显示,但随机样本中倾向不平衡的可能性要小得多。

如果已知风险模型或存在强有力的结果预测因子,则只需调整这些因素即可完成更有效和有效的 RCT,无论它们是否在治疗组之间保持平衡

我最喜欢的一篇论文《随机对照试验的 7 个神话》讨论了这一点。当调整变量对结果有很强的预测作用时,调整会提高效率。事实证明,即使有完美的 50/50 平衡,例如使用阻塞随机化,或者甚至作为随机化执行方式的巧合,调整也会缩小 CI,需要更少的参与者进行同等效力的研究;这降低了成本和风险。令人震惊的是,这样做的频率并不高。

无论表 1 显示什么,观察性研究都需要控制混杂因素

随机化假设消除了混淆。对于非随机治疗,存在混杂。混杂因素是一个变量,它是结果的原因并预测准实验治疗的接受。没有测试可以确定哪些变量是/是混杂因素。窥视数据以回答这些问题的风险在于,如果没有完全完美的纵向值测量(即使那样......),混杂因素实际上与调解者或碰撞者无法区分。调整中介会减弱任何影响,对撞机调整会导致任何类型的偏差。此外,无需针对一组混杂因素进行调整,而是必须删除后门标准。

例如,在一项关于青少年肺功能和吸烟的研究中:年龄较大的孩子更有可能吸烟,但由于他们更高,他们的肺功能更强。事实证明,仅对高度进行调整就足以消除混淆,因为它满足后门标准。进一步调整年龄只会降低效率。然而,仅在吸烟者和非吸烟者中检查表 1 的“平衡”会表明年龄和身高都是“不平衡的”,因此应该加以控制。这是不正确的。