RCT 的基线差异:哪些变量(如果有)应作为协变量包括在内?

机器算法验证 混合模式 安乔娃
2022-03-24 18:37:07

我最近完成了一项研究,我将参与者随机分配到两个治疗组中的一个。我在基线、干预后、1 个月和 4 个月对参与者进行了一些测试,其中包含大量的结果变量。我计划运行几个混合方差分析来检查组 x 时间的交互。一些比较将是 2(组)x 2(时间:基线和干预后)比较,一些将是 2(组)x 3(时间:基线、1 个月、4 个月)比较。

在开始我的分析之前,我比较了两个治疗组的所有基线变量。如果我使用 0.05 的 alpha 水平或 2 个基线变量,如果我使用 0.01 的 alpha 水平来比较组,我发现这些组在 4 个基线变量上有所不同。

我对此有两个问题:

  1. 我应该使用什么 alpha 级别来比较基线组?我在考虑 0.01 的 alpha 水平,因为我正在比较两组的 24 个基线特征,我认为我应该选择比 0.05 更严格的 alpha 水平,以减少家庭方面的错误率,因为大量测试正在执行,但从我的读数看来,大多数人使用 0.05。你有什么建议吗?

  2. 我该如何处理这些差异?我可以将这些变量作为协变量包括在内,但我的样本量非常小,使用 4 个协变量似乎不合适(这也是我倾向于只接受在 .05 水平上显着的差异的部分原因)

对此的任何帮助将不胜感激!

3个回答

正如 Stephen Senn 所写,在随机研究中比较基线分布是不合适的。我喜欢谈论这个问题的方式是问“你在哪里停下来?”,即,你应该回去尝试检索多少其他基线协变量?如果你足够努力,你会发现平衡的协变量。

选择模型的基础不是事后差异,而是关于哪些变量可能是响应变量的重要预测因子的先验主题知识。响应变量的基线版本当然是一个主要的预测变量,但还有其他变量可能很重要。目标是解释结果中可解释的异质性,以最大限度地提高精度和功效。在模型制定中几乎没有统计显着性检验的作用。

预先指定的模型将处理重要变量(预测结果的变量)的机会差异。

通常,在比较两组基线时,您应该关心的不是差异的统计显着性,而是差异的大小:这些差异中的任何一个是否大到足以对研究产生影响?大到足以影响作为研究重点的组比较和变量关系?足够大以至于需要对其进行调整(通过将其用作协变量)?

现在,您的案例有点有趣,即使使用随机分配,24 个变量中有 4 个变量在 0.05 水平上显示出显着差异(17% 而不是预期的 5%)。这似乎与您的随机化过程或研究的其他方面有关。但从理论上讲,如果随机化进行得完美无缺,并且之后任何一组都没有减员,那么这种极端或更多的结果应该有 2.4% 的时间发生,基于 24!/(4!(24-4)!)( .05^4) (.95^(24-4))。毕竟,这种情况并不罕见。你所拥有的很可能是一组随机差异。我会坚持根据差异的大小来判断。

+1 @FrankHarrell。我可能会补充一点。如果您将参与者随机分配到组中,则干预前协变量值的任何“显着”差异都必然是 I 型错误。