将百分比变化建模为连续变量是否正确?

机器算法验证 混合模式 重复测量 百分比
2022-03-14 14:09:56

我有来自一项纵向研究的数据,其中有 46 名受试者,随着时间的推移,每个受试者在给定的结果测量中都有 13 次观察。对该数据进行的先前分析对百分比变化执行了线性混合模型(治疗、基线值、时间和治疗*时间是模型中的独立变量)。我想知道使用原始变化作为结果变量是否更正确,特别是因为基线值无论如何都在模型中得到控制。

2个回答

这是否是最佳方法取决于您的数据是什么样的,以及为什么使用百分比变化。例如,百分比变化对于外行来说相当容易理解,因此当它是目标受众时,它有时是首选。但是,将基线作为协变量包含在内会使该百分比的表述方式有些复杂,因为预期的变化将取决于初始值。

当然,要使用百分比变化,数据必须在 0 表示 0 的范围内。也就是说,0 必须表示没有疾病或类似情况。

我认为这篇文章很好地总结了与建模百分比变化相关的一些问题:http: //allenfleishmanbiostatistics.com/Articles/2012/06/18-percentage-change-from-baseline-great-or-poor/

在所有情况下,以基线为协变量的协方差分析 (ANCOVA) 是最有效的统计方法。“当基线和治疗后评分之间的相关性很高时,分析相对于基线的变化具有可接受的功效;当相关性较低时,POST [即仅分析后分数并忽略基线 - AIF] 具有合理的效力。分数 [即,相对于基线的百分比变化 - AIF] 在所有相关性中的统计效率最差。”

[注意:在 ANCOVA 中,当基线是 ANCOVA 中的协变量时,可以分析从基线或治疗后分数的变化,因为 dv“变化”或“后”将给出相同的 p 值。]

作为他的结果的一个例子,当基线和职位之间的相关性较低(即 0.20)时,百分比变化仅在 45% 的时间内具有统计学意义。接下来更糟糕的是,与基线相比发生了 51% 的显着变化。接近顶部的是仅分析 70% 显着结果的帖子得分。最好的是 ANCOVA,有 72% 的显着结果。

此外,相对于基线的百分比变化“对基线分布的特征很敏感”。当基线具有相对较大的可变性时,他观察到“功率下降”。

还有一个潜在的问题:当分母接近 0 时,该比率会爆炸,这会在建模时产生明显的问题。

最好的方法是将最终得分建模为您列出的自变量加上基线得分的函数,如下所示:

最终 ~ 基线 + 治疗 + 时间 + 治疗*时间

有几个重要的考虑因素:

  1. 您不应该对变化百分比(最终基线/基线)建模并将基线作为预测变量,因为这些变量在结构上是相关的。更糟糕的可能是使用基线作为预测变量对原始变化(最终 - 基线)进行建模。随着基线的变化,您期望因变量在两种情况下都会发生变化,其他一切都相同。结论:如果您使用百分比或原始变化,请不要将基线作为预测变量。

  2. 将百分比建模为连续变量是一种垂死的方法,因为这些变量通常不是正态分布的,因为它们被限制在 0 和 1 处,另请参阅 TiffTiff 的最后评论。反正弦平方根(又名角)变换传统上被用来解决这个问题,但由于高度的条件效率(即,它通常不能很好地工作),它也逐渐失宠。

  3. 对原始变化进行建模,即使基线不包含在预测变量中,也不是理想的,因为您本质上将基线和最终之间的关系限制为 1:1。基本代数看看为什么:

这是原始更改模型:

final - baseline ~ treatment

更准确地说,

1*final - 1*baseline ~ b0 + b1*treatment + error

其中 b0 和 b1 是要估计的参数。如果你重新排列,你会得到:

1*final ~ b0 + 1*baseline + b1*treatment + error

因此,描述基线和最终之间关系的参数设置为 1.0。

相反,如果您像这样建模:

final ~ baseline + treatment

更准确地说

1*final ~ b0 + b1*baseline + b2*treatment + error

如果基线和最终结果之间确实不存在 1:1 的关系,则参数估计值 b1 将大于或小于 1。如果结果 b1 ≠ 1,那么您将比如果您使用了原始更改,还获得了有关基线和最终之间关系的信息。另一方面,如果 b1 = 1,那么你应该有更少的权力,因为你正在使用更多的自由度。

至于报告这些统计数据,我理解您为什么要说“应用治疗时分数之间的差异增加了”:您想要控制基线。但这正是最终的~基线+治疗模型所做的,而且做得更好。您可以说“在控制基线得分的情况下,治疗得分更高”。