在此处和其他地方的答案中显示,2 个随机变量的差异将与基线相关。因此基线不应该是回归方程变化的预测因子。可以用下面的R代码检查:
> N=200
> x1 <- rnorm(N, 50, 10)
> x2 <- rnorm(N, 50, 10)
> change = x2 - x1
> summary(lm(change ~ x1))
Call:
lm(formula = change ~ x1)
Residuals:
Min 1Q Median 3Q Max
-28.3658 -8.5504 -0.3778 7.9728 27.5865
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 50.78524 3.67257 13.83 <0.0000000000000002 ***
x1 -1.03594 0.07241 -14.31 <0.0000000000000002 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 10.93 on 198 degrees of freedom
Multiple R-squared: 0.5083, Adjusted R-squared: 0.5058
F-statistic: 204.7 on 1 and 198 DF, p-value: < 0.00000000000000022
x1(基线)和变化之间的图显示了反比关系:
然而,在许多研究(尤其是生物医学)中,基线作为协变量而变化作为结果。这是因为直觉上认为有效干预带来的变化可能与基线水平相关,也可能不相关。因此,它们保留在回归方程中。
在这方面我有以下问题:
是否有任何数学证据表明变化(随机的或由有效干预引起的)总是与基线相关?它仅在某些情况下发生还是普遍现象?数据分布与此有关吗?
此外,保持基线作为变化的一个预测因子会影响其他与基线没有任何交互作用的预测因子的结果吗?例如在回归方程中:
change ~ baseline + age + gender
。在此分析中年龄和性别的结果是否无效?如果有生物学原因认为变化可能与基线直接相关(在生物系统中很常见),是否有任何方法可以纠正这种影响?
感谢您的洞察力。
编辑:自从讨论响应以来,我可能应该将 x1 和 x2 标记为 y1 和 y2。
关于这个主题的一些链接: