是否有数学证据证明变化与基线值相关

机器算法验证 r 回归 相关性 变化分数 基线
2022-03-22 04:34:31

在此处和其他地方的答案中显示,2 个随机变量的差异将与基线相关。因此基线不应该是回归方程变化的预测因子。可以用下面的R代码检查:

> N=200
> x1 <- rnorm(N, 50, 10)
> x2 <- rnorm(N, 50, 10)  
> change = x2 - x1
> summary(lm(change ~ x1))

Call:
lm(formula = change ~ x1)

Residuals:
     Min       1Q   Median       3Q      Max 
-28.3658  -8.5504  -0.3778   7.9728  27.5865 

Coefficients:
            Estimate Std. Error t value            Pr(>|t|)    
(Intercept) 50.78524    3.67257   13.83 <0.0000000000000002 ***
x1          -1.03594    0.07241  -14.31 <0.0000000000000002 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.93 on 198 degrees of freedom
Multiple R-squared:  0.5083,    Adjusted R-squared:  0.5058 
F-statistic: 204.7 on 1 and 198 DF,  p-value: < 0.00000000000000022

x1(基线)和变化之间的图显示了反比关系:

在此处输入图像描述

然而,在许多研究(尤其是生物医学)中,基线作为协变量而变化作为结果。这是因为直觉上认为有效干预带来的变化可能与基线水平相关,也可能不相关。因此,它们保留在回归方程中。

在这方面我有以下问题:

  1. 是否有任何数学证据表明变化(随机的或由有效干预引起的)总是与基线相关?它仅在某些情况下发生还是普遍现象?数据分布与此有关吗?

  2. 此外,保持基线作为变化的一个预测因子会影响其他与基线没有任何交互作用的预测因子的结果吗?例如在回归方程中:change ~ baseline + age + gender在此分析中年龄和性别的结果是否无效?

  3. 如果有生物学原因认为变化可能与基线直接相关(在生物系统中很常见),是否有任何方法可以纠正这种影响?

感谢您的洞察力。

编辑:自从讨论响应以来,我可能应该将 x1 和 x2 标记为 y1 和 y2。

关于这个主题的一些链接:

重复测量方差分析、方差分析和线性混合效应模型之间的差异

更改分数或回归变量方法 - 我应该回归Y1超过XY0或者(Y1Y0)超过X

统计学中最糟糕的(普遍采用的)思想/原则是什么?

统计学中最糟糕的(普遍采用的)思想/原则是什么?

更改分数或回归变量方法 - 我应该回归Y1超过XY0或者(Y1Y0)超过X

2个回答
  1. 是否有任何数学证据表明变化(随机的或由有效干预引起的)总是与基线相关?它仅在某些情况下发生还是普遍现象?数据分布与此有关吗?

我们对协方差感兴趣XXY在哪里XY可能不是独立的:

Cov(X,XY)=E[(X)(XY)]E[X]E[XY]=E[X2XY](E[X])2+E[X]E[Y]=E[X2]E[XY](E[X])2+E[X]E[Y]=Var(X)E[XY]+E[X]E[Y]=Var(X)Cov(X,Y)

所以是的,这总是一个问题。

  1. 此外,保持基线作为变化的一个预测因子会影响其他与基线没有任何交互的预测因子的结果吗?例如在回归方程中:变化 ~ 基线 + 年龄 + 性别。在此分析中年龄和性别的结果是否无效?

整个分析无效。的估计值age是与 的预期关联,age同时change保持basline不变。也许您可以理解这一点,也许它确实有意义,但是您正在拟合一个调用虚假关联(或扭曲实际关联)的模型,所以不要这样做。

  1. 如果有生物学原因认为变化可能与基线直接相关(在生物系统中很常见),是否有任何方法可以纠正这种影响?

是的,正如你所说,这很常见。拟合一个多级模型(混合效应模型),每个参与者有 2 个时间点(基线和后续),编码为 -1 和 +1。如果您想考虑不同的处理效果,那么您也可以拟合随机斜率。

一种替代方法是 Oldham 的方法,但它也有它的缺点。

参见 Tu 和 Gilthore(2007 年)“重新审视变化与初始值之间的关系:审查和评估” https://pubmed.ncbi.nlm.nih.gov/16526009

考虑一个以产量为响应变量、肥料为解释变量的农业试验。在每个田地中,施用一种肥料(也可以没有)。考虑以下场景:

(1) 有三种肥料,比如 n、p、k。对于它们中的每一个,我们可以在我们的线性模型中包含一个效果,并将我们的模型作为

yij=αi+εij.
这里αi必须解释为i-th 肥料。

(2) 有 2 种肥料(比如 p、k),有些田地没有施肥(这就像医学实验中的安慰剂)。现在这里更直观的是将无效果设置为基线并将模型作为

yij=μ+αij+εij
在哪里μ解释无效应,α1=0α2,α3必须解释为肥料 p、k 的“额外”效果。

因此,当采用基线似乎合适时,其他影响被视为该解释变量的“额外”影响。当然,我们也可以为场景 (1) 设置基线:定义μ作为整体效果和αi成为额外的效果i-th 肥料。

在医学实验中,有时我们会遇到类似的情况。我们为整体效果设定了基线,并定义了“额外效果”的系数。当我们考虑这样的基线时,我们的假设并不仍然是边际效应是独立的。我们宁愿假设整体效应和额外效应是独立的。对模型的这种假设主要来自现场经验,而不是从数学角度。

对于您的示例(在下面的评论中提到),其中y1是一开始的高度和y2是3个月后的身高,施肥后确实可以有y2y1作为我们的回应和y1作为我们的预测器。但我的观点是,在大多数情况下,我们不会假设y1y2独立(那是不现实的,因为你已经在y1要得到y2)。什么时候y1y2是独立的,理论上你会得到它们是负相关的。但这里不是这样。事实上,在很多情况下你会发现y2y1y1,表明对于更高的响应高度,肥料增加的高度更多,即变得更有效。