型号建议

机器算法验证 造型 因果关系
2022-03-24 13:36:39

谁能给我关于可以在以下设置中使用的模型框架的提示:

结果A是二分法。我想研究纵向设置中连续变量 B 和连续变量 C 对 A 的影响。到目前为止,一切都很好。

问题是 C 取决于 B,因为 B 的值高于阈值(不幸的是,我们不知道阈值,并且阈值本身可能不会随着时间的推移而保持不变)将改变 C。C 的变化将进一步减少 B 在下一次测量。

如何破译 B 和 C 对 A 的孤立效应?

混合逻辑回归模型可以吗?

即;t=时间

A~B*t+C*t+B*C*t

还有其他想法吗?

//M

3个回答

一点都不容易。这听起来像是Jamie Robins和他的同事们做了大量工作的事情。引用他们一篇论文摘要的开头:

在暴露或治疗随时间变化的观察性研究中,当存在也受先前治疗影响的时间依赖性混杂因素时,调整混杂因素的标准方法是有偏差的。

(Robins JM, Hernán MA, Brumback B. Marginal Structural Models and Causal Inference in Epidemiology. Epidemiology 2000;11:550-560. http://www.jstor.org/stable/3703997

在他们的例子中,低 CD4 计数意味着您更有可能获得抗 HIV 药物,这(希望)会增加您的 CD4 计数。听起来很像你的设置。

最近在这个领域有很多工作(即比那篇论文更近),从期刊论文中掌握并不容易。Hernán & Robins 正在写一本书,这应该很有帮助——它还没有完成,但有前 10 章的草稿可用。

您已经清楚地说明了模型的一部分:

C 取决于 B,因为高于阈值的 B 值将改变 C。C 的变化将进一步降低下一次测量中的 B。

“下一次测量”我理解你的意思是下一次。 让我们将时间索引为t=0,1,2,. 那么 C 对 B 的依赖听起来像是同时代的。如果我们采用一个简单的线性模型(可以很容易地扩展以包含协变量和可变但预定的阈值)并让u是一个恒定的阈值,

C(t)=β1IB(t)>u+ϵ

有随机偏差ϵ(我不会费心索引;你知道演习)。这里,I是指标函数。

还,

B(t+1)=B(t)β2(C(t)C(t1))+δ

然后再次δ表示随机(独立)偏差。我被困在这里是因为您没有更准确地指定B如何响应 C 的变化而变化;我只是提供了一种可能的解释。

最后,

A(t)=β3B(t)+β4C(t)+β5+γ

具有独立随机偏差γ.

第一个公式中指示函数的存在是有问题的:它使它成为一个非线性问题。然而,这似乎是这种情况的一个基本特征;我不愿意以简单或易于计算的名义忽略它(尽管两者都是重要的考虑因素)。滞后B(t+1)B(t)C(t)C(t1)还指向自回归模型,这是另一个复杂因素。由于这些问题,最容易处理的方法可能是使用贝叶斯技术:参数化ϵ,δ, 和γ,提供这些参数的先验和βs,并让机器(例如,WinBUGS 或 RBUGS)滚动。

您的问题是多重共线回归变量之一(因为 B 和 C 是相关的)。我建议您查看问题的答案:处理相关回归变量

以下论文也可能与您的上下文相关:Using principal components for estimating logistic regression with high-dimensional multicollinear data