在有向无环图中表示交互作用

机器算法验证 相互作用 因果关系 达格
2022-01-27 16:42:24

有向无环图(DAG;例如,Greenland 等人,1999)是因果关系阵营的反事实解释的因果推理形式主义的一部分。在这些图中,变量箭头的存在一种可变断言该变量一种直接导致(风险的一些变化)变量,并且没有这样的箭头断言该变量一种不直接导致(风险的一些变化)变量.

例如,在下面的非 DAG因果图中,“烟草烟雾暴露直接导致间皮瘤风险的变化”这一陈述由从“烟草烟雾暴露”到“间皮瘤”的黑色箭头表示。

同样,在下面的非 DAG因果图中,“石棉暴露直接导致间皮瘤风险的变化”这一陈述由从“石棉暴露”到“间皮瘤”的黑色箭头表示。

我使用术语不是 DAG来描述下面的因果图,因为红色箭头,我打算断言类似“石棉暴露导致烟草烟雾暴露对间皮瘤风险的直接因果影响发生变化”(石棉对物理对肺细胞的损害,除了直接导致间皮瘤风险的变化外,还使细胞更容易受到烟草烟雾暴露的致癌危害,结果暴露于石棉和烟草导致增加风险大于两个单独风险的总和),这与我在问题开始时描述的 DAG 中因果箭头的正式含义不太吻合(即,因为红色箭头不会终止于变量)。

不是有向无环图:烟草烟雾暴露导致间皮瘤风险增加; 石棉暴露导致间皮瘤风险增加; 石棉暴露会增加烟草对间皮瘤风险的因果关系。

如何在 DAG 的视觉形式中正确地表示交互效果?

参考

Greenland, S.、Pearl, J. 和 Robins, JM (1999)。流行病学研究的因果图流行病学,10(1):37-48。

3个回答

简单的答案是你已经这样做了。传统的 DAG 不仅代表主效应,而且代表主效应和相互作用的组合。绘制 DAG 后,您已经假设任何指向相同结果的变量都可以修改其他指向相同结果的变量的影响。这是一个建模假设,与 DAG 不同,它假设缺乏交互。

此外,无需在模型中包含显式交互项即可发生交互。如果您仅在模型中包含 Y 相对于治疗 T 和协变量 Q 的风险比的主效应,则风险差异的估计值将根据 Q 的水平而有所不同。为了以非参数方式适应所有这些可能性,DAG 使只有对变量之间关系的函数形式的最弱假设,并且假设没有交互是允许交互的更强假设。这又是说 DAG 已经允许交互而无需任何调整。有关使用传统 DAG 但允许交互的交互的讨论,请参见 Vanderweele (2009)。

Bollen & Paxton (1998) 和 Muthén & Asparouhov (2015) 都证明了路径模型中与潜在变量的交互作用,但这些交互作用明确指的是参数模型中的乘积项,而不是广义的交互作用。我还看到与您的图表类似的图表,其中因果箭头指向路径,但严格来说,路径不是变量可以产生因果影响的唯一数量(即使这可能是我们想要解释模型的方式) ; 它仅代表因果关系的存在,而不是其大小。


Bollen, KA 和 Paxton, P. (1998)。结构方程模型中潜在变量的相互作用。结构方程建模:多学科期刊,5(3),267-293。

Asparouhov, T. & Muthén, B. (2020):具有潜在变量相互作用的单级和多级模型的贝叶斯估计结构方程建模:多学科期刊

TJ 范德维勒 (2009)。关于交互作用和效果修饰的区别流行病学,20(6),863-871。

珀尔的因果关系理论完全是非参数的因此,无论在图表中还是在它所代表的结构方程中,都没有明确说明相互作用。然而,因果效应可能因假设而异(大不相同)。

如果确定了一个影响,并且您从非参数数据中对其进行估计,您将获得因果影响的完整分布(而不是单个参数)。因此,您可以以非参数的方式评估烟草暴露条件对石棉暴露的因果影响,以查看它是否会发生变化,而无需采用任何函数形式。

让我们看一下您案例中的结构方程式,它对应于您的“DAG”,去掉了红色箭头:

间皮瘤 =F1(烟草、石棉、ε)

烟草=F2(ε)

石棉 =F3(ε一种)

在哪里ε由于它们之间缺少虚线箭头,因此假定它们是独立的。

我们没有指定各自的函数 f() 和错误的分布,只是说后者是独立的。尽管如此,我们可以应用珀尔的理论并立即声明烟草和石棉暴露对间皮瘤的因果影响已经确定这意味着,如果我们从这个过程中获得无限多的观察结果,我们可以通过简单地查看具有不同暴露水平的个体间皮瘤的发病率来准确测量将暴露设置为不同水平的效果。所以我们可以在不做实际实验的情况下推断因果关系。这是因为从暴露变量到结果变量不存在后门路径。

所以你会得到

P(间皮瘤 | do(烟草 = t)) = P(间皮瘤 | 烟草 = t)

同样的逻辑也适用于石棉的因果效应,这使您可以简单地评估:

P(间皮瘤 | 烟草 = t, 石棉 = a) - P(间皮瘤 | 烟草 = t', 石棉 = a)

相比

P(间皮瘤 | 烟草 = t, 石棉 = a') - P(间皮瘤 | 烟草 = t', 石棉 = a')

对于 t 和 a 的所有相关值,以估计交互作用。

在您的具体示例中,假设结果变量是伯努利变量-您可能患有间皮瘤,也可能没有间皮瘤-并且一个人已接触到非常高的石棉水平 a。那么,他很可能会患上间皮瘤;因此,增加烟草接触的影响将非常低。另一方面,如果石棉水平 a' 非常低,则增加烟草接触会产生更大的影响。这将构成烟草和石棉的影响之间的相互作用。

当然,对于有限数据和大量不同的 t 和 a 值,非参数估计可能非常苛刻和嘈杂,因此您可能会考虑在 f() 中假设一些结构。但基本上你可以做到这一点。

如果你想直接估计不可分离的非线性结构方程,关于这方面的计量经济学文献越来越多。当然,您确实需要做出一些假设以确保统计识别(即使您已经使用图形标准和因果演算为因果识别建立了一个站得住脚的案例),但这些假设不像线性或参数非线性那样具有限制性案子。请注意,非参数分位数回归在某些条件下等效于不可分离模型,因此为您提供了相当可行的实现选项。

Breunig, C. (2020)。非参数仪器分位数回归中的规范测试。计量经济学理论。https://doi.org/10.1017/S0266466619000288

邓克,F.(2020 年 4 月 16 日)。具有完全独立性的非参数工具变量回归和分位数回归。存储库 arXiv。https://arxiv.org/pdf/1511.03977.pdf

Chernozhukov, V.、Fernández-Val, I.、Newey, W.、Stouli, S. 和 Vella, F. (2020)。不可分三角形模型中结构函数的半参数估计。数量经济学,11,503-633。https://qeconomics.org/ojs/index.php/qe/article/viewFile/1328/1320

Babii, A. 和 Florens, SP(2020 年 1 月 30 日)。不可观测物是可分的吗?存储库 arXiv。http://arxiv.org/pdf/1705.01654

Su, L.、Tu, Y. 和 Ullah, A. (2015)。测试非参数结构模型中误差项的加性可分离性。计量经济学评论,34(6-10),1057-1088。https://doi.org/10.1080/07474938.2014.956621

Lu, X. 和 White, H. (2014)。测试结构方程中的可分离性。计量经济学杂志,182(1),14-26。https://doi.org/10.1016/j.jeconom.2014.04.005