当因果方向不那么清楚时,我该如何进行?提供了一个例子

机器算法验证 因果关系 达格 因果图
2022-03-01 06:33:12

我处理观测数据并为 DAG 定义假设似乎比教科书中提供的示例更复杂。对我来说,跳过 DAG 部分和条件会容易得多,而且发布时可能没有问题。然而,我喜欢在方法下明确我的因果假设的想法。

我将给出一个只有两个预测变量的简化示例,因此更容易理解。

背景资料

  • 粗略的分析表明,来自不同城镇的人之间的收入存在非常明显的多重区域差异
  • 性别年龄等变量或节点在城镇之间存在差异(p < 0.05),表明需要进行调整分析
  • 我已经使用各种预测变量组合完成了不同的单级和多级模型,并且区域差异的结果始终成立

有向无环图

在此处输入图像描述

蓝色箭头对我来说似乎没问题;然而,城镇与性别/年龄之间的关系很难界定。我会带来一些,也许是愚蠢的例子

  • 通过为一种性别提供更多工作(例如男性和采矿城镇),城镇可能是不同性别分布的原因
  • 性别可能是改变居住地的原因(例如,当地政策歧视女性,她们搬到另一个城镇)
  • 城镇可能被污染并缩短我们的预期寿命(年龄)
  • 年龄可能是改变居住地的原因(例如搬到另一个城镇去上大学)

如您所见,因果假设可以是单向的(红色、绿色)或双向(橙色),或者将它们显示为无向的(无箭头)(黑色)是否更合理?

目标

  • 由于城镇之间的年龄和性别不同,因此会有一个关于调整分析的问题。目标是使用调整后的分析来确认原始数据分析的结果(使它们更加防弹)——城镇之间的区域差异。

实现我的目标的最佳方式是什么?

对我来说,发布最保守的结果似乎是合理的,因为结果不会随着任何调整而改变。

最保守的调整是什么?

  • 调整一切,年龄和性别,即使他们可能部分充当中介(未知方向或双向箭头)?
  • 我应该用无向箭头显示因果图(那我应该如何命名)?
  • 我应该显示一个带有双向箭头的因果图(仍然命名为 DAG?)
  • 由于打开后门路径,无向箭头和双向箭头都会使性别年龄混淆,我说得对吗?

您将如何解决并在您的文章中呈现这种情况?

2个回答

拳头,我认为使用 DAG 很好,因为它需要仔细考虑因果关系,而这通常是建模的核心。

调整一切,年龄和性别,即使他们可能部分充当中介(未知方向或双向箭头)?

一种方法是估计每个变量的效应,这些变量可能是混杂因素或中介因素,然后进行适当调整。你如何估计净效应当然是另一个问题。你也可以只做一个假设(并在论文中陈述这个假设)。另一个想法是拟合几个模型,其中变量被视为中介或混杂因素,并报告所有结果。由于您只有 2 个变量,即性别和年龄,这似乎是一种合理的方法;这意味着要安装 4 个模型。

我应该用无向箭头显示因果图(那我应该如何命名)?

我不会这样做,因为它会使图表模棱两可。

我应该显示一个带有双向箭头的因果图(仍然命名为 DAG?)

如果您要拟合 4 个模型,我也不会这样做,因为它与建模不一致。此外,如果它具有双向弧,则不能将其称为 DAG(根据定义,DAG 是 dorected)

我将包括 4 个 DAG。

由于打开后门路径,无向箭头和双向箭头都会使性别和年龄混淆,我说得对吗?

如果您遵循 DAG 理论,则并非如此,因为没有方向的弧的存在意味着该图没有方向因此不是 DAG。

如果您不确定箭头的方向,这可能是因为您怀疑(隐式或显式)这两个变量之间存在一些潜在的混淆。因此,您应该绘制所有合理的图表并为每个图表推导出识别假设。对于某些人,您可能会得出这样的结论,即您感兴趣的因果数量对于可用数据是不可识别的,而对于其他人可能会。通过 DAG,您可以明确在哪些因果假设下,您的经验估计的因果解释是内部一致的。

一般来说,经验估计的因果解释是基于潜在的因果模型。也就是说,基于可能无法测试的假设。DAG 是明确这一点的工具。

在 DAG 中使用双向箭头表示两个变量之间存在未观察到的后门路径。你也可以明确地包含这个未观察到的混杂因素,例如给它贴上标签U. 这只是符号约定。但是,假设双向(或未观察到的混杂)发生变化,当然,对识别的影响。