我处理观测数据并为 DAG 定义假设似乎比教科书中提供的示例更复杂。对我来说,跳过 DAG 部分和条件会容易得多,而且发布时可能没有问题。然而,我喜欢在方法下明确我的因果假设的想法。
我将给出一个只有两个预测变量的简化示例,因此更容易理解。
背景资料
- 粗略的分析表明,来自不同城镇的人之间的收入存在非常明显的多重区域差异
- 性别和年龄等变量或节点在城镇之间存在差异(p < 0.05),表明需要进行调整分析
- 我已经使用各种预测变量组合完成了不同的单级和多级模型,并且区域差异的结果始终成立。
有向无环图
蓝色箭头对我来说似乎没问题;然而,城镇与性别/年龄之间的关系很难界定。我会带来一些,也许是愚蠢的例子
- 通过为一种性别提供更多工作(例如男性和采矿城镇),城镇可能是不同性别分布的原因
- 性别可能是改变居住地的原因(例如,当地政策歧视女性,她们搬到另一个城镇)
- 城镇可能被污染并缩短我们的预期寿命(年龄)
- 年龄可能是改变居住地的原因(例如搬到另一个城镇去上大学)
如您所见,因果假设可以是单向的(红色、绿色)或双向(橙色),或者将它们显示为无向的(无箭头)(黑色)是否更合理?
目标
- 由于城镇之间的年龄和性别不同,因此会有一个关于调整分析的问题。目标是使用调整后的分析来确认原始数据分析的结果(使它们更加防弹)——城镇之间的区域差异。
实现我的目标的最佳方式是什么?
对我来说,发布最保守的结果似乎是合理的,因为结果不会随着任何调整而改变。
最保守的调整是什么?
- 调整一切,年龄和性别,即使他们可能部分充当中介(未知方向或双向箭头)?
- 我应该用无向箭头显示因果图(那我应该如何命名)?
- 我应该显示一个带有双向箭头的因果图(仍然命名为 DAG?)
- 由于打开后门路径,无向箭头和双向箭头都会使性别和年龄混淆,我说得对吗?
您将如何解决并在您的文章中呈现这种情况?