这个问题来自这个讨论(在哪些假设下可以因果解释回归?)。那个讨论涉及太多争论,不可能谈论那里的所有事情。所以我在这里提出这个问题,我也给出我的答案。
因果推理中的 DGP 是什么?
数据生成过程的解释是有争议的。例如在这里阅读:什么是“真正的”模型?以及数据生成过程 (DGP) 的实际含义是什么?
如果我们想要正确地进行因果推断,我们必须像珍珠文献中那样使用 DGP,然后他的属性被编码在珍珠结构因果模型(SCM) 中。因此,如果 DGP 是已知的,我们可以将 DGP 和 SCM 视为同义词,否则 SCM 会编码我们所知道/假设的关于 DGP 的所有内容。有关 SCM 的详尽说明,请阅读此处:do(x) 运算符的含义?(Carlos Cinelli 的回答)。
线性真实模型是计量经济学文献中代替 DGP 使用较多的对象/名称。在计量经济学文献中,因果关系的作用很重要,即使很多时候没有得到适当的处理(例如阅读:在哪些假设下可以因果解释回归?和线性回归中的线性假设仅仅是一个定义? 以及其中的参考资料)。现在,保持简单并尽可能接近计量经济学文献,进行因果推理的正确方法是将真实模型视为线性 SCM。
所以:
我们可以解释所有三个对象作为随机变量(是一个向量)。阅读此处了解更多详细信息:线性因果模型
那么,以下条件成立:
在 SCM 中的标志代表“:=”(定义)。定义/假设所暗示的因果关系从右向左移动。鉴于所涉及的变量,SCM 不是它们联合概率分布的另一种表示;SCM 是相关但不同的东西。实际上,一般来说,对于任何 SCM,都可能找到许多表征所涉及变量的联合分布,相反,对于它们的任何联合分布,都可能找到这些变量来自的许多 SCM。然而,任何 SCM 都意味着对变量的联合分布有一些限制。这些限制是任何因果推断的基础。
在我们的例子中(上图),即使和可以是可观察的变量,我们不会停留在回归情况这样的情况下,其中给定,因此,也给出了误差/残差和参数(在此处阅读:OLS 回归中误差的零条件期望)
的确和是完全自由的随机变量,并且s 自由参数,因此我们可以有两种情况:是一种结构性因果错误,可能是外生的或不. 唯一通常的隐含假设是均值为零;对于任何类型的错误都是非常明显的假设。请注意,关于外生性的符号不代表通常的期望,而是干预的期望。更正式地,为了避免歧义,将需要 do-operator。外生错误或不. 阅读此处了解更多相关信息:条件和干预期望以及这里do(x) 运算符的含义?
上面的 SCM 可以解释为一种分解,其中我们放在右侧和侧面的东西代表因果假设(这里的线性也是一个隐含的因果假设)。特别是我们投入的以及剩下的也是一个假设,然后,是否外生性是对两者的限制/假设。
很容易模拟从...开始和; 前一个标志支持这一点。我在单个方程中讨论了随机变量,但自然而然地扩展到随机过程和/或系统。
人们可以说:“但在真实数据中我可以观察到和不是”。这是真的,确实,结构性因果错误,是一个不可观察的变量,至少在一般情况下,外生性是一个无法检验的假设。
此外,人们必须避免他们从数据拟合之类的东西中“可视化”结构错误及其属性,首先是外生性……这正是我们必须避免的纯统计程序。
如果假设某些识别条件(也是因果假设,例如外生性)……可能会得出可测试的(在统计意义上)的含义。
这份清单肯定是未完成的,即使我可以尝试为我所说的进行辩护,我也不对这些做出任何保证。我留在这里学习。如果可以添加和/或更正上述内容,我很高兴。我想要的唯一条件是所有都可以记录在因果推理文献中。