计量经济学:因果推理的逻辑回归假设是什么?

机器算法验证 回归 物流 计量经济学 因果关系 内生性
2022-03-23 07:21:50

当您打算将参数解释为因果关系时,我试图了解逻辑回归的假设是什么?因果 OLS 回归的假设是众所周知的,但我找不到逻辑回归的类似假设的良好来源。

从我在互联网上可以找到的内容来看,我认为以下假设需要成立:

  1. 误差按照逻辑分布分布,并且相互独立
  2. 没有多重共线性

我的直觉告诉我,自变量不应与 OLS 回归的情况下的误差项(无内生性)相关,但我无法在任何地方找到支持。有人对此有数学论据吗?估计会在哪里出错?

  • 在同一点上,当您对 X1 前面的参数感兴趣作为因果参数并且 X1 与误差项不相关,但 X2 与误差项相关时,尽管您对中的参数不感兴趣X2 前面的因果关系,你还能运行这个逻辑回归并将 X1 前面的系数解释为因果关系吗?即,X2 的内生性会破坏 X1 前面的参数估计吗?

我还读到错误的分布并不相同,但我不确定为什么。谁能解释为什么这是真的?

当您想将逻辑回归用于因果推理时,还有其他假设吗?

3个回答

将回归关系解释为因果关系的能力通常取决于实验协议,而不是统计模型的假设结构。回归模型允许我们将解释变量与响应变量进行统计关联,其中这种关系以模型中的所有解释变量为条件。作为默认位置,这仍然只是一种预测关系,不应被解释为因果关系。在使用 OLS 估计的标准线性回归中就是这种情况,在逻辑回归中也是如此。

假设我们想要解释回归关系的因果关系——例如,我们有一个解释变量,我们想要将其与响应变量的回归关系解释为因果关系(前者导致后者)。我们在这里害怕的是,预测关系实际上可能是由于与某些混杂因素的关系,这是回归之外的一个附加变量,与的真正原因xkYxkY. 如果存在这样的混杂因素,它将在这些变量之间产生统计关系,我们将在回归中看到。(您可能犯的另一个错误是以中介变量为条件,这也会导致不正确的因果推断。)

因此,为了因果解释回归关系,我们希望确信我们所看到的不是我们分析之外的混杂因素的结果。确保这一点的最佳方法是使用受控实验通过随机化/盲法设置,从而切断该解释变量与任何可能的混杂因素之间的任何统计联系。在没有这个的情况下,下一个最好的方法是使用不受控制的分析,但尽量引入尽可能多的混杂因素,在回归中将它们过滤掉。(不能保证我们已经全部找到了!)还有其他方法,例如使用工具变量,但这些方法通常取决于对这些变量性质的强假设。xk

您提到的任何假设都不是推断因果关系的必要或充分条件。这些只是逻辑回归的模型假设,如果它们不成立,您可以相应地更改模型。因果推理所需的主要假设是假设不存在混杂因素这可以通过在您的实验中使用随机化/盲法协议来完成,或者可以将其保留为(希望与祈祷)假设。

为了补充 Ben 的出色答案,这里有一个基本示例,说明即使您认为您已经解决了每个“假设”,回归模型(无论其类型如何)可能无法推断因果关系。假设我们有一个数据集来自在一个时间点对一群人进行的调查。我们运行一个逻辑回归模型,将“抑郁”作为因变量,“鸦片使用”作为自变量。假设我们已经完全考虑了可能混淆这种关系的所有其他变量,并且模型的所有其他假设也都得到满足。我们发现了一种重要的、积极的关系。

这是否意味着阿片类药物的使用会导致抑郁?也许。但这也可能意味着抑郁症会导致阿片类药物的使用。或者可能两者同时为真(但一种效果比另一种更强)。如果所有变量都在同一时间点收集,模型将无法区分这些非常不同的因果过程。只有调整我们的研究设计(例如测量一年的鸦片使用量和明年的抑郁症),我们才能解决这个问题。单靠回归无法帮助我们。

回答关于非同分布误差项的问题:在逻辑回归中,因变量的 logit 在预测变量上回归,并且该回归的误差实际上是同分布的并遵循逻辑分布。但是,当反向转换到响应尺度时,误差项在线性预测变量的每个级别上只能取两个值:

ei=1πi|Yi=1ei=πi|Yi=0
因为ei=Yiπi(和πi是常数),这个误差项的方差等于二元变量的方差Yi. 二元变量的方差Yi是(谁)给的σ2(Yi)=πi(1πi)并且是非常量的,因为它取决于均值πi.

库特纳等人。(2005 年)。应用线性统计模型(第 14 章)