碰撞器违反了哪些 OLS 假设?

机器算法验证 最小二乘 因果关系 假设 达格
2022-01-24 07:36:47

以下网页说:

我们不应该控制对撞机变量!

碰撞器违反了哪些 OLS 假设?

3个回答

我将假设没有截距的模型具有更短的符号。假设结构因果模型是 其中是相互独立的零表示外生结构错误,因此是对撞机:

Y=β1X+u,Z=γ1X+γ2Y+v,X=w
u,v,wZXZY

让我们指定一个线性回归为 ,并准备好用 OLS 估计它。我们希望如果同时满足以下两个条件,就会出现这种情况:

Y=α1X+α2Z+ε
α^1OLSβ1n

  1. α1=β1
  2. 满足了相关的 OLS 假设。

然而,这种情况并非如此。假设然后从结构因果模型和指定的回归我们得到 因此的线性函数。这违反了假设这个假设就是 Wooldridge 在“介绍计量经济学:现代方法”中所说的假设 MLR.4(零条件均值) 。请注意,它特定于回归参数的所需因果解释;非因果解释(例如回归作为α1=β1

ε=α2Z+u=α2(γ1X+γ2Y+v)+u.
εXE(ε|X)=0Y|X,Z) 不需要它。由于它被违反,我们不能同时满足上述两个条件。因此,不能成为的 OLS 估计器收敛的目标。β1α1

很容易证明 OLS 的所有假设都可以满足,但对撞机偏差仍然存在。

在这里,我生成数据,其中影响的对撞机。zxy

library(tidyverse)

r = rerun(1000,{
  w = rnorm(100)
  u = rnorm(100)
  z = 3*u-w + rnorm(100, 0, 0.5)
  x = 2*w + rnorm(100, 0, 0.3)
  y = 5*x - u +  rnorm(100, 0, 0.75)
  
  mod1 = lm(y~x+w)
  mod2 = lm(y~x+z)
  
  tibble(`No Collider` = coef(mod1)['x'], `Collider` = coef(mod2)['x'])
}) %>% 
  bind_rows

注意线性回归的所有假设都满足:

i) 观察是 iid ii) 函数形式是正确的 iii) 方差同质性,以及 iv) 可能性是正常的(尽管这并不重要,因此它的位置最后......)

绘制该实验的 1000 次重复,我们发现模型 1(正确地阻止了混杂因素“关闭后门”的影响)提供了影响的无偏估计。然而,模型 2(以 colider 为条件)具有系统偏差,导致的估计影响小于真实值。xyxy

在此处输入图像描述

编辑:

1)

,我们可以证明对的估计必须是无偏的,即βE(β^)=β

模型的系数肯定是无偏估计,但问题变成了对什么的无偏估计不管它们是什么,它们都不是的因果效应的无偏估计。xy

2)

我不认为观察是独立同分布的是 OLS 假设

你是对的。我在这里列出的假设是比 OLS 更严格的高斯 GLM 的假设

另外,您的意思是同质性吗(如果是,是什么意思?)

我确实是指同质性,但我指的是方差的同质性而不是错误。我已经解决了。方差同质性是表示(或拼写)同方差性的一种更简单的方式。

3)

可以控制对撞机“愚弄”我们吗?控制对撞机有错吗?如果是这样,为什么?让我们从那里开始

是的,它可以。这个例子证明了这一点。将 x 改变一个单位的实际效果是 5。第一个控制 x 和 u 的模型(从而阻止从 y 到 x 的所有后门)显示了 5 的无偏估计。控制对撞机的模型产生了 x 对 y 影响的估计系统地低于 5。

对撞机的“原因”对我来说仍然是一个谜。在我所做的阅读中,作者只是说“信息流被对撞机阻挡,但对撞机的调节打开了后门”或类似的精神。如果你找到一个令人满意的解释为什么会发生对撞机偏差,请告诉我。

4)

我认为您的模型没有很好地指定。在总体中,y 是 x 和 u 的函数。然而你只控制 x

如果您是一些昂贵的测量值,或者我们忘记收集的测量值怎么办?我们无法收集所有影响结果的数据。话虽如此,您对此持怀疑态度是正确的。有更正式的方法可以检查您写下的模型是否与涉及检查条件独立性的数据一致。您可以在“可测试的含义”下找到测试这些含义的方法。

这里的问题是“对撞机”是一个因果概念,而 OLS 回归不一定处理因果关系。关于此处阅读的“回归和因果关系”:在哪些假设下可以因果解释回归?

如果我们打算将 OLS 回归作为线性 CEF的估计量,对撞机和其他因果问题并不重要。在这里阅读:回归和 CEF

此外,不幸的是,有几本书对回归的含义,特别是关于他可能的因果使用,即使不是错误的也是模棱两可的(在这里阅读:计量经济学家将如何回答陈和珀尔(2013)提出的反对意见和建议?

编辑:在与 Richard Hardy 讨论之后,我在这里添加了我认为修改过的相同示例:

结构因果模型 (SCM) 是 所以是一个对撞机:

Y=β1X+uY,Z=β2X+β3Y+uZX=uX
ZXZY

结构误差可以被认为是系统中的外生变量,我们假设它们为零均值并且相互独立。请注意,其中一个含义是:请注意,一般来说,SCM 编码(明确)研究人员做出的所有因果假设。E[uY|X]=0E[uZ|X,Y]=0

现在的问题是我们对的因果效应感兴趣,然后我们寻找允许我们识别的回归方程;请注意,这是利益的直接因果关系,在这种特殊情况下,它也是总数(假设)。XYβ1

答案很简单,因为从这个回归

Y=θ1X+r1

θ1识别β1

现在,一般来说,为了识别感兴趣的因果效应,上面的回归不是我们需要的(不识别感兴趣的影响)。我们必须添加一些控制变量现在最初的问题是(或多或少):为什么控制对撞机不是一个好主意?θ1

在我们的示例中,我们可以尝试添加对撞机作为控制并计算回归如下:

Y=θ2X+θ3Z+r2

不识别之所以如此,是因为允许的控制集必须符合后门准则因此,不在其中,而空集在其中。所以,包括(对撞机)是个坏主意。更糟糕的是,这种回归没有识别 SCM 隐含的任何因果效应。事实上,并非所有回归都有助于因果推理。θ2β1[Z]Z

对于以相同方式的其他示例,您可以看到:

从观察中推断出因果结构的一个链接

线性回归中的内生控制 - 替代方法?

说,我不知道这个例子是不是提问者要找的。问题更深。所谓的“OLS 假设”在上面起到了一些作用吗?

这可能是一个有争议的问题。我在这个网站上写了很多关于它的内容:见上面的链接,以及其中的链接。但是我的简短回答是:不。这是因为“OLS 假设”无论在何处出现,都不包括任何明确的因果假设。