调整多余变量是否会使 OLS 估计值产生偏差?

机器算法验证 最小二乘 偏见 因果关系 辛普森悖论
2022-03-31 01:48:04

在 OLS 中调整多余变量的通常教科书处理表明,估计量仍然是无偏的,但可能具有较大的方差(例如,参见 Greene,Econometric Analysis,第 7 版,第 58 页)。

前几天,我偶然发现了 Judea Pearl 对辛普森悖论的处理以及一个很好的网页,该网页模拟了“将控制变量逐步包含到回归模型中如何在每一步中切换估计因果关联的符号”。对我来说,这在某种程度上与上述说法相矛盾。我觉得这可能是一个非常微妙(尽管非常重要)的问题,因此任何指向进一步文献的指针都会非常有帮助。尤其令我印象深刻的是,格林声称他的评估有证据。

2个回答

没有矛盾。

那里的第一段谈到了多余的变量。

如果适用辛普森悖论,则变量并非多余。

考虑一个假设的线性回归模型

yi=b0+b1X1i+b2X2i+ui,i=1,...,n

作为代数问题(而不是任何随机假设),矩阵表示法中的 OLS 估计量是

b^=b+(XX)1Xu

因此,它以回归矩阵为条件的期望值为

E(b^X)=b+(XX)1XE(uX)

所以:如果回归量关于误差项的“严格外生性”成立,或者换句话说,如果所有误差项均值独立于所有回归量,过去现在和未来,(这是经典中的基准假设线性回归模型),即如果,我们将有 E(uX)=0

E(b^X)=b+0E(b^)=b

也使用迭代期望定律。

综上所述,“多余变量”是什么意思?我认为,这意味着与因变量“无关”。但“不相关”应翻译为“随机独立”。但是如果它独立于因变量,它必然独立于误差项(因此也严格外生于它),因此上述所有内容也适用于任何多余变量,并且 OLS 估计量是无偏的,即使,比如说,变量是“多余的”,真正的模型不包含它。 X2

这就是计量经济学家理解这个问题的方式。现在,在更一般的设置中,“多余”可能意味着说,独立于,条件是的存在(我怀疑这更接近 Pearl 的想法)。尽管如此,只要对误差项严格外生,无偏结果就成立。X2yX1X2