“内生性”和“外生性”实质上是什么意思?

机器算法验证 回归 因果关系 工具变量
2022-02-07 09:45:56

我知道内生性的基本定义 是不满足我阅读了维基百科的文章,其中包含供需示例,试图理解它,但它并没有真正帮助。我听说过内生和外生的另一种描述,即在系统内和在系统外,这对我来说仍然没有意义。

Xϵ=0

4个回答

JohnRos 的回答非常好。用简单的英语来说,内生性意味着你弄错了因果关系。您写下和估计的模型没有正确捕捉因果关系在现实世界中的运作方式。当你写:

Yi=β0+β1Xi+ϵi

你可以用多种方式来思考这个等式。您可以将其视为基于的值您可以将其视为建模的便捷方式。在这两种情况下,都不存在内生性这样的东西,您无需担心。YXE{Y|X}

但是,您也可以将等式视为体现因果关系。您可以将视为对以下问题的回答:“如果我进入这个系统并通过实验将会发生什么?” 如果你想这样想,使用 OLS 来估计它相当于假设:β1YX

  1. X导致Y
  2. ϵ导致Y
  3. ϵ不会导致X
  4. Y不会导致X
  5. 没有什么会导致也导致ϵX

3-5 中的任何一个失败通常会导致,或者不完全等价的工具变量是一种纠正因果关系错误的方法(通过做出另一个不同的因果假设)。完美进行的随机对照试验是迫使3-5 为真的一种方式。如果你随机选择,那么它肯定不是由或其他任何东西引起的。所谓的“自然实验”方法是试图在世界上发现 3-5 为真的特殊情况,即使我们认为 3-5 通常不是真的。E{ϵ|X}0Cov(X,ϵ)0XYϵ

在 JohnRos 的示例中,要计算教育的工资值,您需要对进行因果解释,但有充分的理由相信 3 或 5 是错误的。β1

不过,你的困惑是可以理解的。在线性模型的课程中,教师使用我上面给出的的因果解释,同时假装没有引入因果关系,假装“这一切都只是统计数据”,这是非常典型的。这是一个懦弱的谎言,但也很常见。 β1

事实上,它是生物医学和社会科学中更大现象的一部分。我们几乎总是试图确定的因果影响——毕竟这就是科学的意义所在。另一方面,也几乎总是有一些你可以讲述的故事导致得出 3-5 中的一个是错误的结论。因此,有一种惯常的、流动的、模棱两可的不诚实行为,我们通过说我们只是在做关联工作,然后将因果解释偷偷溜回其他地方(通常在论文的引言和结论部分)来消除反对意见。XY

如果您真的感兴趣,可以阅读Judea Perl。 詹姆斯赫克曼也不错。

让我举个例子:

假设您想量化教育对收入的(因果)影响。您获取受教育年限和收入数据,然后对另一个进行回归。你恢复了你想要的吗?可能不是!这是因为收入也是由教育以外的东西引起的,但与教育相关。我们称他们为“技能”:我们可以有把握地假设受教育年限受“技能”的影响,因为您越熟练,就越容易获得教育。因此,如果您根据收入对受教育年限进行回归,则教育效应的估计量会吸收“技能”的影响,并且您会得到对教育回报的过于乐观的估计。也就是说,教育对收入的影响是(向上)偏向的,因为教育对收入不是外生的。

如果您想恢复因果效应(与单纯的相关性不同),内生性只是一个问题。另外——如果你可以设计一个实验,你可以保证Cov(X,ϵ)=0通过随机分配。可悲的是,这在社会科学中通常是不可能的。

User25901 正在寻找对术语外生内生含义的直接、简单、真实的解释。用晦涩难懂的例子或数学定义来回答并不是真正回答所提出的问题。

我如何“对这两个术语有一个直觉的理解?”

这是我想出的:

Exo - 外部,外部 Endo - 内部,内部 -genous - 起源于

外生的:如果一个变量不是由模型中的其他参数和变量决定的,而是由外部设置的,并且对它的任何变化都来自外力,则该变量对模型来说是外生的。

内生的:如果变量至少部分是模型中其他参数和变量的函数,则该变量在模型中是内生的。

因此,生性和外生性是右手边原因的反身形容词,描述其对他人的影响,而不是其自身的完整性或派生性。

通过构造,OLS 回归给出Xϵ=0. 实际上这是不正确的。它给Xϵ^=0通过施工。您的估计残差与您的回归量不相关,但您的估计残差在某种意义上是“错误的”。

如果真正的数据生成过程通过Y=α+βX+γZ+noise, 和ZX, 然后Xnoise0如果你适合回归忽略Z. 当然,估计的残差将与X. 他们总是,同样的方式log(ex)=x. 这只是一个数学事实。这是遗漏的变量偏差。

比如说I是随机分配的。也许这是人们出生的星期几。也许这是一个实际的实验。它是任何不相关的东西Y预测X. 然后你可以使用随机性I预测X,然后使用预测的X将模型拟合到Y.

那是两阶段最小二乘法,与IV几乎相同。