为什么使用滞后 DV 作为工具变量?

机器算法验证 回归 状态 工具变量
2022-03-11 02:42:59

我继承了一些数据分析代码,不是计量经济学家,我很难理解。一个模型使用以下 Stata 命令运行工具变量回归

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

这个数据集是一个面板,对这组变量有多个连续观察。

为什么这段代码使用 DV 的滞后值作为工具?据我了解(通过深入研究旧教科书),由于回归量与误差项相关而出现问题时,会使用 IV 估计。但是,没有提到选择 DV 的滞后作为工具。

对这行代码的注释提到了“因果关系”。任何帮助弄清楚这里的目标是什么都将受到欢迎。

3个回答

编辑:鉴于下面 Andy W 提供的对 stata 代码的澄清,我改变了我的答案以更好地解决这个问题。您会在当前答案下方找到我的答案的旧版本。

看来您的代码是 DIY 的 Arellano-Bond 估计器的笨拙尝试(假设 ivreg 使用 2SOLS 估计)。您可以在这篇不错的评论论文以及更广泛的介绍中找到有关 A/B 估计器的使用和逻辑的更多详细信息。

简而言之,在 3 行之内:虽然 A/B 估计器确实是(广义)IV 估计器,但它不用于解决任何因果关系问题。在这种情况下,IV 用于在面板数据的情况下提供对 AR 系数的有效估计。

我建议不要在这里重新发明轮子,而是使用现成的工具箱来执行此类估计。对于 stata,您可以使用XTABOND2(或 XTABOND,如果您正在运行 STAT11)包。


旧回应:

一个简单的例子将在这里帮助你。假设您有两个随时间采样的变量之间的相关性非常高。您想提出关于导致的声明,但不幸的是,有一个非常好的竞争和可信的理论,根据该理论导致xtytxtytxtytytxt

为了解开这两个竞争模型,您(而不是)。通常,您会损失精度(即在不同时间采样的变量之间的相关性通常低于同时采样的变量之间的相关性)。ytxt1xt

两个竞争模型 - - 现在被解开的方式是,大概没有一个好的理论可以让从一个period ago 可以由当前的引起(“过去不能由未来引起”),不包括第二种因果关系。ytxt1xt1ytxy

请注意,此技巧的使用仅在两个变量(都是固定的)时才有效。ytxt1I(0)

我不了解Stata,所以无法评论具体型号。但是,在处理一般同时性偏差和特别是创建工具变量时,使用滞后变量是一种相当普遍的方法。

假设您在模型中的两个变量之间有反馈:自变量(例如价格)和因变量(例如数量)。那么两者都是内生的(它们的原因来自模型内部)并且对误差项的扰动将影响这两个变量。

为了解决这个问题,您希望使自变量(价格)外生,以便误差中的扰动仅影响因变量(数量)。这是通过对模型中的其他外生变量的价格进行回归来创建新的外生变量来实现的。这些新的外生变量是您的工具变量 (IV)。IV 源自外生项,因此与误差无关。

但要做到这一点,您需要弄清楚哪些变量是外生的,以便可以使用它们来推导 IV。我们可以注意到滞后变量在过去“发生”过,因此不能与当前的误差相关联。滞后变量因此是外生的,并成为推导 IV 的方便候选者。(但是,请注意,当错误是自相关时,前面的参数会失败。)

一个很好的介绍和参考是介绍计量经济学:Wooldridge 的现代方法

对于那些不熟悉来自 Stata 的以下代码片段的人,OP 提供

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

这个方程可以读为

Yt=α+β1(Var1)+β2(Var1)+β3(Var1)+β4(Y~t1)

其中估计为Y~t1

Y~t1=α+Z1(Δ2Yt)+Z2(Δ3Yt)+Z3(Δ4Yt)

(即IV方程的第一阶段在Stata代码的括号内)

增量代表二阶、三阶和四阶差异,它们被用作排除工具来估计因变量的滞后。

在 Stata 代码中,L.表示该变量滞后,并表示该变量的一阶差分,因此表示二阶差分。t1D.D2.

起初我想不出任何合乎逻辑的理由为什么有人会这样做。但是 Kwak 指出(参考这篇论文),Arellano-Bond 方法使用差异作为工具来估计模型的自回归分量。(最初我还假设,只有在序列是非平稳的情况下,差异才会产生影响,邦德在链接的论文中指出,在序列是随机游走的情况下,差异只会是弱工具,第 21 页)

作为工具变量介绍的进一步阅读材料的建议,

此回复中的另一张海报(查理)链接到他准备的一些幻灯片,我喜欢并建议值得研究工具变量的介绍。我还建议我的一位教授为研讨会准备的这个powerpoint作为介绍。作为对任何想要了解更多有关工具变量的人的最后建议,您应该查看 Joshua Angrist 的工作。

这是我的初步回答


虽然我同意 Kwak 和 ars 所说的一切,但我仍然想不出为什么有人会使用变量的差异作为工具来估计因变量的滞后(如果人们不知道 Stata 代码,L.表示滞后该变量,并表示该变量的一阶差分,因此表示二阶差分)。t1D.D2.

在我见过的所有应用程序中,人们使用变量的滞后作为工具来估计因变量的滞后(原因 ars 谈到)。但这是基于这样的假设,即滞后自变量在应用它们的时间段内对误差项是外生的。

我不知道因变量的差异被认为是外生的任何推理。据我所知,仅区分等式的一侧是不被接受的做法,并且会产生相当不合逻辑的结果(是一篇批评某人关于相反情况的论文,其中他们将变量级别作为预测变量一个不同的系列。)如果您重新排列 IV 方程中的项,它实际上看起来类似于增强的 Dickey Fuller 检验。

虽然最简单的答案是询问编写代码的人,但任何人都可以举一个这个过程可以接受的例子,或者这个过程会返回一些有意义的结果的任何情况吗?我想不出任何逻辑推理为什么差异会对水平产生影响,除非系列是非平稳的。