在回归中包含滞后因变量

机器算法验证 回归 滞后 指定错误
2022-02-13 22:58:21

我对将滞后因变量包含到回归模型中是否合法感到非常困惑。基本上我认为如果这个模型关注的是Y的变化与其他自变量之间的关系,那么在右手边添加一个滞后因变量可以保证其他IV之前的系数与之前的Y值无关。

有人说,加入 LDV 会降低其他 IV 的系数。其他一些人说可以包括可以减少序列相关性的LDV。

我知道这个问题就哪种回归而言非常笼统。但是我的统计知识是有限的,当重点是 Y 随时间的变化时,我真的很难弄清楚是否应该将滞后因变量包含到回归模型中。

是否有其他方法来处理 Xs 对 Y 随时间变化的影响?我也尝试了与 DV 不同的变化分数,但在这种情况下,R 平方非常低。

4个回答

在模型中包含滞后因变量的决定实际上是一个理论问题。如果您预计 DV 的当前水平很大程度上取决于其过去的水平,那么包含滞后 DV 是有意义的。在这种情况下,不包括滞后 DV 将导致遗漏变量偏差,您的结果可能不可靠。在这种情况下,包括滞后的 DV,将消除您的大量方差,并可能使您的其他 DV 的影响不那么显着(这意味着使更小,标准误差更大)。但是,它允许您做的是说那些仍然影响您的结果的 IV 具有控制 DV 过去值的效果。另一种方法是使用您在时期βt作为周期的 DV 。t1t

然而,做任何这些都意味着回答一个重要的问题:对于您的 DV,正确的延迟结构是什么?您可以通过观察结果变量与不同滞后值自身之间的相关性(例如 Y 和 Y、Y 和 Y之间的相关性等)来获取有关此的一些信息。t1t2

推荐两篇文章:

  1. Achen CH (2001) 为什么滞后因变量会抑制其他自变量的解释力(链接
  2. Keele, L. 和 Kelly NJ (2005) 动态理论的动态模型:滞后因变量的来龙去脉(链接)。

结果是包含滞后因变量会对其余变量的系数产生很大影响。有时这是合适的(对于 Keele 和 Kelly 的动态模型),有时则不合适。正如其他人所说,考虑建模的过程很重要。

包括滞后因变量可以减少由于模型错误指定而引起的自相关的发生。因此,考虑滞后因变量有助于您捍卫模型中自相关的存在。过去的价值影响模型中的现在,需要理论基础,并根据需要最好地拟合模型。

有人说,加入 LDV 会降低其他 IV 的系数。

更具体地说,使用包含 LDV 的OLS会使您的系数向下偏移。考虑模型 for with并且 s 是均值为零的同分布正态随机变量。的 OLS 估计量的偏差给出(Kendall,1954)。这显然是一个问题,在合并 LDV 时不应直接应用 OLS,因为没有考虑这一点。Yt=α+λYt1+Utt=1,...,T1<λ<1Utλ(1+3λ)/T

问题的症结在于,包含 LDV 打破了 OLS 的核心假设:观察是独立的。我强烈建议阅读 Maeshiro (1996),因为他提出了与您在此处提出的相同问题(并在某种程度上通过提供替代方法的选项来回答)。

参考:

  1. Kendall, Maurice G. “关于自相关估计偏差的说明。” Biometrika 41.3-4(1954):403-404。链接
  2. 前城,浅志。“教授具有滞后因变量和自相关干扰的回归。” 经济教育杂志 27.1 (1996): 72-84。链接