具有滞后和时间序列的多元线性回归之间的“机械”差异是什么?

机器算法验证 回归 时间序列 多重回归 最小二乘 有马
2022-01-29 21:43:36

我是商业和经济学的毕业生,目前正在攻读数据工程硕士学位。在学习线性回归 (LR) 和时间序列分析 (TS) 时,一个问题突然出现在我的脑海中。为什么要创建一个全新的方法,即时间序列 (ARIMA),而不是使用多元线性回归并向其添加滞后变量(使用 ACF 和 PACF 确定滞后的顺序)?所以老师建议我写一篇关于这个问题的小论文。我不会空手而来寻求帮助,所以我对这个话题进行了研究。

我已经知道在使用 LR 时,如果违反 Gauss-Markov 假设,则 OLS 回归是不正确的,并且在使用时间序列数据(自相关等)时会发生这种情况。(关于这个的另一个问题,一个 GM 假设是自变量应该是正态分布的?或者只是因变量以自变量为条件?)

我也知道,当使用分布式滞后回归(我认为我在这里提出)并使用 OLS 估计参数时,变量之间的多重共线性可能(显然)出现,因此估计是错误的。

在一篇关于 TS 和 LR 的类似帖子中,@IrishStat 说:

...回归模型是传递函数模型的特例,也称为动态回归模型或 XARMAX 模型。重点是时间序列中的模型识别,即适当的差异、X 的适当滞后、适当的 ARIMA 结构、未指定的确定性结构的适当识别,例如脉冲、电平转换、本地时间趋势、季节性脉冲和合并必须考虑参数或误差方差的变化。

(我还在 Autobox 中阅读了他关于 Box Jenkins vs LR 的论文。)但这仍然不能解决我的问题(或者至少它没有为我阐明 RL 和 TS 的不同机制)。

很明显,即使使用滞后变量,OLS 问题也会出现,它既不高效也不正确,但是当使用最大似然时,这些问题是否仍然存在?我已经读过 ARIMA 是通过最大似然估计的,因此如果使用 ML 而不是 OLS 估计具有滞后的 LR,它是否会产生“正确”的系数(假设我们也包括滞后误差项,例如顺序 MA q)。

总之,是OLS的问题吗?应用 ML 问题解决了吗?

4个回答

为什么要创建一个全新的方法,即时间序列 (ARIMA),而不是使用多元线性回归并向其添加滞后变量(使用 ACF 和 PACF 确定滞后的顺序)?

一个直接的观点是线性回归仅适用于观察到的变量,而 ARIMA 将未观察到的变量纳入移动平均部分;因此,ARIMA 在某种程度上更灵活或更通用。AR模型可以看作是一个线性回归模型,其系数可以用OLS估计;其中观察到的因变量的滞后组成。同时,MA 或 ARMA 模型不适合 OLS 框架,因为一些变量,即滞后误差项,是未观察到的,因此 OLS 估计器是不可行的。β^OLS=(XX)1XyX

一个 GM 假设是自变量应该是正态分布的?还是只是以独立变量为条件的因变量?

正态性假设有时用于模型误差,而不是自变量。然而,正态性对于 OLS 估计量的一致性和效率以及高斯-马尔可夫定理的成立都不是必需的。关于高斯-马尔可夫定理的维基百科文章明确指出“错误不需要是正常的”。

变量之间的多重共线性可能(显然)出现,因此估计是错误的。

高度的多重共线性意味着 OLS 估计量的方差膨胀。但是,只要多重共线性不完美,OLS 估计量仍然是蓝色的。因此,您的陈述看起来不正确。

很明显,即使使用滞后变量,OLS 问题也会出现,它既不高效也不正确,但是当使用最大似然时,这些问题是否仍然存在?

可以使用 OLS 和 ML 来估计 AR 模型;这两种方法都给出了一致的估计。MA和ARMA模型不能用OLS估计,所以ML是主要选择;再次,它是一致的。另一个有趣的属性是效率,在这里我不完全确定(但显然信息应该在某处可用,因为问题很标准)。我会尝试评论“正确性”,但我不确定你的意思。

这是一个很好的问题。ARIMA 模型和多元线性回归之间的真正区别在于您的错误结构。您可以在多元线性回归模型中操纵自变量,以便它们适合您的时间序列数据,这就是 @IrishStat 所说的。但是,在那之后,您需要将 ARIMA 误差合并到您的多元回归模型中,以获得正确的系数和测试结果。一本很棒的免费书籍是:https ://www.otexts.org/fpp/9/1 。我已经链接了讨论结合 ARIMA 和多元回归模型的部分。

好问题,实际上,我作为数据科学家的日常工作已经建立了这两者。时间序列模型易于构建(R 中的预测包可让您在 5 秒内构建一个),与回归模型相同或更准确等。通常,应该始终构建时间序列,然后是回归。时间序列也有哲学含义,如果你可以在不知道任何东西的情况下进行预测,那意味着什么?

我对达灵顿的看法。1)“回归更加灵活和强大,产生更好的模型。这一点在整个工作中的许多地方都得到了发展。”

不,恰恰相反。回归模型比时间序列模型做出更多的假设。假设越少,抵御地震(政权更迭)的能力就越大。此外,时间序列模型对突然变化的反应更快。

2)“回归比 ARIMA 更容易掌握,至少对于那些已经熟悉在其他领域使用回归的人来说。” 这是循环推理。

3)“回归使用“封闭”的计算算法,如果可能的话,基本上可以保证产生结果,而 ARIMA 和许多其他方法使用迭代算法,往往无法得出解决方案。我经常看到 ARIMA 方法“挂了“关于给回归方法没有问题的数据。”

回归给你一个答案,但它是正确的答案吗?如果我建立线性回归和机器学习模型并且它们都得出相同的结论,那意味着什么?

所以总而言之,是的,回归和时间序列都可以回答同一个问题,从技术上讲,时间序列在技术上是回归(尽管是自回归)。时间序列模型不太复杂,因此比回归模型更稳健。如果您考虑专业化,那么 TS 模型专注于预测,而回归专注于理解。归结为您是要解释还是要预测。

认为传递函数和多元线性回归(通常使用)之间最深的区别在于它们的目标,多元回归旨在找到因变量的主要因果可观察决定因素,而传递函数只是想预测对因变量的影响特定外生变量变化的变量...总之,多元回归面向详尽的解释和传递函数,以预测非常具体的影响...