我是商业和经济学的毕业生,目前正在攻读数据工程硕士学位。在学习线性回归 (LR) 和时间序列分析 (TS) 时,一个问题突然出现在我的脑海中。为什么要创建一个全新的方法,即时间序列 (ARIMA),而不是使用多元线性回归并向其添加滞后变量(使用 ACF 和 PACF 确定滞后的顺序)?所以老师建议我写一篇关于这个问题的小论文。我不会空手而来寻求帮助,所以我对这个话题进行了研究。
我已经知道在使用 LR 时,如果违反 Gauss-Markov 假设,则 OLS 回归是不正确的,并且在使用时间序列数据(自相关等)时会发生这种情况。(关于这个的另一个问题,一个 GM 假设是自变量应该是正态分布的?或者只是因变量以自变量为条件?)
我也知道,当使用分布式滞后回归(我认为我在这里提出)并使用 OLS 估计参数时,变量之间的多重共线性可能(显然)出现,因此估计是错误的。
在一篇关于 TS 和 LR 的类似帖子中,@IrishStat 说:
...回归模型是传递函数模型的特例,也称为动态回归模型或 XARMAX 模型。重点是时间序列中的模型识别,即适当的差异、X 的适当滞后、适当的 ARIMA 结构、未指定的确定性结构的适当识别,例如脉冲、电平转换、本地时间趋势、季节性脉冲和合并必须考虑参数或误差方差的变化。
(我还在 Autobox 中阅读了他关于 Box Jenkins vs LR 的论文。)但这仍然不能解决我的问题(或者至少它没有为我阐明 RL 和 TS 的不同机制)。
很明显,即使使用滞后变量,OLS 问题也会出现,它既不高效也不正确,但是当使用最大似然时,这些问题是否仍然存在?我已经读过 ARIMA 是通过最大似然估计的,因此如果使用 ML 而不是 OLS 估计具有滞后的 LR,它是否会产生“正确”的系数(假设我们也包括滞后误差项,例如顺序 MA q)。
总之,是OLS的问题吗?应用 ML 问题解决了吗?