用于建模时间序列的 x(t)-with-t 的自回归与线性回归

机器算法验证 回归 时间序列 机器学习 有马 自回归的
2022-04-09 01:36:44

与时间序列随机变量wrt时间轴的线性回归相比,自回归(对于AR(p),p = 1,2,...)有什么区别?非常感谢用图表解释实际和概念上的差异。随机变量如何产生任何影响?为什么我们不能对时间序列使用常规的机器学习技术?

2个回答

自回归模型 (ARIMA) 根据模型的形式使用以前的值作为预测变量,并且预测在形式上是自适应的,通常响应以前的值。使用时间作为预测变量的模型可以理解为使用以前的值来估计模型参数(因此以前的值确实起作用),但它们不是预测方程的一部分,因此在重新估计之前通常是非自适应的或固定的. 使用时间或时间平方或时间立方等的模型是不合时宜的,通常不使用/首选,除非在非常简单的教科书和非常简单的课堂练习中。使用时间变量的模型通常会表现出自相关残差,因此应尽量避免作为假定模型。

回复评论@Veneeth:

我没有说我写的(暗示的)不同的不太准确。基于时间的模型根据输入变量/序列 1,2,3,3,...t 进行预测,这意味着 t+2 ,t+ 3 , t+ 4 的预测是固定的、确定的或不变的,因为当您观察到 y (t+1) 就像你观察到 y(t+1) 之前一样。如果在使用 y(t+1) 等值的模型时不重新​​估计参数,新值对预测没有影响。人。并且基于 ARIMA 将提供不同的预测。如果您使用时间预测器方法并使用 y(t+1) 重新估计,除了所有先前的 y 之外,新观测值对模型系数的影响通常是最小的,除非样本量非常小或新观测值是一个应该被识别和消除的异常。

由于@Veneeth 要求提供定量示例,因此我尝试在此回答。向查尔斯狄更斯道歉,可以将其命名为“三种方法的故事”,我选择了一个真实世界的例子,而不是一个琐碎的教科书例子,它强调了推定在模型识别方面的影响。考虑 1) 基于时间的模型(唯一的非自动运行)。在此处输入图像描述这是使用方程在此处输入图像描述和残差图进行的实际拟合和预测在此处输入图像描述其次是2)ARIMA模型。现在考虑一个包含确定性结构(输入序列)和 ARIMA 的混合模型在此处输入图像描述 在此处输入图像描述 在此处输入图像描述在此处输入图像描述 在此处输入图像描述 在此处输入图像描述. 三个模型中每个模型的误差方差都显着减小。在混合方法中确定的确定性结构是反映截距变化的水平/步长转换。从视觉上看,可以使用方法 1 产生可能的两种趋势模型,但无济于事在此处输入图像描述在此处输入图像描述 在此处输入图像描述

我的回答更多是从实际的角度来看。我将专门解决您问题的第二部分:为什么我们不能将机器学习技术用于时间序列?

原因 #1:没有经验证据表明机器学习优于简单的统计时间序列模型。当没有证据表明它适用于时间序列数据时,为什么还要打扰机器学习呢?我曾经读过国际预测杂志(时间序列预测的领先杂志)的编辑的一篇文章,他说他们很少发表机器学习方法,因为机器学习甚至无法显示出优于简单指数等幼稚方法平滑。

原因 2:我阅读了 Hastie 等人的书《统计学习的要素:数据挖掘、推理和预测》,第二版(Springer Series in Statistics),这本书被认为是现代机器学习的圣经。如果您仔细查看索引,提到“时间序列/时间”的次数猜猜看,它是 0(零)。其他机器学习书籍也是如此,我很少在机器学习环境中遇到时间序列。

统计学家在他们开发的方法中优雅地处理了时间,我怀疑机器学习中是否存在类似的方法,可能是它处于起步阶段/需要更多的研究。

我还没有看到任何经验证据表明任何机器学习技术具有传统方法的优势,可能有人可以分享它。