短时间序列的最佳方法

机器算法验证 时间序列 预测 小样本
2022-01-26 09:20:51

我有一个与短时间序列建模有关的问题。是否建模不是问题,而是如何建模。你会推荐什么方法来建模(非常)短时间序列(比如长度)?“最好”在这里是指最稳健的,由于观察次数有限,最不容易出错。对于短系列的单一观测可能会影响预测,因此该方法应谨慎估计与预测相关的误差和可能的可变性。我通常对单变量时间序列感兴趣,但了解其他方法也会很有趣。T20

4个回答

非常简单的预测方法(例如“预测历史平均值”)优于更复杂的方法很常见的。对于短时间序列来说,这种情况更有可能发生。是的,原则上您可以将 ARIMA 或更复杂的模型拟合到 20 个或更少的观测值,但您很可能会过度拟合并得到非常糟糕的预测。

所以:从一个简单的基准开始,例如,

  • 历史平均值
  • 增加稳健性的历史中值
  • 随机游走(预测最后的观察结果)

根据样本外数据评估这些。将任何更复杂的模型与这些基准进行比较。您可能会惊讶地发现要超越这些简单的方法是多么困难。此外,将不同方法与这些简单方法的稳健性进行比较,例如,不仅要评估样本外的平均准确度,还要评估误差方差,使用您最喜欢的误差度量

是的,正如Rob Hyndman 在Aleksandr 链接到的帖子中所写,样本外测试本身就是短系列的一个问题——但确实没有好的选择。不要使用样本内拟合,这不是预测准确性的指南。)AIC 不会帮助您处理中位数和随机游走。但是,无论如何,您都可以使用AIC 近似的时间序列交叉验证。

我再次利用一个问题作为了解更多关于时间序列的机会——这是我感兴趣的(许多)主题之一。经过简短的研究,在我看来,有几种方法可以解决短时间序列建模问题。

第一种方法是使用标准/线性时间序列模型(AR、MA、ARMA 等),但要注意某些参数,如 Rob Hyndman 的这篇文章[1] 中所述,他不需要在时间序列和预测世界。第二种方法,在我看到的大多数相关文献中都提到,建议使用非线性时间序列模型,特别是阈值模型[2],包括阈值自回归模型 (TAR)自退出 TAR ( SETAR)阈值自回归移动平均模型 (TARMA)和扩展了TAR的TARMAX模型外生时间序列模型。可以在本文[3] 和本文[4]中找到对非线性时间序列模型(包括阈值模型)的出色概述。

最后,另一篇恕我直言的相关研究论文[5] 描述了一种有趣的方法,该方法基于非线性系统的Volterra-Weiner表示 - 请参阅[6] 和[7]。这种方法被认为在短而嘈杂的时间序列中优于其他技术。

参考

  1. Hyndman, R.(2014 年 3 月 4 日)。将模型拟合到短时间序列。[博客文章]。取自http://robjhyndman.com/hyndsight/short-time-series
  2. 宾夕法尼亚州立大学。(2015 年)。阈值模型。[在线课程资料]。STAT 510,应用时间序列分析。取自https://online.stat.psu.edu/stat510/lesson/13/13.2
  3. Zivot, E. (2006)。非线性时间序列模型。【课堂笔记】。ECON 584,时间序列计量经济学。华盛顿大学。取自http://faculty.washington.edu/ezivot/econ584/notes/nonlinear.pdf
  4. Chen, CWS, So, MKP, & Liu, F.-C. (2011)。金融中的阈值时间序列模型综述。统计及其界面,4,167-181。取自http://intlpress.com/site/pub/files/_fulltext/journals/sii/2011/0004/0002/SII-2011-0004-0002-a012.pdf
  5. Barahona, M., & Poon, C.-S. (1996)。检测短而嘈杂的时间序列的非线性动力学。自然, 381,215-217。取自http://www.bg.ic.ac.uk/research/m.barahona/nonlin_detec_nature.PDF
  6. 密苏里州弗朗茨 (2011)。沃尔泰拉和维纳系列。学术百科全书,6 (10):11307。取自http://www.scholarpedia.org/article/Volterra_and_Wiener_series
  7. Franz, MO 和 Scholkopf, B. (nd)。维纳和沃尔泰拉理论和多项式核回归的统一观点。取自http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/nc05_%5B0%5D.pdf

系列的短时间序列,没有最佳的单变量外推方法。外推方法需要大量的数据。T20

以下定性方法在实践中适用于非常短或没有数据的情况:

  • 综合预测
  • 调查
  • 德尔菲法
  • 情景构建
  • 类比预测
  • 行政意见

我知道效果很好的最好方法之一是使用结构化类比(上面列表中的第 5 个),您可以在其中查找您尝试预测的类别中的相似/类似产品,并使用它们来预测短期预测. 有关示例,请参见本文,以及关于“如何”使用当然 SAS 执行此操作的 SAS论文。一个限制是类比预测只有在你有很好的类比的情况下才有效,否则你可以依赖判断性预测。这是 Forecastpro 软件的另一个视频,介绍如何使用 Forecastpro 等工具进行类比预测。选择类比更像是一门艺术而不是科学,您需要领域专业知识来选择类似的产品/情况。

两个用于短期或新产品预测的优秀资源:

  • 阿姆斯壮的预测原理
  • 卡恩的新产品预测

以下是为了说明目的。我刚看完信号和噪声作者 Nate Silver,在美国和日本(类似于美国市场)房地产市场泡沫和预测方面有一个很好的例子。在下面的图表中,如果您停在 10 个数据点并使用一种外推方法(指数 smooting/ets/arima...),然后查看它带您到哪里以及实际结束的位置。同样,我提出的示例比简单的趋势推断要复杂得多。这只是为了强调使用有限数据点进行趋势外推的风险。此外,如果您的产品有季节性模式,您必须使用某种形式的类似产品情况来预测。我在《商业研究杂志》上读到一篇文章,我认为如果您有 13 周的药品产品销售,您可以使用类似产品更准确地预测数据。

在此处输入图像描述

观察数量至关重要的假设来自 GEP Box 关于识别模型的最小样本量的不经意评论。就我而言,一个更细微的答案是模型识别的问题/质量不仅取决于样本量,还取决于数据中的信噪比。如果你有很强的信噪比,你需要更少的观察。如果您的信噪比低,那么您需要更多样本来识别。如果您的数据集是每月的并且您有 20 个值,则无法凭经验识别季节性模型但是如果您认为数据可能是季节性的,那么您可以通过指定 ar(12) 开始建模过程,然后进行模型诊断(显着性检验)以减少或增加您的结构缺陷模型