我正在使用混合模型进行预测分析。我们要为建模做出的决定之一是时间序列的长度,无论是 2 年还是 3 年。
所以我的问题是 2 年的时间序列是否足以用于预测建模,还是比这更好?另外,如果不是,那为什么不是呢?
如果有关于这条线的任何文献,那将是很大的帮助。
编辑:即使我正在研究混合模型,但任何其他方法都可以。我只想知道较长时间序列相对于较短时间序列的预测优势。
我正在使用混合模型进行预测分析。我们要为建模做出的决定之一是时间序列的长度,无论是 2 年还是 3 年。
所以我的问题是 2 年的时间序列是否足以用于预测建模,还是比这更好?另外,如果不是,那为什么不是呢?
如果有关于这条线的任何文献,那将是很大的帮助。
编辑:即使我正在研究混合模型,但任何其他方法都可以。我只想知道较长时间序列相对于较短时间序列的预测优势。
不管是什么模型,通常你拥有的数据越多越好。如果您想进行预测,您希望您的样本在人口变化时具有足够的代表性。在大多数情况下,您对过去的变化只有部分了解,而对未来一无所知。收集更多数据有助于您对变化的可预测性更有信心(这与可预测性有关)。你想找到一个重复的模式、趋势,或者至少用某个模型描述你的过程的随机行为,所以你需要确信你观察到的东西在某种程度上与未来可能发生的事情相似。
即使时间序列很短,也可以进行时间序列预测(另请参见Rob Hyndman 的博客),但通常更多的数据意味着更多的信息和更具代表性的样本。根据时间单位观察来考虑您的样本。如果您有两年的每周数据,这意味着您只有每周观察。如果您想提前半年进行预测,那么您应该考虑数据中只有四个半年的事实。
想象一下,您使用天气数据并希望提前半年预测温度。温度有明显的季节性,例如在英格兰中部,温度似乎在上半年上升,下半年下降(Parker 等,1992)。如果您有两年的数据温度波动,并且想要提前半年预测 1 月和 6 月之间的温度,那么由于季节性(关于下半年的气温并没有为您提供太多关于上半年上升的信息)。
(来源http://www.metoffice.gov.uk/hadobs/hadcet/cetml1659on.dat)
如果您可能假设存在周期或季节性(如温度数据),这些周期或季节性将在未来重复或未来将继续存在,那么“捕捉”这种模式的数据可能就足够了。然而,模式可能会发生变化,例如考虑来自 R fma库的铜数据集。只看 1920 年之前的数据会导致你得出与今年之后的数据完全不同的结论(甚至平均价格也不同)。
在多变量数据的情况下,您正在查看多个变量在一段时间内的变化,因此您应该考虑是否有关于每个变量的足够信息。作为一个例子,让 ma 使用来自fma库的银行数据,该数据描述了大都市区一家互惠储蓄银行的存款,具有三个可用变量:月末余额 (EOM)、综合 AAA 债券利率 (AAA) 和美国政府 3- 4 年期债券(三四)。正如您从下面发布的图表中看到的那样,各个变量及其相互关系都随着时间而变化。
在构建模型之前,您应该考虑是否有足够的关于变量随时间变化及其相互关系的信息。不幸的是,如果您的预测范围内有足够的数据,那么回答这个问题很大程度上取决于您的数据是什么(请参阅时间序列的最佳预测窗口)。您还应该记住,有时时间序列的较短部分可能会暗示某种模式(例如,在 30 时间之前银行数据中 AAA 的明显上升趋势),这种模式在较长时期内并不那么明显或不存在。在大多数情况下,收集更多数据有助于您对随时间观察到的模式的行为建立更大的信心。
Parker, DE, Legg, TP 和 Folland, CK (1992)。一个新的每日英格兰中部温度系列,1772-1991 年。 国际气候学杂志,12 (4), 317-342。
如果您尝试对每周数据进行建模以进行 26 周的预测,我建议您考虑使用超过 2 年的数据(104 点)。四年的历史基础将使您有机会提取季节性结构,无论是自回归还是固定效应,以及可能发挥作用的任何水平变化/时间趋势。您说得对,有时我们的数据太多而无法关注最近的数据。对于“最佳”没有硬性规定……刚好足以捕捉信号,但又不会导致虚假的显着性检验(即 20 年的每日数据)。希望这可以帮助。