采样对时间序列模型的影响

机器算法验证 时间序列 采样 有马
2022-03-18 00:02:32

我正在广泛使用金融时间序列模型,主要是 AR(I)MA 和 Kalman。

我一直面临的一个问题是采样频率。最初,我在考虑是否可以从基础流程中更频繁地采样,我应该尽可能频繁地采样,这样我将拥有更多的样本,因此我的模型参数的变化会更小。

实际上,这个想法并没有证明是好的。发生的情况是,如果底层过程没有表现出足够的变化,那么增加采样频率实际上意味着获得大量重复(相同)的值。并且在这些值上建立模型会导致模型系数非常小,并且不能很好地预测未来(当然,“好”的定义是主观的,增加频率需要预测未来更多的样本步骤在较低的频率设置中实现相同的时间步长)。该模型学习了它遇到的最多的东西——一条平线。

我想做一种自适应采样方法,即在有变化时更频繁地采样,而在没有变化时采样频率更低。然而,这并不容易。首先,不清楚我这样做会引入什么样的偏差(并且会根据我触发样本/跳过的方式而有所不同)。其次,像 ARIMA 这样的时间序列模型不太适合不均匀的样本步骤。

有没有解决这个问题的好方法?这也让我想知道,如果模型受到采样频率的如此显着影响(尤其是当时间步长越来越小时),如何实现连续时间模型和离散时间模型之间的无缝过渡?任何指向外部资源的指针也将不胜感激。

谢谢

3个回答

ARIMA 可能不太适合您的目的,但状态空间模型是:您可以随心所欲地采样(原则上,越多越好)并以固定间隔执行时间更新,作为您假设过程的动态可能要求。状态空间模型的优点之一是观察过程与模型过程是分开的,并且可以为每个过程使用单独的时间间隔。

我想给你指出这篇文章

Ghysels, E, P. Santa-Clara 和 R. Valkanov (2006):“预测波动性:充分利用以不同频率采样的回报数据”,计量经济学杂志,第一卷。131,第 59-95 页。

作者自己采用了一种称为 MIDAS(混合数据采样)的技术,以便比较基于以不同频率采样的数据的波动率估计值。诚然,这并不是您要寻找的,但作者声称他们的技术适合以有意义的方式比较结果。也许这至少为您提供了分析数据的第二种方法。似乎特别是在宏观经济学领域,这种方法引起了一些兴趣。

有变异时采样频率更高,没有变异时采样频率更低

这可以在样本中起作用,但很难用于样本外预测,除非您弄清楚如何预测变异性本身(这不一定是不可能的)。此外,如果您遇到低变化(或根本没有变化)的制度,然后是高变化的制度,您自然需要为这两种制度建立单独的模型;为整个过程使用一个模型并以不均匀的间隔/频率进行采样从直觉上看似乎不是最理想的。您提到了政权切换模型(在回答我的评论时),这很好地说明了您在这里可能需要什么。

我应该尽可能频繁地采样,这样我就有更多的样本,因此我的模型参数的变化会更小。

这并不完全正确。在时间序列设置中,重要的是时间跨度而不是观察次数。例如,在检验单位根的存在时,120 次每月观察(跨越 10 年)比 209 次每周观察(跨越 4 年)提供的信息量更大;请参阅Dave Giles 的博客文章以及其中的最后参考。或者考虑一个极限情况,您采样如此频繁以至于您基本上多次测量同一事物。这会增加您的样本量,但不会带来新信息,从而导致对估计精度的虚假印象。所以也许你不应该花太多时间在提高采样频率和建立一些相应的模型上?