为什么非独立同分布噪声对传统的时间序列方法如此重要?

机器算法验证 时间序列 有马 预言家
2022-03-04 00:54:15

我一直在阅读伴随 Facebook 发布 Prophet 的白皮书,它是时间序列建模库。作者提请注意的一个主题是噪声被认为是独立同分布的。他们指出,这种假设与传统的时间序列解决方案(例如 ARIMA)背道而驰。同样,他们的解决方案不考虑自相关或移动平均线。

一般来说,Prophet 模型考虑了分段线性(或逻辑增长)趋势、季节性和假日效应(其中季节性是通过傅立叶级数捕获的。)

我很好奇,为什么在传统的时间序列方法(例如 ARIMA)中强调自相关、移动平均和非独立同分布噪声?使用季节性控制(无论是月、周等)来增加整体线性(或逻辑趋势)的 GLM 不是更容易吗?

https://www.youtube.com/watch?v=OaTAe4W9IfA https://www.youtube.com/watch?v=fIbgWVMRnis

3个回答

这个问题问得好。我相信这与为什么 ARIMA 仍然是一种每个人都学习的时间序列分析和预测方法的问题密切相关——尽管它的预测性能充其量只是平庸。

我的疑虑是,这并不是因为这些方法在描述现实和产生更好的预测方面做得更好。(布丁的证明在于吃,而建模的证明在于预测。至少,这是我的观点。)相反,这是因为时间序列分析在历史上一直是理论统计学家和数学家的领域。您可以证明有关 ARIMA 和相关模型的定理。单位根!复数!特征多项式!还有他们的零!比指数平滑等方法要好得多,其中预测方法比严格的随机模型(通过状态空间模型)早了几十年

Rob Hyndman 的“预测竞赛简史”(2020,IJF在这种情况下阅读非常有启发性。它显示了统计学家如何接受早期的预测竞赛,他们在接受简单的经验方法可以击败他们珍视的 ARIMA 模型时遇到了重大困难。

即使在 ARIMA 模型中,噪声仍然是 IID;只是模型部分有一个自相关分量、一个移动平均分量和一个差分分量。现在,如果您要获取由这些模型之一生成的数据,然后使用一些更简单的模型(例如,缺少自相关组件)对其进行建模,那么来自更简单近似的“噪声”将是非独立同分布的,因为事实上它没有考虑到原始模型的一部分。

许多统计方法依赖于获取数据的标准化样本平均值并将其与零假设下的临界值进行比较。例如,您可能有H0:μ=a,你的检验统计量是T=X¯aσ^/n (X¯= 样本均值,σ^= 样本方差的平方根),然后您将其与某个临界​​值进行比较以拒绝/未能拒绝零假设。

当数据存在依赖时σ^不再是用于标准化检验统计量的正确量。相反,您可能希望使用长期方差的平方根未能考虑到这一点会导致您的假设检验出现不正确的 I 类错误,并且根据长期方差与方差的比较情况,功效或多或少。

对于真实数据,如果不考虑依赖性(并使用样本方差的平方根而不是长期方差的平方根),这可能不是世界末日。话虽如此,因为我所描述的假设检验类型对统计如此重要,所以在可能的情况下,将依赖性纳入时间序列数据的错误是一个好主意。