为什么时间序列必须是平稳的?

机器算法验证 回归 时间序列 平稳性
2022-01-15 21:36:52

我知道平稳的时间序列是其均值和方差随时间保持不变的序列。有人能解释一下为什么我们必须确保我们的数据集是固定的,然后才能在其上运行不同的 ARIMA 或 ARM 模型吗?这是否也适用于自相关和/或时间不是因素的正常回归模型?

4个回答

平稳性是一种依赖结构。

假设我们有一个数据$X_1,...,X_n$最基本的假设是$X_i$是独立的,即我们有一个样本。独立性是一个很好的属性,因为使用它我们可以得出很多有用的结果。问题是有时(或经常,取决于视图)此属性不成立。

现在独立性是一个独特的属性,两个随机变量只能以一种方式独立,但它们可以以多种方式依赖。所以平稳性是对依赖结构建模的一种方式。事实证明,许多适用于独立随机变量(大数定律、中心极限定理等)的好结果适用于固定随机变量(我们应该严格地说是序列)。当然事实证明,很多数据都可以被认为是平稳的,因此平稳性的概念在建模非独立数据时非常重要。

当我们确定我们具有平稳性时,我们自然要对其进行建模。这就是 ARMA(自动回归移动平均)模型用武之地事实证明,由于 Wold 分解定理,任何静止数据都可以用静止 ARMA模型近似所以这就是为什么 ARMA 模型非常受欢迎,这就是为什么我们需要确保该系列是静止的才能使用这些模型。

现在,同样的故事也适用于独立和依赖。平稳性是唯一定义的,即数据要么是平稳的,要么是非平稳的,因此数据平稳的方式只有一种,而非平稳的方式有很多。事实证明,大量数据在经过一定的转换后变得静止。ARIMA(自动回归集成移动平均)模型是一种用于非平稳性的模型它假设数据在差分后变得平稳。

在回归上下文中,平稳性很重要,因为如果数据是平稳的,则适用于独立数据的相同结果也成立。

当我们对时间序列进行统计分析时,我们通常对哪些量感兴趣?我们想知道

  • 它的期望值,
  • 它的方差,和
  • 对于一组 $s$ 值,$s$ 值之间的相关性。

我们如何计算这些东西?使用多个时间段的平均值。

只有当期望值在这些时间段内相同时,许多时间段内的平均值才能提供信息。如果这些人口参数可以变化,那么我们通过取平均时间来真正估计什么?

(弱)平稳性要求这些总体数量在时间上必须相同,从而使样本平均值成为估计它们的合理方法。

除此之外,平稳过程避免了虚假回归的问题。

为了向其他一些好的但更详细的答案添加高级答案,平稳性很重要,因为在没有它的情况下,描述数据的模型在不同时间点的准确性会有所不同。因此,样本统计数据(例如均值、方差和相关性)需要平稳性,以准确描述所有感兴趣时间点的数据。

查看下面的时间序列图,您可以(希望)看到任何给定时间段的均值和方差如何能够很好地表示整个平稳时间序列,但相对较差地表示整个非平稳时间序列。例如,非平稳时间序列的均值远低于 $600<t<800$,其方差在此范围内远高于 $200<t<400$。

在此处输入图像描述

统计学习的一个基本思想是你可以通过重复实验来学习。例如,我们可以不断翻转图钉来了解图钉落在其头部的概率。

在时间序列上下文中,我们观察到随机过程的单次运行,而不是随机过程的重复运行。我们观察到 1 个长实验,而不是多个独立实验。

我们需要平稳性和遍历性,以便观察随机过程的长期运行类似于观察随机过程的许多独立运行。

一些(不精确的)定义

$\Omega$为样本空间。随机过程$\{Y_t\}$是时间$t \in \{1, 2, 3, \ldots\}$和结果$\omega \in \Omega$的函数。

  • 对于任何时间$t$$Y_t$都是一个随机变量(即从$\Omega$到某个空间(例如实数空间)的函数)。
  • 对于任何结果$\omega$,序列$Y(\omega)$是实数的时间序列:$\{Y_1(\omega), Y_2(\omega), Y_3(\omega), \ldots \} $

时间序列中的一个基本问题

在 Statistics 101 中,我们学习了一系列独立且同分布的变量$X_1$$X_2$$X_3$等......我们观察了多个相同的实验$i = 1, \ldots, n$其中一个$\omega_i \in \Omega$是随机选择的,这使我们能够了解随机变量$X$根据大数定律,我们有$\frac{1}{n} \sum_{i=1}^n X_i$几乎肯定会收敛到$\operatorname{E}[X]$

时间序列设置的一个根本区别在于,我们观察的是随着时间$t$的多次观察,而不是来自$\Omega$的多次抽取

在一般情况下,随机过程$\frac{1}{T} \sum_{t=1}^T Y_t$的样本均值可能根本不会收敛!

对于随着时间的推移进行多次观察以完成与从样本空间中多次抽取类似的任务,我们需要平稳性和遍历性

如果存在无条件均值$\operatorname{E}[Y]$并且满足遍历定理的条件,则时间序列、样本均值$\frac{1}{T}\sum_{t =1}^T Y_t$将收敛到无条件均值$\operatorname{E}[Y]$

示例 1:平稳性失败

$\{Y_t\}$为退化过程$Y_t = t$我们可以看到$\{Y_t\}$不是平稳的(联合分布不是时不变的)。

$S_t = \frac{1}{t} \sum_{i=1}^t Y_i$为时间序列样本均值,很明显$S_t$不会收敛到$t \rightarrow \ infty$ : $S_1 = 1, S_2 = \frac{3}{2}, S_3 = 2, \ldots, S_t = \frac{t+1}{2}$$Y_t$的时间不变均值不存在:$S_t$无界为$t \rightarrow \infty$

示例:遍历失败

$X$是一次抛硬币的结果。所有$t$的$Y_t = X$,即$\{Y_t\} = (0, 0, 0, 0, 0, 0, 0, \ldots)$$\{Y_t\} = (1, 1, 1, 1, 1, 1, 1, \ldots$

即使$\operatorname{E}[Y_t] = \frac{1}{2}$,时间序列样本均值$S_t = \frac{1}{t} \sum_{i = 1}^t Y_i$不会给你$Y_t$的平均值。