为什么预美白很重要?

机器算法验证 时间序列 数理统计
2022-03-14 00:45:04

我正在编写代码,地球物理时间序列处理。第一步是在时域中预白化值。为什么这一步很重要?

例如,我在sas.com上找到了这个

如果通常情况下输入序列是自相关的,那么输入序列和响应序列之间的直接互相关函数会误导输入序列和响应序列之间的关系。

我不明白,在我的情况下,所有值都是随时间推移的 E 场测量值。什么意味着输入序列是自相关的?

它将如何影响下一步的傅里叶变换?

3个回答

预先白化 X 的原因是为了识别一个过滤器,该过滤器可以将 Y 和 X 转换为 y 和 x,其中 x 是白噪声,即串行独立或没有自相关,以便识别适当的模型。请注意,在 Y 和 X 上都使用了一个过滤器(在 X 上开发的 ARMA)。现在使用 y 和 x,您可以形成/识别潜在关系,然后将其应用于 Y 和 X 以构建/识别多项式分布滞后模型(PDL/ADL/DGF。从根本上说,您正在调整 Y 和 X(转换/过滤),以便 y 和 x(代理)之间的结果互相关可以正确/有效地解释并用于观察到的系列 Y 和 X .

单个过滤器不会扭曲因果结构。请注意,X 和 Y 所需的差分运算符不一定相同,也不一定是与 Y 和 X 相关的最终模型的一部分。

为了进一步用数字说明这一点,请考虑 Box-Jenkins 文本中的 GASX 问题,其中 PINK 反映了预测变量系列在此处输入图像描述一个简单的滤波器 (2,1,0) 用于预白化创建“调整后的互相关或预白化的互相关” 在此处输入图像描述,建议/识别在这个有用的方程中达到顶点的三周期延迟在此处输入图像描述请清楚地注意,在给定模型形式的情况下,Y 在条件上不是 X 的函数(或滞后 1 或滞后 2)。简而言之,X 在两个周期之后而不是之前显着影响 Y。

相反,考虑 Y 和 X 之间的简单(朴素)互相关错误地暗示结构(由系列内的自相关引起)在此处输入图像描述

令我感兴趣的是,这些互相关中最重要的是滞后 3,4 和 5,这说明无论有多么有缺陷/受到污染,它们在方向上仍然很重要。

地球物理时间序列是自相关的,这意味着 12:00 的测量值与 13:00 相似,但与 19:00 不同,例如气温,这只是一个示例。预白化用于去趋势,并使测量“白”,即每次测量之间独立。

是否需要对时间序列进行预白化取决于您将用于分析数据的模型。例如,如果要在两个时间序列之间进行 Pearson 相关分析,则需要进行预白化,因为时间点的自相关(如果是这样的话)将违反 Pearson Correlation 背后的假设。

例如,假设您在时间序列 1 和 2 之间获得值 C12 的相关性。C12 是否显着?给定每个时间序列中的点数,您可以推断出偶然获得结果 C12 的概率。但是,如果时间序列 1 和 2 中的任何一个都存在自相关,则您将失去计算概率的真正含义。

另一个例子,假设您想在给定的时间序列 (y) 中应用一些一般线性分析,其中设计矩阵 (x) 使得 y=x*beta + 误差。如果 y 呈现自相关,则会引入序列相关误差,违反高斯马尔可夫定理。