皮尔逊相关性用于查看序列之间的相关性......但作为时间序列,相关性是在不同的滞后时间 -互相关函数中查看的。
互相关受系列内依赖性的影响,因此在许多情况下,应首先消除系列内依赖性。因此,要使用这种相关性,而不是平滑序列,实际上更常见(因为它很有意义)查看残差之间的依赖关系——在为变量找到合适的模型后剩下的粗糙部分。
您可能希望从时间序列模型的一些基本资源开始,然后再深入研究是否可以解释跨(可能)非平稳平滑序列的 Pearson 相关性。
特别是,您可能希望在此处研究这种现象。[在时间序列中,这有时被称为虚假相关性,尽管关于虚假相关性的 Wikipedia 文章对该术语的使用采取了狭隘的观点,似乎排除了该术语的这种使用。通过搜索虚假回归,您可能会发现更多关于此处讨论的问题。]
[编辑——维基百科的格局不断变化;上段。可能应该修改以反映现在的情况。]
例如看一些讨论
http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (Yule 的开场白,在 1925 年发表但次年发表的一篇论文中,很好地总结了这个问题)
Christos Agiakloglou 和 Apostolos Tsimpanos,固定 AR(1) 过程的虚假相关性 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (这表明你甚至可以得到平稳序列之间的问题;因此倾向于预白化)
Yule 的经典参考文献,(1926)[1] 如上所述。
您可能还会发现此处的讨论以及此处的讨论很有用
--
在时间序列之间以有意义的方式使用 Pearson 相关性是困难的,有时甚至出奇的微妙。
我查找了虚假相关性,但我不在乎我的 A 系列是否是我的 B 系列的原因,反之亦然。我只想知道您是否可以通过查看 B 系列正在做什么来了解 A 系列(反之亦然)。换句话说 - 它们是否具有相关性。
请注意我之前对维基百科文章中虚假相关一词的狭义使用的评论。
关于虚假相关性的一点是,序列可能看起来相关,但相关性本身没有意义。考虑两个人投掷两个不同的硬币,计算到目前为止正面的数量减去反面的数量,直到他们的系列的价值。
(所以如果人 1 抛呵呵……他们在第 4 个时间步的值有 3-1 = 2,他们的系列去1 , 0 , 1 , 2 , . . ..)
显然这两个系列之间没有任何联系。显然,两者都不能告诉你关于对方的第一件事!
但是看看你在硬币对之间得到的那种相关性:
如果我不告诉你这些是什么,而你自己拿了这些系列中的任何一对,那将是令人印象深刻的相关性,不是吗?
但它们都毫无意义。彻头彻尾的虚假。这三对中的任何一对都没有比其他任何一对更积极或消极地相互关联——它只是累积的噪音。虚假性不仅仅是关于预测,考虑系列之间的关联而不考虑系列内依赖性的整个概念是错误的。
您在这里所拥有的只是系列内依赖性。没有任何实际的跨系列关系。
一旦你正确处理了使这些系列自动依赖的问题——它们都是集成的(伯努利随机游走),所以你需要区分它们——“明显”关联消失了(三个中最大的绝对跨系列相关性)为 0.048)。
这告诉你的是事实——明显的关联只是由系列内的依赖引起的幻觉。
您的问题是“如何正确使用 Pearson 相关性与时间序列” - 所以请理解:如果存在系列内依赖性并且您不首先处理它,那么您将无法正确使用它。
此外,平滑不会减少串行依赖的问题;恰恰相反——它使情况变得更糟!以下是平滑后的相关性(默认黄土平滑 - 系列与指数 - 在 R 中执行):
coin1 coin2
coin2 0.9696378
coin3 -0.8829326 -0.7733559
它们都离0更远了。它们仍然只是无意义的噪声,尽管现在它是平滑的累积噪声。(通过平滑,我们减少了放入相关计算中的序列的可变性,因此这可能是相关性上升的原因。)
[1]: Yule, GU (1926) “为什么我们有时会得到时间序列之间的废话相关性?” J.Roy.Stat.Soc. , 89 , 1 , 第 1-63 页