关联交易量时间序列

机器算法验证 时间序列 相关性 滞后
2022-03-11 05:14:45

考虑下图:

推特和交易量

红线(左轴)描述了某只股票的交易量。蓝线(右轴)描述了该股票的 Twitter 消息量。例如,5 月 9 日 (05-09) 进行了大约 110 万笔交易和 4.000 条推文。

我想计算时间序列之间是否存在相关性,无论是在同一天还是滞后 - 例如:推文量与一天后的交易量相关。我正在阅读许多进行此类分析的文章,例如Correlating Financial Time Series with Micro-Blogging Activity,但它们没有描述如何实际进行此类分析。文章中说明了以下内容:

在此处输入图像描述

但是,我对统计分析的经验很少,也不知道如何在我拥有的系列上执行此操作。我使用 SPSS(也称为 PASW),我的问题是:从我在上图有一个数据文件的角度进行此类分析的步骤是什么?这样的测试是默认功能(以及它叫什么)和/或我怎么能执行它?

任何帮助将不胜感激 :-)

2个回答

时间序列之间的相关系数是无用的。请参阅相关系数 - 检验显着性的临界值这是由 U. Yule 在 1926 年首先指出的Yule, GU, 1926,“为什么我们有时会在时间序列之间得到无意义的相关性?A study in sampling and the nature of time series”,Journal of the Royal Statistical Society 89, 1 –64 . 您可能想在谷歌上搜索“为什么我们会得到无意义的相关性”以获取更多信息。

其原因是相关性需要联合正态性检验。联合正态性要求每个系列都是正态的。常态需要独立。要检查时间序列之间的关系,请查看任何好的时间序列书籍中的传递函数识别,例如时间序列分析:单变量和多变量方法,作者 William WS Wei、David P. Reilly

挑战答案

就你的挑战的答案而言。众所周知,少数人 ( Yule, GU, 1926 ) 将两个时间序列关联起来可能存在缺陷,特别是如果任一序列受到脉冲/电平变化/季节性脉冲和/或本地时间趋势的影响。在这种情况下,我将分别采用每个系列并识别 ARIMA 结构和任何可能适用并产生错误过程的脉冲/电平偏移/季节性脉冲和/或本地时间趋势。

使用两个干净的错误过程,一个用于两个原始系列中的每一个,我将计算互相关,然后可以将其用于测量每个系列中自相关结构之上和之外的关联程度。该解决方案被恰当地称为双重预白化方法。

看:

两个检查双变量正态性检查三件事:

  1. 检查第一组观察结果是否正常,
  2. 检查第二组观察结果是否正常,
  3. 相互回归并检查残差是否正常。

要检查每个步骤的正态性,请使用正态 qq 图,或者您可以使用任何正态假设检验。

或者,您可以检查两个系列的每个可能的线性组合(实系数)是否略微正常。不过,这可能会很困难。

编辑:(6 年后)我将保留以上内容以供后代使用,但请注意,我在这里有一个类似问题的更新答案