相关性是否虚假真的很重要吗?

机器算法验证 回归 时间序列 相关性 自相关 虚假相关
2022-03-12 23:56:58

假设您试图找出两个股票价格之间是否存在相关性,其中两者都可能是非平稳序列。您不必担心,因为它与潜在的因果关系有关...

您针对所有规则运行一个简单的相关性分析。我们的两个系列都是自相关且非平稳的。您发现存在 98% 的相关性,因此您得出结论它们相互依赖。

这是我刚刚和一位同事的谈话……但我认为他们是 100% 错误的,我想要一些确认。

如果您发现两个自相关和非平稳序列的相关性为 98%,则相关性可能是虚假的。这对我来说意味着我们观察到的相关性可能是由于完全的偶然性(它们的相关性很可能是它们相互依赖于两个系列本身之外的其他事物的结果)。因此,如果我们的目标是确定这两个系列“相互依赖”的程度,则有必要找到一个有效的相关系数。它是否正确?

4个回答

这是两个高度相关的价格的模拟示例 ( )。当您尝试使用另一个的滞后值来预测其中一个的价格变化时,价格变化的变化很少是可以解释的:ρ=0.9875

. clear

. set seed 12092021

. set obs 102
Number of observations (_N) was 0, now 102.

. gen t = _n

. tsset t

Time variable: t, 1 to 102
        Delta: 1 unit

. gen p1 = 1 + 3*t + rnormal(0,5) 

. gen p2 = 3 + 2*t + rnormal(0,10)

. corr p1 p2
(obs=102)

             |       p1       p2
-------------+------------------
          p1 |   1.0000
          p2 |   0.9875   1.0000


. reg FD.p2 p1

      Source |       SS           df       MS      Number of obs   =       101
-------------+----------------------------------   F(1, 99)        =      0.01
       Model |  .727541841         1  .727541841   Prob > F        =    0.9436
    Residual |  14322.4337        99  144.671048   R-squared       =    0.0001
-------------+----------------------------------   Adj R-squared   =   -0.0100
       Total |  14323.1613       100  143.231613   Root MSE        =    12.028

------------------------------------------------------------------------------
       FD.p2 | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
          p1 |   .0009672   .0136392     0.07   0.944    -.0260959    .0280303
       _cons |   1.665843   2.420693     0.69   0.493    -3.137338    6.469024
------------------------------------------------------------------------------

. reg FD.p1 p2

      Source |       SS           df       MS      Number of obs   =       101
-------------+----------------------------------   F(1, 99)        =      0.01
       Model |  .683934381         1  .683934381   Prob > F        =    0.9171
    Residual |  6210.52068        99  62.7325321   R-squared       =    0.0001
-------------+----------------------------------   Adj R-squared   =   -0.0100
       Total |  6211.20461       100  62.1120461   Root MSE        =    7.9204

------------------------------------------------------------------------------
       FD.p1 | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
          p2 |  -.0013704   .0131245    -0.10   0.917    -.0274123    .0246715
       _cons |   3.260085   1.574913     2.07   0.041     .1351165    6.385054
------------------------------------------------------------------------------

这里 FD 是后续值的第一个差异(因此)。FD.pt=(pt+1pt)

两种模型的(又名 R 平方)都在零附近,因此明天的价格变化很少能用今天的价格来解释。这说明了一种直觉,即知道你今天所知道的,你就不能根据这种相关性采取行动来明天赚钱。R2

您可以尝试使用这种方法的变化(使用滞后的价格变化作为预测变量、非线性模型、添加更多数据、更多噪声或添加趋势),并获得相同的结果。

您可能会反对我的玩具示例存在缺陷,因为高度相关是同时发生的,因此如果您今天知道 p1,您可以预测今天的 p2。我认为这是错误的,原因如下。假设 DGP 如上所述,但您不知道。你是公司 1 的一名高管,你了解到你的 CEO 一直在伪造收益并捏造底部。该消息将很快公开并降低 p1。如果没有在美联储俱乐部度假,你就不能卖空自己的股票。如果您知道 p1 和 p2 之间的相关性约为 1,您是否应该做空公司 2 的股票?我认为那将是一个糟糕的主意。这就是使相关性变得虚假的原因以及为什么这很重要。

你也可以有因果关系,但没有相关性。当房子里有预设所需温度的空调时,空调使用的电量与室外温度之间会有很强的非杂散正相关关系。但是消耗的电量和内部温度之间不会有相关性。外部温度和内部温度也将不相关。在我看来,最后两个是虚假的不相关。但是所有三个相关性都是有效的(尽管在统计学中没有正式的定义),因为相关性只是数据的转换。

这就是说,存在因果依赖关系不需要强相关性。这当然是不够的。甚至因果关系上的符号也可能与相关性的符号不同。这对于使用相关性在现实世界中做事(干预)很重要。这不仅仅是时间序列数据的问题,观测数据也可能发生。

“虚假”相关的整个概念很容易被误解。 相关就是相关--- 如果估计得好(即,通过一个好的估计器和合理数量的数据),那么我们可以自信地说相关性是这样那样的。相关性是一种具有极弱解释的统计测量——它只是测量事物一起变化的趋势(通常是线性测量的),而不管这种趋势的原因是什么。唯一可能是虚假的事情是,如果我们走得更远,并以不合理的方式解释相关性。如果一个人使用相关性来推断变量之间的因果关系,就会发生这种情况,或者如果一个人使用边际相关性来推断条件相关性,就会发生这种情况。在任何一种情况下,更大的推论都可能是“虚假的”,因为它不是从相关性中得出的。正如我在另一个答案中指出的那样,我一直讨厌“虚假相关”这个词,因为它不是虚假的相关性,而是对某些更强结果的推断。如果由我决定,我们将永远不会使用这个术语,而只会陈述我们的实际意思——例如,“原因的虚假推断”、“条件相关的虚假推断”等。

现在,抛开那些小小的咆哮,让我来谈谈你的具体问题。由于您只对描述股票价格之间的过去统计关系感兴趣(正如您在评论中所说),您可以报告相关性,但它应该附带一些重要的解释说明。首先,您应该注意,即使对于没有统计变化的纯确定性序列,时间序列之间也可能出现强相关性,因此它通常不能反映序列之间的任何随机依赖性。一个多世纪以来,统计界已经认识到这一点(例如,参见Yule 1926并查看此相关答案)。其次,即使股票价格的变化是相关的,预测一只股票与另一只股票的能力将取决于股票价格变化在足够滞后值下的互相关性,以允许使用一个系列来预测另一只股票的变化. 在很大程度上,最好通过查看价格变化的滞后互相关来分析股票价格,而不是价格序列本身的相关性。

虚假关系的问题——在配对交易的狭隘背景下——甚至不存在因果关系问题是这种关系不支持 sample这意味着当您真正开始使用开发的算法进行交易时,您不会赚钱。这可能是一个小问题,对吧?

时间序列的相关性有两个问题

  • 不存在因果关系时的相关性。相关性并不意味着因果关系。一个例子是冰淇淋销售与绘画死亡率之间的相关性。这两者都是夏高冬低,而且在时间上是有关联的,但这并不是因为两者之间有直接的因果关系。在这种情况下,如果两个变量之间的因果关系是基于两个变量之间的相关性推断出来的,那么人们就会使用“虚假关系”这个术语(这种推断是不正确的)。

  • 当总体的统计关系不存在时,样本中的相关性。 另一个担忧是,即使没有潜在的统计关系,也可能在数据中发现相关性。具有自相关的时间序列倾向于在短时间内上升/下降,因此它们倾向于在较短的时间窗口内相互关联。但是,这种相关性并不显着是的,如果您假设数据点根据双变量正态分布独立分布(您可以计算相关系数的确切样本分布)来计算显着性),那么它会变得很重要,但是当时间序列遵循趋势或自相关时,独立性假设是不正确的。