这是两个高度相关的价格的模拟示例 ( )。当您尝试使用另一个的滞后值来预测其中一个的价格变化时,价格变化的变化很少是可以解释的:ρ=0.9875
. clear
. set seed 12092021
. set obs 102
Number of observations (_N) was 0, now 102.
. gen t = _n
. tsset t
Time variable: t, 1 to 102
Delta: 1 unit
. gen p1 = 1 + 3*t + rnormal(0,5)
. gen p2 = 3 + 2*t + rnormal(0,10)
. corr p1 p2
(obs=102)
| p1 p2
-------------+------------------
p1 | 1.0000
p2 | 0.9875 1.0000
. reg FD.p2 p1
Source | SS df MS Number of obs = 101
-------------+---------------------------------- F(1, 99) = 0.01
Model | .727541841 1 .727541841 Prob > F = 0.9436
Residual | 14322.4337 99 144.671048 R-squared = 0.0001
-------------+---------------------------------- Adj R-squared = -0.0100
Total | 14323.1613 100 143.231613 Root MSE = 12.028
------------------------------------------------------------------------------
FD.p2 | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
p1 | .0009672 .0136392 0.07 0.944 -.0260959 .0280303
_cons | 1.665843 2.420693 0.69 0.493 -3.137338 6.469024
------------------------------------------------------------------------------
. reg FD.p1 p2
Source | SS df MS Number of obs = 101
-------------+---------------------------------- F(1, 99) = 0.01
Model | .683934381 1 .683934381 Prob > F = 0.9171
Residual | 6210.52068 99 62.7325321 R-squared = 0.0001
-------------+---------------------------------- Adj R-squared = -0.0100
Total | 6211.20461 100 62.1120461 Root MSE = 7.9204
------------------------------------------------------------------------------
FD.p1 | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
p2 | -.0013704 .0131245 -0.10 0.917 -.0274123 .0246715
_cons | 3.260085 1.574913 2.07 0.041 .1351165 6.385054
------------------------------------------------------------------------------
这里 FD 是后续值的第一个差异(因此)。FD.pt=(pt+1−pt)
两种模型的(又名 R 平方)都在零附近,因此明天的价格变化很少能用今天的价格来解释。这说明了一种直觉,即知道你今天所知道的,你就不能根据这种相关性采取行动来明天赚钱。R2
您可以尝试使用这种方法的变化(使用滞后的价格变化作为预测变量、非线性模型、添加更多数据、更多噪声或添加趋势),并获得相同的结果。
您可能会反对我的玩具示例存在缺陷,因为高度相关是同时发生的,因此如果您今天知道 p1,您可以预测今天的 p2。我认为这是错误的,原因如下。假设 DGP 如上所述,但您不知道。你是公司 1 的一名高管,你了解到你的 CEO 一直在伪造收益并捏造底部。该消息将很快公开并降低 p1。如果没有在美联储俱乐部度假,你就不能卖空自己的股票。如果您知道 p1 和 p2 之间的相关性约为 1,您是否应该做空公司 2 的股票?我认为那将是一个糟糕的主意。这就是使相关性变得虚假的原因以及为什么这很重要。
你也可以有因果关系,但没有相关性。当房子里有预设所需温度的空调时,空调使用的电量与室外温度之间会有很强的非杂散正相关关系。但是消耗的电量和内部温度之间不会有相关性。外部温度和内部温度也将不相关。在我看来,最后两个是虚假的不相关。但是所有三个相关性都是有效的(尽管在统计学中没有正式的定义),因为相关性只是数据的转换。
这就是说,存在因果依赖关系不需要强相关性。这当然是不够的。甚至因果关系上的符号也可能与相关性的符号不同。这对于使用相关性在现实世界中做事(即干预)很重要。这不仅仅是时间序列数据的问题,观测数据也可能发生。