长期可预测性的神话

机器算法验证 机器学习 时间序列 预测 预测模型
2022-04-11 06:26:58

我最近看到一篇关于预测未来股市回报的引人入胜的文章。作者展示了下图并引用了 0.913 的 R^2。这将使作者的方法远远优于我在该主题上见过的任何方法(大多数人认为股市是不可预测的)。

在此处输入图像描述

作者详细描述了他的方法,并提供了大量理论来支持结果。然后我阅读了第二篇引用这篇论文的批评性文章:长期可预测性的神话显然,几十年来人们一直在为这种幻想而堕落。不幸的是,我不太了解这篇论文。

这导致我提出以下问题:

  • 由于使用相同的数据集进行训练和模型验证,是否会出现长期预测的错误置信度?如果从不同的、不重叠的时间段提取训练和验证数据,问题会消失吗?
  • 除了在训练集上进行验证之外,为什么这个问题在更长的范围内会变得更加明显?
  • 一般来说,在训练必须进行长期预测的模型时,我该如何克服这个问题?
2个回答

我认为一个简单的答案是人们不想在时间序列的原始尺度上测量 R^2。如果一个人的预测纯粹是上次看到的时间序列值的副本,那么 R^2 将是巨大的。例子:

在此处输入图像描述

这可以称为虚假案例。我得到的值是 0.96,而这个预测完全是胡说八道。

如果使用平稳时间序列测量 R^2 将给出一个诚实值,例如 y 和 y-hat 的一阶差分。

问题不会出现,因为我们使用相同的数据集进行训练和验证。它的出现是因为变量的持久性对放大抽样误差的影响以及在较长时间范围内的小影响。如文章所述,即使您无法从感兴趣的变量中预测未来的股市回报,我们预计R2如果变量是持久的,则回归系数与时间范围大致成比例。这是因为(第 1584 页):

a) 任何不寻常的从回报中抽出的时间t会影响回报k期间,其中k是时间范围。

b) 持久回归器将具有非常相似的值t,t1,t2, ..,tk

因此“异常抽签的影响将大致k长期回归中的回归比单期回归大几倍。”在引用非常高的链接文章中R2,时间跨度为十年,数据每季度可用,因此时间跨度为 10 年(时间跨度k=40) 通货膨胀R2可能会非常可观。