我最近看到一篇关于预测未来股市回报的引人入胜的文章。作者展示了下图并引用了 0.913 的 R^2。这将使作者的方法远远优于我在该主题上见过的任何方法(大多数人认为股市是不可预测的)。
作者详细描述了他的方法,并提供了大量理论来支持结果。然后我阅读了第二篇引用这篇论文的批评性文章:长期可预测性的神话。显然,几十年来人们一直在为这种幻想而堕落。不幸的是,我不太了解这篇论文。
这导致我提出以下问题:
- 由于使用相同的数据集进行训练和模型验证,是否会出现长期预测的错误置信度?如果从不同的、不重叠的时间段提取训练和验证数据,问题会消失吗?
- 除了在训练集上进行验证之外,为什么这个问题在更长的范围内会变得更加明显?
- 一般来说,在训练必须进行长期预测的模型时,我该如何克服这个问题?

