如何检测股票筛选器的过度拟合

数据挖掘 机器学习 数据挖掘 分类 大数据 统计数据
2021-10-09 18:31:03

我正在进行的项目允许用户根据技术和基本标准创建股票筛选器。然后,通过使用时间点数据模拟过去 10 年的申请结果,对股票筛选器进行“回测”。我拿回了交易清单和整体表现图。(如果不清楚,我会在这里那里有更多详细信息的概述)。

现在一个常见的问题是用户创建了过度拟合的股票筛选器。当屏幕可能过度安装时,我很想给他们一个警告。

我必须使用的领域

  • 股票筛选器进行的所有交易
    • 库存、开始日期、开始价格、结束日期、结束价格
  • 标准普尔 500 指数在同一时间范围内的表现
  • 每只股票的市值、行业和行业
1个回答

学习曲线或偏差方差分解是检测高方差的黄金标准,也就是过拟合。将您的数据(在您的情况下为“后备数据”)分成 60% 的训练数据和 40% 的测试数据。像往常一样在训练数据上拟合模型,看看它在测试数据上的表现如何。

最后,当您认为您拥有所需的模型时,将每个训练集和测试集拆分为 10-100 个子集,然后使用越来越大的集重新训练和测试。应用您最喜欢的性能指标并绘制性能结果与用于测试和培训的案例数量。

如果模型过拟合(高方差),曲线将永远不会聚集在一起。曲线将聚集在一起,但如果模型欠拟合(高偏差),则性能将低于预期,并且对于未过拟合的良好性能模型,曲线将以可接受的性能聚集在一起。

下面是一个以均方根误差作为性能指标的过拟合和欠拟合示例: 通过学习曲线进行偏差方差分解

这是有关该过程的一个很好的链接,这是另一个希望这可以帮助!