Kaggle 的私人排行榜是否可以很好地预测获胜模型的样本外表现?

机器算法验证 模型选择 过拟合 样本外
2022-01-28 23:42:39

虽然私有测试集的结果不能用于进一步细化模型,但模型选择不是基于私有测试集结果执行的大量模型吗?你不会仅仅通过这个过程最终过度拟合私人测试集吗?

根据 Bailey 等人的“Pseudo-Mathematics and Financial Charlatanism: The Effects of Backtest Overfitting on Out-of-Sample Performance” 。在同一数据集上评估的大量模型中选择最佳模型时,相对容易“过度拟合”。Kaggle 的私人排行榜不会发生这种情况吗?

  • 私人排行榜上表现最好的模型是将最佳模型推广到样本外数据的统计依据是什么?
  • 公司最终是否真的使用了获胜的模型,或者那里的私人排行榜只是为了提供“游戏规则”,而公司实际上更感兴趣的是从讨论问题中产生的洞察力?
1个回答

好吧,您提出的观点是公平的,但是我认为人们在公共排行榜上过度拟合存在一个更现实的问题

当您提交 100 次左右时,可能会发生这种情况,公共测试集最终会溢出到您的超参数选择中,从而过度拟合。我认为在这方面私人排行榜是必要的。