虽然私有测试集的结果不能用于进一步细化模型,但模型选择不是基于私有测试集结果执行的大量模型吗?你不会仅仅通过这个过程最终过度拟合私人测试集吗?
根据 Bailey 等人的“Pseudo-Mathematics and Financial Charlatanism: The Effects of Backtest Overfitting on Out-of-Sample Performance” 。在同一数据集上评估的大量模型中选择最佳模型时,相对容易“过度拟合”。Kaggle 的私人排行榜不会发生这种情况吗?
- 私人排行榜上表现最好的模型是将最佳模型推广到样本外数据的统计依据是什么?
- 公司最终是否真的使用了获胜的模型,或者那里的私人排行榜只是为了提供“游戏规则”,而公司实际上更感兴趣的是从讨论问题中产生的洞察力?