Kaggle 比赛是否只是偶然获胜?

机器算法验证 机器学习 可能性 假设检验 样本 卡格尔
2022-03-09 05:52:52

Kaggle 比赛根据保留的测试集确定最终排名。

一个保留的测试集是一个样本;它可能不代表被建模的人群。由于每次提交都像是一个假设,因此赢得比赛的算法可能只是完全有可能最终比其他算法更好地匹配测试集。换句话说,如果选择不同的测试集并重复比赛,排名会保持不变吗?

对于赞助公司来说,这并不重要(可能前 20 名的提交会提高他们的基线)。尽管具有讽刺意味的是,他们最终可能会使用比其他前五名更差的排名第一的模型。但是,对于参赛者来说,Kaggle 似乎最终是一场机会游戏——偶然发现正确的解决方案并不需要运气,而是偶然发现与测试集匹配的解决方案!

有没有可能改变比赛,让统计上无法区分的顶级球队全部获胜?或者,在这一组中,最节俭或计算成本最低的模型能否获胜?

2个回答

是的,你的推理是正确的。如果选择不同的测试集并重复比赛,排名确实会发生变化。考虑以下示例。所有带有二进制标签的 Kaggle 比赛的参赛作品都只是随机猜测(例如,独立地)来预测它们的输出。偶然地,他们中的一个人会比其他人更同意坚持,即使没有预测发生。

虽然这有点做作,但我们可以看到每个提交模型的差异意味着应用许多这样的条目确实只是适合保留集的噪声。这告诉我们(取决于各个模型的差异),前 N 个模型可能泛化相同。这是分岔路的花园,除了“研究人员”不一样(但这没关系)。

是否有可能改变比赛,让所有在测试集上无法从统计上区分出最佳表现的球队获胜?

确实。

  • 一种方法(虽然不切实际)是明确计算出每个条目中给定模型的方差,这将为我们提供一个关于其保持性能的 CI。
  • 另一种可能需要大量计算的方法是通过向所有模型公开训练和测试 API 来引导 CI 的保持性能。

Kaggle还有其他类型的比赛没有机会元素。例如,这辆 Stanta's Stolen Sleigh

这是一个离散优化问题,甚至没有私人排行榜。您在公共排行榜中看到的是最终结果。

与对许多人来说很容易开始的监督学习相比,这种类型的竞争本质上更“硬”。