在机器学习等领域,我们通常(有点非正式地)说,如果以降低测试集/采样数据的真实总体的性能为代价来提高我们在训练集上的性能,那么我们就是过拟合了。
更一般地说,在人工智能研究中,我们经常会一遍又一遍地在相同的基准上测试新提出的算法/想法的性能。例如:
- 十多年来,研究人员不断尝试关于围棋游戏的数千种想法。
- ImageNet 数据集已用于大量不同的出版物
- Arcade 学习环境(Atari 游戏)已被用于数千篇强化学习论文,自 2015 年 DQN 论文以来变得特别流行。
当然,这种现象有很好的理由不断使用相同的基准:
- 降低研究人员自己“创建”基准的可能性,他们提出的算法“碰巧”表现良好
- 如果它们都以相同的方式进行了一致的评估,则可以轻松地将结果与其他出版物(以前和未来的出版物)进行比较。
然而,也存在整个研究界在某种意义上“过度拟合”这些常用基准的风险。如果成千上万的研究人员正在为新算法产生新想法,并在这些相同的基准上对它们进行评估,并且主要提交/接受在这些基准上表现良好的出版物存在很大偏差,那么发表的研究成果不一定能描述在世界上所有有趣的问题上表现良好的算法;可能对一组常用的基准有偏见。
问题:我上面描述的问题在多大程度上是一个问题,可以通过哪些方式减少、减轻或避免?