人工智能研究人员如何避免“过度拟合”社区常用的基准?

人工智能 机器学习 研究 学术界 基准
2021-11-08 22:38:04

在机器学习等领域,我们通常(有点非正式地)说,如果以降低测试集/采样数据的真实总体的性能为代价来提高我们在训练集上的性能,那么我们就是过拟合了。

更一般地说,在人工智能研究中,我们经常会一遍又一遍地在相同的基准上测试新提出的算法/想法的性能。例如:

  • 十多年来,研究人员不断尝试关于围棋游戏的数千种想法。
  • ImageNet 数据集已用于大量不同的出版物
  • Arcade 学习环境(Atari 游戏)已被用于数千篇强化学习论文,自 2015 年 DQN 论文以来变得特别流行。

当然,这种现象有很好的理由不断使用相同的基准:

  • 降低研究人员自己“创建”基准的可能性,他们提出的算法“碰巧”表现良好
  • 如果它们都以相同的方式进行了一致的评估,则可以轻松地将结果与其他出版物(以前和未来的出版物)进行比较。

然而,也存在整个研究界在某种意义上“过度拟合”这些常用基准的风险。如果成千上万的研究人员正在为新算法产生新想法,并在这些相同的基准上对它们进行评估,并且主要提交/接受在这些基准上表现良好的出版物存在很大偏差,那么发表的研究成果不一定能描述在世界上所有有趣的问题上表现良好的算法可能对一组常用的基准有偏见。


问题:我上面描述的问题在多大程度上是一个问题,可以通过哪些方式减少、减轻或避免?

3个回答

好问题丹尼斯!

这是人工智能会议上的一个常年话题,有时甚至出现在期刊的特刊中。我记得最近一次是在 2015 年超越图灵测试,最终导致当年晚些时候在 AI 杂志上发表了一系列文章。

通常,这些讨论涵盖多个主题:

  1. “现有的基准很糟糕”。这通常是引发讨论的话题。在 2015/2016 年的讨论中,特别关注图灵测试作为基准,批评的范围从“它没有激励人工智能研究正确的事情”,声称它定义不明确、太难、太容易,或者不现实。
  2. 普遍认为我们需要新的基准。
  3. 基于当前各种研究方向的基准建议。在最近的讨论中,这包括回答人类学生的标准化测试(定义明确的成功,清晰的格式,需要连接和理解许多领域),玩电子游戏(定义明确的成功,需要视觉/听觉处理,计划,应对不确定性),以及将重点转移到机器人竞赛上。

我记得在 2000 年代后期的机器学习会议上参加过非常类似的讨论,但我不确定其中是否有任何发表。

尽管进行了这些讨论,但人工智能研究人员似乎融入了新的基准,而不是完全取代旧的基准。例如,图灵测试仍然很强大我认为这有几个原因。

首先,基准是有用的,特别是为研究提供背景。机器学习就是一个很好的例子。如果作者对全新的数据进行了实验,那么即使他们采用了竞争方法,我也必须相信他们是忠实地做到了这一点,包括像使用自己的方法一样优化参数之类的事情。很多时候他们不这样做(这需要一些竞争方法的专业知识),这夸大了他们自己技术的报告优势。如果他们也在基准上运行他们的算法,那么我可以很容易地将它与其他作者报告的基准性能进行比较,用于他们自己的方法。这样可以更容易地发现一种并非真正有效的技术。

其次,即使新的基准或新问题更有用,也没有人知道它们!打破 ImageNet 上当前的性能记录可以弹射某人的职业生涯,而在新问题上的最佳表现根本无法做到。

第三,基准测试往往是人工智能研究人员认为可以使用当前工具实际完成的事情(无论它们是否正确!)。通常对它们进行迭代改进是相当容易的(例如扩展现有技术)。在“发布或灭亡”的世界中,我宁愿在现有基准上发布一个小的改进,也不愿尝试一个风险更高的问题,至少在任期之前。

所以,我想我的观点是修复对基准的依赖涉及修复让人们想要使用它们的东西:

  1. 有一些标准的方法来比较技术,但要求研究人员将新技术应用于现实世界的问题。
  2. 消除因解决基准问题而获得的职业和声望奖励,也许可以通过明确地将它们标记为人为。
  3. 消除经常发表的激励措施。

除了约翰的回答中已经列出的要点之外,一些有助于降低/减轻研究社区对常用基准过度拟合风险的因素是:

  1. 参赛者隐藏问题实例的比赛:据我所知,这在游戏 AI 中特别受欢迎(请参阅一般游戏比赛和一般视频游戏比赛)。基本思想是提交的内容应该能够解决相对广泛的问题(玩任何以指定格式定义的游戏,或为任何游戏生成关卡具有以特定格式描述的规则的视频游戏等)。在某种程度上,使用大量问题作为标准基准(例如 ALE 支持的大量 Atari 游戏)也符合这一想法,尽管将最终用于测试的问题隐藏起来是有价值的。写投稿的人。当然,这个想法是提交给这类比赛的参赛作品将涉及可能发表的新研究。

  2. 使用非常简单的玩具问题:我并不一定意味着它们很容易解决,而是易于描述/理解(例如,它可能仍然具有很大的状态空间,并且对于当前的技术来说难以解决)。简单的玩具问题通常有助于测试非常具体的“技能”,并且可以更容易地深入了解算法可能会失败或成功的具体原因/时间。当然,大型非玩具问题对于展示算法的“真实世界”有用性也很重要,但它们通常可能会减少对算法的理解/洞察力。

  3. 理论工作:理论工作也可以让人们对新算法有更多的洞察力和理解。假设初始假设成立,具有强大理论基础的算法通常更有可能推广到多个问题领域(这里是大假设 - 有很多情况下,强证明所需的假设不成立!)。这并不总是可能/“需要”,有时纯粹基于直觉且理论基础相对较少的新研究仍然可以很好地工作(或者理论只是在有希望的实证结果之后才发展起来)......但它肯定会有所帮助。理论工作可以采取许多不同的形式,例如收敛证明(通常在严格条件下),重要度量的上限或下限证明(例如后悔或做出“错误”选择的概率,

为了更好地理解我的观点,我将深度学习用于地理和远程探测目的。

因此,在感兴趣地阅读了前两个伟大的答案之后,我想在这个线程中添加我的小贡献。

首先,我想强调洞察力知识:我同意丹尼斯回答的第二点,“简单”且易于理解的基准有助于确定 AI 方法的优势,这很好。但人工智能研究人员知道这一点。如果他们为全面改进而努力,而不是像约翰的第二点提到的那样仅仅在一个基准上“弹射”他们的职业生涯,那么总体改进就会得到实现。这些想法直接链接到我的第一点:

  1. 基准的多样性 = 各种问题 = 避免过度拟合:如果一篇论文仅在一个基准上呈现性能增量,它最终会说他们的方法是一个特定的方法。因此,即使一个基准会导致“过度拟合”,一组基准也会提供更多种类的问题,从而更好地了解 AI 技术的泛化特性。PointNet 论文就是一个很好的应用案例(第一个端到端 3D 点云神经网络),作者针对 ModelNet40(一个著名的 3D 分类基准)测试了他们的方法,还针对 MNIST 来验证网络的泛化能力。“元基准”可以成为一件事吗?基准是实际知名基准(或已知可以深入了解某个特定特权的基准)的串联。

然后,在我的领域中,人工智能更多地被视为一种工具,而不是理论深度学习领域。众所周知,基准测试结果与“现实生活”(或应用)案例之间存在差距。在我看来,这是由并非适用于所有情况的非常高质量的基准基础事实引起的。这引出了我的第二点:

  1. 非/半监督基准 = 与现实一样嘈杂的基准:由于泛化是处理未知事物的能力,而且因为在复杂数据上创建基准通常是耗时耗钱的,所以我们应该摆脱有监督的思维方式。这将增加可用基准的数量,这对于第一点来说是好的,但也迫使理论人工智能研究更多地关注这些技术。众所周知,实际的监督学习方法有些问题:为什么我们需要向网络展示每一个可能的案例?为什么它不能从未标记的数据中推断出新知识?对此最大的拖累将是数据评估。如果半监督基准仍然会给出经典指标,我们将需要一种分析未标记数据结果的方法。在基本事实通常不可用的应用案例中,这通常通过可视化来完成。但是可以取得进展,以创建一种更好、更公正的排名方法。一个想法可以是以验证码的方式对结果进行双盲随机质量评估。我知道这个想法只适用于人类可理解的数据,但可能并且需要找到其他方法。