Lovelace 测试 2.0 是否已成功用于学术环境?

人工智能 历史 智力测验
2021-10-31 20:06:25

2014 年 10 月,Mark Riedl 博士在最初的 Lovelace 测试(2001 年出版)的启发下,发布了一种测试 AI 智能的方法,称为“Lovelace 测试 2.0” 。Mark 认为最初的 Lovelace 测试是不可能通过的,因此提出了一个更弱、更实用的版本。

Lovelace 测试 2.0 假设 AI 要变得聪明,就必须表现出创造力。从论文本身:

Lovelace 2.0测试如下:人工代理a受到如下挑战:

  • a必须创建一个工件o类型t;

  • o必须符合一组约束C在哪里ciC是可以用自然语言表达的任何标准;

  • 人类评估者h, 选择了tC, 满足o是一个有效的实例t并且遇见C;

  • 人类裁判r确定的组合tC 对于普通人来说不是不现实的。

由于人类评估者有可能提出一些非常容易让 AI 击败的约束条件,因此预计人类评估者会不断为 AI 提出越来越复杂的约束条件,直到 AI 失败。Lovelace 测试 2.0 的重点是比较不同 AI 的创造力,而不是像图灵测试那样在“智能”和“非智能”之间提供明确的分界线。

但是,我很好奇这个测试是否真的在学术环境中使用过,或者目前仅被视为一个思想实验。Lovelace 测试似乎很容易在学术环境中应用(您只需要开发一些可用于测试人工代理的可衡量的约束条件),但它也可能过于主观(人们可能会在某些约束条件的优点上存在分歧,以及是否一个人工智能产生的创意神器实际上符合最终结果)。

1个回答

不。

TL;DR:Lovelace 测试 2.0 非常模糊,因此不适合评估智力。计算创造力的研究人员也普遍忽略了这一点,他们已经有自己的测试来评估创造力。

更长的答案:根据 Google Scholar 的说法,有 10 次参考“Lovelace Test 2.0”论文。所有这些引用的存在只是为了指出存在 Lovelace 测试 2.0。事实上,我查阅过的至少两篇文章(一种用于识别类人自我意识行为的新方法FraMoTEC:用于评估自适应控制系统的模块化任务环境构建框架)提出了他们自己的测试。

撰写 FraMoTEC 论文的作者之一也写了关于 FraMoTEC 的论文,并间接批评了 Lovelace 测试 2.0 和其他类似的测试:

Piaget-MacGyver Room 问题 [Bringsjord 和 Licato, 2012]、Lovelace 测试 2.0 [Riedl, 2014] 和玩具盒问题 [Johnston, 2010] 都带有定义非常模糊的警告——这些评估方法可能会出现对智能进行合理的评估,但是很难比较两个参与自己特定领域评估的不同代理(或控制器),这是在定制代理以通过特定评估时经常发生的情况。

Lovelace 测试 2.0 的另一个主要问题是,有大量其他测试来“衡量”人工智能的创造力。Evaluating Evaluation: Assessing Progress in Computational Creativity Research由 Anna Jordanous 于 2011 年( Lovelace Test 2.0 发明3 年)发表,分析了有关 AI 创造力的研究论文并写道:

在应用创造力评估方法来评估其系统创造力的 18 篇论文中,没有一种方法成为整个社区的标准。Colton 的创意三脚架框架 ( Colton 2008 ) 使用最多(6 次使用),其中 4 篇论文使用了 Ritchie 的经验标准(Ritchie 2007)。

剩下的10篇论文有各种各样的创造力评估方法。

“评估评估”的目标是规范评估创造力的过程,避免由于大量创造力测试的泛滥而导致该领域停滞不前的可能性。Anna Jordanous 仍然对评估创造力测试保持兴趣,发表了诸如“退一步向前推进:为计算创造力的元评估设定标准”四个 PPPPerspectives on Computational Creativity等文章。

“评估评估”确实提供了一些评论来解释评估创造力的系统的扩散:

评价标准不容易定义。评估创造力很困难,更难描述我们如何评估创造力,无论是人类创造力还是计算创造力。事实上,即使是创造力的定义本身也是有问题的(Plucker、Beghetto 和 Dow 2004)。很难确定“有创造力”意味着什么,因此没有可衡量的基准或基本事实。

事实上,已经存在如此多的创造力测试(在某种程度上,Jordanous 可以通过研究它们来从事学术生涯),这意味着任何新的测试(例如 Lovelace 测试 2.0)都很难被注意到(很少被引用)。当有这么多其他测试可以用来代替时,为什么还要使用 Lovelace Test 2.0 之类的东西呢?