人工智能 - Lovelace 测试 2.0 是否已成功用于学术环境？ - 吾爱随笔录

Lovelace 测试 2.0 是否已成功用于学术环境？

人工智能历史智力测验

2021-10-31 20:06:25

2014 年 10 月，Mark Riedl 博士在最初的 Lovelace 测试（2001 年出版）的启发下，发布了一种测试 AI 智能的方法，称为“Lovelace 测试 2.0” 。Mark 认为最初的 Lovelace 测试是不可能通过的，因此提出了一个更弱、更实用的版本。

Lovelace 测试 2.0 假设 AI 要变得聪明，就必须表现出创造力。从论文本身：

Lovelace 2.0测试如下：人工代理 $a$ 受到如下挑战：

$a$ 必须创建一个工件 $o$ 类型 $t$ ;

$o$ 必须符合一组约束 $C$ 在哪里 $c_i ∈ C$ 是可以用自然语言表达的任何标准；

人类评估者 $h$ , 选择了 $t$ 和 $C$ , 满足 $o$ 是一个有效的实例 $t$ 并且遇见 $C$ ; 和

人类裁判 $r$ 确定的组合 $t$ 和 $C$ 对于普通人来说不是不现实的。

由于人类评估者有可能提出一些非常容易让 AI 击败的约束条件，因此预计人类评估者会不断为 AI 提出越来越复杂的约束条件，直到 AI 失败。Lovelace 测试 2.0 的重点是比较不同 AI 的创造力，而不是像图灵测试那样在“智能”和“非智能”之间提供明确的分界线。

但是，我很好奇这个测试是否真的在学术环境中使用过，或者目前仅被视为一个思想实验。Lovelace 测试似乎很容易在学术环境中应用（您只需要开发一些可用于测试人工代理的可衡量的约束条件），但它也可能过于主观（人们可能会在某些约束条件的优点上存在分歧，以及是否一个人工智能产生的创意神器实际上符合最终结果）。

1个回答

不。

TL;DR：Lovelace 测试 2.0 非常模糊，因此不适合评估智力。计算创造力的研究人员也普遍忽略了这一点，他们已经有自己的测试来评估创造力。

更长的答案：根据 Google Scholar 的说法，有 10 次参考“Lovelace Test 2.0”论文。所有这些引用的存在只是为了指出存在 Lovelace 测试 2.0。事实上，我查阅过的至少两篇文章（一种用于识别类人自我意识行为的新方法和FraMoTEC：用于评估自适应控制系统的模块化任务环境构建框架）提出了他们自己的测试。

撰写 FraMoTEC 论文的作者之一也写了关于 FraMoTEC 的论文，并间接批评了 Lovelace 测试 2.0 和其他类似的测试：

Piaget-MacGyver Room 问题 [Bringsjord 和 Licato, 2012]、Lovelace 测试 2.0 [Riedl, 2014] 和玩具盒问题 [Johnston, 2010] 都带有定义非常模糊的警告——这些评估方法可能会出现对智能进行合理的评估，但是很难比较两个参与自己特定领域评估的不同代理（或控制器），这是在定制代理以通过特定评估时经常发生的情况。

Lovelace 测试 2.0 的另一个主要问题是，有大量其他测试来“衡量”人工智能的创造力。Evaluating Evaluation: Assessing Progress in Computational Creativity Research由 Anna Jordanous 于 2011 年（ Lovelace Test 2.0 发明前3 年）发表，分析了有关 AI 创造力的研究论文并写道：

在应用创造力评估方法来评估其系统创造力的 18 篇论文中，没有一种方法成为整个社区的标准。Colton 的创意三脚架框架 ( Colton 2008 ) 使用最多（6 次使用），其中 4 篇论文使用了 Ritchie 的经验标准（Ritchie 2007）。

剩下的10篇论文有各种各样的创造力评估方法。

“评估评估”的目标是规范评估创造力的过程，避免由于大量创造力测试的泛滥而导致该领域停滞不前的可能性。Anna Jordanous 仍然对评估创造力测试保持兴趣，发表了诸如“退一步向前推进：为计算创造力的元评估设定标准”和四个 PPPPerspectives on Computational Creativity等文章。

“评估评估”确实提供了一些评论来解释评估创造力的系统的扩散：

评价标准不容易定义。评估创造力很困难，更难描述我们如何评估创造力，无论是人类创造力还是计算创造力。事实上，即使是创造力的定义本身也是有问题的（Plucker、Beghetto 和 Dow 2004）。很难确定“有创造力”意味着什么，因此没有可衡量的基准或基本事实。

事实上，已经存在如此多的创造力测试（在某种程度上，Jordanous 可以通过研究它们来从事学术生涯），这意味着任何新的测试（例如 Lovelace 测试 2.0）都很难被注意到（很少被引用）。当有这么多其他测试可以用来代替时，为什么还要使用 Lovelace Test 2.0 之类的东西呢？

其它你可能感兴趣的问题

上一篇什么是人工智能？下一篇开发能够体验人类情感的人工智能有什么目的？