2014 年 10 月,Mark Riedl 博士在最初的 Lovelace 测试(2001 年出版)的启发下,发布了一种测试 AI 智能的方法,称为“Lovelace 测试 2.0” 。Mark 认为最初的 Lovelace 测试是不可能通过的,因此提出了一个更弱、更实用的版本。
Lovelace 测试 2.0 假设 AI 要变得聪明,就必须表现出创造力。从论文本身:
Lovelace 2.0测试如下:人工代理受到如下挑战:
必须创建一个工件类型;
必须符合一组约束在哪里是可以用自然语言表达的任何标准;
人类评估者, 选择了和, 满足是一个有效的实例并且遇见; 和
人类裁判确定的组合和 对于普通人来说不是不现实的。
由于人类评估者有可能提出一些非常容易让 AI 击败的约束条件,因此预计人类评估者会不断为 AI 提出越来越复杂的约束条件,直到 AI 失败。Lovelace 测试 2.0 的重点是比较不同 AI 的创造力,而不是像图灵测试那样在“智能”和“非智能”之间提供明确的分界线。
但是,我很好奇这个测试是否真的在学术环境中使用过,或者目前仅被视为一个思想实验。Lovelace 测试似乎很容易在学术环境中应用(您只需要开发一些可用于测试人工代理的可衡量的约束条件),但它也可能过于主观(人们可能会在某些约束条件的优点上存在分歧,以及是否一个人工智能产生的创意神器实际上符合最终结果)。