图灵测试要求的细微差别

人工智能 图灵测试
2021-10-30 19:41:00

我的理解是,没有单一的“图灵测试规则集”,而且比赛也并非都以完全相同的方式进行。不过,我想知道一些普遍接受的规则及其细微差别。我的谷歌搜索没有提供任何关于此的细节。

我认为大多数人都同意,与评委交谈的人的目的是表现正常。在所谓的“通过图灵测试”实例中,人类试图愚弄法官,让他们认为他们是 AI,我会说测试应该被抛弃,我已经看到该领域的批评者同意这一点。

但这个问题更多的是关于法官应该如何行事。

假设我们正在进行一场比赛,门槛是 40% 的评委​​在聊天 5 分钟后将 AI 称为人类。

在聊天过程中,法官是否应该试图欺骗潜在的 AI 使其暴露自己,或者法官是否应该尝试尽可能公正和自然地行事,就好像承认潜在的 AI 是人类一样,并根据完全自然的对话?

例如,询问“10 位 PI 的值是多少?” 或“123456 乘以 654321 是多少?” 或“如果你看到一只兔子和一角硬币被困在路上,卡车即将撞上它们,你会捡起哪一个?” 会试图欺骗 AI 暴露自己,因为您依赖于利用 AI 可能会告诉您正确答案或非人道答案的事实。

这与简单地进行自然和正常的对话相反,没有偏见或期望。如果你在街上遇到某人,你不会花 5 分钟试图匆忙提出荒谬的审讯问题以证明对方是 AI。

那么,图灵测试的重点是通常认为是试图清除 AI 还是试图在不带审讯式偏见的情况下判断它们的自然人类对话?

1个回答

我不知道所有比赛,但Loebner 奖是基于图灵测试概念的更知名的比赛之一,专门针对聊天机器人,评委必须对所有机器人提出相同的问题。这些问题仅在比赛期间揭晓,机器人程序员除了制作一个普遍良好的聊天机器人外,不可能为他们做准备。然后,他们的评委可以根据机器人处理同一组问题的方式对机器人进行排名。例如,来自 chatbots.org/ai_zone/viewthread/867 这里是测试后发布的 2012 年“合格”问题:

我叫比尔。你叫什么名字?

比尔的名字有多少个字母?

我的名字有多少个字母?

哪个更大,一个苹果还是一个西瓜?

3 + 2 是多少?

三加二等于多少?

我的名字是什么?

如果约翰比玛丽高,谁更矮?

如果现在是凌晨 3 点 15 分,那么 60 分钟后会是几点?

我的朋友约翰喜欢钓鳟鱼。约翰喜欢钓鱼是为了什么?

十七之后是什么数字?

我钓鳟鱼的朋友叫什么名字?

我应该用什么把钉子钉在墙上?

字母表中的第三个字母是什么?

现在几点了?

根据维基百科的描述,问题的风格随着时间的推移而改变。在我看来,上面的设置似乎是为了测试非常简单的语法、常识和记忆目标。