我的理解是,没有单一的“图灵测试规则集”,而且比赛也并非都以完全相同的方式进行。不过,我想知道一些普遍接受的规则及其细微差别。我的谷歌搜索没有提供任何关于此的细节。
我认为大多数人都同意,与评委交谈的人的目的是表现正常。在所谓的“通过图灵测试”实例中,人类试图愚弄法官,让他们认为他们是 AI,我会说测试应该被抛弃,我已经看到该领域的批评者同意这一点。
但这个问题更多的是关于法官应该如何行事。
假设我们正在进行一场比赛,门槛是 40% 的评委在聊天 5 分钟后将 AI 称为人类。
在聊天过程中,法官是否应该试图欺骗潜在的 AI 使其暴露自己,或者法官是否应该尝试尽可能公正和自然地行事,就好像承认潜在的 AI 是人类一样,并根据完全自然的对话?
例如,询问“10 位 PI 的值是多少?” 或“123456 乘以 654321 是多少?” 或“如果你看到一只兔子和一角硬币被困在路上,卡车即将撞上它们,你会捡起哪一个?” 会试图欺骗 AI 暴露自己,因为您依赖于利用 AI 可能会告诉您正确答案或非人道答案的事实。
这与简单地进行自然和正常的对话相反,没有偏见或期望。如果你在街上遇到某人,你不会花 5 分钟试图匆忙提出荒谬的审讯问题以证明对方是 AI。
那么,图灵测试的重点是通常认为是试图清除 AI 还是试图在不带审讯式偏见的情况下判断它们的自然人类对话?