图灵测试的具体要求是什么?
- 评估者必须满足哪些要求才能获得参加考试的资格?
- 对话中必须始终有两个参与者(一个人和一台计算机)还是可以有更多?
- 是否允许或鼓励安慰剂测试(实际上不涉及计算机)?
- 可以有多个评估者吗?如果是这样,该决定是否需要在所有评估者之间达成一致才能使机器通过测试?
图灵测试的具体要求是什么?
“图灵测试”通常被认为是艾伦·图灵在 1951 年同名论文中提出的模仿游戏的更新版本。早期版本有一个人(男性或女性)和一台计算机,法官必须决定哪个是哪个,如果是人类,他们是什么性别。如果它们的正确率低于 50%,则计算机被认为是“智能的”。
目前普遍接受的版本只需要一名参赛者和一名评委来决定是人还是机器。所以是的,如果我们认为人类是安慰剂,有时这将是一种安慰剂。
您的第一个和第四个问题是相关的——并且没有严格的指导方针。如果计算机可以欺骗更多的法官,那么它当然会被认为是更好的人工智能。
多伦多大学在这篇关于图灵的论文中有一个有效性部分,其中包括一个链接到Jason Hutchens关于为什么图灵测试可能不相关(人类也可能失败)的评论和Loebner 奖,图灵的正式实例测试 。
这里确实有两个问题,我可以看到。一个是“如图灵本人所说,原始图灵测试的具体要求是什么?” 另一个是“现代图灵测试的具体要求应该是什么?” 自图灵时代以来,事情已经取得了很大进展,我认为我们考虑扩展/修改他的测试以反映我们当前的理解是合理的。
第一个问题的答案很容易查到,所以我认为有趣的是第二个问题。确定智力的测试应该是什么样的?考虑到这一点,我认为 OP 提出的所有四个问题的答案都是“视情况而定”。我认为如何构建完美的图灵测试并没有普遍的共识,因此给定的实验者真的可以自由地设置他/她想要的东西。
当然,这一切都是基于图灵测试或类似图灵测试的测试实际上是有价值的假设。这不一定是给定的。考虑到,在某种程度上,我们正在谈论的是设计一个具有非凡欺骗能力的人工智能!也就是说,假设提问者被允许简单地问“你是人类吗”,那么我们必须假设如果人工智能想要通过测试,它就应该撒谎。所以有人可能会问,设计一个真正擅长说谎的系统,是一种有价值的人工智能方法吗?
如果您想了解相对论,请阅读爱因斯坦1,2,而不是一本认为自己掌握了相对论的教授撰写的有关相对论的书。如果您想了解艾伦图灵在人类对话背景下的智力测试,请阅读图灵。3 解释可能比毫无价值更糟糕。它们经常具有误导性。如果这些原则看起来太厚重,请再读一遍,直到你明白为止。
以图灵在人类对话背景下的智能测试为例,为了充分理解它,图灵写作时假设了以下背景,如果你阅读他 1950 年的文章,就会明白这一点。
模仿游戏的具体要求,艾伦图灵在他的思想实验描述之上的副标题,是有记录的。
具体要求【摘自实际文章】
[模仿游戏] 由三个人玩,一个男人(A),一个女人(B)和一个可能是任何性别的审讯者(C)。审讯者待在与其他两人分开的房间里。审讯者的游戏目标是确定另外两个中哪个是男人,哪个是女人。他通过标签 X 和 Y 认识他们,在游戏结束时,他说“X 是 A,Y 是 B”或“X 是 B,Y 是 A”。审讯者可以向 A 和 B 提问,因此:
C: X 请告诉我他或她的头发长度吗?
现在假设 X 实际上是 A,那么 A 必须回答。A 在游戏中的目的是试图让 C 做出错误的识别。因此,他的回答可能是:
“我的头发是带状的,最长的头发大约有九英寸长。”
为了使语调对询问者没有帮助,应该写下答案,或者最好是打字。理想的安排是在两个房间之间安装电传打印机。或者,可以由中间人重复问题和答案。第三个玩家(B)的游戏目的是帮助审讯者。
对她来说最好的策略可能是给出真实的答案。她可以添加诸如“我是女人,不要听他的!”之类的话。对她的回答,但没有任何用处,因为男人可以发表类似的言论。
我们现在问一个问题,“当机器在这个游戏中扮演 A 的角色时会发生什么?” 像这样玩游戏时,审问者会像玩男人和女人之间的游戏一样经常做出错误的决定吗?这些问题取代了我们原来的“机器能思考吗?”
对爱因斯坦的相对论和图灵测试的批评已经有数千次,但没有一个能增加多少价值。通过他们自己的话研究伟大贡献者的想法,随后的所有垃圾将主要是因为缺乏伟大而有趣。
本主题中的次要问题
评估者必须满足哪些要求才能获得参加考试的资格?
询问者 (C) 不是评估者。评估将是一种客观的尝试,但是图灵的思想实验的前提是审讯者提供她或他的主观判断。从统计学的角度来看,应该从与 (A) 和 (B) 共享口语的世界人口中随机选择询问者。
对话中必须始终有两个参与者(一个人和一台计算机)还是可以有更多?
必须恰好有两个才能适合艾伦图灵描述的场景。(有关详细信息,请参见下文。)
是否允许或鼓励安慰剂测试(实际上不涉及计算机)?
人们可以测试各种各样的东西,但是研究人员会这样做,这超出了图灵思想实验的范围。4
可以有多个评估者吗?如果是这样,该决定是否需要在所有评估者之间达成一致才能使机器通过测试?
向那些赞助实际模仿游戏的人透露最多信息的是双盲完全随机测试,其中 (A)、(B) 和 (C) 是从这些男性、女性或软件的样本中随机抽取的被测类型的系统,可以用一种通用语言进行交流,并且测试将运行多次,并从样本中随机选择。
如果在“计算机能思考吗?”这个问题上坚持图灵的初衷,那么一致、评估、额外的复杂性和测试指定之外的交流只会使事业受挫。
情报的其他观点
图灵和勒内笛卡尔一样,他说机器永远不会通过图灵模仿游戏的控制较少的版本,通过对话的镜头看到了智能。其他人考虑了其他类型的对话和对话以外的其他上下文。我在另一个问题中解决了这个问题:
参考文献和脚注
[1]相对论:爱因斯坦的狭义和广义理论,1916
[2]阿尔伯特·爱因斯坦和弗朗西斯·A·戴维斯的《相对性原理》 ,1923 年
[3] AM Turing (1950) 计算机与智能。头脑 49:433-460。 https://www.csee.umbc.edu/courses/471/papers/turing.pdf
[4] 图灵 1950 年的文章不建议将他的思想实验体现并用于未来 AI 系统的商业验证。然而,艾伦·图灵在他职业生涯的一个特定阶段关注实用计算。就在那时,纳粹占领了法国,从空中粉碎了他的家园,并在 Enigma 密码学的帮助下从地下击沉了英国海军的很大一部分。