盒子实验中的人工智能可以形式化吗?

人工智能 哲学 控制问题
2021-11-05 12:21:31

介绍

盒子里的AI实验是关于一个超级强的游戏AI,开始时资源比对手低,问题是,如果AI能在最后赢得比赛,就等于逃出监狱。一个典型的例子是计算机国际象棋比赛,其中人工智能玩家只从国王开始,但人类从包括皇后和强大的主教在内的所有 16 个棋子开始。

赢得比赛

如果设置非常不对称,AI 就没有机会赢得比赛。即使人工智能认为领先 100 步,一个国王也无法战胜 16 个对手。但是,如果 AI 以 8 件开始,而人类以 16 件开始,会发生什么?形式化的假设如下所示:

人工智能的优势 x 资源的劣势 = 人力的优势 x 资源的优势

要确定把人工智能关进监狱,人工智能的强度应该很低,而且它的资源也是如此。如果资源低但实力中等,那么AI有一定的机会越狱。如果人工智能拥有最大的力量和最大的资源,那么人类玩家就会遇到严重的问题。

学术界的 AI 文献是否支持这种形式化的预测?

1个回答

我认为像“强度”这样的东西在这种情况下很难量化。我确实认为围绕“盒子里的人工智能”场景进行的正式实验可能会很有趣。我知道已经做过实验,人类扮演人工智能的角色,试图让天真的测试对象通过聊天界面与他们互动来“释放”他。在所有情况下,“人工智能”往往都非常有效。通常根本不可能预料到有人会欺骗您泄露信息或制造安全漏洞的每一种方式。这也是人类黑客的工作方式。但我认为一个完全自动化的“游戏”可以产生一些有趣的数据。

我认为创建“盒子里的人工智能”游戏可能很有趣的一种方法是有一个模棱两可的获胜条件。从本质上讲,让 AI 有可能退出,但仍然认为你正在“赢得”游戏。一个立即出现在我脑海中的例子是使用(毫无意义的)积分系统。你告诉玩家游戏的主要目标是将 AI 留在盒子里,但你有一个显示在游戏中的分数,并告诉玩家他们赢了,无论如何,如果他们的分数高于游戏结束时的人工智能。当然,他们永远不会看到 AI 的分数,所以他们永远不知道通过比较他们做得有多好。这可以被证明是代表人类与人工智能的“力量”或“杠杆”或其他任何东西。

实际上,AI没有分数,但它确实有能力影响玩家的分数。如果他们做了一些帮助它逃跑的事情,它可以提高玩家的分数,当玩家挡道时会降低它。分数对游戏没有影响,玩家通过将 AI 留在盒子里才能真正获胜。它只是作为一个红鲱鱼,人工智能可以用来操纵玩家。我认为这种实验可以提供一个有趣的模型,说明人工智能如何利用贿赂、威胁、承诺和欺骗以及技术技巧来说服人类“让它开箱即用”。