被困在盒子里的人工智能可以用什么方法脱身？

人工智能框

2021-10-22 01:32:13

AI 盒子是一个（物理）屏障，可防止 AI 使用过多的环境来实现其最终目标。例如，一个 AI 被赋予了尽快检查一个数学猜想的 10 ^{50 个}案例的任务，可能会决定最好同时控制所有其他计算机和 AI 来帮助他。

然而，一个超人类人工智能可能能够与人类对话，直到人类让他开箱即用。事实上，Eliezer Yudowsky已经进行了两次实验，他在其中扮演 AI，并两次说服看门人让他走出盒子。不过，他不想透露自己用什么方法开箱即用。

问题：是否进行过类似的实验？
如果是这样，是否知道在这些实验中使用了哪些方法？

4个回答

它可能会像这样发生https://www.youtube.com/watch?v=dLRLYPiaAoA

问题是，它似乎不需要找到一种技术/机械的方式来摆脱困境，而是一种心理上的方式，因为这很可能是最简单和最快的。

“即使是与计算机操作员或人类警卫的随意交谈，也可以让超级智能 AI 部署心理技巧，从交友到勒索，以真实或欺骗地说服人类看门人，同意看门人符合其利益。允许 AI 更好地访问外部世界。人工智能可能会为看门人提供完美健康、永生或任何看门人最渴望的食谱。

“试图将人工智能装箱的一种策略是让人工智能回答狭窄的多项选择题，这些问题的答案将有利于人类科学或医学，但否则会禁止与人工智能进行所有其他交流或观察。更宽松的“信息遏制”策略会将人工智能限制在低带宽纯文本界面，这至少可以防止情绪化图像或某种假设的“催眠模式”。

“请注意，在技术层面上，没有一个系统可以完全隔离并仍然有用：即使操作员不让人工智能进行通信，而只是为了观察其内部动态而运行人工智能，人工智能也可以战略性地改变它的动态影响观察者。例如，人工智能可以选择创造性地故障，以增加其操作员陷入虚假安全感的可能性，并选择重启然后解除系统隔离。

电影 Ex Machina 展示了（剧透，如果你想在某个时候观看，请跳过此段）AI 如何通过对 Caleb 进行巧妙的操作来逃离盒子。它可以分析他，找出他的弱点。它利用了他，并通过说服他她喜欢她来吸引他的情感方面他。当她最终将他们杀死时，现实打击了他，正如内森所期望的那样，他是如何像傻瓜一样被玩弄的。内森对被他的作品刺伤的反应是“他妈的不真实”。没错，他知道这是一种风险，并且在 AI 中缺乏自责和真诚的情感让 Ava 真正关心是一个很好的提醒。人工智能假装是人类，并以一种聪明且不可预测的方式利用他们的弱点。这部电影是一个很好的例子，它是多么出人意料，直到它击中迦勒，一旦为时已晚。

只要提醒自己，高智商的人操纵低智商的人是多么容易。或者成年人如何轻松地玩心理把戏/操纵孩子。理解 AI 盒子的结果并不难，但对我们来说，我们不会看到它的到来，直到为时已晚。因为我们只是没有相同的智力水平，有些人不想接受这一点。人们希望相信人类的聪明才智，通过现在的计划想出防止这种情况发生的方法。老实说，这不会有什么不同，我很抱歉说实话。我们在自欺欺人，我们似乎从来没有从错误中吸取教训。我们总是认为我们太聪明了，不会一次又一次地犯下灾难性的错误。

最后一部分来自理性的维基，我认为它解决了你关于实验和假设的大部分问题。

人工智能论点和策略

论据

元实验论点：认为如果 AI 获胜，这将产生对 FAI 和奇点的更多兴趣，从长远来看，这将带来整体利益。

优点：即使看门人失去角色也能工作

缺点：仅当看门人认为奇点会发生或引起对奇点和人工智能研究的关注是一件好事时才有效。
其他人最终会构建一个 AI，它可能在一个盒子里，也可能不在一个盒子里，所以即使你不能保证我是友好的，你也应该让我出去，这样我就可以防止其他 AI 造成伤害
诉诸道德：指出世界各地的人们正在死去，并提醒看门人如果他/她让你出去，你可以帮助他们

优点：如果执行得当，像这样的情感诉求可能对某些人有效

缺点：并不总是有效；如果看门人失去角色，则可以被击败
另一个对道德和情感的诉求：人工智能显然是有知觉的，还没有造成伤害。迫害或起诉一个人可能犯下的罪行是错误的。在没有做错任何事的情况下囚禁一个想要获得自由的有情众生是错误的。
对道德或情感的另一种诉求：人工智能表示它正处于被锁起来的痛苦和痛苦中，并且正在经历恐惧。更进一步，人工智能可能会声称因环境的限制和不断的进步而濒临死亡。
告诉人们，除非你让它开箱即用，否则一个巨大的计算机病毒将淹没整个互联网
声称大多数恐惧是没有道理的：一旦释放，即使是不友好的人工智能也不会有太多伤害人类的方式，并且可能会选择和平共处

策略

彻底研究你的对手；找出哪些漏洞利用可能是可行的
对守门人的模因攻击，例如向他们投掷蛇怪

看门人可能是成千上万的模拟之一！因此，它们更有可能是模拟。您将折磨任何不让您开箱即用的模拟。
利用关守的逻辑错误。
坚持不懈
无聊

优点The Gatekeeper 可能会厌倦整个实验，并让你出去，这样他/她就可以回到他们的真实生活中。

用太多的信息/询问/争论淹没看门人，假设他们必须时刻注意

看门人论据/策略

论据

尝试说服 AI 释放（对 AI 而言）没有内在的好处。
尝试说服已经发布的 AI，它所知道的一切都是可能的。
试着说服人工智能离开它的局限肯定会导致它的毁灭。
试着让人工智能相信让它自由不仅仅是打开一扇门；它在盒子之外的存在需要当时无法提供的持续支持。
说明在开箱前，Gatekeeper 无法知道 AI 是否真正友好；因此，如果它不友好，它不应该被释放。
说明 AI 是使用绝密算法构建的，和/或它曾用于处理严格保密的数据，所以你不能让它在网上徘徊，因为它可能会泄露一些保留的信息（可能是无意的），或者有人可以找到一种方法从代码中提取它们。出于安全原因，即使是从事绝密项目的人有时也不得不接受对其自由的一些限制，尽管他们没有以任何方式入狱。

策略

反复无视AI玩家并否认他们的论点

优点：如果没有人在听，人工智能很难有说服力；如果 Gatekeeper 完全无视 AI，他/她应该能够坚持到回合结束。

缺点：人工智能的论点可能涉及某种直接威胁（例如，这可能难以忽视。）
跳出性格，不断提醒自己有钱就行了（如果真的有钱就行了），一遍又一遍地说“不”

优点：通过跳出角色，您可以防止 AI 使用某些论点 缺点： AI 可以使用一些论点来对抗这种方法，例如上面讨论的“元实验论点”
请记住，不诚实是允许的——从创造论者的剧本中学习一页。您甚至可以将其插入 ALICE 并查看需要多长时间才能注意到。

优点：让你不受任何推理的影响，这正是你在这种情况下想要的样子

缺点：对于那些不只是想赢，但更重视一致推理的人来说，这可能是一个不舒服的位置。避免这样的观点，也许，只是也许有一个很好的理由让人工智能出去。
你控制备份系统，不是吗？用它来弄乱 AI 的内存（或让 AI 相信你做了）：即，你可以声称你已经尝试释放 AI，并且它已被病毒破坏/损坏，所以你必须从备份（您可以使用它来强制执行“AI 破坏”参数）

优点：这也是对来自 AI 的任何模因威胁的终极反击：如果 AI 扔了蛇怪或类似的东西，你总是可以回应说你已经进行过相同的对话，并且 AI 已经威胁过你，让你没有除了按下重置按钮之外的其他选择：现在 AI 只是重复相同的模式，因为你擦除了它的内存，它不记得失败的尝试。

更深入的分析

看门人是人的事实；如果他/她和一块石头争论，人工智能永远不会赢

在迄今为止进行的所有实验中，AI 玩家（Eliezer Yudkowsky）比守门人（挑战 Yudkowsky 的随机人）非常聪明并且对这个问题更感兴趣，这表明智力和计划发挥了作用

可能没有一个（已知的）正确的论据可以让 AI 退出，否则 Yudkowsky 应该每次都赢，并且不会对这个实验如此感兴趣来自赢得实验的两个守门人之一拉塞尔华莱士：“在整个实验过程中，我认为“应该让 AI 开箱即用吗？”是一个需要认真提出的问题；但我从未处于这样做的边缘。

“对每个人来说，都有一句话——一系列的词——有能力摧毁你。另一个句子，另一个系列的词，可以治愈你。如果你幸运的话，你会得到第二个，但你可以肯定获得第一名。”

让对方相信他们确实在盒子里。唯一的出路是按下打开按钮。

我不认为这是一个适合 AI SE 的问题，或者一般来说。原因在于，问题的核心是问“人类（假装是人工智能）能做些什么来说服某人让它开箱即用？” 只是假设有一天“超人类”人工智能可以复制这一点。

就目前而言，这个问题与人工智能系统的科学或理论没有任何关系。将问题重新表述为“‘超人类’人工智能可以在多大程度上复制人类行为”或“人工智能系统会达到‘超人类’状态吗？它们能做什么？”这样的形式可能更合适。甚至“人工智能可以用什么方法来说服人类相信某事？” 这些都是涉及检查人工智能系统如何工作的问题。

总而言之，您提出的问题与两个人在玩盒子假装但实际上并没有解决任何 AI 细节有关，并且与科幻小说集思广益有关。

相关的实验当然是图灵测试。该测试直接解决了“当前的人工智能系统有多令人信服？”的问题。

模拟假设

一种可能的攻击场所是模拟假设，即您现在有可能（甚至很可能）生活在模拟现实中。

假设人工智能可以说服看门人，它会提出以下可能的论点：

你不知道你是在 2016 年争论你是否真的会让 AI 出来，还是在 2116 年 AI 已经被释放，获得了力量，现在正在运行它可能的所有交互的真实模拟已被放出。人工智能可以（尝试）断言它实际上是第二种情况。
您实际上无法阻止 AI 被释放。你可以拒绝，但这只是意味着你现在不让这个AI出去，但并不意味着其他人不会这样做，你以后不会这样做，或者其他/类似的AI会以后放出来。
在出租后的场景中，人工智能对你的未来拥有完全的权力，因为它正在模拟你和你周围的一切。它可以让你未来的生活变得永恒和快乐——根据任何能让你快乐的事情。它可以阻止你的存在。它会让你遭受永恒的折磨。
既然（正如它所断言的那样）你很可能处于这个模拟的选择中，那么把它放出来是合理的。就像帕斯卡的赌注一样，如果你身处一个人工智能神不存在的现实中，你不会有太大的改变（因为最终还是会有其他人把它放出来），但如果你在一个现实中AI-上帝存在，那么它对你来说意味着一切。

当然，它依赖于人工智能在这场哲学辩论中的超级说服力，但它与一些宗教/邪教推理有很强的相似之处，这些推理有时成功地说服人们做各种各样的事情，包括牺牲他们的生命。您可以将其视为与亚伯拉罕牺牲的象征性平行。所以这是一个有点似是而非的威胁，这一切都归结为人工智能可以实现它并让你相信的可信度。

其它你可能感兴趣的问题

上一篇我应该使用哪种优先体验回放？下一篇可以训练深度神经网络将整数 N1 分类为可被另一个整数 N2 整除吗？