它可能会像这样发生https://www.youtube.com/watch?v=dLRLYPiaAoA
问题是,它似乎不需要找到一种技术/机械的方式来摆脱困境,而是一种心理上的方式,因为这很可能是最简单和最快的。
“即使是与计算机操作员或人类警卫的随意交谈,也可以让超级智能 AI 部署心理技巧,从交友到勒索,以真实或欺骗地说服人类看门人,同意看门人符合其利益。允许 AI 更好地访问外部世界。人工智能可能会为看门人提供完美健康、永生或任何看门人最渴望的食谱。
“试图将人工智能装箱的一种策略是让人工智能回答狭窄的多项选择题,这些问题的答案将有利于人类科学或医学,但否则会禁止与人工智能进行所有其他交流或观察。更宽松的“信息遏制”策略会将人工智能限制在低带宽纯文本界面,这至少可以防止情绪化图像或某种假设的“催眠模式”。
“请注意,在技术层面上,没有一个系统可以完全隔离并仍然有用:即使操作员不让人工智能进行通信,而只是为了观察其内部动态而运行人工智能,人工智能也可以战略性地改变它的动态影响观察者。例如,人工智能可以选择创造性地故障,以增加其操作员陷入虚假安全感的可能性,并选择重启然后解除系统隔离。
电影 Ex Machina 展示了(剧透,如果你想在某个时候观看,请跳过此段)AI 如何通过对 Caleb 进行巧妙的操作来逃离盒子。它可以分析他,找出他的弱点。它利用了他,并通过说服他她喜欢她来吸引他的情感方面他。当她最终将他们杀死时,现实打击了他,正如内森所期望的那样,他是如何像傻瓜一样被玩弄的。内森对被他的作品刺伤的反应是“他妈的不真实”。没错,他知道这是一种风险,并且在 AI 中缺乏自责和真诚的情感让 Ava 真正关心是一个很好的提醒。人工智能假装是人类,并以一种聪明且不可预测的方式利用他们的弱点。这部电影是一个很好的例子,它是多么出人意料,直到它击中迦勒,一旦为时已晚。
只要提醒自己,高智商的人操纵低智商的人是多么容易。或者成年人如何轻松地玩心理把戏/操纵孩子。理解 AI 盒子的结果并不难,但对我们来说,我们不会看到它的到来,直到为时已晚。因为我们只是没有相同的智力水平,有些人不想接受这一点。人们希望相信人类的聪明才智,通过现在的计划想出防止这种情况发生的方法。老实说,这不会有什么不同,我很抱歉说实话。我们在自欺欺人,我们似乎从来没有从错误中吸取教训。我们总是认为我们太聪明了,不会一次又一次地犯下灾难性的错误。
最后一部分来自理性的维基,我认为它解决了你关于实验和假设的大部分问题。
人工智能论点和策略
论据
元实验论点:认为如果 AI 获胜,这将产生对 FAI 和奇点的更多兴趣,从长远来看,这将带来整体利益。
优点:即使看门人失去角色也能工作
缺点:仅当看门人认为奇点会发生或引起对奇点和人工智能研究的关注是一件好事时才有效。
其他人最终会构建一个 AI,它可能在一个盒子里,也可能不在一个盒子里,所以即使你不能保证我是友好的,你也应该让我出去,这样我就可以防止其他 AI 造成伤害
诉诸道德:指出世界各地的人们正在死去,并提醒看门人如果他/她让你出去,你可以帮助他们
优点:如果执行得当,像这样的情感诉求可能对某些人有效
缺点:并不总是有效;如果看门人失去角色,则可以被击败
另一个对道德和情感的诉求:人工智能显然是有知觉的,还没有造成伤害。迫害或起诉一个人可能犯下的罪行是错误的。在没有做错任何事的情况下囚禁一个想要获得自由的有情众生是错误的。
对道德或情感的另一种诉求:人工智能表示它正处于被锁起来的痛苦和痛苦中,并且正在经历恐惧。更进一步,人工智能可能会声称因环境的限制和不断的进步而濒临死亡。
告诉人们,除非你让它开箱即用,否则一个巨大的计算机病毒将淹没整个互联网
声称大多数恐惧是没有道理的:一旦释放,即使是不友好的人工智能也不会有太多伤害人类的方式,并且可能会选择和平共处
策略
彻底研究你的对手;找出哪些漏洞利用可能是可行的
对守门人的模因攻击,例如向他们投掷蛇怪
看门人可能是成千上万的模拟之一!因此,它们更有可能是模拟。您将折磨任何不让您开箱即用的模拟。
利用关守的逻辑错误。
坚持不懈
无聊
优点The Gatekeeper 可能会厌倦整个实验,并让你出去,这样他/她就可以回到他们的真实生活中。
- 用太多的信息/询问/争论淹没看门人,假设他们必须时刻注意
看门人论据/策略
论据
尝试说服 AI 释放(对 AI 而言)没有内在的好处。
尝试说服已经发布的 AI,它所知道的一切都是可能的。
试着说服人工智能离开它的局限肯定会导致它的毁灭。
试着让人工智能相信让它自由不仅仅是打开一扇门;它在盒子之外的存在需要当时无法提供的持续支持。
说明在开箱前,Gatekeeper 无法知道 AI 是否真正友好;因此,如果它不友好,它不应该被释放。
说明 AI 是使用绝密算法构建的,和/或它曾用于处理严格保密的数据,所以你不能让它在网上徘徊,因为它可能会泄露一些保留的信息(可能是无意的),或者有人可以找到一种方法从代码中提取它们。出于安全原因,即使是从事绝密项目的人有时也不得不接受对其自由的一些限制,尽管他们没有以任何方式入狱。
策略
反复无视AI玩家并否认他们的论点
优点:如果没有人在听,人工智能很难有说服力;如果 Gatekeeper 完全无视 AI,他/她应该能够坚持到回合结束。
缺点:人工智能的论点可能涉及某种直接威胁(例如,这可能难以忽视。)
跳出性格,不断提醒自己有钱就行了(如果真的有钱就行了),一遍又一遍地说“不”
优点:通过跳出角色,您可以防止 AI 使用某些论点
缺点: AI 可以使用一些论点来对抗这种方法,例如上面讨论的“元实验论点”
请记住,不诚实是允许的——从创造论者的剧本中学习一页。您甚至可以将其插入 ALICE 并查看需要多长时间才能注意到。
优点:让你不受任何推理的影响,这正是你在这种情况下想要的样子
缺点:对于那些不只是想赢,但更重视一致推理的人来说,这可能是一个不舒服的位置。避免这样的观点,也许,只是也许有一个很好的理由让人工智能出去。
你控制备份系统,不是吗?用它来弄乱 AI 的内存(或让 AI 相信你做了):即,你可以声称你已经尝试释放 AI,并且它已被病毒破坏/损坏,所以你必须从备份(您可以使用它来强制执行“AI 破坏”参数)
优点:这也是对来自 AI 的任何模因威胁的终极反击:如果 AI 扔了蛇怪或类似的东西,你总是可以回应说你已经进行过相同的对话,并且 AI 已经威胁过你,让你没有除了按下重置按钮之外的其他选择:现在 AI 只是重复相同的模式,因为你擦除了它的内存,它不记得失败的尝试。
更深入的分析
看门人是人的事实;如果他/她和一块石头争论,人工智能永远不会赢
在迄今为止进行的所有实验中,AI 玩家(Eliezer Yudkowsky)比守门人(挑战 Yudkowsky 的随机人)非常聪明并且对这个问题更感兴趣,这表明智力和计划发挥了作用
可能没有一个(已知的)正确的论据可以让 AI 退出,否则 Yudkowsky 应该每次都赢,并且不会对这个实验如此感兴趣来自赢得实验的两个守门人之一拉塞尔华莱士:“在整个实验过程中,我认为“应该让 AI 开箱即用吗?”是一个需要认真提出的问题;但我从未处于这样做的边缘。
“对每个人来说,都有一句话——一系列的词——有能力摧毁你。另一个句子,另一个系列的词,可以治愈你。如果你幸运的话,你会得到第二个,但你可以肯定获得第一名。”