最小化对世界的影响会是对一般人工智能的安全指令吗?

人工智能 敏捷
2021-11-15 09:23:10

让我们以我们的标准回形针最大化器通用 AI 为例,尝试在一年的时间里精确地获得一百万个回形针,而不会在此过程中破坏宇宙。

大多数最大化指令使进程失控。尽可能廉价地破坏世界经济。尽可能好的剪辑将把宇宙变成超级合成器,组装原子完美的回形针。在这些最大化过程中添加截止日期可能会导致员工重新调整截止日期或发明时间旅行(在消耗太阳系来发明它之后)。最小化资源使用可能会导致全球所有行业的关闭。你知道,标准的恐怖场景。

在完成任务的同时最小化 AI 对世界的影响的指令呢?它是安全的,还是你能发现可能导致可怕后果的失控场景?

4个回答

我喜欢 mindrime 的回答,因为它确定了基本的、适用的概念。我将从博弈论的角度尝试另一个简短的答案。

博弈论是建立在极小极大原则之上的。具体来说,就是在不确定的情况下最大限度地提高收益,同时最大限度地减少潜在的不利因素。

Minimax 在具有易于定义的参数的环境中非常有效,例如组合游戏和程序优化,但在可能存在太多参数的实际场景中变得更加棘手,从而导致组合爆炸

关于实际应用的另一个问题来自符号接地问题在回形针场景中,所寻求的利益(目标)是可以明确定义的,并且可以用数学方法表示。相比之下,要避免的坏处则更难定义:“不要毁灭世界”、“不要把资源消耗到人类受苦的程度”、“不要破坏环境”都依赖于语言. 这就是说,它们所依赖的术语目前构成了无法立足的符号。因此,存在误解的余地,可能会产生意想不到的后果。

“最小化对系统的影响”(最小化对世界的影响)将是目标,但是您如何保证自动机清楚地了解在每种可能的情况下这意味着什么?

告诉系统“尽量减少对世界的干扰”,同时告诉系统“最大限度地生产回形针”或至少在一个层面上有趣的东西,那就是:系统究竟如何量化“对世界的干扰”?这似乎是一个不明确的概念。但是,如果您可以量化它,那么它只会成为优化问题中的一个变量,这是一个简单的概念。

一般来说,检测失控进程是一个有趣的概念。我不是专家,但我敢打赌控制论/控制理论文献中有一些关于这个主题的材料。这可能就像观察一些变化率(每天产生的回形针?)并取一阶和二阶导数并寻找加速度jerk的急剧变化一样简单。来自异常检测领域的其他算法也可能适用。

AI in a box文献来看,即使只是与世界其他地方的文本界面也足以让 AI 获得完全控制。

或者,考虑有关相态变化/动态系统/控制理论的文献。我不知道是否有直接支持这一点的来源,但可以想象,由于社会系统是如此相互关联,一个系统的一些可控的自由参数可能足以强烈影响整个系统。

所以不,限制影响并不能充分保证降低人工智能风险。一个普遍的说法是,如果我们知道某个 AI 的目标,我们就无法预测/如何/AI 会实现某个目标,因为我们不够聪明,但我们可以预测最终结果(它的成功)。

在这里,您错误地假设 AI 一次只有一个目标。但与人类一样,它必须始终牢记许多目标,并注意新分配的目标与其现有目标不冲突。

你提出的目标是“尽量减少对世界的影响”的提议过于简单化,因为它在某些情况下是有害的。