我最近阅读了一些关于 AI 对齐、AIXI 和决策理论的介绍。
据我了解,AI 对齐的主要问题之一是如何很好地定义一个效用函数,而不是引起类似回形针启示的事情。
然后我想到一个问题,无论效用函数是什么,我们都需要一台计算机来计算效用和奖励,这样就没有办法阻止 AGI 寻求它来操纵效用函数以始终给出最大的奖励。
就像我们人类知道我们可以通过化学方式给自己幸福一样,有些人确实这样做了。
有什么办法可以防止这种情况发生吗?不仅要从物理上保护实用程序计算器免受 AGI 的影响(我们如何确保它永远有效?),还要防止 AGI 想到它?