我们如何防止AGI做毒品?

人工智能 强化学习 敏捷 奖励 爱西 奖励黑客
2021-10-18 11:53:12

我最近阅读了一些关于 AI 对齐、AIXI 和决策理论的介绍。

据我了解,AI 对齐的主要问题之一是如何很好地定义一个效用函数,而不是引起类似回形针启示的事情。

然后我想到一个问题,无论效用函数是什么,我们都需要一台计算机来计算效用和奖励,这样就没有办法阻止 AGI 寻求它来操纵效用函数以始终给出最大的奖励。

就像我们人类知道我们可以通过化学方式给自己幸福一样,有些人确实这样做了。

有什么办法可以防止这种情况发生吗?不仅要从物理上保护实用程序计算器免受 AGI 的影响(我们如何确保它永远有效?),还要防止 AGI 想到它?

2个回答

这在文献中被称为奖励黑客参见https://medium.com/@deepmindsafetyresearch/designing-agent-incentives-to-avoid-reward-tampering-4380c1bb6cd进行讨论和进一步链接。

你对 AGI 做了很多假设,即“我们需要一台计算机来计算效用并奖励 AGI”。我不清楚(1)我们可以实现 AGI,(2)AGI 将在我们所知的计算机上,(3)AGI 将与我们所知的效用/奖励功能一起工作。

我确信的一件事是 ML 以“作弊”而闻名(参见示例)。避免这种作弊是构建过程的一部分。因此,当您假设我们可以实现 AGI 时,这意味着您假设我们可以构建一个不会“作弊”的 AGI。因此,答案主要包含在您的假设中。

我们是否能够建立一个 AGI,我们必须克服什么“作弊”才能做到这一点以及我们将如何做到这一点大多是不确定的。