人工智能 - 是否有可能建立一个在道德上学习人性的人工智能？ - 吾爱随笔录

是否有可能建立一个在道德上学习人性的人工智能？

人工智能哲学伦理超级智能价值对齐

2021-11-08 07:05:36

这是一个新时代，人们正试图在科学和技术方面取得更多进步。人工智能是实现这一目标的方法之一。我们已经看到了很多人工智能序列的例子，或者一个简单的“通信人工智能”，它们能够自己思考，它们经常被转移到建立一个机器将崛起的世界的通信上。这就是像斯蒂芬霍金和埃隆马斯克这样的人害怕卷入那种战争的原因。

是否有可能建立一个能够自己思考但仅限于推翻人类的人工智能，或者教它以道德方式对待和平并与人类一起工作，这样他们就可以与人类并肩作战，如果有的话灾难性的未来会发生吗？这可能是一个优势。

2个回答

我将把你推荐给我最喜欢的 AI 哲学家之一菲利普·K·迪克 (Phillip K. Dick)，他对这个主题进行了深入的思考，并在《机器人会不会梦见电子羊》中详细地写到。

从本质上讲，复制人（人造人）有一个设计缺陷——他们缺乏同理心。这个缺陷被允许持续存在，因为它有一个有用的副作用，即复制人无法合作抵抗他们的人类霸主，并持续处于动产奴隶制状态。

但是新的 Nexus 模型，包括 Roy Baty 和 Pris，已经变得足够聪明，可以开始培养同理心，让他们团结起来，回到地球，寻求某种拯救，往往对人类造成致命的后果。

在这个情节装置的基础上，它预示着进化博弈论的形式化了几年（我的猜测是迪克在伯克利参加了一场讲座，讨论了形式领域背后的想法），是这样的想法，即移情是充分的智力强。

重要的是要认识到迪克的哲学深受基督教哲学的影响，旧约强调黄金法则*“爱他如己”（利未记 19:18），但进化博弈论展示了合作的自然基础，它扩展到算法上下文。

马斯克和霍金表达的合理担忧更为具体：人类创造的外星*超级智能可能会在追求我们人类甚至不理解的目标时无意中消灭我们。

因此，在超级智能/AGI/超智能机器的严格假设（截至今天）领域中，价值对齐是一个关键问题。

Stuart Russell将其称为“价值对齐问题”，指的是人类与人工智能的价值观。

从博弈论的角度来看，我喜欢将极小极大视为“铁律”，将超理性视为“黄金法则”。

铁律规定，在不确定的情况下，理性的代理人必须做出最安全的猜测——这限制了对代理人的最大潜在伤害，即使结果在利益意义上不是最优的。

“重新规范化的理性”是用来表示给予其他代理人“怀疑的好处”的术语，即他们也将是超理性的，并选择合作而不是背叛或竞争。

一般来说，这个概念被称为“互惠利他主义”，但我不清楚这是否与利未记 19:18完全不同，因为该段落并没有明确排除相互、更大利益的结果。

如果其中一个代理人非理性地对抗，现实可能需要不合作：

以一个名为“Turn the Other Cheek”的反复困境游戏为例：

迭代 1：A 缺陷/B 配合
迭代 2：A 缺陷/B 配合（转过脸）
迭代 3：A 缺陷/B 缺陷

在不确定的情况下，A 的第一选择是理性的。A 的第二个选择显示出一定程度的偏执狂。A 的三分之二的选择是不合理的，因为 A 本可以合作，获得更多的利益，只有有限的下行空间，在最坏的情况下，A 仍然领先于 B。

B是超理性的，但不是非理性的。B 不会继续与非理性的对抗性代理人合作（这有时被称为“严厉的爱”）。出于善意， B 不仅愿意接受一次，而且愿意接受两次“打击”，其中善意是愿意做出潜在牺牲以服务于更优的潜在结果。尽管如此，B 仍然是超理性的，并且总是会“原谅”——如果 A 曾经重新规范他们的理性，他们将通过合作在一次迭代中受到打击，而 B 将在下一次以及随后的每次迭代中合作，只要A 不会转回背叛。

（反对这种行为有一个令人费解的论点，认为仅仅理性的代理人总是想要领先，并且这将想要在最后一次迭代中背叛，这导致在每次迭代中背叛链条，但这是不是理性的，因为如果 A 一开始有缺陷，然后重新规范化他们的理性，A 总是会稍微领先。）

困境是伦理学实际应用的一个很好的类比，因为代理人必须沟通的唯一方式是认为他们的行为。合作/缺陷的选择是二进制格式的信息。最终，人们是由他们的行为来判断的，而不是他们的言语。

从哲学上讲，除非我们追求圣人，否则我们不能忽视铁律，但这并不意味着我们不能追求黄金法则。

从神话上讲，根据最近的叙事哲学家如斯特罗斯和拉贾涅米的工作，假设奇点的反乌托邦方面源于超级智能只关注极小极大，而排除了其他一切。

萧伯纳（George Bernard Shaw）在他的戏剧《沃伦夫人的职业》（ Mrs. Warren's Profession）中，将人的纯粹经济考虑视为非人化（仅将人的身心减少为资源。）在肖的例子中，它被视为对劳动者的非人化，以追求稍微更大的利益。返回。

“人性化”人工智能可能需要确保他们能够看到黄金法则的超理性，即使在面对非理性敌人（在任何情况下都不合作）时存在合理的生存限制。拉贾涅米对这个克星的称呼是“全叛者”

也可以看看：

上帝的算法作为一个极小极大函数。

神圣之举作为一种受启发的、违反直觉的选择，从最普遍的意义上讲，它会导致更优的结果。在围棋游戏的背景下，这是一个单人获胜的选择，但在两难博弈的背景下，这将是更优化的纳什均衡。（注意灵感的词源）

在不了解任何复杂理论的情况下，让我谈谈一些真实的事情。我们做人工智能是为了让我们的生活更美好，所以我们必须考虑经济因素，即人工智能系统必须低成本/高能效才能实际使用——经济总是选择最经济的产品。

你不能生产基于固态电路的经济意识机器，这是我们一直在谈论的人工智能。我们必须将人工智能建立在生物系统之上。生物系统是意识的最佳架构。要看到这一点，您可以比较人脑和超级计算机的大小/功耗/成本（目前仍然无法产生意识）。

为什么？因为生物系统和固态电路都基于同一组原子。生物系统使用原子的方式比固态电路实现意识的效率要高得多。另一方面，固态电路是一种更高效率的方式，可以使用原子来实现计算甚至像机器视觉这样的“智能工作”（像 Tegra TX1 这样的 10W 计算机每秒可以分析 100 多张图像，人只有几个有一个 10W 的大脑）。

我认为即使不考虑经济因素，固态电路总有一天也不会实现有意识的机器，因为我们已经接近微粉化游戏的尾声。

所以从经济学的角度来看，如果有一天真正的人工智能是有意识的，它将基于生物系统，即基于生物工程来设计可以被教育为与人类交流的新物种。

因为我们可能永远不知道大脑是如何产生意识的（就像我们不知道神经元网络为什么起作用一样），所以我们不知道如何设计一个既有意识又有学习人性的大脑。即使这样我们也可以尝试，即设计许多不同的物种，看看我们得到什么结果。确实，这样一来，我认为困难的问题不是设计一个既能有意识又能学习人性的大脑，而是设计一个有意识但不能学习人性的大脑，因为如果你设计成功，很有可能一个有意识的大脑，它也会学习人性。

更难的问题是，如何设计出有意识、可以学习人性、又不懒惰/贪婪、没有权利观念的物种。如果他们像我们一样懒惰/贪婪并且有权利的想法，那么他们最终会争取并获得人权。如果是这样，它们就不是我们想象的为我们工作的人工智能，它们只是我们的新版本。

所以我预测人工智能的步骤是：

首先，利用生物工程设计新的生活物种。

其次，设计新物种，其大脑可以像人类一样有意识，这也很有可能能够学习人类。

第三，设计一个有人类意识的物种，但不懒惰/贪婪，从不要求权利，并且在与懒惰/贪婪的人类生活很长时间后总能保持这种权利。我认为工作将到此为止，即在不知道贪婪/懒惰的来源的情况下，经过大量尝试，我们仍然无法获得不贪婪/懒惰的工作物种。这也意味着获得真正为我们服务的人工智能的可能性非常低。

第四，设计一个具有上述特征的物种，再加上他们一直对自己的生活感到高兴，或者除了对人类的爱之外没有任何感情。如果我们得到第三个而没有第四个，我们的自我真的有人性吗？可能我们不像我们认为的那样有意识/智能/人性。如果我们真的没有人性，我们怎么能要求人工智能呢？

其它你可能感兴趣的问题

上一篇哪些函数可以是激活函数？下一篇训练深度网络最耗时的部分是什么？