将不变的道德整合到聊天机器人中的最佳方法是什么

人工智能 强化学习 聊天机器人 伦理
2021-10-26 08:24:31

我正在构建一个生成模型聊天机器人作为研究和学习项目。我的项目中最重要的部分之一是研究如何让这个聊天机器人以一贯的道德方式工作。

这个聊天机器人只是在我的本地机器上运行的单个 Seq2Seq 网络。它不能通过互联网进行交互(还),尽管我最终可能会创造一种方法来做到这一点。它目前没有任何类型的反馈循环,尽管使用循环进行强化学习可能会有所帮助。

这个想法是,聊天机器人将使用某种不变的知识库,其中包含机器人无法改变的硬编码道德声明和价值观。每当向聊天机器人提出问题时,在输入到网络之前,都会搜索知识库并将相关事实附加到输入中(通过令牌与常规输入分开。

我的问题是,这是否会有效地让它产生自己的反应,但仍然局限于给定的道德标准?

我主要担心的是,随着时间的推移,它可能会开始忽略这些“事实”,它们可能变得无关紧要。

另一种(可能更好)的方法可能是使用深度强化学习。但是,我可能会发现很难用我现有的序列到序列网络来实现。

那么哪个可能会更好?或者也许我应该尝试将两者结合起来?

1个回答

基本公平

如果道德问题意味着系统设计是在对话的背景下培养基本道德,那么至少可以将三个属性设计到系统中。

  • 平等主义——不因性别、年龄、信仰、财务状况、血统或文化而受到偏袒或漠视,即使熟悉者的这些特征在个性化对话中是已知且有用的
  • 时间公平——确保与新通讯员和资深通讯员的互动为他们提供平等访问相关信息的机会,即使信任的建立是由系统控制的基于证据的过程(推荐)
  • 共享——平衡系统的目标,以服务他人的利益以及系统及其利益相关者的利益——黄金法则:以你希望被对待的方式对待他人。

这些属性可以以模糊规则编码,并入正在进行的学习算法的价值函数中,或者在训练期间使用的损失函数中表示,指导网络学习的内容。所有这些策略都需要跟踪指标并将其用于调整行为,这是一种社会意识。

在价值、资产、优势、肯定、注意力、损失、错误、痛苦或其他学习反馈方法的数学表达中,有明显的方法可以做到这一点。在生成网络拓扑中,判别网络需要能够使用上述原则识别不公平和自私。这对指标的设计以及如何量化公平和利益平衡提出了具体要求。

在对话过程中可能出现的潜在不平等的维度(特征)的平方和是可能的。使用四次方而不是平方会导致对较小的不公平现象的宽容,但对更大的不公平现象会产生强烈的反感。

=(bibj)4+

变量是损失函数结果和b是对对话参与者的好处ij其中两人可能是一个人和聊天机器人,一个人和一个聊天机器人生产服务器的利益相关者,或者两个与聊天机器人进行单独对话的人,或者两个与聊天机器人进行相同对话的人。请注意,省略号表示根据需要影响损失的更多术语。

认知伦理复杂性

如果道德问题是指从重视荣誉和真理的家庭传给孩子或在哈佛法学院教授的那种道德,那么系统设计可能必须等到计算机机器的认知能力得到进一步发展。否则,问题作者将不得不进一步使用 AI 以达到道德复杂性。

对语义获取、抽象、因果模型的自动组装、这些抽象和模型在规划和执行中的应用以及这些与自然语言学的整合的研究正在进行中。在撰写本文时,广泛的认知和某些人可能称之为智慧的东西已经脱离了人工智能的产物。

如果使用代表故事的数据和在这些故事中被认为是合乎道德的对话行为进行训练,那么一个足够深的网络可能会近似显示出似乎是道德意识的对话。然而,将人类通过书籍、电影、其他媒体、家庭生活和社区事件在几十年内(如果他们完全获得)获得的理解层压缩到一个计算项目中,目前可能是一个过于乐观的目标。

尽管经典作品的集合可能表现出很高的道德标准,但它没有被标记为数据。人们需要确定哪个角色以一种展示有价值的道德标准的方式进行了转换,然后配置学习过程以从故事中道德角色的角色弧中学习。

固有反馈

它目前没有任何类型的反馈循环,尽管使用循环进行强化学习可能会有所帮助。

没有反馈就无法适应。如果系统正在适应,则某些反馈机制正在纠正适应不良的条件,即使该机制对观察者而言是不透明的或以其他名称标识的。在 GAN 的情况下,反馈通过判别和生成网络组件创建平衡。

(((G,E1)D)G,E2)D

这并不排除额外的反馈路径可以提供额外的设计优势的可能性。

硬编码伦理

明智的行为可以硬编码吗?

这个想法是,聊天机器人将使用某种不变的知识库,其中包含机器人无法改变的硬编码道德声明和价值观。

这甚至会有效地让它产生自己的反应,但仍然局限于给定的道德标准吗?

引导正义的不是道德领域中不变的知识,而是指导道德标准不断改进的指导检测不道德事物的不变原则。这就是为什么即使是宪法也有修改规则的原因。从概率的角度来看,如果没有平衡的怀疑和确定性,就不可能发生道德发展。

没有人会读一本书或看一部电影,主角没有人物弧线,因为它不起眼。一个故事之所以引人注目,是因为伦理是适应性的,而这种适应性必须是一种新的类型,在以前的书籍或电影中没有多次提及。人们喜欢对这些改编感到惊讶。它们必须对抗所有将主角困在平庸监狱中的恐惧和对抗的外部力量。

故事的高潮是当主角与所有让他们不起眼的建筑力量对抗时,采取了一条抛弃所有先前计划并打造一条完全不同但从根本上更好的新计划的道路。

问题中的优秀目标

开发一个合乎道德的系统的意图本身就是光荣和合乎道德的,因此问题作者可能会将其中一些品质灌输到所设计的系统中。在我看来,这将是人工智能领域比迄今为止所有其他进展都更有价值的胜利。

为了取得这样的进步,问题的框架需要从新的方向思考。考虑所陈述的担忧。

随着时间的推移,它可能开始忽略这些“事实”,它们可能变得无关紧要。

关于这一问题,有两个原则可以证明是可以解释的。

  • 每种常用的语言都有相当于英语单词shouldand的ought意思,表示一种普遍的感觉,即某事是错误的。这种对不平衡的发现和识别是英雄主义和荣誉定义的核心,它至少试图重新平衡它。即使是矩阵中的神谕,在创造了不平衡之后,也坐在公园的长椅上与萨蒂在新平衡的温暖中交谈。确定需要中断和重新平衡的内容并为此制定策略是所有道德行为的共同点。道德是补救。一些道德选择需要忘却,这是道德最永恒的特征。
  • 一些最古老的原则,例如黄金法则或透明度的概念——正确的思想和正确的行动不可避免地结合在一起——比任何关于机器学习的书都更适合这个项目。计算机无法隐藏恶意意图然后进行合乎道德的交谈。系统利益相关者的目标也需要符合道德规范。

接近的第一个决定

做出的决定是应用的抽象级别。这个聊天机器人应该有道德还是有道德意识?

第一个需要将道德特征灌输到机器人中。第二个需要将道德特征的习得灌输到机器人中。尽管更抽象的第二个选择看起来很困难,但第一个可能无法实现。我们没有它的例子。然而,对于第二个选择,我们确实有一个概念证明:好人。

另一个要解决的子问题是关于人工智能组件的选择。

那么哪个可能更好[生成或强化]?或者也许我应该尝试将两者结合起来?

如果除了简单地跟踪基本公平指标之外,您对这个目标很认真,那么您可能必须使用这两者的元素,并且可能需要使用新事物来扩展 AI 组件和使用原则的列表。

退后一步

关于生成拓扑要理解的一件事是,它们并不是真正的对抗性,即使这个词是以一篇开创性论文的名义出现的。它们通常是高度共生的并且涉及平衡。没有生成网络,判别网络会是什么?没有区分性的,生成性的会产生什么?

两者合作创建了一个显示平衡平衡的反馈系统。这就像生物静止一样,这是它的天才。它也像化学。盐在水中的饱和悬浮液涉及溶解和结晶,在分子水平上不断表达相反的反应。同样,所有道德决策都是在至少一种均衡的背景下做出的决策,细节很重要。

法官或陪审团将公众道德观念应用于案件的每个法庭案件都有两个方面。他们可能看起来是对手,但整个法律程序是一个复杂和共生的设计,为了正义的利益而强制合作。

每个受过教育的记者都明白避免耸人听闻的报道的重要性。戏剧性地只展示故事的一方面可以推销新闻,并且是一种持续的诱惑。新闻诚信需要取得平衡。道德选择的结果决定了新闻项目是教育公众还是增加了可能已经被极端主义部分削弱的文化的两极分化。

再退一步

强化是一个奇怪的名字,它通过对预期优势的概率预测来给出本质上的敏捷规划。对话战略方法的精益方法应该在这个道德聊天机器人中吗?如果道德行为被定义为包括讲述传达智慧的故事,那么是的。Roger Schank 的工作在这种情况下引起了极大的兴趣。他在基于故事的推理方面的工作可能是一个值得研究的方向。

使道德基础适应每一次重要对话中固有的不断变化的故事可能需要计划。当参与者的意图不仅仅是交换寒暄时,每次谈话都可能不可避免地固有。