奖励假设的反例

人工智能 强化学习 萨顿巴托 奖励设计 奖励函数 奖励假设
2021-10-24 21:42:31

在 Sutton 和 Barto 的 RL 书中,奖励假设被表述为

我们所说的所有目标和目的都可以很好地被认为是接收到的标量信号的累积和的期望值的最大化(称为奖励)

是否存在无法将目标和目的视为接收到的标量信号的累积和的期望值的最大化的任务示例?

我能想到的都是有主观奖励的任务,比如“写好音乐”,但我不相信,因为也许这实际上是可以定义的(也许是某个超级智能的外星人),而我们还不够聪明。因此,我对逻辑上可证明的假设失败的反例特别感兴趣。

4个回答

如果标量奖励不足,或者不清楚如何将多维奖励折叠为单一维度怎么办。例如,对于吃汉堡的人来说,味道和成本都很重要。代理商可能会以不同的方式优先考虑口味和成本,因此不清楚如何汇总两者。主观分类品味值如何与数字成本相结合也不清楚。

我相信你的问题没有明确的答案。它本质上归结为你是否是一个还原论者——你是否相信定量测量可以真正公正地对待现实世界的复杂性,以及诸如期望最大化之类的框架可以无损地捕捉我们作为人类在执行任务。

从非简化主义的角度来看,人们会意识到,几乎任何复杂现实世界目标的数学表示都必然是一个代理而不是真正的目标(因为许多目标在数学上是不可形式化的,例如我们认为的“好音乐”或“意义”),因此奖励假设充其量只是一个近似值。基于此,非还原论者的奖励假设可以改写为:

我们所说的所有目标和目的都可以很好地被认为是 近似可操作的(尽管有一定的域相关损失)作为接收到的标量信号的累积和的期望值的最大化(称为奖励)

显然,奖励假设的原始(更严格)版本确实适用于某些情况,例如纯量化领域(例如最大化在股票市场上赚取的美元,或最大化电子游戏中的得分),但只要问题涉及到足够多“复杂性”(例如人类,或者您认为边界应该在的任何地方),非还原论者会说数学显然不适合真正捕捉预期目标的任务。

有关奖励假设的更多信息(由Michael Littman本人提出)在这里我会将其添加为对该问题的评论,但没有足够的声誉。

我能想到的最接近的反例是学习好的政策需要奖励塑造但最终会产生意想不到的后果的情况。

奖励塑造通常用于我们想要鼓励特定行为的情况,或者奖励稀少的情况,或者准确捕捉你想要的东西并不简单或不可行的情况。但过分依赖它并不是一个好习惯,因为它可能会产生意想不到的后果。此处描述了一个简单的示例https://openai.com/blog/faulty-reward-functions/

这本书通过提出一些假设来建立这个假设:

在强化学习中,代理的目的或目标是根据称为奖励的特殊信号制定的,从环境传递给代理。在每个时间步,奖励都是一个简单的数字。

我们可以考虑这些假设的反例可能是什么:

  1. 奖励信号源自内部,而不是源自环境。(例如冥想或抽象内省)
  2. 不是每个时间步都接收到信号,或者根本不需要接收到信号。(例如寻求超验经验)

这些反例的共同点可能是强化学习机制本身会发生自发的变化。在自发变化之前本来是积极的信号现在可能是消极的。奖励景观本身可能完全不同。从代理的角度来看,可能无法评估发生了什么变化。代理可能有一个“潜意识”的辅助算法,它在学习算法本身中引入变化,这种方式与任何奖励定义的行为脱钩。