奖励可以分解成组件吗?

人工智能 强化学习 奖励设计 奖励函数 多目标-rl 奖励假设
2021-11-10 15:34:13

我正在训练一个机器人走到一个特定的地方(x,y)点使用 TD3,为了简单起见,我有类似的东西 reward = distance_x + distance_y + standing_up_straight,然后它将这个奖励添加到重播缓冲区。但是,我认为如果它能够将奖励按类别分解会更有效,因此它可以弄清楚“那个动作给了我一个很好的距离distance_x,但我仍然需要努力distance_ystanding_up_straight”。

是否有任何现有的算法可以以这种方式增加奖励?还是这些已经过测试并证明无效?

2个回答

如果我理解正确,您正在查看多目标强化学习(MORL)。但是请记住,许多科学家通常会遵循奖励假设(Sutton 和 Barto),该假设说

我们所说的所有目标和目的都可以很好地被认为是接收到的标量信号的累积和的期望值的最大化(称为奖励)

标量奖励的论据可能是,即使您使用某个目标向量(如在 MORL 中)定义您的策略 - 您会发现最优策略的帕累托界限,其中一些有利于目标的一个组成部分而不是另一个 – 离开你(科学家)负责做出有关目标权衡的最终决定 - 从而最终将奖励目标退化为标量。

在您的示例中,可能有两种不同的“最佳”策略-一种导致非常高的价值distance_x但相对较差distance_y,另一种则有利于distance_y找到最佳位置并将奖励函数折叠回标量取决于您。

我同意 Tomasz 的观点,您所描述的方法属于 MORL 领域。对于 MORL 的可靠介绍,我推荐 Roijers, DM, Vamplew, P., Whiteson, S. 和 Dazeley, R. (2013) 的调查。多目标顺序决策的调查。人工智能研究杂志,48,67-113。

https://www.jair.org/index.php/jair/article/view/10836(免责声明:我是这方面的作者,但我真的相信它会对你有用)。

我们的调查通过描述使用单目标 RL 的代理可能无法提供满足用户需求的令人满意的解决方案的三种场景,为多目标方法的需求提供了论据。简而言之,这些是(a)未知权重场景,其中目标之间所需的权衡是事先不知道的,因此为了有效,代理必须学习对应于不同权衡的多个策略,然后在运行时选择与当前偏好相匹配的一种(例如,当目标对应于随着时间的相对价格而变化的不同成本时,就会出现这种情况;(b)奖励向量的标量化不可行的决策支持场景(例如,在无法明确量化的主观偏好),

我们根据它们需要的策略数量(单策略或多策略)、支持的效用/标量函数的形式(线性或非线性)以及是否允许确定性或随机策略,提出了 MORL 问题的分类,以及将此与 MO 算法需要输出的一组解的性质联系起来。然后使用该分类法对现有的 MO 规划和 MORL 方法进行分类。

最后一项重要贡献是确定最大化预期标量回报 (ESR) 或标量预期回报 (SER) 之间的区别。前者适用于我们关心每个单独事件中的结果(例如,在治疗患者时 - 患者只会关心他们自己的个人经历),而如果我们关心平均回报率,则 SER 是合适的多集。事实证明,这比我在调查时预期的要重要得多,Diederik Roijers 和他的同事从那时起对其进行了更仔细的研究(例如http://roijers.info/pub/esr_paper.pdf