我同意 Tomasz 的观点,您所描述的方法属于 MORL 领域。对于 MORL 的可靠介绍,我推荐 Roijers, DM, Vamplew, P., Whiteson, S. 和 Dazeley, R. (2013) 的调查。多目标顺序决策的调查。人工智能研究杂志,48,67-113。
https://www.jair.org/index.php/jair/article/view/10836(免责声明:我是这方面的作者,但我真的相信它会对你有用)。
我们的调查通过描述使用单目标 RL 的代理可能无法提供满足用户需求的令人满意的解决方案的三种场景,为多目标方法的需求提供了论据。简而言之,这些是(a)未知权重场景,其中目标之间所需的权衡是事先不知道的,因此为了有效,代理必须学习对应于不同权衡的多个策略,然后在运行时选择与当前偏好相匹配的一种(例如,当目标对应于随着时间的相对价格而变化的不同成本时,就会出现这种情况;(b)奖励向量的标量化不可行的决策支持场景(例如,在无法明确量化的主观偏好),
我们根据它们需要的策略数量(单策略或多策略)、支持的效用/标量函数的形式(线性或非线性)以及是否允许确定性或随机策略,提出了 MORL 问题的分类,以及将此与 MO 算法需要输出的一组解的性质联系起来。然后使用该分类法对现有的 MO 规划和 MORL 方法进行分类。
最后一项重要贡献是确定最大化预期标量回报 (ESR) 或标量预期回报 (SER) 之间的区别。前者适用于我们关心每个单独事件中的结果(例如,在治疗患者时 - 患者只会关心他们自己的个人经历),而如果我们关心平均回报率,则 SER 是合适的多集。事实证明,这比我在调查时预期的要重要得多,Diederik Roijers 和他的同事从那时起对其进行了更仔细的研究(例如http://roijers.info/pub/esr_paper.pdf)