在 RL(强化学习)或 MARL(多智能体强化学习)中,我们有通常的元组:
(state, action, transition_probabilities, reward, next_state)
在 MORL(多目标强化学习)中,我们对元组又增加了两个,即“偏好”和“偏好函数”。
这些是什么?我们用它们做什么?有人可以提供一个直观的例子吗?
在 RL(强化学习)或 MARL(多智能体强化学习)中,我们有通常的元组:
(state, action, transition_probabilities, reward, next_state)
在 MORL(多目标强化学习)中,我们对元组又增加了两个,即“偏好”和“偏好函数”。
这些是什么?我们用它们做什么?有人可以提供一个直观的例子吗?
在 MORL 中,奖励分量是一个向量而不是一个标量,每个目标都有一个元素。因此,如果我们使用像 Q 学习这样的算法的多目标版本,则为每个状态-动作对存储的 Q 值也将是向量。
Q-learning 要求智能体能够识别任何状态下的贪婪行为(预期会导致最高长期回报的行为)。对于标量奖励,这很容易,但对于向量值,它更复杂,因为目标 1 的一个向量可能更高,而目标 2 的另一个向量更高,依此类推。
我们需要一种方法来根据向量值如何满足用户在不同目标之间的期望权衡来对它们进行排序。那就是偏好函数和偏好的作用. 该函数定义了一个通用操作,用于将向量值转换为标量值以便可以比较它们,或者用于对向量执行某种排序(某些类型的排序,例如字典排序,不容易定义为标量化)。因此,例如,我们的偏好函数可能是向量分量的加权和。偏好指定了偏好函数的参数,这些参数定义了特定的排序(即基于当前用户的需要)。因此,在偏好函数的加权和的情况下,偏好将根据权重的值来指定。
偏好函数的选择可能会影响可以找到的解决方案的类型,或者是否需要在状态中包含额外的信息以确保收敛。
我建议您阅读以下调查论文以了解 MORL 的概述(免责声明 - 我是这方面的合著者,但我真的认为这是对该领域的有用介绍)
Roijers, DM, Vamplew, P., Whiteson, S. 和 Dazeley, R. (2013)。多目标顺序决策的调查。人工智能研究杂志,48,67-113。