预期回报和价值函数有什么区别?

人工智能 强化学习 比较 奖励 价值函数 返回
2021-11-11 22:46:52

我见过很多关于奖励、价值函数的数学解释V(s), 和返回函数。奖励为处于特定状态提供立即回报。奖励越好,状态就越好。

据我了解,有时处于低回报状态可能会更好,因为我们可以累积更长期,这就是预期回报函数的用武之地。预期回报、回报或累积回报函数有效地累加了回报从当前状态到目标状态。这意味着它是基于模型的。然而,价值函数似乎完全一样。

值函数是返回函数吗?还是他们不同?

1个回答

价值函数和回报之间有很强的关系。即价值函数从处于某种状态或在特定状态下采取特定动作来计算预期回报。值函数不是“返回函数”,而是“预期返回函数”,这是一个重要的区别。

回报是一个测量值(或在摘要中讨论时的随机变量),表示在特定状态或状态/动作对之后看到的实际(折扣)奖励总和。

通常不需要将单个返回值表示为“返回函数”,尽管您可能会在 RL 中找到许多用于采样或估计特定返回值的公式,以便计算值函数的目标或误差。

回报(或累积奖励)函数有效地将当前状态的奖励累加到目标状态。这意味着它是基于模型的。

如果您有一个简单的 MDP,已经精确建模,您可以直接从该模型计算预期回报,那么,是的,理论上,这将是一个价值函数。但是,这可能比动态编程(例如策略迭代或价值迭代)更需要计算密集型解决方案,并且在许多情况下,您没有任何此类模型,但仍可以应用 RL 方法从经验中学习价值函数。