强化学习中是否存在独立于策略的状态和动作值?

人工智能 强化学习 价值函数
2021-11-08 17:49:30

状态值函数V(s)被定义为从状态开始的预期回报s并按照现行政策行事π(a|s)直到这一集结束。状态-动作值Q(s,a)同样取决于当前的政策。

是否也可以获得状态或动作的独立于策略的值能否即时奖励r(s,a,s)被认为是行动价值的嘈杂估计?

1个回答

强化学习中是否存在独立于策略的状态和动作值?

不,它们不存在,因为为了在任何 MDP 中取得进展并获得任何奖励——即获得任何价值衡量标准——你必须采取行动。任何一致的选择动作的方式都是一种策略,该策略的性质会影响您期望观察到的转换和奖励,进而影响期望值。选择动作的不一致方式对于“预期的未来回报”没有任何意义,它们只是您过去所做的测量。

最接近无策略定义的是与“特殊”策略相关的值,这些策略通常适用于几乎所有 MDP:

  • 均匀分布随机策略的价值函数。

  • 任何最优策略的价值函数(如果有多个最优策略,那么它们的所有价值函数都是相等的)。

  • 任何“逆最优”策略的价值函数 - 即具有最低可能回报的策略。这个不是很有用,虽然理论上是存在的。

前两个可能是 MDP 的有用测量。虽然统一随机策略可能不是最好的,但它封装了代理完全不了解 MDP 的情况,可以作为比较的基准。最佳值函数通常是学习算法的目标,有时您可以独立于学习过程计算边界甚至精确目标,以衡量算法在某些测试 MDP 上的执行情况。

能否即时奖励r(s,a,s)被认为是行动价值的嘈杂估计?

不。使用该函数的符号,它通常已经是预期的即时奖励。它完全独立于任何其他转换或时间步长中看到的奖励,因此在许多情况下作为对未来回报的估计在系统上是不正确的——唯一的例外是如果你知道所有未来的奖励将是精确的0. 所以它是一个动作值的无偏估计,如果s是一个终端状态。

如果折扣因子,立即奖励也是对行动价值的一个很好的估计γ=0. 但是,这要求您将问题定义为仅解决即时奖励,在尝试优化代理的行为时,这通常不是一个自由选择。