状态值函数被定义为从状态开始的预期回报并按照现行政策行事直到这一集结束。状态-动作值同样取决于当前的政策。
是否也可以获得状态或动作的独立于策略的值?能否即时奖励被认为是行动价值的嘈杂估计?
状态值函数被定义为从状态开始的预期回报并按照现行政策行事直到这一集结束。状态-动作值同样取决于当前的政策。
是否也可以获得状态或动作的独立于策略的值?能否即时奖励被认为是行动价值的嘈杂估计?
强化学习中是否存在独立于策略的状态和动作值?
不,它们不存在,因为为了在任何 MDP 中取得进展并获得任何奖励——即获得任何价值衡量标准——你必须采取行动。任何一致的选择动作的方式都是一种策略,该策略的性质会影响您期望观察到的转换和奖励,进而影响期望值。选择动作的不一致方式对于“预期的未来回报”没有任何意义,它们只是您过去所做的测量。
最接近无策略定义的是与“特殊”策略相关的值,这些策略通常适用于几乎所有 MDP:
均匀分布随机策略的价值函数。
任何最优策略的价值函数(如果有多个最优策略,那么它们的所有价值函数都是相等的)。
任何“逆最优”策略的价值函数 - 即具有最低可能回报的策略。这个不是很有用,虽然理论上是存在的。
前两个可能是 MDP 的有用测量。虽然统一随机策略可能不是最好的,但它封装了代理完全不了解 MDP 的情况,可以作为比较的基准。最佳值函数通常是学习算法的目标,有时您可以独立于学习过程计算边界甚至精确目标,以衡量算法在某些测试 MDP 上的执行情况。
能否即时奖励被认为是行动价值的嘈杂估计?
不。使用该函数的符号,它通常已经是预期的即时奖励。它完全独立于任何其他转换或时间步长中看到的奖励,因此在许多情况下作为对未来回报的估计在系统上是不正确的——唯一的例外是如果你知道所有未来的奖励将是精确的. 所以它是一个动作值的无偏估计,如果是一个终端状态。
如果折扣因子,立即奖励也是对行动价值的一个很好的估计. 但是,这要求您将问题定义为仅解决即时奖励,在尝试优化代理的行为时,这通常不是一个自由选择。