我正在阅读 Sutton & Bartos 的书“强化学习简介”。在本书中,将最优价值函数定义为:
对所有人.
我们是否在所有确定性策略上取最大值,或者我们是否也查看随机策略(是否有一个示例,随机策略总是比确定性策略执行得更好?)
我的直觉是,随机策略的价值函数或多或少是它试图建模的确定性策略的线性组合,但是,有一些自我引用,所以它在数学上是不正确的)。
如果我们确实查看所有随机策略,我们不应该采取最高原则吗?或者我们是否知道,至高无上已经达到,因此它确实是一个最大值?
我正在阅读 Sutton & Bartos 的书“强化学习简介”。在本书中,将最优价值函数定义为:
对所有人.
我们是否在所有确定性策略上取最大值,或者我们是否也查看随机策略(是否有一个示例,随机策略总是比确定性策略执行得更好?)
我的直觉是,随机策略的价值函数或多或少是它试图建模的确定性策略的线性组合,但是,有一些自我引用,所以它在数学上是不正确的)。
如果我们确实查看所有随机策略,我们不应该采取最高原则吗?或者我们是否知道,至高无上已经达到,因此它确实是一个最大值?
价值函数定义为在哪里是时间步的(折扣)回报. 对政策的期望以及 MDP 的过渡动态。
现在,正如您所指出的,最佳价值函数定义为. 我们在这里所做的只是选择一项政策最大化价值函数;这可以是确定性或随机策略,尽管直觉上它可能是确定性的,除非对于某些具有相同期望值的两个(或多个)动作的状态,在这种情况下,您可以以相等的概率采取任何上述动作,从而使政策随机化。
对于有限的 MDP(这也是我上面假设的),我们知道存在最优值函数(这在书中提到),所以在这里取最大值就可以了。