在强化学习中,策略改进是称为策略迭代的算法的一部分,该算法试图找到贝尔曼最优方程的近似解。Sutton 和 Barto 关于 RL 的书中第 84、85 页提到了以下定理:
政策改进定理
给定两个确定性策略和:
不等式的RHS:代理在当前状态下根据策略行事,并且对于所有后续状态都根据策略
LHS不等式:代理从当前状态开始根据策略
声明:
换句话说,是对 ! 的改进。率
我很难理解这个证明。这将在下面讨论:
证明:
我被困在这里。q 函数在策略上进行评估。既然如此,对政策的期望如何?
我的猜测如下:在 Sutton 和 Barto 给出的证明中,期望是及时展开的。在每个时间步,代理遵循该特定时间步。在此过程的限制下,策略从转换为。只要期望内的回报表达式是有限的,则治理策略应该是;只有在这个过程的限制下,治理策略才会转换为。