政策改进定理

机器算法验证 强化学习
2022-03-19 13:51:49

在强化学习中,策略改进是称为策略迭代的算法的一部分,该算法试图找到贝尔曼最优方程的近似解。Sutton 和 Barto 关于 RL 的书中第 84、85 页提到了以下定理:

政策改进定理

给定两个确定性策略ππ

sS,Vπ(s)Qπ(s,π(s))

不等式的RHS:代理在当前状态下根据策略行事,并且对于所有后续状态都根据策略 ππ

LHS不等式:代理从当前状态开始根据策略π

声明sS,Vπ(s)Vπ(s)

换句话说,是对 ! 的改进。πpi

我很难理解这个证明。这将在下面讨论:

证明

Vπ(s)Qπ(s,π(s))=Eπ[Rt+1+γVπ(St+1)|St=s]

我被困在这里。q 函数在策略上进行评估。既然如此,对政策的期望如何?ππ

我的猜测如下:在 Sutton 和 Barto 给出的证明中,期望是及时展开的。在每个时间步,代理遵循该特定时间步在此过程的限制下,策略从转换为只要期望内的回报表达式是有限的,则治理策略应该是只有在这个过程的限制下,治理策略才会转换为ππππππ

1个回答

他们从来没有把它完全拼出来,而是像这样的表达式: 表示“从状态开始,根据为下一个时间步选择动作,然后 pi 选择动作时的预期折扣值”,而: 表示“从状态开始时的预期折扣值,接下来的两个时间步选择动作, pi 选择动作”等。

Eπ[Rt+1+γvπ(St+1)|St=s]
sππ
Eπ[Rt+1+γRt+2+γ2vπ(St+2)|St=s]
sππ

所以我们真的有: 如果我们查看第 4.2 节关于策略改进的开头,我们可以看到这等于有这两个不同的表达式的原因是第一个是需要的,因为为了完成证明,他们需要能够在越来越长的时间跨度内谈论跟随,第二个是确定性策略的 Q 函数的定义。

Eπ[Rt+1+γvπ(St+1)|St=s]=E[Rt+1+γvπ(St+1)|St=s,At=π(s)]
q(s,π(s))q(s,π(s))π