为什么贝尔曼方程可以变成更新规则?

人工智能 强化学习 执行 收敛 贝尔曼方程 政策评估
2021-11-07 09:33:18

在萨顿书的第 4.1 章中,贝尔曼方程通过简单地改变它的索引就变成了一个更新规则。它在数学上是如何证明的?我不太明白为什么我们被允许这样做?

vπ(s)=Eπ[Gt|St=s]

=Eπ[Rt+1+γGt+1|St=s]

=Eπ[Rt+1+γvπ(St+1)|St=s]

=aπ(a|s)s,rp(s,r|s,a)[r+γvπ(s)]

它从中进入更新方程:

vk+1(s)=Eπ[Rt+1+γvk(St+1)|St=s]

=aπ(a|s)s,rp(s,r|s,a)[r+γvk(s)]

3个回答

为什么我们可以将贝尔曼方程转换为更新规则?

原因很简单:收敛同一本书的第 4 章提到了它。例如,在策略评估的情况下,产生的估计序列{vk}保证收敛到vπ作为k(即迭代次数)趋于无穷大。还有其他 RL 算法也可以保证收敛(例如表格 Q 学习)。

总而言之,在许多情况下,简单强化学习(或动态规划)算法的更新规则与它们的数学形式化非常相似,因为基于这些更新规则的算法通常可以保证收敛。但是,请注意,许多更高级的强化学习算法(尤其是那些使用函数逼近器的算法,例如神经网络,来表示价值函数或策略)并不能保证或已知会收敛。

对我来说,贝尔曼更新只是监督学习:右手边(引导程序)是左手边的样本(条件期望)。贝尔曼方程简单地解释了右手边就是这样的样本。

您在问为什么有限范围的政策评估会收敛到无限的权利?

由于总奖励是有界的(由折扣因子),您知道您可以使您的有限范围策略评估在有限数量的步骤中任意接近它。

人们称赞巴托斯的书,但我觉得读起来很烦人,因为他的数学不够正式。