如何写出连续动作和状态空间的价值函数的定义

数据挖掘 强化学习
2022-02-13 22:39:50

在 Sutton 和 Barto (2018) 的书中 Reinforcement Learning: An Introduction。作者将价值函数定义为。

vπ(s)=Eaπ[k=0γkRt+k+1|st=s]

如果是连续的,我会认为通过使用状态值函数的贝尔曼方程,这可以写成积分aAsS

vπ(s)=aAπ(a|s)sSp(s|s,a)[Rt+1+γvπ(s)]dsda.

它是否正确?

同样不使用贝尔曼方程,状态值函数的积分定义看起来像这样吗?

vπ(s)=aAπ(a|s)sSp(s|s,a)[Rt+1+γ[aAπ(a|s)sSp(s|s,a)[Rt+2+γ[]]dsda]]dsda

我的积分版本是否正确?

1个回答

这可以写成积分,对吗?

是的。您的推论暗示我们已经假设给定当前状态动作的确定性奖励。随机奖励模型是进行额外积分(例如,方程 (3.14) 第 47 页)(s,a)p(s,r|s,a)r

我的积分版本是否正确?

是的。您正在展开递归定义。一个例子是阶乘的递归定义: 展开为: 然而,不同之处在于贝尔曼方程中的指数是向前的,因为当前值取决于未来值而不是以前的值。

f(n)=nf(n1);f(0)=1
f(n)=n[(n1)[(n2)[...]]]