在 Sutton 和 Barto (2018) 的书中 Reinforcement Learning: An Introduction。作者将价值函数定义为。
如果和是连续的,我会认为通过使用状态值函数的贝尔曼方程,这可以写成积分
它是否正确?
同样不使用贝尔曼方程,状态值函数的积分定义看起来像这样吗?
我的积分版本是否正确?
在 Sutton 和 Barto (2018) 的书中 Reinforcement Learning: An Introduction。作者将价值函数定义为。
如果和是连续的,我会认为通过使用状态值函数的贝尔曼方程,这可以写成积分
它是否正确?
同样不使用贝尔曼方程,状态值函数的积分定义看起来像这样吗?
我的积分版本是否正确?
这可以写成积分,对吗?
是的。您的推论暗示我们已经假设给定当前状态动作的确定性奖励。随机奖励模型是进行额外积分(例如,方程 (3.14) 第 47 页)
我的积分版本是否正确?
是的。您正在展开递归定义。一个例子是阶乘的递归定义:
展开为:
然而,不同之处在于贝尔曼方程中的指数是向前的,因为当前值取决于未来值而不是以前的值。