状态-动作价值函数的这两个定义是等价的吗?

人工智能 强化学习 比较 价值函数 期待 贝尔曼方程
2021-11-13 04:44:43

我一直在阅读 Sutton 和 Barto 的教科书,并浏览了 YouTube 上的 David Silvers UCL 讲座视频,并且有一个关于用价值函数编写的状态-动作价值函数的两种形式的等价性的问题。

从教科书的问题 3.13 中,我可以将状态-动作值函数写为

qπ(s,a)=s,rp(s,r|s,a)(r+γvπ(s))=E[r+γvπ(s)|s,a].
请注意,期望没有考虑到π作为π是采取行动的条件概率a处于状态s. 现在,在 David Silver 的策略梯度讲座的 Actor-Critic 方法的幻灯片中,他说
Eπθ[r+γvπθ(s)|s,a]=qπθ(s,a).

这两个定义是否等效(在预期中)?

1个回答

状态-动作价值函数的定义总是相同的。

你的定义是正确的,因为qπ(s,a)a,所以你不需要写qπ(s,a)作为一个有条件的期望,取决于π. 实际上,条件期望取自概率分布p(s,r|s,a). 但是,您需要下标πvπ(s)因为vπ(s)被定义为预期回报π开始于s.

如果你不写qπ(s,a)按照vπ(s),那么你可以写qπ(s,a)作为依赖于的期望π,因为在那种情况下,qπ(s,a),被定义为回报的期望(在采取as),这取决于π(参见Sutton & Barto book的公式 3.3 ,第 58 页)。当然,这种写法qπ(s,a)相当于写成vπ(s).

我认为 David Silver 的符号可能是对符号的滥用。在他的等式中,策略参数化为θ,所以我认为他想强调的是,您将根据πθ(演员)。或者,他使用πθ作为下标Eπθ强调未来的回报开始于s, 采取行动后as, 仍然取决于πθ.