我一直在阅读 Sutton 和 Barto 的教科书,并浏览了 YouTube 上的 David Silvers UCL 讲座视频,并且有一个关于用价值函数编写的状态-动作价值函数的两种形式的等价性的问题。
从教科书的问题 3.13 中,我可以将状态-动作值函数写为
请注意,期望没有考虑到作为是采取行动的条件概率处于状态. 现在,在 David Silver 的策略梯度讲座的 Actor-Critic 方法的幻灯片中,他说
这两个定义是否等效(在预期中)?
我一直在阅读 Sutton 和 Barto 的教科书,并浏览了 YouTube 上的 David Silvers UCL 讲座视频,并且有一个关于用价值函数编写的状态-动作价值函数的两种形式的等价性的问题。
从教科书的问题 3.13 中,我可以将状态-动作值函数写为
请注意,期望没有考虑到作为是采取行动的条件概率处于状态. 现在,在 David Silver 的策略梯度讲座的 Actor-Critic 方法的幻灯片中,他说
这两个定义是否等效(在预期中)?
状态-动作价值函数的定义总是相同的。
你的定义是正确的,因为以,所以你不需要写作为一个有条件的期望,取决于. 实际上,条件期望取自概率分布. 但是,您需要下标在因为被定义为预期回报开始于.
如果你不写按照,那么你可以写作为依赖于的期望,因为在那种情况下,,被定义为回报的期望(在采取在),这取决于(参见Sutton & Barto book的公式 3.3 ,第 58 页)。当然,这种写法相当于写成.
我认为 David Silver 的符号可能是对符号的滥用。在他的等式中,策略参数化为,所以我认为他想强调的是,您将根据(演员)。或者,他使用作为下标强调未来的回报开始于, 采取行动后在, 仍然取决于.