我一直在网上寻找解释这些计算的来源,但我在任何地方都找不到意思是。我猜是动作集,但我不确定该表示法:
这里是公式的来源。
我还想澄清一下,我理解背后的想法-贪婪的方法和on-policy方法背后的动机。我只是在理解这个符号时遇到了问题(以及其他一些小事情)。那里的作者省略了一些东西,所以我觉得有一个连续性跳跃,这就是为什么我没有得到符号等。如果我能指出一个更好的来源,我会很高兴的.
我一直在网上寻找解释这些计算的来源,但我在任何地方都找不到意思是。我猜是动作集,但我不确定该表示法:
这里是公式的来源。
我还想澄清一下,我理解背后的想法-贪婪的方法和on-policy方法背后的动机。我只是在理解这个符号时遇到了问题(以及其他一些小事情)。那里的作者省略了一些东西,所以我觉得有一个连续性跳跃,这就是为什么我没有得到符号等。如果我能指出一个更好的来源,我会很高兴的.
这个表达式:方法
的大小
状态中的一组动作
或者更简单地说,是状态中允许的操作数。
这在给定的公式中是有意义的,因为那么是在一个-贪婪的政策。总体表达式是遵循该策略时的预期回报,将探索性和贪婪行为的预期结果相加。