这个词是什么| 一个( s ) ||A(s)|意味着在εϵ-贪婪的政策?

人工智能 强化学习 蒙特卡罗方法 符号 策略方法 epsilon-贪婪策略
2021-10-19 05:32:03

我一直在网上寻找解释这些计算的来源,但我在任何地方都找不到|A(s)|意思是。我猜A是动作集,但我不确定该表示法:

ε|A(s)|aQπ(s,a)+(1ε)maxaQπ(s,a)

这里是公式的来源。

我还想澄清一下,我理解背后的想法ϵ-贪婪的方法和on-policy方法背后的动机。我只是在理解这个符号时遇到了问题(以及其他一些小事情)。那里的作者省略了一些东西,所以我觉得有一个连续性跳跃,这就是为什么我没有得到符号等。如果我能指出一个更好的来源,我会很高兴的.

1个回答

这个表达式:|A(s)|方法

  • ||的大小

  • A(s)状态中的一组动作s

或者更简单地说,是状态中允许的操作数。

这在给定的公式中是有意义的,因为ϵ|A(s)|那么是在一个ϵ-贪婪的政策。总体表达式是遵循该策略时的预期回报,将探索性和贪婪行为的预期结果相加。