人工智能 - 这个词是什么| 一个( s ) ||A(s)|意味着在εϵ-贪婪的政策？ - 吾爱随笔录

我一直在网上寻找解释这些计算的来源，但我在任何地方都找不到 $|A(s)|$ 意思是。我猜 $A$ 是动作集，但我不确定该表示法：

\frac{ε}{| A (s) |} \sum_{a} Q^{π} (s, a) + (1 - ε) max_{a} Q^{π} (s, a)

$\frac{\varepsilon}{|\mathcal{A}(s)|} \sum_{a} Q^{\pi}(s, a)+(1-\varepsilon) \max _{a} Q^{\pi}(s, a)$

这里是公式的来源。

我还想澄清一下，我理解背后的想法 $\epsilon$ -贪婪的方法和on-policy方法背后的动机。我只是在理解这个符号时遇到了问题（以及其他一些小事情）。那里的作者省略了一些东西，所以我觉得有一个连续性跳跃，这就是为什么我没有得到符号等。如果我能指出一个更好的来源，我会很高兴的.