人工智能 - 关于收敛性证明的疑问εϵ没有探索开始的软政策 - 吾爱随笔录

关于收敛性证明的疑问εϵ没有探索开始的软政策

人工智能强化学习萨顿巴托

2021-11-09 19:29:33

在Sutton 和 Barto的第 125 页（倒数第二段）中，证明 $v_{\pi}$ 和 $v_*$ 为了 $\epsilon$ 给出了软政策。但我无法理解解释证明的陈述：

考虑一个与原始环境类似的新环境，但要求策略是 $ε$ -soft“移动到”环境中。新环境具有与原始环境相同的动作和状态集，其行为如下。如果在状态 $s$ 并采取行动 $a$ ，然后有概率 $1 − ε$ 新环境的行为与旧环境完全相同。有概率 $ε$ 它以相等的概率随机重新选择动作，然后像旧环境一样使用新的随机动作。在这个新环境中使用一般政策所能做的最好的事情与在原始环境中可以做的最好的政策是一样的 $ε$ - 软政策。

这里的环境是什么意思？作者为得出证据而描述的这个新事物/论点（上文提供）是什么？

1个回答

让我们首先澄清几个细节：

政策 $\pi$ 我们正在谈论的是一个 $\epsilon$ -soft 策略（定义为 $\pi(a \vert s) \geq \frac{\epsilon}{\vert \mathcal{A}(s) \vert}$ 对于所有状态和所有动作）。
我们并不是要证明 $v_{\pi}$ 和 $v_*$ , 但 $v_{\pi}$ 和 $\tilde{v}_*$ ，在哪里 $\tilde{v}_*$ 表示我们正在构建的这个“新环境”中的最优价值函数。

所以，“环境”基本上是我们的代理“生活”和行动的“世界”。你可以把它想象成我们“玩”的“规则”。因此，您可以将我们完整状态和动作空间的定义视为环境的一部分，以及告诉我们哪个后继状态的函数 $s'$ 每当我们选择一个动作时，我们最终都会进入 $a$ 处于一种状态 $s$ （即状态转换动态）是环境的一部分。而告诉我们在什么情况下我们将获得什么奖励的功能也是环境的一部分。政策 $\pi$ 不是环境的一部分；这是代理本身的“大脑”。

现在，回想一下，这里我们对证明这一点不感兴趣 $v_{\pi}$ 走向真正的最优价值函数 $v_*$ 的“真实”环境。我们知道一个事实，我们永远不会完全平等，因为我们通过要求我们的政策具有探索性行为 $\epsilon$ -soft，所以证明这样的事情是没有希望的。相反，我们有兴趣证明 $v_{\pi}$ 在我们必须有 $\epsilon$ - 软政策。

我们在本书中所做的是，我们将我们的环境稍微“转换”成一个新环境（即，我们稍微改变我们所玩的规则）。这是以一种巧妙的方式完成的，因此我刚才描述的我们想要证明的东西在数学上等同于证明 $v_{\pi}$ 趋向（或等于） $\tilde{v}_*$ . 现在，如果我们可以为新环境证明这一点，我们将自动证明我们真正想为“真实”环境证明的东西。

其它你可能感兴趣的问题

上一篇在策略梯度方法中参数化策略意味着什么？下一篇Q Learning 是否会从对手的随机动作中学习？