关于收敛性证明的疑问εϵ没有探索开始的软政策

人工智能 强化学习 萨顿巴托
2021-11-09 19:29:33

Sutton 和 Barto的第 125 页(倒数第二段)中,证明vπv为了ϵ给出了软政策。但我无法理解解释证明的陈述:

考虑一个与原始环境类似的新环境,但要求策略是ε-soft“移动到”环境中。新环境具有与原始环境相同的动作和状态集,其行为如下。如果在状态s并采取行动a,然后有概率 1ε新环境的行为与旧环境完全相同。有概率ε它以相等的概率随机重新选择动作,然后像旧环境一样使用新的随机动作。在这个新环境中使用一般政策所能做的最好的事情与在原始环境中可以做的最好的政策是一样的ε- 软政策。

这里的环境是什么意思?作者为得出证据而描述的这个新事物/论点(上文提供)是什么?

1个回答

让我们首先澄清几个细节:

  1. 政策π我们正在谈论的是一个ϵ-soft 策略(定义为π(a|s)ϵ|A(s)|对于所有状态和所有动作)。
  2. 我们并不是要证明vπv, 但vπv~, 在哪里v~表示我们正在构建的这个“新环境”中的最优价值函数。

所以,“环境”基本上是我们的代理“生活”和行动的“世界”。你可以把它想象成我们“玩”的“规则”。因此,您可以将我们完整状态和动作空间的定义视为环境的一部分,以及告诉我们哪个后继状态的函数s每当我们选择一个动作时,我们最终都会进入a处于一种状态s(即状态转换动态)是环境的一部分。而告诉我们在什么情况下我们将获得什么奖励的功能也是环境的一部分。政策π不是环境一部分;这是代理本身的“大脑”。

现在,回想一下,这里我们对证明这一点不感兴趣vπ走向真正的最优价值函数v的“真实”环境。我们知道一个事实,我们永远不会完全平等,因为我们通过要求我们的政策具有探索性行为ϵ-soft,所以证明这样的事情是没有希望的。相反,我们有兴趣证明vπ我们必须有ϵ- 软政策

我们在本书中所做的是,我们将我们的环境稍微“转换”成一个新环境(即,我们稍微改变我们所玩的规则)。这是以一种巧妙的方式完成的,因此我刚才描述的我们想要证明的东西在数学上等同于证明vπ趋向(或等于)v~. 现在,如果我们可以为新环境证明这一点,我们将自动证明我们真正想为“真实”环境证明的东西。