让我们首先澄清几个细节:
- 政策π我们正在谈论的是一个ε-soft 策略(定义为π( a | s ) ≥ε| 一个( s ) |对于所有状态和所有动作)。
- 我们并不是要证明vπ和v*, 但vπ和v~*, 在哪里v~*表示我们正在构建的这个“新环境”中的最优价值函数。
所以,“环境”基本上是我们的代理“生活”和行动的“世界”。你可以把它想象成我们“玩”的“规则”。因此,您可以将我们完整状态和动作空间的定义视为环境的一部分,以及告诉我们哪个后继状态的函数s'每当我们选择一个动作时,我们最终都会进入a处于一种状态s(即状态转换动态)是环境的一部分。而告诉我们在什么情况下我们将获得什么奖励的功能也是环境的一部分。政策π不是环境的一部分;这是代理本身的“大脑”。
现在,回想一下,这里我们对证明这一点不感兴趣vπ走向真正的最优价值函数v∗的“真实”环境。我们知道一个事实,我们永远不会完全平等,因为我们通过要求我们的政策具有探索性行为ϵ-soft,所以证明这样的事情是没有希望的。相反,我们有兴趣证明vπ在我们必须有ϵ- 软政策。
我们在本书中所做的是,我们将我们的环境稍微“转换”成一个新环境(即,我们稍微改变我们所玩的规则)。这是以一种巧妙的方式完成的,因此我刚才描述的我们想要证明的东西在数学上等同于证明vπ趋向(或等于)v~∗. 现在,如果我们可以为新环境证明这一点,我们将自动证明我们真正想为“真实”环境证明的东西。