我偶然发现TRPO论文的v1(2015年2月19日)和v5(2017年4月20日)版本有两个不同的结论。v1 中的方程 (15) 是而 v2 中的方程 (14) 是. 所以,我有点困惑选择哪一个。
顺便说一句,我发现在使用广义优势估计的高维连续控制中,方程(31)使用.
我偶然发现TRPO论文的v1(2015年2月19日)和v5(2017年4月20日)版本有两个不同的结论。v1 中的方程 (15) 是而 v2 中的方程 (14) 是. 所以,我有点困惑选择哪一个。
顺便说一句,我发现在使用广义优势估计的高维连续控制中,方程(31)使用.
您在 TRPO 论文的两个不同版本之间观察到的差异是由于问题和目标的不同形式化造成的。
在您链接的论文的第一个版本中,它们从第 2 节开始,将马尔可夫决策过程 (MDP) 定义为具有成本函数的元组 . 他们定义作为保单的预期贴现成本,随后还定义了状态-动作值函数, 值函数, 和优势函数在成本方面。最终,在等式 15 中,他们写出以下内容:
现在,那里发生了很多事情,但是我们可以非常非正式地将其“简化”为仅与此问题相关的部分,如下所示:
当我们看到这一点时,我们会发现我们非常努力地尽量减少-values,即成本;这是有道理的,通常成本是我们想要最小化的东西。
在您链接的论文的第二个版本中,他们更改了第 2 节中的预备内容。现在它们不再具有成本函数在他们对 MDP 的定义中;他们已将其替换为奖励功能 . 然后他们继续定义作为预期的折扣奖励(而不是预期的折扣成本),并定义,和在奖励而非成本方面。现在这一切都符合强化学习中的标准通用术语。
最终,等式 14 看起来与我们在上面看到的相同,这又是关于-价值观。但现在- 价值是奖励而不是成本。奖励通常是我们想要最大化而不是最小化的东西,所以这就是目标交换的原因。