最大化或最小化信任区域策略优化?

人工智能 强化学习 优化 深度学习 信任区域策略优化
2021-10-23 18:31:01

我偶然发现TRPO论文的v1(2015年2月19日)和v5(2017年4月20日)版本有两个不同的结论。v1 中的方程 (15) 是minθ而 v2 中的方程 (14) 是maxθ. 所以,我有点困惑选择哪一个。

顺便说一句,我发现在使用广义优势估计的高维连续控制中,方程(31)使用minθ.

1个回答

您在 TRPO 论文的两个不同版本之间观察到的差异是由于问题和目标的不同形式化造成的。

您链接的论文的第一个版本中,它们从第 2 节开始,将马尔可夫决策过程 (MDP) 定义为具有成本函数的元组 c:SR. 他们定义η(π)作为保单的预期贴现成本π,随后还定义了状态-动作值函数Qπ(st,at), 值函数Vπ(st), 和优势函数Aπ(s,a)成本方面。最终,在等式 15 中,他们写出以下内容:

minimize θEsρθold,aq[πθ(a|s)q(a|s)Qθold(s,a)]subject to Esρθold[DKL(πθold(|s) || πθ(|s))]δ

现在,那里发生了很多事情,但是我们可以非常非正式地将其“简化”为仅与此问题相关的部分,如下所示:

minimize θE[Q(s,a)]

当我们看到这一点时,我们会发现我们非常努力地尽量减少Q-values,即成本这是有道理的,通常成本是我们想要最小化的东西。


您链接的论文的第二个版本中,他们更改了第 2 节中的预备内容。现在它们不再具有成本函数c在他们对 MDP 的定义中;他们已将其替换为奖励功能 r:SR. 然后他们继续定义η(π)作为预期的折扣奖励(而不是预期的折扣成本),并定义Q,VA奖励而非成本方面。现在这一切都符合强化学习中的标准通用术语。

最终,等式 14 看起来与我们在上面看到的相同,这又是关于Q-价值观。但现在Q- 价值是奖励而不是成本奖励通常是我们想要最大化而不是最小化的东西,所以这就是目标交换的原因。