什么是强化学习中的兼容函数逼近定理?

数据挖掘 深度学习 强化学习
2021-09-20 15:20:27

我正在关注 David Silver 的 RL 课程。在策略梯度部分,我找到了这张幻灯片,我想对其进行解释。

在此处输入图像描述

这两个条件是什么?

一阶导数等式背后的逻辑是什么?仅仅是我们假设这两个导数应该相等,因为应该与价值函数逼近梯度的方向和我们的策略相似度有某种联系吗?

那么epsilon值是多少?这个均方值是多少?带 w 参数的 Q 值表示 Q 值函数的新逼近。另一个Q值是遵循我们的政策得到的价值对吧?那么这个 OFF 策略值是近似值还是 ON 策略?我认为这是在政策上,因为通常在 Q 值更新中我们取最大值。

1个回答

有很多问题,但我会尝试以一种可以为您解决问题并给您一些指导的方式来回答。请注意,您的问题的证明涉及大量数学运算,因此我将为您提供参考。

您的主要参考资料是 Sutton PG Methods with Function Approximation的论文。我强烈建议您阅读这篇论文几次(甚至更多!),并在您熟悉这些方法的一般方法的主要目标、符号和数学时,在相关文献中进行一些搜索。PG 方法不容易掌握,主要是因为它们的采样性质、符号和涉及的离散/连续数学。

PG 方法满足(或至少应该)PG 定理(论文中的方程 2)。一个有趣的方法是替换真实的Qπ(s,a)通过一些近似函数(fw在论文中,Qw在你的问题中)。现在,我们想知道为了满足 PG 定理,该提议的近似应该满足哪些条件。

您注意到的第一件事是更新参数的自然选择w是朝着最小化精确的均方误差的方向更新它们Qπ(s,a)用函数逼近。在你的问题中,这是ϵ. 在这种情况下,确切的Qπ(s,a)使用无偏样本估计,例如rt. 这在论文的第 2 部分中有详细解释。

为了使 PG 定理成立(证明由第 3 部分之前的 3 行组成),您的近似函数的梯度应该满足兼容条件。总而言之,我们从 PG 定理开始,我们为 PG 定理成立的动作价值函数找到了一个合适的函数逼近器族。在第 3 部分中,您可以看到一个兼容函数的示例。当然,您甚至可以使用非线性逼近器,例如 NN。

关于 on/off-policy 的说明:您在此处发布的 David Silver 的幻灯片与理论保证有关,与实际的 RL 算法无关。顺便说一句,您使用的 Q 学习算法maxaQ(s,a)是关闭策略,因为您实际上并未用于更新正在进行的策略。

希望这可以帮助!