在OpenAI 的 Spinning Up中,他们证明了添加基线的事实在策略梯度中并不会通过说这是
EGLP 引理的直接后果
但是,我没有设法用这个引理证明这一点。有人可以帮我吗?
证明是微不足道的是一个常数,但无论何时我都很难推导出它是当前状态的函数因为你不能把它从积分中取出。
在OpenAI 的 Spinning Up中,他们证明了添加基线的事实在策略梯度中并不会通过说这是
EGLP 引理的直接后果
但是,我没有设法用这个引理证明这一点。有人可以帮我吗?
证明是微不足道的是一个常数,但无论何时我都很难推导出它是当前状态的函数因为你不能把它从积分中取出。
策略梯度表明
其中导数取参数.
现在,如果我们说合并一个基线,我们得到
这根本不会影响渐变。要看到这一点,请注意
我所做的就是在总和中扩展括号内的项从第二个方程,并表明新项等于 0 - 因此梯度不变。
如果您真的想确认这一点,那么您可以完全写下第二个方程的展开式,并使用我在第三个方程中向您展示的技巧来查看展开后的第二个方程等于第一个方程。
我想作者提到的 EGLP 引理将在对随机变量的支持进行求和(/积分)时使用等于 0 的概率分布的导数的类似技巧,这就是我在这里使用的.