我对在策略梯度方法中计算梯度的具体程度感到有些困惑(只是对它的直观理解)。
这个数学堆栈交换帖子很接近,但我还是有点困惑。
在标准的监督学习中,可以专门获得偏导数,因为我们想了解成本对输入参数的导数,然后朝着最小化这个误差的方向进行调整。
策略梯度则相反,因为我们希望最大限度地提高采取良好行动的可能性。但是,我不明白我们得到的偏导数是什么 - 换句话说,成本函数的“等价物”是什么,特别是对于?
我对在策略梯度方法中计算梯度的具体程度感到有些困惑(只是对它的直观理解)。
这个数学堆栈交换帖子很接近,但我还是有点困惑。
在标准的监督学习中,可以专门获得偏导数,因为我们想了解成本对输入参数的导数,然后朝着最小化这个误差的方向进行调整。
策略梯度则相反,因为我们希望最大限度地提高采取良好行动的可能性。但是,我不明白我们得到的偏导数是什么 - 换句话说,成本函数的“等价物”是什么,特别是对于?
考虑一个函数在哪里是一个随机变量,其分布取决于. 目标是最小化
要了解为什么这是策略梯度,首先我们有
策略梯度只是预期收益的梯度,相对于动作分布的参数。
我建议不要试图将这一点与监督学习联系起来。
政策只是一个由 theta 参数化的函数。如果我们采取这个函数,它仍然只是一个函数。我们希望对该函数对参数进行(偏)导数,以便我们可以对参数执行梯度上升步骤。
一个简单的例子可以通过让. 在策略梯度定理中,我们必须首先记录可以给我们的策略, 参数的偏导数是和. 然后我们可以使用这些偏导数在我们的目标(价值函数,这当然是我们想要最大化的)的梯度方向上执行梯度上升更新和对于给定的回报和行动经过
然而,在实践中,您可能需要一个更复杂的策略函数,通常是某种描述的神经网络。然而,一切都转化为这些更复杂的函数,你将需要计算更多的偏导数。