我正在从 Peter Abbeel 的 Deep RL Bootcamp 学习策略梯度方法,但我对所提供的数学有点困惑。在讲座中,他推导出一条轨迹的梯度对数似然为
是分布还是函数?因为只能对函数进行导数。我的理解是通常表示为动作在状态上的分布,因为用于策略梯度的神经网络的输入将是输出将是, 使用模型权重.
我正在从 Peter Abbeel 的 Deep RL Bootcamp 学习策略梯度方法,但我对所提供的数学有点困惑。在讲座中,他推导出一条轨迹的梯度对数似然为
是分布还是函数?因为只能对函数进行导数。我的理解是通常表示为动作在状态上的分布,因为用于策略梯度的神经网络的输入将是输出将是, 使用模型权重.
首先,通常对函数的变量(输入)进行导数。因此符号对于某些功能.
如果你更仔细地看你的方程
你会看到梯度是相对于,它们是您的神经网络的参数(即向量),即.
在这种情况下,是否真的无关紧要表示或不表示分布(对于某些特定值),但你是对的通常表示可能动作的概率分布(给定特定状态)。任何状况之下,是参数的函数(即在分布的情况下,是所有可能值的分布族),即如果你改变的输出也会改变,所以你可以对它求导.