轨迹的对数导数技巧是如何导出的?

人工智能 强化学习 数学 政策梯度 结石
2021-11-02 10:57:19

我正在看这个打破梯度的公式P(τ|θ)第一部分很清楚,log(x),但我看不到第一个公式如何重新排列为第二个。

在此处输入图像描述

1个回答

身份

(1)θP(τθ)=P(τθ)θlogP(τθ),

也可以写成

θlogP(τθ)=θP(τθ)P(τθ)=1P(τθ)θP(τθ)

直接从一般规则导出函数的对数和链式法则

dlogf(x)dx=1f(x)dfdx.
注意logf(x)是一个复合函数,这就是为什么我们应用链式法则和导数logx=1x,正如你的文字所说。

人们不应该把这称为诡计。这里没有诀窍。这只是基本的微积分。

为什么需要身份1? 因为那个恒等式告诉你给定参数的轨迹概率的导数θ关于θP(τθ)乘以相同概率的对数梯度。这有什么用?因为对数会将你的乘积变成一个和(而一个和的导数是和的元素的导数之和),本质上,恒等式1将帮助您计算梯度是一种更简单的方法(至少在概念上)。