轨迹的对数导数技巧是如何导出的?
人工智能
强化学习
数学
政策梯度
结石
2021-11-02 10:57:19
1个回答
身份
也可以写成
直接从一般规则导出函数的对数和链式法则
注意是一个复合函数,这就是为什么我们应用链式法则和导数,正如你的文字所说。
人们不应该把这称为诡计。这里没有诀窍。这只是基本的微积分。
为什么需要身份? 因为那个恒等式告诉你给定参数的轨迹概率的导数关于是乘以相同概率的对数梯度。这有什么用?因为对数会将你的乘积变成一个和(而一个和的导数是和的元素的导数之和),本质上,恒等式将帮助您计算梯度是一种更简单的方法(至少在概念上)。
其它你可能感兴趣的问题
