记号是什么∇θ大号∇θL意思是?

人工智能 机器学习 强化学习 梯度下降 符号
2021-11-01 17:04:38

这是最大熵逆强化学习的一般算法。

在此处输入图像描述

这使用梯度下降算法。我不明白的一点是只有一个梯度值θL, 它用于更新参数向量。对我来说,这没有意义,因为它正在更新具有相同值的向量的所有元素θL. 你能解释一下用单个梯度更新向量背后的逻辑吗?

1个回答

这是标准的反向传播。您看到的梯度项实际上是一个偏导数向量,其中每个元素是对数似然相对于参数向量的每个元素的偏导数θ. 因此,它具有相同的维度θ. 然后用偏导数向量中的相应项更新参数向量的每个元素,这通常是相同的。