在策略梯度方程中,是π(一个吨|s吨, θ )π(at|st,θ)分布还是函数?

人工智能 数学 深度学习 政策梯度 随机策略
2021-10-30 16:43:49

我正在从 Peter Abbeel 的 Deep RL Bootcamp 学习策略梯度方法,但我对所提供的数学有点困惑。在讲座中,他推导出一条轨迹的梯度对数似然为

logP(τi;θ)=Σt=0θlogπ(at|st,θ).

π(at|st,θ)分布还是函数?因为只能对函数进行导数。我的理解是π(at,st,θ)通常表示为动作在状态上的分布,因为用于策略梯度的神经网络的输入将是st输出将是π(at,st), 使用模型权重θ.

1个回答

首先,通常对函数的变量(输入)进行导数。因此符号dfdx对于某些功能f(x).

如果你更仔细地看你的方程

logP(τi;θ)=Σt=0θlogπ(at|st,θ).

你会看到梯度是相对于θ,它们是您的神经网络的参数(即向量),即θ.

在这种情况下,是否真的无关紧要π表示或不表示分布(对于某些特定值θ),但你是对的π通常表示可能动作的概率分布(给定特定状态)。任何状况之下,π是参数的函数θ(即在分布的情况下,πθ是所有可能值的分布族θ),即如果你改变θ的输出π也会改变,所以你可以对它求导θ.