策略梯度如何从神经网络计算无限概率分布

人工智能 神经网络 强化学习 政策梯度
2021-10-29 11:49:36

神经网络是否计算策略梯度方法的概率分布。如果是这样,他们如何计算无限概率分布?你如何用神经网络表示一个连续的动作策略?

1个回答

神经网络是否计算策略梯度方法的概率分布。

简而言之,是的。它不一定是神经网络,任何基于梯度的可训练参数函数逼近器都可以。神经网络是一种常见的选择,使用选定基函数的线性函数逼近器也是如此。

如果是这样,他们如何计算无限概率分布?

作为背景,这是仅在连续动作空间中生成随机策略的问题。在离散动作空间中,通常可以为整个动作空间计算任意概率密度函数,并从中采样以对策略进行建模。也可以在连续空间中简单地计算确定性策略——输入是当前状态,输出是要采取的行动。那么问题是这不允许代理通过对环境的探索来学习。要做到这一点,需要一个随机策略。

如果您想在连续动作空间中生成随机策略,您可以离散空间并从中采样,例如使用 softmax 来生成动作概率。或者你可以让近似函数做一些更间接的事情:输出可以从中采样的概率分布的参数。

你如何用神经网络表示一个连续的动作策略?

通常通过将状态特征作为输入和可以采样作为输出的 PDF 的参数。例如,网络可以输出均值μ和标准差σ动作值的正态分布,策略由下式给出π(a|s)=aN(μ,σ).

可以对这个分布进行采样(有一些简单的方法可以从正态分布生成样本),并使用策略梯度定理从遵循该策略作为对神经网络的反馈返回。假设要找到最佳确定性策略,神经网络可以随着时间的推移学习以低标准偏差的特定平均值。

在某些情况下,标准差可以被视为超参数,类似于ϵϵ-贪婪的动作选择,并且可能随着时间的推移而衰减。在这种情况下,神经网络可以只输出平均动作。

也可以通过离策略学习来学习确定性策略,添加噪声函数来支持探索。这就是深度确定性策略梯度所做的。