人工智能 - 策略梯度如何从神经网络计算无限概率分布 - 吾爱随笔录

人工智能神经网络强化学习政策梯度

2021-10-29 11:49:36

神经网络是否计算策略梯度方法的概率分布。如果是这样，他们如何计算无限概率分布？你如何用神经网络表示一个连续的动作策略？

1个回答

神经网络是否计算策略梯度方法的概率分布。

简而言之，是的。它不一定是神经网络，任何基于梯度的可训练参数函数逼近器都可以。神经网络是一种常见的选择，使用选定基函数的线性函数逼近器也是如此。

如果是这样，他们如何计算无限概率分布？

作为背景，这是仅在连续动作空间中生成随机策略的问题。在离散动作空间中，通常可以为整个动作空间计算任意概率密度函数，并从中采样以对策略进行建模。也可以在连续空间中简单地计算确定性策略——输入是当前状态，输出是要采取的行动。那么问题是这不允许代理通过对环境的探索来学习。要做到这一点，需要一个随机策略。

如果您想在连续动作空间中生成随机策略，您可以离散空间并从中采样，例如使用 softmax 来生成动作概率。或者你可以让近似函数做一些更间接的事情：输出可以从中采样的概率分布的参数。

你如何用神经网络表示一个连续的动作策略？

通常通过将状态特征作为输入和可以采样作为输出的 PDF 的参数。例如，网络可以输出均值 $\mu$ 和标准差 $\sigma$ 动作值的正态分布，策略由下式给出 $\pi(a|s) = a \sim \mathbb{N}(\mu, \sigma)$ .

可以对这个分布进行采样（有一些简单的方法可以从正态分布生成样本），并使用策略梯度定理从遵循该策略作为对神经网络的反馈返回。假设要找到最佳确定性策略，神经网络可以随着时间的推移学习以低标准偏差的特定平均值。

在某些情况下，标准差可以被视为超参数，类似于 $\epsilon$ 在 $\epsilon$ -贪婪的动作选择，并且可能随着时间的推移而衰减。在这种情况下，神经网络可以只输出平均动作。

也可以通过离策略学习来学习确定性策略，添加噪声函数来支持探索。这就是深度确定性策略梯度所做的。

其它你可能感兴趣的问题