神经网络是否计算策略梯度方法的概率分布。如果是这样,他们如何计算无限概率分布?你如何用神经网络表示一个连续的动作策略?
策略梯度如何从神经网络计算无限概率分布
人工智能
神经网络
强化学习
政策梯度
2021-10-29 11:49:36
1个回答
神经网络是否计算策略梯度方法的概率分布。
简而言之,是的。它不一定是神经网络,任何基于梯度的可训练参数函数逼近器都可以。神经网络是一种常见的选择,使用选定基函数的线性函数逼近器也是如此。
如果是这样,他们如何计算无限概率分布?
作为背景,这是仅在连续动作空间中生成随机策略的问题。在离散动作空间中,通常可以为整个动作空间计算任意概率密度函数,并从中采样以对策略进行建模。也可以在连续空间中简单地计算确定性策略——输入是当前状态,输出是要采取的行动。那么问题是这不允许代理通过对环境的探索来学习。要做到这一点,需要一个随机策略。
如果您想在连续动作空间中生成随机策略,您可以离散空间并从中采样,例如使用 softmax 来生成动作概率。或者你可以让近似函数做一些更间接的事情:输出可以从中采样的概率分布的参数。
你如何用神经网络表示一个连续的动作策略?
通常通过将状态特征作为输入和可以采样作为输出的 PDF 的参数。例如,网络可以输出均值和标准差动作值的正态分布,策略由下式给出.
可以对这个分布进行采样(有一些简单的方法可以从正态分布生成样本),并使用策略梯度定理从遵循该策略作为对神经网络的反馈返回。假设要找到最佳确定性策略,神经网络可以随着时间的推移学习以低标准偏差的特定平均值。
在某些情况下,标准差可以被视为超参数,类似于在-贪婪的动作选择,并且可能随着时间的推移而衰减。在这种情况下,神经网络可以只输出平均动作。
也可以通过离策略学习来学习确定性策略,添加噪声函数来支持探索。这就是深度确定性策略梯度所做的。