人工智能 - 我可以使用确定性策略梯度方法进行随机策略学习吗？ - 吾爱随笔录

人工智能强化学习政策梯度 ddpg

2021-11-07 01:49:38

我可以处理随机策略（在大小有限的动作空间上 $n$ ）作为确定性策略（在概率分布的集合中 $\mathbb{R}^n$ )?

在我看来，进行这种心理翻译并没有破坏任何东西，除了“诱导环境”现在必须采取随机行动并吐出下一个状态，这在原始环境上并不难使用。这是合法的吗？如果是，这种“确定然后 DDPG”方法与例如 A2C 相比如何？

0个回答

没有发现任何回复~

其它你可能感兴趣的问题