我可以使用确定性策略梯度方法进行随机策略学习吗?

人工智能 强化学习 政策梯度 ddpg
2021-11-07 01:49:38

我可以处理随机策略(在大小有限的动作空间上n)作为确定性策略(在概率分布的集合中Rn)?

在我看来,进行这种心理翻译并没有破坏任何东西,除了“诱导环境”现在必须采取随机行动并吐出下一个状态,这在原始环境上并不难使用。这是合法的吗?如果是,这种“确定然后 DDPG”方法与例如 A2C 相比如何?

0个回答
没有发现任何回复~