我可以处理随机策略(在大小有限的动作空间上)作为确定性策略(在概率分布的集合中)?
在我看来,进行这种心理翻译并没有破坏任何东西,除了“诱导环境”现在必须采取随机行动并吐出下一个状态,这在原始环境上并不难使用。这是合法的吗?如果是,这种“确定然后 DDPG”方法与例如 A2C 相比如何?
我可以处理随机策略(在大小有限的动作空间上)作为确定性策略(在概率分布的集合中)?
在我看来,进行这种心理翻译并没有破坏任何东西,除了“诱导环境”现在必须采取随机行动并吐出下一个状态,这在原始环境上并不难使用。这是合法的吗?如果是,这种“确定然后 DDPG”方法与例如 A2C 相比如何?