如何从 PPO 中的策略网络中采样(或生成)连续动作?

人工智能 强化学习 执行 近端策略优化 连续动作空间
2021-11-16 06:27:54

我正在尝试详细了解和重现近端策略优化 (PPO)算法。我在介绍算法的论文中发现缺少的一件事是动作的精确度at在给定策略网络的情况下生成πθ(at|st).

源代码中,我看到离散动作是从某个概率分布(我假设在这种情况下是离散的)中采样的,这些概率分布是由生成的输出概率参数化的πθ给定状态st.

但是,我不明白的是如何从策略网络中采样/生成连续动作。它们是否也是从(可能是连续的)分布中采样的?在那种情况下,使用哪种类型的分布以及策略网络预测哪些参数来参数化所述分布?

另外,我是否可以引用任何官方文献来介绍 PPO 生成其操作输出的方法?

1个回答

只要您的政策(倾向)是可区分的,一切都很好。离散、连续、其他,无所谓!:)

连续空间的一个常见示例是重新参数化技巧,您的策略输出μ,σ=π(s)并且动作是aN(μ,σ).