我正在尝试详细了解和重现近端策略优化 (PPO)算法。我在介绍算法的论文中发现缺少的一件事是动作的精确度在给定策略网络的情况下生成.
从源代码中,我看到离散动作是从某个概率分布(我假设在这种情况下是离散的)中采样的,这些概率分布是由生成的输出概率参数化的给定状态.
但是,我不明白的是如何从策略网络中采样/生成连续动作。它们是否也是从(可能是连续的)分布中采样的?在那种情况下,使用哪种类型的分布以及策略网络预测哪些参数来参数化所述分布?
另外,我是否可以引用任何官方文献来介绍 PPO 生成其操作输出的方法?