人工智能 - 如何从 PPO 中的策略网络中采样（或生成）连续动作？ - 吾爱随笔录

我正在尝试详细了解和重现近端策略优化 (PPO)算法。我在介绍算法的论文中发现缺少的一件事是动作的精确度 $a_t$ 在给定策略网络的情况下生成 $\pi_\theta(a_t|s_t)$ .

从源代码中，我看到离散动作是从某个概率分布（我假设在这种情况下是离散的）中采样的，这些概率分布是由生成的输出概率参数化的 $\pi_\theta$ 给定状态 $s_t$ .

但是，我不明白的是如何从策略网络中采样/生成连续动作。它们是否也是从（可能是连续的）分布中采样的？在那种情况下，使用哪种类型的分布以及策略网络预测哪些参数来参数化所述分布？

另外，我是否可以引用任何官方文献来介绍 PPO 生成其操作输出的方法？