PPO 方法直接生成随机策略。它的输出是动作空间上的一些概率分布函数。
并非所有 RL 算法都是这种情况,但对于许多 Policy Gradient 方法来说很常见。
在某些情况下,您可能希望这种行为继续下去。Paper-Scissors-Stone 是随机策略最优的博弈的经典示例,博弈论中还有其他示例。
此外,许多代理已经学习了策略(我不确定在 PPO 的情况下没有查找它),在这种情况下,随机行为应该与预期值预测相匹配。这在概念上类似于使用 SARSA 生成ε-贪婪的政策。价值函数匹配遵循该策略,尽管如果ε足够低,您可能会合理猜测完全贪婪的策略是最优的。
受过训练的代理在多大程度上是随机的(它会在 90% 的时间内遵循其模型预测并猜测其他 10% 的时间)?
政策的输出是随机的。它将始终“遵循其模型预测”。
开启确定性实际上会阻止代理遵循模型,并且通常会选择动作分布的模式(最高概率密度)。
与 SARSA 不同,使用 Policy Gradient 方法,并不总是可以访问根据操作值进行选择的“贪婪”策略。因此,相反,您的deterministic标志可能会根据动作概率贪婪地选择。
在某些情况下(例如 Actor-Critic),您可能还具有 V(s) 或 Q(s,a) 的基于值的估计器,并且可以使用它来代替,但这通常被认为是策略函数的次要功能(此外,与实值策略函数相比,在大的或连续的动作空间上使用它是非常低效的)
另请注意,在某些情况下,例如 DDPG(代表 Deep Deterministic Policy Gradients),策略梯度方法可以使用确定性策略,并将探索添加为行为策略,从而使算法脱离策略。DDPG 不应在测试期间表现出探索,因为 PPO 适合您。因此,您可能会发现 DDPG 的行为更接近您最初的期望。