在使用策略梯度方法进行推理时确定性地选择动作有什么影响?

人工智能 强化学习 政策梯度
2021-10-25 11:37:10

在 A3C/PPO 等策略梯度方法中,网络的输出是每个动作的概率。在训练时,要采取的行动是从概率分布中采样的。

在环境中评估策略时,总是选择概率最高的动作而不是从概率分布中采样会有什么影响?

1个回答

在环境中评估策略时,总是选择概率最高的动作而不是从概率分布中采样会有什么影响?

取决于您所说的“评估政策”是什么意思。与基于值的方法(例如 Q 学习)不同,梯度方法中的策略不被其他任何东西所暗示,它直接由正在优化的概率密度函数来描述。

采用最大概率项将在技术上改变策略(除非您已经在使用确定性策略梯度),并且您将评估与策略梯度发现的不同但相关的策略。

然而,在标准的 MDP 环境中,并且至少经过一些培训,这应该是一个合理的过程,可以给出代理执行情况的一些指示。

在某些情况下,环境的性质意味着代理依赖于随机策略。在一些部分可观察的场景中,随机决定可能会更好——一个简单的例子是一条需要穿越的走廊,但是状态特征没有提供足够的信息来确定真实的方向。确定性政策将无法双向穿越走廊,但随机政策最终会双向通过。另一个例子是在对抗情况下,另一个智能体可以学习你的智能体的策略(经典版本是剪刀/纸/石头,其中两个理想的对立智能体将学习概率13根据纳什均衡的每个动作)

如果您认为自己没有这些特殊情况,那么从您的策略梯度代理中推导出确定性策略并对其进行评估应该是可以的。这与评估“学习策略”并不完全相同,但是一旦您认为代理已经收敛,这样做是非常明智的,因为它可能仍然以某种低概率选择非最优动作,并且您可以更接近最优通过删除该行为。