对于确定性问题,在监督过程中训练的学习策略是随机策略吗?

人工智能 神经网络 政策 确定性政策 随机策略 softmax-策略
2021-10-29 09:59:03

如果我训练了一个具有 4 个输出的神经网络(每个动作一个:向下、向上、向左和向右移动)以通过网格移动代理(确定性问题)。由于 softmax 激活函数,神经网络的输出是 4 个动作的概率分布。

即使动作空间是离散的,策略(基于神经网络)是否是随机策略?

1个回答

策略(基于神经网络)是随机策略吗?即使动作空间是离散的?

是的。离散动作空间不需要确定性策略 - 只要每个概率在范围内,就可以为每个状态中的每个动作分配任意概率[0,1]所有允许的操作的总和是1. 决定论和离散动作这两个概念是完全分开的。

许多情况下的最优策略可以是确定性的。如果只有一个确定性最优策略,如果学习过程成功,您学习的策略也应该接近确定性。也就是说,最优动作的概率应该都接近1, 其余的都接近0.

如果有多个可能的最优策略,您的学习代理可能已经学习了它们的随机“混合”,在某些状态下,采取多个动作同样好,并且概率可能会在这些好动作之间分配。这仍然是最佳的,不是问题。如果是这种情况,您应该期望看到许多接近于0并且在每个州都有一小部分(可能是一个)总和接近1它们之间。

在离散动作的情况下,您可以通过获取动作概率的 argmax 从您的神经网络函数中导出确定性策略。这值得一试。由于神经网络中的近似,它将舍入概率接近 0 的不良行为。

在实践中,有时策略中的一点随机性对于测量不精确或其他未知数的实际问题更有效。对于对抗性环境或缺少关键信息的情况,它甚至可能是必要的。找出答案的唯一方法是尝试对您的策略的神经网络输出进行随机和确定性解释。