强化学习中的软策略是什么?

机器算法验证 术语 强化学习 定义
2022-03-31 15:56:51

强化学习中的软策略是什么?软策略是否使用 soft-max 函数作为而不是确定性策略?π(s,a)

1个回答

强化学习中的软策略是什么?

“软”策略是一种选择任何可能动作的概率,通常很小但有限。当奖励和/或状态转换是随机的时,从理论上讲,拥有一个有可能选择任何动作的策略很重要——你永远不能 100% 确定你对动作真实价值的估计。软策略对于探索替代动作的实际目的很重要,它们可以为 RL 算法的收敛提供理论上的保证。

这是否意味着使用 soft-max 函数作为 π(s,a) 而不是确定性策略?

这是创建软策略的一种方法。另一种非常常见的方法是 -贪婪动作选择,其中具有最高估计值的动作优先使用,或者使用选择随机动作任何行动的机会均等。ϵQ(s,a)p=1ϵp=ϵ

您可能还会看到术语 -soft 策略,它是一种策略,其中每个动作至少有机会被选中。 -greedy 策略也是 epsilon -soft 策略,但通常不会使用 softmax 函数(取决于您使用什么特征作为 softmax 的输入)。ϵp=ϵ|A|ϵϵ