如果环境也是随机的,那么最优策略是否总是随机的?

人工智能 强化学习 随机策略 确定性政策 政策 环境
2021-11-05 21:32:20

如果环境也是随机的,那么最优策略是否总是随机的(即从状态到动作概率分布的映射)?

直观地说,如果环境是确定性的(也就是说,如果代理处于一个状态ss并采取行动一个一个,然后是下一个状态s's总是相同的,无论哪个时间步长),那么最优策略也应该是确定性的(也就是说,它应该是从状态到动作的映射,而不是到动作的概率分布)。

3个回答

如果环境也是随机的,那么最优策略是否总是随机的(即从状态到动作概率分布的映射)?

不。

最优策略通常是确定性的,除非:

  • 缺少重要的状态信息(POMDP)。例如,在不允许代理知道其确切位置或记住先前状态的地图中,并且给定它的状态不足以消除位置之间的歧义。如果目标是到达特定的结束位置,则最优策略可能包括一些随机移动以避免卡住。请注意,这种情况下的环境可能是确定性的(从可以看到整个状态的人的角度来看),但仍然需要随机策略来解决它。

  • 存在某种极小极大博弈论场景,其中确定性策略可以受到环境或其他代理的惩罚。想想剪刀/纸/石头或囚徒困境。

直观地说,如果环境是确定性的(也就是说,如果代理处于状态𝑠并采取行动𝑎,那么下一个状态𝑠′总是相同的,无论哪个时间步长),那么最优策略也应该是确定性的(也就是说,它应该是从状态到动作的映射,而不是动作的概率分布)。

这似乎是合理的,但是您可以使用任何基于价值函数的方法进一步了解这种直觉:

如果你找到了一个最优的价值函数,那么对它采取贪婪的行动就是最优策略。

上述陈述只是贝尔曼最优方程的自然语言重新陈述:

v*(s)=最大限度一个r,s'p(r,s'|s,一个)(r+γv*(s'))

即当总是选择最大化奖励的动作加上下一步的折扣值时获得最优值。最大限度一个操作是确定性的(如有必要,您可以使用例如操作的有序列表确定性地打破最大值的关系)。

因此,任何可以通过 MDP 建模并通过基于值的方法(例如值迭代、Q 学习)求解的环境都具有确定性的最优策略。

在这样的环境中,最优解可能根本不是随机的(即,如果您在确定性最优策略中添加任何随机性,该策略将变得更糟)。但是,当一个或多个状态中的一个或多个动作的最大值存在联系时,则存在多个等效的最优和确定性策略。您可以构建一个随机策略,将它们以任意组合混合,它也是最优的。

我会说不。

例如,考虑多臂老虎机问题所以你有了n都有可能给你奖励的武器(例如 1 分),p一世,一世介于 1 和n. 这是一个简单的随机环境:这是一个单一状态的环境,但它仍然是一个环境。

但显然最优策略是选择最高的手臂p一世. 所以这不是一个随机策略。

显然,如果您在与其他代理(博弈论设置)比赛的环境中,您的最佳策略肯定是随机的(例如扑克游戏)。

我在想一个概率景观,你会发现自己是一个演员,有各种未知的高峰和低谷。一个好的确定性方法总是可能会引导您到达最近的局部最优值,但不一定会到达全局最优值。为了找到全局最优值,像 MCMC 算法这样的算法将允许随机地接受暂时更差的结果,以便摆脱局部最优值并找到全局最优值。我的直觉是,在随机环境中这也是正确的。