作为 MDP 的解决方案的策略与类似的策略之间的关系是什么εϵ-贪婪的?

人工智能 强化学习 定义 马尔可夫决策过程 政策 探索策略
2021-11-15 03:50:33

在强化学习的背景下,一项政策,π,通常被定义为状态空间的函数,S,到行动空间,A, 那是,π:SA. 这个函数就是一个问题的“解决方案”,表示为马尔可夫决策过程(MDP),所以我们常说π是 MDP 的解决方案。一般来说,我们希望找到最优策略π对于每个 MDPM,即对于每个 MDPM,我们想找到使代理行为最优的策略(即获得最高的“累积未来折扣奖励”,或者简而言之,最高的“回报”)。

通常情况下,在 RL 算法中,例如 Q-learning,人们经常提到“策略”,例如ϵ-greedy、greedy、soft-max 等,而从未提及这些策略是否是某些 MDP 的解决方案。在我看来,这是两种不同类型的策略:例如,“贪婪策略”总是选择具有最高预期回报的动作,无论我们处于哪种状态;同样,对于“ϵ-贪婪策略”;另一方面,作为 MDP 解决方案的策略是状态和动作之间的映射。

那么作为 MDP 解决方案的策略与类似策略之间的关系是什么ϵ-贪婪的?是这样的政策ϵ-贪婪的任何MDP的解决方案?我们如何才能正式制定政策,例如ϵ- 以与我正式制定作为 MDP 解决方案的政策类似的方式贪婪?

我明白那个 ”ϵ-greedy”可以称为策略,因为事实上,在像 Q-learning 这样的算法中,它们用于选择动作(即它们允许代理行为),这是策略的基本定义。

1个回答

例如,“贪婪策略”总是选择期望回报最高的动作,无论我们处于哪种状态

“无论我们处于哪个状态”,一般都是不正确的;一般来说,预期回报取决于我们所处的状态我们选择的动作,而不仅仅是动作。

一般来说,我不会说策略是从状态到动作的映射,而是从状态到动作的概率分布的映射。对于确定性策略,这仅相当于从状态到动作的映射,而不是随机策略。

假设我们的代理可以访问(估计)价值函数Q(s,a)对于状态-动作对,贪心和ϵ- 贪婪策略可以用完全相同的方式来描述。

πg(s,a)表示分配给动作的概率a处于一种状态s通过贪婪的政策。为简单起见,我假设没有关系(否则在实践中最好在导致最高值的动作中均匀随机化)。该概率由下式给出:

πg(s,a)={1,if a=argmaxaQ(s,a)0,otherwise

相似地,πϵ(s,a)可以表示由一个分配的概率ϵ-贪婪策略,概率为:

πϵ(s,a)={(1ϵ)+ϵ|A(s)|,if a=argmaxaQ(s,a)ϵ|A(s)|,otherwise
在哪里|A(s)|表示该州法律行动集的大小s.