在强化学习的背景下,一项政策,,通常被定义为状态空间的函数,,到行动空间,, 那是,. 这个函数就是一个问题的“解决方案”,表示为马尔可夫决策过程(MDP),所以我们常说是 MDP 的解决方案。一般来说,我们希望找到最优策略对于每个 MDP,即对于每个 MDP,我们想找到使代理行为最优的策略(即获得最高的“累积未来折扣奖励”,或者简而言之,最高的“回报”)。
通常情况下,在 RL 算法中,例如 Q-learning,人们经常提到“策略”,例如-greedy、greedy、soft-max 等,而从未提及这些策略是否是某些 MDP 的解决方案。在我看来,这是两种不同类型的策略:例如,“贪婪策略”总是选择具有最高预期回报的动作,无论我们处于哪种状态;同样,对于“-贪婪策略”;另一方面,作为 MDP 解决方案的策略是状态和动作之间的映射。
那么作为 MDP 解决方案的策略与类似策略之间的关系是什么-贪婪的?是这样的政策-贪婪的任何MDP的解决方案?我们如何才能正式制定政策,例如- 以与我正式制定作为 MDP 解决方案的政策类似的方式贪婪?
我明白那个 ”-greedy”可以称为策略,因为事实上,在像 Q-learning 这样的算法中,它们用于选择动作(即它们允许代理行为),这是策略的基本定义。