基于价值的方法可以学习随机策略吗?我试图清楚地了解 RL 算法的不同类别,在此过程中,我开始考虑最佳策略是随机的 (POMDP) 的设置,以及是否有可能为“传统" 基于价值的方法
如果可能,最常用的方法是什么?
基于价值的方法可以学习随机策略吗?我试图清楚地了解 RL 算法的不同类别,在此过程中,我开始考虑最佳策略是随机的 (POMDP) 的设置,以及是否有可能为“传统" 基于价值的方法
如果可能,最常用的方法是什么?
基于价值的方法可以学习随机策略吗?
是的,但仅在有限的意义上,由于可以从价值函数生成随机策略的方式。例如,SARSA 和 Monte Carlo Control 使用的最简单的探索策略,-贪婪,是随机的。
SARSA 自然地学习最优- 任何固定值的贪婪策略. 这与学习最优策略并不完全相同,但在始终需要探索并且算法永远在线学习的非平稳环境中可能仍然有用。
您还可以使用其他函数从价值函数生成随机策略。例如,使用温度参数从玻尔兹曼分布中对动作值进行采样,以确定具有不同动作值的动作之间的相对优先级。
然而,所有这些方法都有一个问题,即它们无法收敛到最优随机策略。这些策略对于管理探索很有用,但在给定固定策略生成器或偶然的情况下,只会在有限的最优意义上是最优的。纯粹基于价值的方法无法学习从价值到行动选择概率的最佳平衡的转换。
对于严格的 MDP,这不是问题。如果 MDP 在状态表示中具有马尔可夫性质,那么总会有一个确定性的最优策略,并且基于值的方法可以向它收敛。这可能包括减少在-当使用on-policy方法时,贪婪方法或吉布斯采样中的温度。
我开始考虑最佳策略是随机的(POMDP)的设置,以及是否有可能为“传统”基于价值的方法学习此策略
它不是。
要解决此问题,您需要添加某种策略功能和一种机制,以通过修改该功能直接搜索更好的策略。Policy Gradient 方法是一种方法,但在这个想法下,您也可以包括遗传算法或其他搜索方法。
在策略搜索中使用基于值的方法可能仍然有用,以帮助评估对策略的更改。这就是 Actor-Critic 的工作方式。