据我了解,在强化学习中,基于值的方法和策略梯度方法之间的一个很大区别在于如何选择下一个动作。
在 Q-learning(基于价值的方法)中,每个可能的动作都会得到一个分数。然后我们选择下一个得分最高的动作,随机选择任何其他动作的可能性很小。
策略梯度方法如何决定一个动作?我们不再被允许选择得分最高的动作,因为这将给我们留下一个不可区分的策略,这是无法改进的。这些动作仍然有分数 - 我们是否随机选择它们......使用“累积分布函数”?另外,我是否使用了正确的术语?
换句话说,得分越高的动作是否占据更多空间并且更有可能被选中?
编辑:有一个关于政策毕业生的非常棒的讲座。不幸的是,该视频是故意不公开的,因此普通人无法真正了解它-但我是免费教育的,所以这里是: CS294-112 9/6/17