在学习了 Q-learning、Sarsa 和 DQN 之后,我现在发现了一个术语“策略梯度”。
我有点不清楚它与上述方法有何不同。以下是我的理解,请指正:
从我第一次遇到 DQN 的那一刻起,我就一直认为 DQN 的输入向量只包含当前状态的特征。在 DQN 的输出层,我们有一个动作向量。然后我们取得分最高的动作的索引并执行它。它使我们进入下一个状态.
计算误差(我们估计的分数有多不正确) 我们提供进入我们的DQN,然后发现它的最高动作类似于1。再次,它将在DQN的输出层
通过引导计算错误到. 除了所选动作的索引之外,“错误”向量的所有位置都为零
这实际上是“策略梯度”,而不是我最初认为的价值函数方法吗?
在这种情况下,价值方法是否会是一个 DQN:
[state_features; action_one_hot_encoded_vector] 串联作为输入,输出为单个值?
阅读此链接后,我得到了这个印象
DQN Policy Gradient 的基本思想是这么简单,还是我弄错了?
编辑:有一个关于政策毕业生的非常棒的讲座。不幸的是,该视频是故意不公开的,因此普通人无法真正了解它-但我是免费教育的,所以这里是: CS294-112 9/6/17