我相信可以理解on-policy 方法不能重用从早期策略中收集的轨迹的原因:轨迹分布随策略而变化,并且策略梯度被推导出为对这些轨迹的期望。
来自OpenAI Vanilla Policy Gradient 描述的以下直觉是否确实表明从先前的经验中学习仍然是可能的?
策略梯度的关键思想是提高导致更高回报的行动的概率,并降低导致更低回报的行动的概率。
目标是改变动作的概率。在当前政策下,从以前的政策中抽取的行动仍然是可能的。
我看到我们不能重用之前的动作来估计策略梯度。但是我们不能使用监督学习用以前的轨迹更新策略网络吗?根据动作的好坏程度,动作的标签将介于 0 和 1 之间。在最简单的情况下,只有 1 表示好行为,0 表示坏行为。损失可以是带有正则化项的平方差的简单总和。
为什么不使用/可能?我错过了什么?