为什么策略梯度在策略上?

数据挖掘 机器学习 深度学习 强化学习
2022-03-06 22:29:14

我不完全确定为什么策略梯度必须在策略上并且必须使用从当前行为中采样的轨迹进行更新。在 REINFORCE 中,损失函数由动作的对数概率乘以奖励(或折扣奖励)决定。

对于状态,如果我采取行动并到达状态我将始终看到奖励因此,如果我保留了所有这些值,通过我当前的演员运行过去的的新对数概率和已知的奖励更新我的演员我不需要真正玩过并看到新的结果。sasrsar

有人可以纠正我的理解吗?

谢谢

2个回答

策略梯度定理指出,期望奖励的梯度等于当前策略的对数概率的期望乘以奖励。请注意,要计算期望的积分,我们可以使用蒙特卡罗方法。为此,您需要采样轨迹。你看过推导吗?整个定理来自数学推导。检查该页面的假设似然比(REINFORCE) 部分。希望能帮助到你!

因为我们使用累积奖励(或它的近似 Q/V,但不是 (s,a) 的直接奖励)来计算每个轨迹贡献的梯度,我们按照最新策略收集这些轨迹。