根据SBEED:Convergent Reinforcement Learning with Nonlinear Function Approximation for Convergent Reinforcement Learning,Smoothed Bellman 算子是一种避免双样本问题的方法吗?有人可以向我解释什么是双样本问题以及 SBEED 如何解决它吗?
什么是强化学习中的双样本问题?
人工智能
强化学习
2021-11-09 23:27:43
2个回答
双采样问题在第 11.5章Gradient Descent in the Bellman Error in Reinforcement Learning: An Introduction (2nd edition)中被引用。
从这本书来看,这是一个完整的梯度下降(与半梯度下降相反)更新规则,用于估计应该收敛到与贝尔曼误差的最小距离的权重:
[...] 但这很幼稚,因为上面的等式涉及下一个状态,,出现在两个相乘的期望中。要获得产品的无偏样本,需要下一个状态的两个独立样本,但在与外部环境的正常交互过程中,只能获得一个。可以对一种期望或另一种期望进行抽样,但不能同时对两者进行抽样。
基本上,除非你有一个环境,你可以定期重绕和重新采样以获得两个独立的估计值(对于和) 那么,由贝尔曼误差梯度下降自然产生的更新规则确实会比其他方法更好,例如半梯度方法。如果您可以在每一步都执行此倒带过程,那么它可能是值得的,因为可以保证收敛,即使在使用非线性逼近器的非策略中也是如此。
该论文针对这个问题提出了一种解决方法,保持稳健的收敛保证,但无需在每一步收集相同估计的两个独立样本。
我们无法近似经过. 因为.
其它你可能感兴趣的问题