什么是强化学习中的双样本问题?

人工智能 强化学习
2021-11-09 23:27:43

根据SBEED:Convergent Reinforcement Learning with Nonlinear Function Approximation for Convergent Reinforcement Learning,Smoothed Bellman 算子是一种避免双样本问题的方法吗?有人可以向我解释什么是双样本问题以及 SBEED 如何解决它吗?

2个回答

双采样问题在第 11.5章Gradient Descent in the Bellman Error in Reinforcement Learning: An Introduction (2nd edition)中被引用。

从这本书来看,这是一个完整的梯度下降(与半梯度下降相反)更新规则,用于估计应该收敛到与贝尔曼误差的最小距离的权重:

wt+1=wt+α[Eb[ρt[Rt+1+γv^(St+1,w)]v^(St,w)][v^(St,w)γEb[ρtv^(St+1,w)]]

[...] 但这很幼稚,因为上面的等式涉及下一个状态,St+1,出现在两个相乘的期望中。要获得产品的无偏样本,需要下一个状态的两个独立样本,但在与外部环境的正常交互过程中,只能获得一个。可以对一种期望或另一种期望进行抽样,但不能同时对两者进行抽样。

基本上,除非你有一个环境,你可以定期重绕和重新采样以获得两个独立的估计值(对于v^(St+1,w)v^(St+1,w)) 那么,由贝尔曼误差梯度下降自然产生的更新规则确实会比其他方法更好,例如半梯度方法。如果您可以在每一步都执行此倒带过程,那么它可能是值得的,因为可以保证收敛,即使在使用非线性逼近器的非策略中也是如此。

该论文针对这个问题提出了一种解决方法,保持稳健的收敛保证,但无需在每一步收集相同估计的两个独立样本。

我们无法近似E2(x)经过1Nixi1Njxj. 因为cov(x)=E(x2)E2(x).