人工智能 - 什么是强化学习中的双样本问题？ - 吾爱随笔录

什么是强化学习中的双样本问题？

人工智能强化学习

2021-11-09 23:27:43

根据SBEED：Convergent Reinforcement Learning with Nonlinear Function Approximation for Convergent Reinforcement Learning，Smoothed Bellman 算子是一种避免双样本问题的方法吗？有人可以向我解释什么是双样本问题以及 SBEED 如何解决它吗？

2个回答

双采样问题在第 11.5章Gradient Descent in the Bellman Error in Reinforcement Learning: An Introduction (2nd edition)中被引用。

从这本书来看，这是一个完整的梯度下降（与半梯度下降相反）更新规则，用于估计应该收敛到与贝尔曼误差的最小距离的权重：

$w_{t + 1} = w_{t} + α [E_{b} [ρ_{t} [R_{t + 1} + γ \hat{v} (S_{t + 1}, w)] - \hat{v} (S_{t}, w)] [\nabla \hat{v} (S_{t}, w) - γ E_{b} [ρ_{t} \nabla \hat{v} (S_{t + 1}, w)]]$ $w_{t+1} = w_t + \alpha[\mathbb{E}_b[\rho_t[R_{t+1} + \gamma\hat{v}(S_{t+1},\mathbf{w})] - \hat{v}(S_{t},\mathbf{w})][\nabla\hat{v}(S_{t},\mathbf{w})- \gamma\mathbb{E}_b[\rho_t\nabla\hat{v}(S_{t+1},\mathbf{w})]]$

[...] 但这很幼稚，因为上面的等式涉及下一个状态， $S_{t+1}$ ，出现在两个相乘的期望中。要获得产品的无偏样本，需要下一个状态的两个独立样本，但在与外部环境的正常交互过程中，只能获得一个。可以对一种期望或另一种期望进行抽样，但不能同时对两者进行抽样。

基本上，除非你有一个环境，你可以定期重绕和重新采样以获得两个独立的估计值（对于 $\hat{v}(S_{t+1},\mathbf{w})$ 和 $\nabla\hat{v}(S_{t+1},\mathbf{w})$ ) 那么，由贝尔曼误差梯度下降自然产生的更新规则确实会比其他方法更好，例如半梯度方法。如果您可以在每一步都执行此倒带过程，那么它可能是值得的，因为可以保证收敛，即使在使用非线性逼近器的非策略中也是如此。

该论文针对这个问题提出了一种解决方法，保持稳健的收敛保证，但无需在每一步收集相同估计的两个独立样本。

我们无法近似 $E^2(x)$ 经过 $\frac{1}{N} \sum_i x_i \frac{1}{N} \sum_j x_j$ . 因为 $cov(x)=E(x^2)-E^2(x)$ .

其它你可能感兴趣的问题

上一篇人工智能会不会对人类造成生存威胁？下一篇是否有可以扩展到大型问题的强化学习算法？