Q 学习与拟合 Q 迭代

机器算法验证 强化学习
2022-03-19 21:50:42

我正在阅读强化学习背景下的 Q-Learning - 我知道 q-learning 是在线学习的一种形式,其中我们被赋予一系列元组作为输入。我正在关注 udacity https://www.udacity.com/course/machine-learning-reinforcement-learning--ud820 和这份调查报告:https ://www.jair.org/media/301/live-301-1562 -jair.pdf

我也了解值迭代(VI)和拟合值迭代(FVI)。我的问题是 Fitted Q-iteration 是否仅仅意味着具有某种状态空间近似的 Q-Learning?就像 FVI 是状态空间的线性近似的 VI?

1个回答

你说的对。这意味着Q函数是线性逼近的。

为状态空间,为动作空间。其中 , 是SAx(s,a)=(x1(s,a),,xn(s,a))sSS×Ax(s,a)Rn

假设是真正的 Q 值函数。现在我们可以尝试用下面的估计函数来近似它:Q(a,s)

Q^(a,s,w)=wx(s,a)=i=1nwixi(s,a)

所以你可能想为状态-动作对制作特征,而不是只为状态。要微调向量,您可以使用梯度下降法。有关此问题的更多信息,请参阅Sutton & Barto,使用函数逼近进行控制。w