我正在阅读强化学习背景下的 Q-Learning - 我知道 q-learning 是在线学习的一种形式,其中我们被赋予一系列元组作为输入。我正在关注 udacity https://www.udacity.com/course/machine-learning-reinforcement-learning--ud820 和这份调查报告:https ://www.jair.org/media/301/live-301-1562 -jair.pdf
我也了解值迭代(VI)和拟合值迭代(FVI)。我的问题是 Fitted Q-iteration 是否仅仅意味着具有某种状态空间近似的 Q-Learning?就像 FVI 是状态空间的线性近似的 VI?