机器算法验证 - Q 学习与拟合 Q 迭代 - 吾爱随笔录

机器算法验证强化学习

2022-03-19 21:50:42

我正在阅读强化学习背景下的 Q-Learning - 我知道 q-learning 是在线学习的一种形式，其中我们被赋予一系列元组作为输入。我正在关注 udacity https://www.udacity.com/course/machine-learning-reinforcement-learning--ud820 和这份调查报告：https ://www.jair.org/media/301/live-301-1562 -jair.pdf

我也了解值迭代（VI）和拟合值迭代（FVI）。我的问题是 Fitted Q-iteration 是否仅仅意味着具有某种状态空间近似的 Q-Learning？就像 FVI 是状态空间的线性近似的 VI？

1个回答

你说的对。这意味着Q函数是线性逼近的。

令为状态空间，为动作空间。其中 , 是和。 $S$ $A$ $\textbf{x}(s,a) = (x_1(s,a),\ldots,x_n(s,a))$ $s \in S$ $S \times A$ $\textbf{x}(s,a) \in \mathbb{R}^n$

假设是真正的 Q 值函数。现在我们可以尝试用下面的估计函数来近似它： $Q(a,s)$

\hat{Q} (a, s, w) = w \cdot x (s, a) = \sum_{i = 1}^{n} w_{i} x_{i} (s, a)

$\hat{Q}(a,s,\textbf{w}) = \textbf{w} \cdot \textbf{x}(s,a) = \sum_{i=1}^nw_ix_i(s,a)$

所以你可能想为状态-动作对制作特征，而不是只为状态。要微调向量，您可以使用梯度下降法。有关此问题的更多信息，请参阅Sutton & Barto，使用函数逼近进行控制。 $\textbf{w}$

其它你可能感兴趣的问题