人工智能 - 每个状态更新一次后值迭代是否停止？ - 吾爱随笔录

每个状态更新一次后值迭代是否停止？

人工智能强化学习价值迭代政策评估伪代码政策改进

2021-10-30 04:31:34

在第4.4 节值迭代中，作者写道

一个重要的特殊情况是仅在一次扫描（每个状态更新一次）后停止策略评估。这种算法称为值迭代。

之后，他们提供了以下伪代码

从代码中可以清楚地看出，每个状态的更新都会发生，直到 $\Delta$ 足够小。正如作者在文本中所写的那样，每个州都没有更新。错误在哪里？

1个回答

作者提到在一个状态后停止策略评估的地方，他们指的是评估策略的算法部分 - 您列出的伪代码是Value Iteration的伪代码，它包括策略评估和策略改进之间的迭代.

在正常的策略评估中，您将应用更新 $v_{k+1}(s) = \mathbb{E}_\pi[R_{t+1} + \gamma v_k(S_{t+1})|S_t = s]$ 直到收敛。在策略迭代算法中，您执行策略评估，直到价值函数在每个状态中收敛，然后应用策略改进，然后重复。价值迭代将执行一次更新的策略评估，即直到收敛，然后改进策略，并重复此操作直到价值函数收敛。

线

V (s) \leftarrow max_{a} \sum_{s^{'}, r} p (s^{'}, r | s, a) [r + γ V (s^{'})]

$V(s) \leftarrow \max_a \sum_{s', r} p(s',r|s,a)[r + \gamma V(s')]$

执行早期停止策略评估和策略改进。让我们看看如何：

这 $\sum_{s', r} p(s',r|s,a)[r + \gamma V(s')]$ 和我之前写的期望是一样的，所以我们可以清楚地看到，这只是一次迭代的策略评估。然后，我们对行动采取最大措施——这是政策改进。策略改进定义为（对于确定性策略）

\begin{aligned} π^{'} (s) & = \arg max_{a} q_{π} (s, a) \\ = \arg max_{a} \sum_{s^{'}, r} p (s^{'}, r | s, a) [r + γ V (s^{'})] . \end{aligned}

$\begin{align} \pi'(s) &= \arg\max_a q_\pi(s,a) \\ &= \arg\max_a \sum_{s', r} p(s',r|s,a)[r + \gamma V(s')]\;. \end{align}$ 在这里，我们分配满足

argmax

$\mbox{argmax}$ 对国家政策的改进

s

$s$ . 当我们取最大值时，这基本上就是我们在你的伪线上所做的事情。我们正在评估我们的价值函数，以获得关于所述价值函数的贪婪策略。

如果你继续应用值迭代伪代码中的线，它最终会收敛到最优值函数，因为它最终会满足贝尔曼最优方程。

其它你可能感兴趣的问题

上一篇如果我有伪剧集，我应该如何计算终端状态下 DQN 中的更新目标？下一篇具有由两个离散值组成的动作的强化学习