人工智能 - 值迭代算法的时间复杂度是多少？ - 吾爱随笔录

值迭代算法的时间复杂度是多少？

人工智能强化学习算法时间复杂度价值迭代

2021-10-28 13:00:21

最近，我遇到了一个信息（这个加州大学伯克利分校AI课程的MDPs的第8讲和第9讲），值迭代算法每次迭代的时间复杂度是 $\mathcal{O}(|S|^{2}|A|)$ ，在哪里 $|S|$ 是状态的数量和 $|A|$ 动作的数量。

这是每次迭代的方程式：

V_{k + 1} (s) \leftarrow max_{a} \sum_{s^{'}} T (s, a, s^{'}) [R (s, a, s^{'}) + γ V_{k} (s^{'})]

$V_{k+1}(s) \gets \max_a \sum_{s'} T(s, a, s') [R(s, a, s') + \gamma V_k(s')]$

我不明白为什么时间复杂度是 $\mathcal{O}(|S|^{2}|A|)$ . 我搜索了互联网，但没有找到任何好的解释。

1个回答

您显示的值迭代的更新方程是时间复杂度 $O(|\mathcal{S}\times\mathcal{A}|)$ 每次更新到单个 $V(s)$ 估计，因为它遍历所有要执行的操作 $\text{max}_a$ 以及所有接下来的状态 $\sum_{s'}$ .

您找到的来源可能将整个状态空间扫描计为“迭代”，即 $\forall \space s \in \mathcal{S}: V_{k+1}(s) \leftarrow \text{max}_a \sum_{s'} T...$ 这增加了另一个因素 $|\mathcal{S}|$ 使整体复杂性 $O(|\mathcal{S}\times\mathcal{S}\times\mathcal{A}|)$ 或者 $O(|\mathcal{S}|^2|\mathcal{A}|)$

这种迭代的定义是有意义的，因为基本值迭代算法需要扫描整个状态空间才能收敛。这也符合标准收敛测试，该测试在每次完整扫描后进行，并检查扫描结束时最大的绝对更新是什么——如果它低于某个准确度目标值，则该过程被宣布完成。

其它你可能感兴趣的问题

上一篇为什么 Q-learning 会收敛到最优策略，即使代理的行为不是最优的？下一篇广度优先搜索和递归最佳优先搜索有什么区别？