最近,我遇到了一个信息(这个加州大学伯克利分校AI课程的MDPs的第8讲和第9讲),值迭代算法每次迭代的时间复杂度是, 在哪里是状态的数量和动作的数量。
这是每次迭代的方程式:
我不明白为什么时间复杂度是. 我搜索了互联网,但没有找到任何好的解释。
最近,我遇到了一个信息(这个加州大学伯克利分校AI课程的MDPs的第8讲和第9讲),值迭代算法每次迭代的时间复杂度是, 在哪里是状态的数量和动作的数量。
这是每次迭代的方程式:
我不明白为什么时间复杂度是. 我搜索了互联网,但没有找到任何好的解释。
您显示的值迭代的更新方程是时间复杂度每次更新到单个估计,因为它遍历所有要执行的操作以及所有接下来的状态.
您找到的来源可能将整个状态空间扫描计为“迭代”,即这增加了另一个因素使整体复杂性或者
这种迭代的定义是有意义的,因为基本值迭代算法需要扫描整个状态空间才能收敛。这也符合标准收敛测试,该测试在每次完整扫描后进行,并检查扫描结束时最大的绝对更新是什么——如果它低于某个准确度目标值,则该过程被宣布完成。