数据挖掘 - 何时停止在网格世界上应用的强化学习（动态编程）中计算网格中每个单元格的值 - 吾爱随笔录 - 问答

何时停止在网格世界上应用的强化学习（动态编程）中计算网格中每个单元格的值

数据挖掘机器学习马尔科夫过程强化学习

2022-02-08 10:33:43

考虑在网格世界中应用强化学习（动态规划方法执行值迭代），在每次迭代中，我遍历网格的每个单元格，并根据其当前值和采取行动的当前值更新其值从那个状态。现在

我要持续更新每个单元格的值多长时间？除非之前和现在的价值函数的变化最小，否则我是否应该继续更新？我无法理解如何在网格世界场景中实现停止机制（不考虑折扣）
值函数是网格世界中所有网格的值吗？

1个回答

1-您应该设置一个允许您退出循环的阈值（超参数）。

让 V 是所有状态 s 的值，而 V' 是值迭代后的新值。

如果 $\sum_s|V(s) - V’(s)| \le threshold$ ，辞职

2 - V 是网格中每个单元格的函数，是的，因为您需要更新每个单元格。

希望能帮助到你。

其它你可能感兴趣的问题

上一篇合并csv中的重复数据单元格下一篇从分类的用户行为中使用 Mahout 进行用户分析