何时停止在网格世界上应用的强化学习(动态编程)中计算网格中每个单元格的值

数据挖掘 机器学习 马尔科夫过程 强化学习
2022-02-08 10:33:43

考虑在网格世界中应用强化学习(动态规划方法执行值迭代),在每次迭代中,我遍历网格的每个单元格,并根据其当前值和采取行动的当前值更新其值从那个状态。现在

  1. 我要持续更新每个单元格的值多长时间?除非之前和现在的价值函数的变化最小,否则我是否应该继续更新?我无法理解如何在网格世界场景中实现停止机制(不考虑折扣)

  2. 值函数是网格世界中所有网格的值吗?
1个回答

1-您应该设置一个允许您退出循环的阈值(超参数)。

让 V 是所有状态 s 的值,而 V' 是值迭代后的新值。

如果s|(s)-'(s)|HresHld, 辞职

2 - V 是网格中每个单元格的函数,是的,因为您需要更新每个单元格。

希望能帮助到你。