考虑在网格世界中应用强化学习(动态规划方法执行值迭代),在每次迭代中,我遍历网格的每个单元格,并根据其当前值和采取行动的当前值更新其值从那个状态。现在
- 我要持续更新每个单元格的值多长时间?除非之前和现在的价值函数的变化最小,否则我是否应该继续更新?我无法理解如何在网格世界场景中实现停止机制(不考虑折扣)
- 值函数是网格世界中所有网格的值吗?
考虑在网格世界中应用强化学习(动态规划方法执行值迭代),在每次迭代中,我遍历网格的每个单元格,并根据其当前值和采取行动的当前值更新其值从那个状态。现在
1-您应该设置一个允许您退出循环的阈值(超参数)。
让 V 是所有状态 s 的值,而 V' 是值迭代后的新值。
如果, 辞职
2 - V 是网格中每个单元格的函数,是的,因为您需要更新每个单元格。
希望能帮助到你。