如果更新策略优化即时奖励函数而不是价值函数,它仍然是策略迭代算法吗?
策略迭代可以只使用更新的即时奖励吗?
人工智能
强化学习
价值迭代
政策迭代
2021-11-03 20:06:04
1个回答
如果更新策略优化即时奖励函数而不是价值函数,它仍然是策略迭代算法吗?
技术上是的。
Policy Iteration 中的值更新步骤为:
折扣系数可以设置为,进行更新:
但是,有两个关键细节很重要,这在技术上是肯定的,而不是解决问题的替代方法:
改变折扣系数改变了代理人采取最佳行动的意义。将其设置为零意味着代理将仅优先考虑其即时奖励信号,并且根本不做出长期决策。例如,如果任务是在最短的时间内逃离迷宫,这将毫无用处。
从技术上讲,仍有一个价值函数正在更新。功能仍然是预期的未来奖励,只是我们将其设置为只关心未来很短的一步。如此之短以至于它不关心下一个状态的值是什么,因此下一个状态不会出现在任何更新中。
由于状态之间缺乏引导,所有优化行为的数据都已经在奖励分配中可用。所以整个 MDP 可以通过一次扫描所有状态来解决。或者它可以使用按需解决对于任何状态,使策略迭代过程变得多余。
然而,考虑到这些警告,是的,这仍然是政策迭代。这是相同的更新过程,只是对其中一个参数进行了特定选择。
其它你可能感兴趣的问题