固定政策和非固定政策有什么区别?

人工智能 强化学习 比较 政策 固定策略
2021-11-03 04:02:38

在强化学习中,有确定性和非确定性(或随机)策略,但也有固定非固定策略。

固定政策和非固定政策有什么区别?你如何将两者正式化?哪些问题(或环境)需要固定策略而不是非固定策略(反之亦然)?

1个回答

固定政策π, 是不随时间变化的策略,即π=π,0, 在哪里π可以是一个函数,π小号一个(确定性策略)或条件密度,π(一个小号)(随机策略)。非平稳策略是非平稳策略更确切地说,π一世可能不等于πj, 为了一世j0, 在哪里一世j因此是两个不同的时间步长。

存在保证存在固定最优策略的问题。例如,在随机(存在模拟环境动态的概率密度,即转移函数和奖励函数)和具有有限状态数的离散时间马尔可夫决策过程(MDP)的情况下,行动和有界奖励,其中目标是长期平均奖励,存在固定的最优策略。这一事实的证明在 Martin L. Puterman 所著的Markov Decision Processes: Discrete Stochastic Dynamic Programming (1994) 一书中,该书显然不能在网络上免费获得。