在强化学习中,有确定性和非确定性(或随机)策略,但也有固定和非固定策略。
固定政策和非固定政策有什么区别?你如何将两者正式化?哪些问题(或环境)需要固定策略而不是非固定策略(反之亦然)?
在强化学习中,有确定性和非确定性(或随机)策略,但也有固定和非固定策略。
固定政策和非固定政策有什么区别?你如何将两者正式化?哪些问题(或环境)需要固定策略而不是非固定策略(反之亦然)?
固定政策,, 是不随时间变化的策略,即, 在哪里可以是一个函数,(确定性策略)或条件密度,(随机策略)。非平稳策略是非平稳的策略。更确切地说,可能不等于, 为了, 在哪里和因此是两个不同的时间步长。
存在保证存在固定最优策略的问题。例如,在随机(存在模拟环境动态的概率密度,即转移函数和奖励函数)和具有有限状态数的离散时间马尔可夫决策过程(MDP)的情况下,行动和有界奖励,其中目标是长期平均奖励,存在固定的最优策略。这一事实的证明在 Martin L. Puterman 所著的Markov Decision Processes: Discrete Stochastic Dynamic Programming (1994) 一书中,该书显然不能在网络上免费获得。