人工智能 - 固定政策和非固定政策有什么区别？ - 吾爱随笔录

固定政策和非固定政策有什么区别？

人工智能强化学习比较政策固定策略

2021-11-03 04:02:38

固定政策和非固定政策有什么区别？你如何将两者正式化？哪些问题（或环境）需要固定策略而不是非固定策略（反之亦然）？

1个回答

固定政策， $\pi_t$ , 是不随时间变化的策略，即 $\pi_t = \pi, \forall t \geq 0$ ，在哪里 $\pi$ 可以是一个函数， $\pi: S \rightarrow A$ （确定性策略）或条件密度， $\pi(A \mid S)$ （随机策略）。非平稳策略是非平稳的策略。更确切地说， $\pi_i$ 可能不等于 $\pi_j$ ，为了 $i \neq j \geq 0$ ，在哪里 $i$ 和 $j$ 因此是两个不同的时间步长。

存在保证存在固定最优策略的问题。例如，在随机（存在模拟环境动态的概率密度，即转移函数和奖励函数）和具有有限状态数的离散时间马尔可夫决策过程（MDP）的情况下，行动和有界奖励，其中目标是长期平均奖励，存在固定的最优策略。这一事实的证明在 Martin L. Puterman 所著的Markov Decision Processes: Discrete Stochastic Dynamic Programming (1994) 一书中，该书显然不能在网络上免费获得。

其它你可能感兴趣的问题

上一篇简单的动物圈套和陷阱是一种自动化形式吗？计算的？下一篇哪些机器学习模型是通用函数逼近器？