我想我已经在强化学习的背景下看到过“固定数据”、“固定动态”和“固定政策”等表达方式。这是什么意思?我认为固定政策意味着该政策不依赖于时间,而只依赖于状态。但这不是不必要的区别吗?如果政策取决于时间而不仅仅取决于国家,那么严格来说时间也应该是国家的一部分。
在强化学习的背景下,“固定”是什么意思?
固定策略是一种不会改变的策略。尽管严格来说这是一个与时间相关的问题,但这并不是强化学习中所指的区别。这通常意味着策略没有被学习算法更新。
如果您在强化学习 (RL) 中使用固定策略,通常是因为您正在尝试学习其价值函数。许多 RL 技术——包括 Monte Carlo、时间差分、动态规划——可用于评估给定的策略,以及用于搜索更好或最优的策略。
静态动力学是指环境,是环境规则不随时间变化的假设。环境规则通常表示为 MDP 模型,它由所有状态转换概率和奖励分布组成。在线工作的强化学习算法通常可以应对和调整策略以匹配非平稳环境,前提是这些变化不会发生得太频繁,或者在更激进的变化之间允许有足够的学习/探索时间。大多数 RL 算法至少有一些在线组件,在具有这种特征的环境中继续探索非最优行为也很重要(以便发现它们何时可能变得最优)。
固定数据不是 RL 特定的术语,但也与对在线算法的需求有关,或者至少与随着时间的推移丢弃旧数据和重新训练现有模型的计划有关。您可能在任何 ML 中都有非平稳数据,包括监督学习 - 使用有关人及其行为的数据的预测问题通常会遇到这个问题,因为人口规范会随着数月和数年的时间尺度而变化。
固定策略是不依赖于时间的策略。这意味着只要满足某些条件,代理就会做出相同的决定。这种固定策略可能是概率性的,这意味着选择动作的概率保持不变。它可能会做出不同的决定,但概率保持不变。
静态环境是指系统的静态模型。该模型包括奖励函数和转移概率。因此,在静止环境中,奖励函数和转移概率保持不变,或者变化足够慢,以至于代理找到足够的训练时间来学习环境中所做的变化。
你是对的:固定政策与时间无关。它基本上是从状态到动作(或动作的概率分布)的映射。无论代理观察状态的时间点如何它将选择一个动作(或选择一个概率对于每一个动作)。
有两种问题
固定和非固定
平稳问题是那些奖励值是静态的,不会变化的问题,另一方面,非平稳问题是那些奖励值随时间变化的问题