外生变量可以成为强化学习中的状态特征吗?

人工智能 强化学习 q学习 dqn
2021-10-21 06:58:09

我对 Q 学习或 DQN 算法的状态表示有疑问。我仍然是 RL 的初学者,所以我不确定将外生变量作为状态特征是否合适。

例如,在我当前的项目中,根据实时波动的电价决定对电动汽车进行充电/放电动作,我想知道过去的 n 步价格或小时是否可以视为状态特征。

因为价格和时间都只是在每个时间步中给出信息,而不是依赖于充电/放电动作,我怀疑它们在理论上是否有资格成为状态特征。

如果他们不合格,有人可以给我参考或我可以阅读的东西吗?

1个回答

在你的状态表示中包含外生变量当然是有用的,只要你期望它们是确定要选择的动作的相关信息。因此,状态特征不仅在您期望您的代理(通过应用动作)对这些状态变量具有(部分)影响时有用;您只希望状态变量本身能够为您的下一步行动/预测预期的未来奖励提供信息。

但是,如果您只有外生变量,即如果您希望您的代理对您接下来将进入的状态没有任何影响......那么通常在 RL(马尔可夫决策过程)中使用的完整问题定义可能是不必要的复杂,您可能更喜欢研究多臂强盗 (MAB) 问题公式。如果您已经熟悉 RL / MDP,您可能会将 MAB 问题视为单步情节的(序列),您总是只关注当前状态而不关心未来状态(因为您期望对他们的影响为 0)。

从理论上讲,RL/MDP 框架更通用,也适用于那些 MAB 问题,但支持该框架的 RL 算法在实践中可能比 MAB 算法表现更差,因为它们(非正式地说)仍然努力尝试“学习” “ 他们的行为如何影响未来的状态(当您期望代理人没有这种影响时,这是一种浪费)。